文章來(lái)源:光明日報發(fā)布時(shí)間:2012-04-17【字號:
小 中 大 】
除了“物聯(lián)網(wǎng)”和“云計算”,IT業(yè)又出現了一個(gè)新名詞——大數據。如今,大數據甚至引起了工商界和金融界的高度關(guān)注,人們認為大數據將為數據應用和決策支持提供有效幫助,成為物聯(lián)網(wǎng)和云計算內在的靈魂和必然的發(fā)展趨勢。
大數據目前尚沒(méi)有統一的定義,通常被認為是一種數據量很大、數據形式多樣化的非結構化數據。
這里我們先弄清楚幾個(gè)概念,結構化數據、半結構化數據和非結構化數據。結構化數據可以在關(guān)系數據庫中找到,多年來(lái)一直主導著(zhù)IT應用;半結構化數據包括電子郵件、文字處理文件以及大量發(fā)布在網(wǎng)絡(luò )上的新聞等,以?xún)热轂榛A,這也是谷歌和百度存在的理由;而非結構化數據廣泛存在于社交網(wǎng)絡(luò )、物聯(lián)網(wǎng)、電子商務(wù)之中。伴隨著(zhù)社交網(wǎng)絡(luò )、移動(dòng)計算和傳感器等新技術(shù)不斷產(chǎn)生,有報告稱(chēng),超過(guò)85%的數據屬于非結構化數據。
很多人相信這些龐大的異構數據中蘊含著(zhù)巨大財富——企業(yè)如果能在這些非結構化數據中挖掘知識并與業(yè)務(wù)融合,決策的依據將會(huì )更加全面和準確;在科學(xué)、體育、廣告和公共衛生等其他領(lǐng)域中,也有著(zhù)向數據驅動(dòng)型的發(fā)現和決策方式轉變的趨勢。
大數據的推動(dòng)因素主要來(lái)自于一些大型IT公司,如谷歌、亞馬遜、中國移動(dòng)、阿里巴巴等,他們需要以更加優(yōu)化的方式存儲和分析數據。此外,還有一些來(lái)自健康醫療、地理空間遙感和數字媒體等行業(yè)的大數據需求。據市場(chǎng)研究公司統計,未來(lái)10年里預計數字信息總量將在2009年到2020年增長(cháng)44倍,全球數據使用量將達到大約35.2ZB(1ZB=10億TB)。
大數據呈現出“4V+1C”的特點(diǎn):(1)Variety,大數據種類(lèi)繁多,在編碼方式、數據格式、應用特征等多個(gè)方面存在差異性,多信息源并發(fā)形成大量的異構數據;(2)Volume,通過(guò)各種設備產(chǎn)生的海量數據,其數據規模極為龐大,遠大于目前互聯(lián)網(wǎng)上的信息流量,PB級別將是常態(tài);(3)Velocity,涉及到感知、傳輸、決策、控制開(kāi)放式循環(huán)的大數據,對數據實(shí)時(shí)處理有著(zhù)極高的要求,通過(guò)傳統數據庫查詢(xún)方式得到的“當前結果”很可能已經(jīng)沒(méi)有價(jià)值;(4)Vitality,數據持續到達,并且只有在特定時(shí)間和空間中才有意義;(5)Complexity,通過(guò)數據庫處理持久存儲的數據不再適用于大數據處理,需要有新的方法來(lái)滿(mǎn)足異構數據統一接入和實(shí)時(shí)數據處理的需求。
Apache的Hadoop已成為大數據行業(yè)發(fā)展背后的技術(shù)推動(dòng)力,Hive和Pig等技術(shù)也經(jīng)常被提到。同時(shí),旨在從非結構化數據的龐大寶藏中獲得知識和洞察力的計算機工具也正在迅速發(fā)展中。這些工具的發(fā)展依賴(lài)于不斷進(jìn)步的人工智能技術(shù),比如自然語(yǔ)言處理、模式識別和機器學(xué)習等。
可以預見(jiàn),未來(lái)一兩年內,將會(huì )涌現大量能夠處理大型非結構化數據的工具和平臺。除了Hadoop的批量化處理方式之外,基于流數據處理的方式也將在實(shí)時(shí)數據分析應用中發(fā)揮作用。此外,大數據熱潮還將對可視化的理解和需求提出新的挑戰??梢暬跀祿ぷ髁髦袑⑼瑫r(shí)起到解釋和探索的作用,數據科學(xué)家會(huì )將可視化作為尋求問(wèn)題以及探索數據集新特性的一種方式。
由于大數據的技術(shù)門(mén)檻較高,因此目前在該領(lǐng)域展開(kāi)競爭的大都是在數據存儲、分析等領(lǐng)域有著(zhù)傳統優(yōu)勢的廠(chǎng)商。2012年1月,Oracle正式發(fā)布Oracle大數據機。IBM在大數據領(lǐng)域的優(yōu)勢則在于全面,而機器人“沃森”在人機大戰中獲勝,更成為IBM為其大數據分析解決方案加分的例證。
中國市場(chǎng)在這個(gè)新興領(lǐng)域非常重要。中國有龐大的人口基數,IT基礎設施也比較成熟,數據量是不可想象的。樂(lè )觀(guān)的人已經(jīng)看到了其中的機會(huì ),不論是出于應對海量數據的需要進(jìn)行系統升級,還是試圖從數據中挖掘價(jià)值的沖動(dòng),都有可能迎來(lái)一個(gè)充滿(mǎn)智慧的“數據創(chuàng )新”時(shí)代。
結構化數據。結構化數據可以在關(guān)系數據庫中找到,多年來(lái)一直主導著(zhù)IT應用;半結構化數據包括電子郵件、文字處理文件以及大量發(fā)布在網(wǎng)絡(luò )上的新聞等,以?xún)热轂榛A,這也是谷歌和百度存在的理由;而非結構化數據廣泛存在于社交網(wǎng)絡(luò )、物聯(lián)網(wǎng)、電子商務(wù)之中。伴隨著(zhù)社交網(wǎng)絡(luò )、移動(dòng)計算和傳感器等新技術(shù)不斷產(chǎn)生,有報告稱(chēng),超過(guò)85%的數據屬于非結構化數據。
很多人相信這些龐大的異構數據中蘊含著(zhù)巨大財富——企業(yè)如果能在這些非結構化數據中挖掘知識并與業(yè)務(wù)融合,決策的依據將會(huì )更加全面和準確;在科學(xué)、體育、廣告和公共衛生等其他領(lǐng)域中,也有著(zhù)向數據驅動(dòng)型的發(fā)現和決策方式轉變的趨勢。
大數據的推動(dòng)因素主要來(lái)自于一些大型IT公司,如谷歌、亞馬遜、中國移動(dòng)、阿里巴巴等,他們需要以更加優(yōu)化的方式存儲和分析數據。此外,還有一些來(lái)自健康醫療、地理空間遙感和數字媒體等行業(yè)的大數據需求。據市場(chǎng)研究公司統計,未來(lái)10年里預計數字信息總量將在2009年到2020年增長(cháng)44倍,全球數據使用量將達到大約35.2ZB(1ZB=10億TB)。
大數據呈現出“4V+1C”的特點(diǎn):(1)Variety,大數據種類(lèi)繁多,在編碼方式、數據格式、應用特征等多個(gè)方面存在差異性,多信息源并發(fā)形成大量的異構數據;(2)Volume,通過(guò)各種設備產(chǎn)生的海量數據,其數據規模極為龐大,遠大于目前互聯(lián)網(wǎng)上的信息流量,PB級別將是常態(tài);(3)Velocity,涉及到感知、傳輸、決策、控制開(kāi)放式循環(huán)的大數據,對數據實(shí)時(shí)處理有著(zhù)極高的要求,通過(guò)傳統數據庫查詢(xún)方式得到的“當前結果”很可能已經(jīng)沒(méi)有價(jià)值;(4)Vitality,數據持續到達,并且只有在特定時(shí)間和空間中才有意義;(5)Complexity,通過(guò)數據庫處理持久存儲的數據不再適用于大數據處理,需要有新的方法來(lái)滿(mǎn)足異構數據統一接入和實(shí)時(shí)數據處理的需求。
Apache的Hadoop已成為大數據行業(yè)發(fā)展背后的技術(shù)推動(dòng)力,Hive和Pig等技術(shù)也經(jīng)常被提到。同時(shí),旨在從非結構化數據的龐大寶藏中獲得知識和洞察力的計算機工具也正在迅速發(fā)展中。這些工具的發(fā)展依賴(lài)于不斷進(jìn)步的人工智能技術(shù),比如自然語(yǔ)言處理、模式識別和機器學(xué)習等。
可以預見(jiàn),未來(lái)一兩年內,將會(huì )涌現大量能夠處理大型非結構化數據的工具和平臺。除了Hadoop的批量化處理方式之外,基于流數據處理的方式也將在實(shí)時(shí)數據分析應用中發(fā)揮作用。此外,大數據熱潮還將對可視化的理解和需求提出新的挑戰??梢暬跀祿ぷ髁髦袑⑼瑫r(shí)起到解釋和探索的作用,數據科學(xué)家會(huì )將可視化作為尋求問(wèn)題以及探索數據集新特性的一種方式。
由于大數據的技術(shù)門(mén)檻較高,因此目前在該領(lǐng)域展開(kāi)競爭的大都是在數據存儲、分析等領(lǐng)域有著(zhù)傳統優(yōu)勢的廠(chǎng)商。2012年1月,Oracle正式發(fā)布Oracle大數據機。IBM在大數據領(lǐng)域的優(yōu)勢則在于全面,而機器人“沃森”在人機大戰中獲勝,更成為IBM為其大數據分析解決方案加分的例證。
中國市場(chǎng)在這個(gè)新興領(lǐng)域非常重要。中國有龐大的人口基數,IT基礎設施也比較成熟,數據量是不可想象的。樂(lè )觀(guān)的人已經(jīng)看到了其中的機會(huì ),不論是出于應對海量數據的需要進(jìn)行系統升級,還是試圖從數據中挖掘價(jià)值的沖動(dòng),都有可能迎來(lái)一個(gè)充滿(mǎn)智慧的“數據創(chuàng )新”時(shí)代。