大數據產(chǎn)業(yè)鏈基本架構
□ 曹 磊 陳薇娜
大數據概念的升溫,引來(lái)了很多爭議。有人稱(chēng)之為“新瓶裝舊酒”,也有人認為大數據的機遇被過(guò)于夸大。其實(shí),這些都與沒(méi)有真正理解大數據的本質(zhì)有關(guān)。任何事物的發(fā)展都有其客觀(guān)規律,大數據并非是“石頭里蹦出來(lái)的孫悟空”,它也有自己的“親生父母”——計算機科學(xué)和數據科學(xué)。正是由于兩者的融合,以及生命科學(xué)、地理科學(xué)甚至社會(huì )科學(xué)等各領(lǐng)域數據化程度的加深,才使得大數據擁有不同尋常的“基因”。而且,隨著(zhù)互聯(lián)網(wǎng)產(chǎn)業(yè)的成熟,物聯(lián)網(wǎng)、云計算概念的落地,數據驅動(dòng)創(chuàng )新觀(guān)念的深入人心,大數據的用武之地將更為廣泛,所能帶來(lái)的變革潛力也將不可限量。
關(guān)于大數據,有如下幾個(gè)重要判斷和觀(guān)點(diǎn):
——大數據思維源于數據挖掘(Data Mining)又高于數據挖掘。也可以說(shuō),數據挖掘是大數據的“近親”。數據挖掘借助計算機從海量數據中發(fā)現隱含的知識和規律,是一門(mén)融合了計算機、統計等領(lǐng)域知識的交叉學(xué)科,其核心的人工智能、機器學(xué)習、模式識別等理論,在上世紀90年代推行知識管理時(shí)已有顯著(zhù)進(jìn)展。從本質(zhì)上看,大數據帶來(lái)的“思維大變革”以及一些數據驅動(dòng)類(lèi)的商業(yè)智能(Business Intelligence)模式創(chuàng )新,都是數據挖掘理論的延伸,表達為“數據挖掘相對于數理統計帶來(lái)的思維變革”或許更加準確。比如,因果關(guān)系是數理統計中的重要內容,基于完善的數學(xué)理論,代表是回歸模型;而相關(guān)關(guān)系是數據挖掘中的重要內容,基于強大的機器運算能力,代表是神經(jīng)網(wǎng)絡(luò )、決策樹(shù)算法,這使得人們不需要了解背后復雜的因果邏輯也可以獲得良好的分析和預測結果。但是,數據挖掘通常面向結構化數據。大數據則還涉及數據的采集、提取、轉化、存儲等,且必然要面對非結構化數據。
——大數據突破主要來(lái)自技術(shù)上的革新。表現在對多樣(Variety)、海量(Volume)、快速(Velocity)特征的“適應”和“運用”上。一是存儲數據從結構化向半結構化、非結構化拓展,如基于Web異構環(huán)境下的網(wǎng)頁(yè)、文檔、報表、多媒體等,導致了一批基于非結構化數據的專(zhuān)有挖掘算法的產(chǎn)生和發(fā)展。二是數據庫從關(guān)系型向非關(guān)系型、分布式拓展,關(guān)系型數據庫是以行和列的形式組織起來(lái)的結構化數據表,如Excel表格,缺點(diǎn)在于存儲容量小、數據擴展性和多樣性差,而新的非關(guān)系型、分布式數據庫可以彌補上述不足。三是數據處理從靜態(tài)向實(shí)時(shí)交互拓展,新的大規模分布式并行數據處理技術(shù)能夠實(shí)時(shí)處理社交媒體和物聯(lián)網(wǎng)應用產(chǎn)生的大量交互數據,有效應對多樣和海量帶來(lái)的復雜度和時(shí)效性要求。
——技術(shù)革新直接促成了價(jià)值(Value)的實(shí)現。得益于上述技術(shù),數據挖掘理論獲得了呈幾何倍數增長(cháng)的數據量和處理能力,原本很多無(wú)法驗證的設想和方法得以實(shí)現。比如,傳統商業(yè)智能(BI)分析有一個(gè)“集中”步驟,即在分析前需要對大量數據抽取和集中化,形成一個(gè)完整的數據倉庫,這個(gè)步驟往往成為BI分析全過(guò)程的能力瓶頸。而基于大數據分布式技術(shù)的BI分析無(wú)需“集中”,大大提升了敏捷度和智能水平,從而推動(dòng)機器學(xué)習、語(yǔ)義處理等領(lǐng)域發(fā)生重大突破,直接促成了Mahout機器學(xué)習算法集、Siri語(yǔ)音助手等一批商用化產(chǎn)品的問(wèn)世。
——價(jià)值實(shí)現的潛力主要體現在數據開(kāi)放戰略和數據驅動(dòng)范式上。在戰略層面,數據處理從封閉、斷點(diǎn)、靜態(tài)向開(kāi)放、海量、實(shí)時(shí)的轉變,引發(fā)了社區、眾包、網(wǎng)格等新業(yè)態(tài)、新模式蓬勃發(fā)展,在此基礎上將推動(dòng)機構數據開(kāi)放和公眾共享運動(dòng)的興起。在研究范式層面,科學(xué)研究出現從推理演繹驅動(dòng)向數據驅動(dòng)拓展的苗頭,如生物基因與健康等研發(fā)密集型產(chǎn)業(yè)開(kāi)始向數據研究科學(xué)拓展,許多傳統的科學(xué)研究如歷史、文學(xué)等也開(kāi)始嘗試運用數據分析技術(shù)。但上述重大變革目前尚未規?;瘜?shí)現,大數據現有技術(shù)水平的主要受益者仍然是互聯(lián)網(wǎng)產(chǎn)業(yè)和各類(lèi)基于互聯(lián)網(wǎng)的商業(yè)模式。在信息基礎設施普及率、社會(huì )開(kāi)放性以及與網(wǎng)絡(luò )智能交互技術(shù)的結合度沒(méi)有達到一定能級時(shí),大數據的應用是有限的,達不到面向社會(huì )的“無(wú)所不能”。
——互聯(lián)網(wǎng)企業(yè)是當前大數據價(jià)值實(shí)現的推動(dòng)者和直接受益者。由于互聯(lián)網(wǎng)的發(fā)展在帶動(dòng)大數據概念興起的過(guò)程中起到了重要作用,因此多家知名互聯(lián)網(wǎng)企業(yè)順勢掌握了大數據相關(guān)核心技術(shù),推出了關(guān)鍵產(chǎn)品和服務(wù)。如谷歌公司研發(fā)了大數據“三核心”——文件系統(Google File System)、處理算法(MapReduce)和分布式數據庫(BigTable),打造了全球大數據開(kāi)發(fā)的主流框架和范式。雅虎基于谷歌的算法思想,改進(jìn)了Hadoop開(kāi)源框架,向廣大企業(yè)和創(chuàng )業(yè)者開(kāi)放,推動(dòng)產(chǎn)業(yè)生態(tài)系統的不斷壯大;亞馬遜、臉譜、推特等企業(yè)在此框架基礎上開(kāi)發(fā)各類(lèi)功能性工具,并以數據為消費產(chǎn)品改善用戶(hù)體驗;而微軟、IBM等傳統IT企業(yè)在產(chǎn)業(yè)鏈上更多關(guān)注下游應用,為各行業(yè)客戶(hù)提供系統解決方案。這些企業(yè)不僅可以從新技術(shù)產(chǎn)品和服務(wù)中獲得可觀(guān)的收入,還可以從占有的數據資源中獲利。
——大數據有助于進(jìn)一步明晰云計算的價(jià)值。在云計算概念剛被提出的幾年里,許多政企行業(yè)用戶(hù)對其應用價(jià)值一直存在疑慮。而隨著(zhù)大數據的異軍突起,云計算的價(jià)值又一次受到公眾的關(guān)注。由于云計算幫助解決了大數據無(wú)法進(jìn)行抓取、管理和處理的問(wèn)題,給予了它不同以往的存儲和計算能力,使得結果獲取更快速、分析更智慧??梢灶A見(jiàn),在未來(lái)云計算將成為大數據應用分析最活躍的舞臺。同樣,大數據為云計算大規模與分布式的計算能力提供了應用的空間,解決了傳統計算機無(wú)法解決的問(wèn)題,從而進(jìn)一步明晰了云計算的價(jià)值。
——需警惕大數據至上主義。大數據支持者的一個(gè)重要論斷是:基于全量,大數據分析的準確性將超越傳統數理統計,因果關(guān)系將為相關(guān)關(guān)系所取代。而事實(shí)并非如此樂(lè )觀(guān),一方面,經(jīng)歷四百年發(fā)展的傳統數理統計沒(méi)有過(guò)時(shí),仍然在經(jīng)濟社會(huì )各方面發(fā)揮著(zhù)重要作用。比如,抽樣是一門(mén)古老且成熟的統計方法,如果目標明確、方法科學(xué),其在絕大多數情況下得出結論的正確性,并不遜于全量數據??陀^(guān)上看,全量的價(jià)值更多體現在一些傳統數理統計基本假設可能失效之處,如互聯(lián)網(wǎng)“長(cháng)尾”現象的出現,導致正態(tài)分布、帕累托法則在個(gè)別領(lǐng)域不再適用,此時(shí)需要依靠全量數據尋求規律。另一方面,全量伴生的“噪音”有時(shí)會(huì )影響精準度。例如,被譽(yù)為大數據杰出案例的“谷歌流感趨勢”近期陷入低谷,錯誤率高達90%以上,不能預測甲型H1N1等重大疫情。它的核心邏輯是:搜索“流感”的人數與實(shí)際患癥的人數之間存在相關(guān)性,而事實(shí)上,即便去醫院看流感的人都有80%—90%實(shí)際沒(méi)有得流感,表面的網(wǎng)絡(luò )搜索行為與可靠的信息來(lái)源還存在較大差距以及“去噪”過(guò)程。很多專(zhuān)家認為,就目前而言,相關(guān)關(guān)系還不足以替代因果關(guān)系,而只是作為其補充。