圖靈獎得主,關(guān)系型數據庫的鼻祖吉姆·格雷(Jim Gray)也是一位航海運動(dòng)愛(ài)好者。2007年1月28日,他駕駛帆船在茫茫大海中失聯(lián)了。而就是17天前的1月11日,在加州山景城召開(kāi)的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)大會(huì )上,他發(fā)表了留給世人的最后一次演講“科學(xué)方法的革命”,提出將科學(xué)研究分為四類(lèi)范式(Paradigm,某種必須遵循的規范或大家都在用的套路),依次為實(shí)驗歸納,模型推演,仿真模擬和數據密集型科學(xué)發(fā)現(Data-Intensive Scientific Discovery)。其中,最后的“數據密集型”,也就是現在我們所稱(chēng)的“科學(xué)大數據”。
人類(lèi)最早的科學(xué)研究,主要以記錄和描述自然現象為特征,稱(chēng)為“實(shí)驗科學(xué)”(第一范式),從原始的鉆木取火,發(fā)展到后來(lái)以伽利略為代表的文藝復興時(shí)期的科學(xué)發(fā)展初級階段,開(kāi)啟了現代科學(xué)之門(mén)。
但這些研究,顯然受到當時(shí)實(shí)驗條件的限制,難于完成對自然現象更精確的理解??茖W(xué)家們開(kāi)始嘗試盡量簡(jiǎn)化實(shí)驗模型,去掉一些復雜的干擾,只留下關(guān)鍵因素(這就出現了我們在學(xué)習物理學(xué)中“足夠光滑”、“足夠長(cháng)的時(shí)間”、“空氣足夠稀薄”等令人費解的條件描述),然后通過(guò)演算進(jìn)行歸納總結,這就是第二范式。這種研究范式一直持續到19世紀末,都堪稱(chēng)完美,牛頓三大定律成功解釋了經(jīng)典力學(xué),麥克斯韋理論成功解釋了電磁學(xué),經(jīng)典物理學(xué)大廈美輪美奐。但之后量子力學(xué)和相對論的出現,則以理論研究為主,以超凡的頭腦思考和復雜的計算超越了實(shí)驗設計,而隨著(zhù)驗證理論的難度和經(jīng)濟投入越來(lái)越高,科學(xué)研究開(kāi)始顯得力不從心。
20世紀中葉,馮·諾依曼提出了現代電子計算機架構,利用電子計算機對科學(xué)實(shí)驗進(jìn)行模擬仿真的模式得到迅速普及,人們可以對復雜現象通過(guò)模擬仿真,推演出越來(lái)越多復雜的現象,典型案例如模擬核試驗、天氣預報等。隨著(zhù)計算機仿真越來(lái)越多地取代實(shí)驗,逐漸成為科研的常規方法,即第三范式。
而未來(lái)科學(xué)的發(fā)展趨勢是,隨著(zhù)數據的爆炸性增長(cháng),計算機將不僅僅能做模擬仿真,還能進(jìn)行分析總結,得到理論。數據密集范式理應從第三范式中分離出來(lái),成為一個(gè)獨特的科學(xué)研究范式。也就是說(shuō),過(guò)去由牛頓、愛(ài)因斯坦等科學(xué)家從事的工作,未來(lái)完全可以由計算機來(lái)做。這種科學(xué)研究的方式,被稱(chēng)為第四范式。
我們可以看到,第四范式與第三范式,都是利用計算機來(lái)進(jìn)行計算,二者有什么區別呢?現在大多科研人員,可能都非常理解第三范式,在研究中總是被導師、評委甚至是自己不斷追問(wèn)“科學(xué)問(wèn)題是什么?”,“有什么科學(xué)假設?”,這就是先提出可能的理論,再搜集數據,然后通過(guò)計算來(lái)驗證。而基于大數據的第四范式,則是先有了大量的已知數據,然后通過(guò)計算得出之前未知的理論。在維克托·邁爾-舍恩伯格撰寫(xiě)的《大數據時(shí)代》(中文版譯名)中明確指出,大數據時(shí)代最大的轉變,就是放棄對因果關(guān)系的渴求,取而代之關(guān)注相關(guān)關(guān)系。也就是說(shuō),只要知道“是什么”,而不需要知道“為什么”。這就顛覆了千百年來(lái)人類(lèi)的思維慣例,據稱(chēng)是對人類(lèi)的認知和與世界交流的方式提出了全新的挑戰。因為人類(lèi)總是會(huì )思考事物之間的因果聯(lián)系,而對基于數據的相關(guān)性并不是那么敏感;相反,電腦則幾乎無(wú)法自己理解因果,而對相關(guān)性分析極為擅長(cháng)。這樣我們就能理解了,第三范式是“人腦 電腦”,人腦是主角,而第四范式是“電腦 人腦”,電腦是主角。這樣的一種說(shuō)法,顯然遭到了許多人的反對,認為這是將科學(xué)研究的方向領(lǐng)入歧途。從科學(xué)論文寫(xiě)作角度來(lái)說(shuō),如果通篇只有對數據相關(guān)性的分析,而缺乏具體的因果解讀,這樣的文章一般被認為是數據堆砌,是不可能發(fā)表的。
然而,要發(fā)現事物之間的因果聯(lián)系,在大多數情況下總是困難重重的。我們人類(lèi)推導的因果聯(lián)系,總是基于過(guò)去的認識,獲得“確定性”的機理分解,然后建立新的模型來(lái)進(jìn)行推導。但是,這種過(guò)去的經(jīng)驗和常識,也許是不完備的,甚至可能有意無(wú)意中忽略了重要的變量。
這里舉一個(gè)大家容易理解的例子?,F在我們人人都在關(guān)注霧霾天氣。我們想知道:霧霾天氣是如何發(fā)生的,如何預防?首先需要在一些“代表性”位點(diǎn)建立氣象站,來(lái)收集一些與霧霾形成有關(guān)的氣象參數。根據已有的機理認識,霧霾天氣的形成不僅與源頭和大氣化學(xué)成分有關(guān),還與地形、風(fēng)向、溫度、濕度氣象因素有關(guān)。僅僅這些有限的參數,就已經(jīng)超過(guò)了常規監測的能力,只能進(jìn)行簡(jiǎn)化人為去除一些看起來(lái)不怎么重要的,只保留一些簡(jiǎn)單的參數。那些看起來(lái)不重要的參數會(huì )不會(huì )在某些特定條件下,起到至關(guān)重要的作用?如果再考慮不同參數的空間異質(zhì)性,這些氣象站的空間分布合理嗎,足夠嗎?從這一點(diǎn)來(lái)看,如果能夠獲取更全面的數據,也許才能真正做出更科學(xué)的預測,這就是第四范式的出發(fā)點(diǎn),也許是最迅速和實(shí)用的解決問(wèn)題的途徑。
那么,第四范式將如何進(jìn)行研究呢?多年前說(shuō)這個(gè)話(huà)題,也許許多人會(huì )認為是天方夜譚,但目前在移動(dòng)終端橫行和傳感器高速發(fā)展的時(shí)代,未來(lái)的趨勢似乎就在眼前了?,F在,我們的手機可以監測溫度、濕度,可以定位空間位置,不久也許會(huì )出現能監測大氣環(huán)境化學(xué)和PM2.5功能的傳感設備,這些移動(dòng)的監測終端更增加了測定的空間覆蓋度,同時(shí)產(chǎn)生了海量的數據,利用這些數據,分析得出霧霾的成因,最終進(jìn)行預測也許指日可待。
這種海量數據的出現,不僅超出了普通人的理解和認知能力,也給計算機科學(xué)本身帶來(lái)了巨大的挑戰。因此當大這些規模計算的數據量超過(guò)1PB時(shí),傳統的存儲子系統已經(jīng)難以滿(mǎn)足海量數據處理的讀寫(xiě)需要,數據傳輸I/O帶寬的瓶頸愈發(fā)突出。而簡(jiǎn)單地將數據進(jìn)行分塊處理并不能滿(mǎn)足數據密集型計算的需求,與大數據分析的初衷是相違背的。因此,目前許多在具體研究中所面臨的最大問(wèn)題,不是缺少數據,而是面對太多的數據,卻不知道如何處理。目前可見(jiàn)的一些技術(shù),比如超級計算機、計算集群、超級分布式數據庫、基于互聯(lián)網(wǎng)的云計算,似乎并沒(méi)有解決這些矛盾的核心問(wèn)題。計算機科學(xué)期待新的革命!
聯(lián)系客服