- 盧昌海 -
本文是替《科學(xué)畫(huà)報》撰寫(xiě)的專(zhuān)欄短文, 本站版本在若干人名和術(shù)語(yǔ)初次出現時(shí)注有英文。
![]() |
這幾年, 大數據 (big data) 的 “出鏡率” 頗高。 連帶著(zhù), “數據科學(xué)家” (data scientist) 成為了新的高薪一族。 人氣、 財氣的提升也帶動(dòng)了士氣, 有人開(kāi)始高估大數據的神通, 仿佛只要積累了足夠多數據, 請 “數據科學(xué)家” 們坐在電腦前——就像福爾摩斯坐在太師椅上——敲一通鍵盤(pán), 各種問(wèn)題就都能迎刃而解。
大數據真有如此神通嗎? 回顧一段小歷史對我們也許不無(wú)啟示。
那是在 1936 年, 美國共和黨人艾爾弗·蘭登 (Alfred Landon) 與民主黨人富蘭克林·羅斯福 (Franklin D. Roosevelt) 競選總統。 當時(shí)很有影響力的《文摘》雜志 (The Literary Digest) 決定搞一次超大規模的民意調查, 調查人數高達 1,000 萬(wàn), 約為當時(shí)選民總數的 1/4, 最終收到的回復約有 240 萬(wàn)份, 對于民意調查來(lái)說(shuō)可謂是 “大數據”——事實(shí)上, 哪怕在今天, 一些全國性民意調查的調查對象也只有幾千。 通過(guò)對這組 “大數據” 的分析,《文摘》雜志預測蘭登將以 55% 比 41% 的顯著(zhù)優(yōu)勢獲勝。 但不久后揭曉的真正結果卻是羅斯福以 61% 比 37% 的優(yōu)勢大勝?!段恼冯s志的 “大數據” 遭到了慘敗。
當然, 那是陳年舊事了。 區區 240 萬(wàn)份回復作為民意調查是超大規模的, 從數據角度講, 以今天的標準來(lái)衡量卻實(shí)在小得可憐。 不過(guò), 今天的 “大” 在幾十年后也未必不會(huì )如昔日的 “小” 一樣可憐。 那段小歷史的真正啟示在于: 數據已大到了統計誤差可以忽略的地步, 結果卻錯得離譜。 這種類(lèi)型的錯誤對于大數據是一種警示。
現在讓我們回到當代。 2008 年 8 月, 大數據 “成功偶像” 之一的谷歌 (Google) 公司領(lǐng)銜在《自然》(Nature) 雜志上發(fā)表論文, 推介了一個(gè)如今被稱(chēng)為 “谷歌流感趨勢” (Google Flu Trends) 的系統。 這一系統能利用互聯(lián)網(wǎng)上有關(guān)流感的搜索的數量和分布來(lái)估計各地區流感類(lèi)疾病的患者數目。 谷歌表示, 這一系統給出的估計不僅比美國疾病控制與預防中心 (Centers for Disease Control and Prevention——簡(jiǎn)稱(chēng) CDC) 的數據更快速, 而且還有 “不依賴(lài)于理論” (theory-free) 的特點(diǎn)。
但是, 這個(gè)一度引起轟動(dòng)的系統經(jīng)過(guò)幾年的運行后, 卻引人注目地演示了大數據可能帶來(lái)的陷阱。
2013 年 2 月,《自然》雜志資深記者巴特勒 (Declan Butler) 發(fā)表了一篇題為 “當谷歌弄錯了流感” (When Google got flu wrong) 的文章, 指出 “谷歌流感趨勢” 對 2012 年底美國流感類(lèi)疾病患者數目的估計比美國疾病控制與預防中心給出的數據高了約一倍。 不僅如此, “谷歌流感趨勢” 在 2008-2009 年間對瑞士、 德國、 比利時(shí)等國的流感類(lèi)疾病患者數目的估計也都失過(guò)準。
大數據在這些例子中為什么會(huì )失敗呢? 人們很快找到了原因。 比如《文摘》雜志對 1936 美國總統競選預測的失敗, 是因為該雜志的調查對象是從汽車(chē)注冊資料及電話(huà)簿中選取的, 而汽車(chē)及電話(huà)在當時(shí)的美國尚未普及, 使得由此選出的調查對象缺乏代表性。 而谷歌對 2012 年底美國流感類(lèi)疾病患者數目的估計失敗, 則是因為媒體對那段時(shí)間的美國流感類(lèi)疾病作了渲染, 使得很多非患者也進(jìn)行了有關(guān)流感的搜索, 從而干擾了 “谷歌流感趨勢” 的估計。 在統計學(xué)中, 這被稱(chēng)為系統誤差 (systematic error), 只要存在這種誤差, 數據量再大也無(wú)濟于事。
當然, 原因一旦找到, 對結果進(jìn)行修正也就不無(wú)可能了。 比如在有關(guān)流感的搜索中, 來(lái)自患者的搜索往往隨疫情的爆發(fā)而迅速增加, 隨疫情的緩慢結束而緩慢降低, 呈現出前后的不對稱(chēng), 而媒體渲染引來(lái)的非患者的搜索則前后比較對稱(chēng)。 利用這一區別, 原則上可對結果進(jìn)行校正。
但另一方面, 原因之所以很快找到, 是因為失敗已成事實(shí), 從而有了明確的分析對象, 在千變萬(wàn)化的大數據分析中要想每次都 “先發(fā)制人” 地避免失敗卻是極其困難的。 比如大數據分析對數據間的相關(guān)性情有獨鐘, 其所津津樂(lè )道的 “不依賴(lài)于理論” 的特點(diǎn)卻在很大程度上排斥了對相關(guān)性的價(jià)值進(jìn)行甄別——就如知名技術(shù)類(lèi)刊物《連線(xiàn)》(Wired) 雜志的主編安德森 (Chris Anderson) 曾經(jīng)宣稱(chēng)的: “只要有足夠多數據, 數字自己就能說(shuō)話(huà)” (with enough data, the numbers speak for themselves)。 數字也許是能說(shuō)話(huà), 但說(shuō)出的未必都是有價(jià)值的話(huà)。 事實(shí)上, 未經(jīng)甄別的相關(guān)性可謂處處是陷阱。 比如 2006-2011 年間, 美國的犯罪率和微軟 IE 瀏覽器的市場(chǎng)占有率就明顯相關(guān) (同步下降), 但卻是毫無(wú)價(jià)值的相關(guān)性——這是紐約大學(xué) (New York University) 計算機教授戴維斯 (Ernest Davis) 舉出的例子。 在統計學(xué)中, 這是所謂 “相關(guān)性不蘊含因果性” (correlation does not imply causation) 的一個(gè)例子。
無(wú)論是系統誤差還是 “相關(guān)性不蘊含因果性”, 大數據的這些陷阱其實(shí)都是統計學(xué)家們熟知的。 只不過(guò), 太急于趕路時(shí), 人們有時(shí)會(huì )忘掉曾經(jīng)走過(guò)的路。
二零一四年九月二十九日寫(xiě)于紐約
二零一四年十一月二日發(fā)表于本站
http://www.changhai.org/
聯(lián)系客服