

大數據,現在越來(lái)越成為了一個(gè)很時(shí)髦的詞匯。有人把大數據形容為未來(lái)世界的石油,有人宣稱(chēng)掌握大數據的人可以像上帝一樣俯瞰整個(gè)世界,美國政府甚至已經(jīng)把對大數據的研究上升為國家戰略。日前,由中國科協(xié)舉辦的“科學(xué)家與媒體面對面—大數據離我們生活有多遠”活動(dòng)中,有關(guān)專(zhuān)家為我們介紹了大數據對未來(lái)生活的影響。
我們生活在一個(gè)充滿(mǎn)“數據”的時(shí)代,這里的“數據”,并不僅僅指數字,理論上講,一切可以以文件形式儲存于計算機硬盤(pán)的東西,包括數字、文字、圖像、聲音、視頻等,均可稱(chēng)為“數據”。我們打電話(huà),使用微博、QQ、博客等社交工具,都是在不斷增加著(zhù)社會(huì )總體數據量。
據權威預測,未來(lái)每隔18個(gè)月,整個(gè)世界的數據總量就會(huì )翻倍。IBM的研究稱(chēng),整個(gè)人類(lèi)文明所獲得的全部數據中,有90%是過(guò)去兩年內產(chǎn)生的。
數據,除了它第一次被使用時(shí)提供的價(jià)值以外,那些積累下來(lái)的數據海洋并不是無(wú)用的廢物,它還有著(zhù)無(wú)窮無(wú)盡的“剩余價(jià)值”,關(guān)于這一點(diǎn),人們已經(jīng)有了越來(lái)越多的認識。事實(shí)上,大數據已經(jīng)開(kāi)始并將繼續影響我們的生活,下面我們不妨試舉幾例。
精準廣告投放已很普遍
很多女性可能有這樣的經(jīng)歷,使用某瀏覽器在淘寶、京東等購物網(wǎng)站上購買(mǎi)過(guò)一本關(guān)于懷孕的書(shū)籍后,在之后十個(gè)月左右的時(shí)間里,你的瀏覽器兩側的廣告欄里不斷出現懷孕所需要的東西,如營(yíng)養食品、對胎兒無(wú)影響的孕婦用藥、胎心監測儀、體溫計、血壓計等產(chǎn)品廣告,登錄原來(lái)的購物網(wǎng)站,也會(huì )在首頁(yè)向你推薦這類(lèi)產(chǎn)品。而且,在十個(gè)月之后,你會(huì )發(fā)現,以上這些廣告開(kāi)始變成嬰兒用品了。
你以前可能對瀏覽器廣告非常討厭,但對這類(lèi)廣告,你卻欣然接受,因為它推薦的產(chǎn)品正是你所需要的。這實(shí)際上就是大數據應用的一個(gè)簡(jiǎn)單案例。你的瀏覽經(jīng)歷已經(jīng)被瀏覽器和電商所記錄,通過(guò)對用戶(hù)瀏覽記錄進(jìn)行大數據分析,就可以推測出你目前是一種什么狀態(tài),今后又將經(jīng)歷哪些狀態(tài),于是,專(zhuān)為你定制的廣告就在你需要的時(shí)候出現在你的眼前。
通過(guò)分析大量用戶(hù)的搜索記錄,比如“咳嗽”、“發(fā)燒”等特定詞條,谷歌公司能準確預測美國冬季流感傳播趨勢。和官方機構相比,谷歌能提前一兩周預測流感爆發(fā),預測結果與官方數據的相關(guān)性高達97%。2009年,在甲型H1N1流感爆發(fā)的幾周前,谷歌的工程師們公開(kāi)發(fā)表了一篇論文,不僅預測流感即將爆發(fā),并且其預測還精確到美國特定的地區和州。這讓人們感到十分震驚。準確預測流感疫情,說(shuō)起來(lái)并不復雜,谷歌一直致力于對用戶(hù)檢索數據的分析。用戶(hù)求醫問(wèn)藥等搜索數據可謂海量,把這些數據再拿來(lái)與美國疾控中心往年記錄的實(shí)際流感病例信息相比對,就幫助谷歌作出了準確預測。
在日本也有相似的應用,日本國內有一個(gè)網(wǎng)站,你只要打開(kāi)這個(gè)網(wǎng)站用自己的社交網(wǎng)站賬號登錄,就可以在短時(shí)間內通過(guò)數萬(wàn)條社交網(wǎng)站記錄找出可能感冒的人,并通過(guò)過(guò)去的感冒情況和今日的感冒情況進(jìn)行分析,另外該程序還會(huì )結合氣溫和濕度的變化來(lái)預測將來(lái)感冒的流行情況,并制作一個(gè)“易感冒日歷”。目前,此類(lèi)服務(wù)正在日本陸續展開(kāi)。
對個(gè)體而言,大數據可以為個(gè)人提供個(gè)性化的醫療服務(wù)。過(guò)去我們去看病,醫生只能對我們的當下身體情況做出判斷,而在大數據的幫助下,將來(lái)的診療可以對一個(gè)患者的累計歷史數據進(jìn)行分析,并結合遺傳變異、對特定疾病的易感性和對特殊藥物的反應等關(guān)系,實(shí)現個(gè)性化的醫療。還可以在患者發(fā)生疾病癥狀前,提供早期的檢測和診斷。早期發(fā)現和治療可以顯著(zhù)降低肺癌給衛生系統造成的負擔,因為早期的手術(shù)費用是后期治療費用的一半。
個(gè)性化教育可能真正實(shí)現
在傳統教育模式下,分數就是一切,一個(gè)班上幾十個(gè)人,使用同樣的教材,同一個(gè)老師上課,課后布置同樣的作業(yè)。然而,學(xué)生是千差萬(wàn)別的,在這個(gè)模式下,不可能真正做到“因材施教”。
舉例來(lái)說(shuō),一個(gè)學(xué)生考試得了88分,這個(gè)分數僅僅是一個(gè)數字,它能代表什么呢?88分背后是家庭背景、努力程度、學(xué)習態(tài)度、智力水平等,把它們和88分聯(lián)系在一起,這就成了“數據”。大數據因其數據來(lái)源的廣度,有能力去關(guān)注每一個(gè)個(gè)體學(xué)生的微觀(guān)表現—他在什么時(shí)候開(kāi)始看書(shū),在什么樣的講課方式下效果最好,在什么時(shí)候學(xué)習什么科目效果最好,在不同類(lèi)型的題目上停留多久等等。這些數據對其他個(gè)體都沒(méi)有意義,是高度個(gè)性化表現特征的體現。同時(shí),這些數據的產(chǎn)生完全是過(guò)程性的:課堂的過(guò)程,作業(yè)的過(guò)程,師生或同學(xué)的互動(dòng)過(guò)程……而最有價(jià)值的是,這些數據完全是在學(xué)生不自知的情況下被觀(guān)察、收集的,只需要一定的觀(guān)測技術(shù)與設備的輔助,而不影響學(xué)生任何的日常學(xué)習與生活,因此它的采集也非常的自然、真實(shí)。
看了前面這些,讀者可能要擔心了,大數據包含有包羅萬(wàn)象的數據,其中不少數據涉及個(gè)人的職位、年齡、身體狀況、消費水平、旅行習慣等隱私,那么,在大數據時(shí)代,個(gè)人隱私能夠得到保護嗎?答案是,只要國家相關(guān)部門(mén)實(shí)時(shí)推進(jìn)隱私保護,企業(yè)主動(dòng)落實(shí)隱私保護責任,大數據產(chǎn)業(yè)在飛速發(fā)展的同時(shí)并不會(huì )對民眾隱私產(chǎn)生威脅。
在大數據產(chǎn)業(yè)中,有兩個(gè)基本的作法,一是符號化。符號化是指識別用戶(hù)的時(shí)候,識別的僅僅是一個(gè)“符號”,這個(gè)符號與真實(shí)信息并不相關(guān),系統通過(guò)一定的算法能夠知道多次登錄的是同一個(gè)用戶(hù),但并沒(méi)有辦法反推出這個(gè)人是誰(shuí),因此,電話(huà)、住址等信息都沒(méi)法與本人關(guān)聯(lián)起來(lái)。二是用戶(hù)特征。用戶(hù)特征意味著(zhù)在大數據時(shí)代企業(yè)感興趣的往往是這個(gè)用戶(hù)的特征,而不是家庭地址、電話(huà)號碼等真正敏感的信息。例如,系統需要了解本科以上學(xué)歷、月收入10000元以上、已婚等這樣一個(gè)群體,只需要找出符合這些特征的人的特性,并不關(guān)心這個(gè)人是誰(shuí)。這樣也不會(huì )造成隱私的泄露。
當然,這些原則性問(wèn)題有賴(lài)于政府推動(dòng)、企業(yè)自律。但我們相信,為大數據產(chǎn)業(yè)的健康發(fā)展,相關(guān)部門(mén),相關(guān)企業(yè)一定會(huì )高度重視這一問(wèn)題。
聯(lián)系客服