/數據熱有增無(wú)減,再看看發(fā)表在兩年前的文章,你的思考是什么呢?
什么是統計學(xué)?
“統計學(xué)是一門(mén)在不確定性方面為了做出正確的推斷而進(jìn)行搜集、分析定量數據的科學(xué)和藝術(shù)?!?/p>
——美國百科全書(shū)
“統計學(xué)是一門(mén)搜集數據,分析數據,并根據數據進(jìn)行推斷的藝術(shù)和科學(xué),最初與政府搜集數據有關(guān),現在包括了范圍廣泛的方法和理論?!?/p>
——大英百科全書(shū)
“一門(mén)研究怎樣有效地搜集、整理和分析帶有隨機性的數據,以對所考察的問(wèn)題做出推斷或預測,直至為采取一定的決策和行動(dòng)提供依據和建議的學(xué)科?!?/p>
——中國百科全書(shū)
統計學(xué)與數據科學(xué)息息相關(guān)。
大數據時(shí)代的到來(lái),是統計學(xué)發(fā)展史上的里程碑,給統計學(xué)的發(fā)展帶來(lái)了前所未有的機遇,但同時(shí),也對統計學(xué)提出了更多的挑戰。那么,大數據時(shí)代下,傳統統計學(xué)有哪些變革呢?
1. 樣本概念的深化
傳統統計學(xué)利用研究中實(shí)際觀(guān)測或調查的一部分個(gè)體(樣本),通過(guò)統計方法進(jìn)行統計推斷,從而了解總體的情況。
大數據時(shí)代,數據大部分為網(wǎng)絡(luò )數據,可將其分為兩種類(lèi)型:靜態(tài)數據和動(dòng)態(tài)數據。
靜態(tài)數據
靜態(tài)數據是當客戶(hù)在查看數據的時(shí)候已經(jīng)被生成好了,沒(méi)有和服務(wù)器數據庫進(jìn)行交互的數據。
此類(lèi)數據的最大特點(diǎn)是:樣本等同于總體,這樣無(wú)需去提取樣本并檢測樣本的可用性,減少了成本,并且總體本身對總體的反映更為準確,減少了誤差。
動(dòng)態(tài)數據
動(dòng)態(tài)數據是隨著(zhù)時(shí)間的推移而變化的,比如網(wǎng)絡(luò )訪(fǎng)問(wèn)量、在線(xiàn)人數等。此時(shí),總體表現為歷史長(cháng)河中所有數據的總和,而我們分析的對象為“樣本”。 這里的“樣本”與傳統樣本的概念不同,因其并非局限于隨機抽取的數據,更可以是選定的與分析目的相關(guān)的數據。
2. 數據類(lèi)型的擴大
傳統統計學(xué)的數據為結構化數據,即可以用常規統計指標或圖表表現出來(lái)的定量數據或專(zhuān)門(mén)設計的定性數據,有固定的結構和標準。
大數據是指不僅包括結構化數據,還包含非結構化數據、半結構化數據或異構數據,即一切可以記錄和存儲的信號。
結構化數據,即行數據,存儲在數據庫里,可以用二維表結構來(lái)邏輯表達實(shí)現的數據,如:學(xué)生姓名、學(xué)號等。
非結構化數據是不方便用數據庫二維邏輯表來(lái)表現的數據,如:圖像、音頻、視頻等。
半結構化數據或異構數據,它是結構化的數據,但是結構變化很大。既不能將數據簡(jiǎn)單的組織成一個(gè)文件按照非結構化數據處理,也不能夠簡(jiǎn)單的建立一個(gè)表與之對應。如:?jiǎn)T工的簡(jiǎn)歷。
3.收集概念的擴展
傳統統計中,數據的收集需要根據統計分析的目的進(jìn)行,過(guò)程包括設計調查方案、嚴格控制調查流程,因此具有低效率、高成本的缺點(diǎn)。
大數據時(shí)代,對數據的收集分為三步:
(1) 數據預處理,包括識別與整理;
(2) 數據分析,提煉有價(jià)值的信息;
(3) 數據存儲。
大數據時(shí)代下,對于超大量可選擇的數據,需要有針對性的搜集,同時(shí),在存儲能力,分析能力,甄別數據的真偽,選擇關(guān)聯(lián)物,提煉和利用數據,確定分析節點(diǎn)等方面,都需要斟酌。
4. 數據來(lái)源不同
傳統統計中是根據研究目的去收集數據,來(lái)源通常是已知的,很容易對數據提供者的身份進(jìn)行識別或進(jìn)行事后核對。
大數據的來(lái)源一般為信息網(wǎng)絡(luò )系統,收集的數據是一切被人為記錄的信號,不具有很強的目的性,數據的來(lái)源也很難追溯。在大數據時(shí)代,努力打造統計數據來(lái)源第二軌,就顯得尤為重要。
5. 量化方式的變化
傳統數據為結構化數據,對數據的量化方式已經(jīng)相當成熟,并且比較容易得到可以直接進(jìn)行分析的數據結果。
大數據時(shí)代主要面對的是非結構化數據,Franks說(shuō)過(guò):“幾乎沒(méi)有哪種分析過(guò)程能夠直接對非結構化數據進(jìn)行分析,也無(wú)法直接從非結構化的數據中得出結論”。目前,計算機學(xué)界已著(zhù)手研發(fā)處理非結構化數據的技術(shù),從統計角度直接處理非結構化數據,或將其量化成結構化數據,這是一個(gè)重要的研究領(lǐng)域。
6. 分析思維的改變
我們從統計分析、實(shí)證分析、推斷分析三個(gè)方面論述大數據時(shí)代傳統統計學(xué)分析思維的改變。
統計分析
傳統的統計分析過(guò)程分三步:定性—定量—再定性。
首先通過(guò)經(jīng)驗判斷找到統計方向,即目的;其次對數據進(jìn)行量化、分析、處理等;最后根據結果得出結論。
大數據時(shí)代,統計分析過(guò)程:定量—定性。
基礎性的工作就是找到“定量的回應”,直接從各種“定量的回應”中找出有價(jià)值的、為我們所需要的數據,并通過(guò)分析找到數據的特征和數量關(guān)系,進(jìn)而據此做出判斷與決策。
實(shí)證分析
傳統的統計實(shí)證分析思路:假設—驗證。
首先提出假設,接著(zhù)按照統計方法進(jìn)行數據的收集、分析、展示,最后通過(guò)所得到的結論對假設進(jìn)行驗證,事實(shí)證明,這種實(shí)證分析存在很大誤差。
大數據時(shí)代實(shí)證分析思路:發(fā)現—總結。
對數據進(jìn)行整合,從中尋找關(guān)系、發(fā)現規律,然后再加以總結、形成結論,這將有助于發(fā)現更多意外的“發(fā)現”。
推斷分析
傳統的統計推斷分析過(guò)程:以分布理論為基礎,在概率保證的前提下,對總體進(jìn)行推斷,通常是根據樣本特征去推斷總體特征,推斷是否正確卻取決于樣本的好壞。
大數據時(shí)代統計推斷分析過(guò)程:以實(shí)際分布為基礎,根據總體的特征,進(jìn)行概率的判斷,在靜態(tài)或者動(dòng)態(tài)的某個(gè)時(shí)點(diǎn),大數據所需處理的對象為總體數據,不需要根據分布理論推斷總體特征,而要根據計算方法進(jìn)行。
7. 統計軟件的增多
傳統統計學(xué)以統計模型和軟件為基礎進(jìn)行數據分析處理,統計模型的作用在于對數據間的數量關(guān)系進(jìn)行構建,統計軟件是分析和處理數據的工具,需要研究者自主輸入經(jīng)過(guò)處理的數據,以及統計模型的公式等。
常見(jiàn)的統計軟件有SAS,R,STATA,SPSS,MATLAB等。
大數據所依賴(lài)的數據分析技術(shù)為非關(guān)系型的,以數據中心為基礎。若將統計軟件與大數據結合起來(lái),則統計分析的過(guò)程可以得到很大程度上的簡(jiǎn)化。
綜上所述,大數據時(shí)代的來(lái)臨,對傳統統計學(xué)的變革從樣本的定義方法一直到數據分析的思維與技術(shù)均有所體現??梢钥闯?,大數據使我們對數據的利用取得了更大的主動(dòng)權,將促使傳統統計學(xué)迅速的發(fā)展。
本文來(lái)源于《大數據時(shí)代對傳統統計學(xué)變革的思考》;
《統計研究》2016年第2期;
作者:朱建平、張悅涵;
聯(lián)系客服