欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
大數據時(shí)代對傳統統計學(xué)變革的思考

    摘要:本文在大數據時(shí)代背景下,將統計學(xué)與大數據有機地結合,剖析了大數據時(shí)代給統計學(xué)帶來(lái)的變革,闡述了大數據為傳統統計學(xué)帶來(lái)的發(fā)展機遇。在大數據時(shí)代,為了保持統計學(xué)旺盛的生命力,本文對統計學(xué)的發(fā)展提出了幾點(diǎn)思考。
    關(guān)鍵詞: 大數據 大數據時(shí)代 統計學(xué) 變革
    中圖分類(lèi)號:O213.2     文獻標識碼:C



The Analysis of Conventional Statistics During the Big Data Era
 
Abstract:Under the background of the era of big data, statistics are organically connected with big data in this article. Also, considering the big data period, we make an analysis on the innovation of statistics, as well as a statement about the opportunity of development for statistics. With the coming of big data age, to ensure the exuberant vitality of statistics, some ideas are also brought up in this paper.
Key words: big data;big data era;statistics;innovation

01

一、 引言
美國百科全書(shū),把統計學(xué)界定為“一門(mén)在不確定性方面為了做出正確的推斷而進(jìn)行搜集、分析定量數據的科學(xué)和藝術(shù)”,大英百科全書(shū)認為“統計學(xué)是一門(mén)搜集數據,分析數據,并根據數據進(jìn)行推斷的藝術(shù)和科學(xué),最初與政府搜集數據有關(guān),現在包括了范圍廣泛的方法和理論”,中國百科全書(shū)將統計學(xué)定義為“一門(mén)研究怎樣有效地搜集、整理和分析帶有隨機性的數據,以對所考察的問(wèn)題做出推斷或預測,直至為采取一定的決策和行動(dòng)提供依據和建議的學(xué)科”。由此可見(jiàn),統計學(xué)是一門(mén)研究數據的學(xué)科。
三年前,奧巴馬背后的數據團隊通過(guò)收集、存儲和分析選民數據幫助其獲得了總統連任;馬云領(lǐng)導的阿里巴巴早在08年已把大數據作為一項公司基本戰略。在不知不覺(jué)中,我們已經(jīng)從移動(dòng)互聯(lián)網(wǎng)時(shí)代進(jìn)入了大數據時(shí)代。大數據時(shí)代是建立在互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等現代網(wǎng)絡(luò )渠道中廣泛大量數據資源收集基礎上的數據存儲、價(jià)值提煉、智能處理和展示的信息時(shí)代。
由統計學(xué)的發(fā)展過(guò)程中可以看出,統計學(xué)產(chǎn)生于應用,在應用過(guò)程中發(fā)展。它的生命力在于應用。在當今社會(huì ),統計起著(zhù)“神經(jīng)系統”的作用。統計是連接社會(huì )再生產(chǎn)各個(gè)環(huán)節、各個(gè)要素的中介,是商品生產(chǎn)和商品交換的先導,對經(jīng)濟活動(dòng)進(jìn)行起著(zhù)靈敏有效的調節作用。例如,市場(chǎng)經(jīng)濟的統計信息是商品的生產(chǎn)和經(jīng)營(yíng)活動(dòng)的依據。市場(chǎng)經(jīng)濟信息主要有兩個(gè)方面:一是客戶(hù)對商品的需求,包括商品數量、品種、質(zhì)量和規格的要求等;二是各類(lèi)商品生產(chǎn)、供應以及價(jià)格的變化。商品生產(chǎn)者生產(chǎn)商品的種類(lèi)、數量、質(zhì)量改進(jìn)等問(wèn)題都要根據市場(chǎng)需求信息和價(jià)格信息等來(lái)研究決定;商品經(jīng)營(yíng)者所決定的商品購買(mǎi)、庫存、定價(jià)等問(wèn)題也需要根據生產(chǎn)、需求信息及其變化趨勢來(lái)研究決定。在大數據時(shí)代,以上這些統計信息的獲得不再局限于電話(huà)調查、問(wèn)卷調查等高成本、低收益的方式,而是可以借助網(wǎng)絡(luò )、移動(dòng)通信等方式。同時(shí),數據的質(zhì)量也不再受到主觀(guān)因素的限制。
由于大數據的產(chǎn)生,使得統計學(xué)的定義、思維方式、作用都不同于傳統統計。毫無(wú)疑問(wèn),隨著(zhù)大數據時(shí)代的來(lái)臨,統計學(xué)的發(fā)展進(jìn)入了一個(gè)新的階段。

02

二、 大數據時(shí)代下傳統統計學(xué)的變革
大數據時(shí)代的到來(lái),對統計學(xué)的發(fā)展具有劃時(shí)代的意義,需要統計學(xué)解決更多、更復雜的問(wèn)題,因而對統計學(xué)提出了更高的要求。在此,本文將從以下七個(gè)方面闡述大數據時(shí)代下傳統統計學(xué)的變革。
1、 樣本概念的深化
統計學(xué)依賴(lài)于樣本統計(普查除外),樣本是按照一定的概率從總體中抽取并作為總體代表的集合體。大數據時(shí)代,樣本的概念不再這么簡(jiǎn)單,由于此時(shí)數據大部分為網(wǎng)絡(luò )數據,因此可以將其分為兩種類(lèi)型:一是靜態(tài)數據,呈現“總體即樣本”的趨勢,這一特點(diǎn)彌補了傳統樣本統計高成本、高誤差的劣勢;二是動(dòng)態(tài)數據,比如數據是隨著(zhù)時(shí)間的推移而變化的,此時(shí),總體表現為歷史長(cháng)河中所有數據的總和,而我們分析的對象為“樣本”,這里的“樣本”與傳統樣本的概念不同,因其并非局限于隨機抽取的數據,更可以是選定的與分析目的相關(guān)的數據。
2、 數據類(lèi)型的擴大
傳統數據基本上是結構型數據,即定量數據加上少量專(zhuān)門(mén)設計的定性數據,格式化,有標準,可以用常規的統計指標或統計圖表加以表現。大數據則更多的是非結構型數據、半結構型數據或異構數據,包括了一切可記錄、可存儲的信號,多樣化、無(wú)標準、難以用傳統的統計指標或統計圖表加以表現。并且,網(wǎng)絡(luò )信息系統的不同導致數據識別方式不同,沒(méi)有統一的數據分類(lèi)標準。再者,現在有的數據庫是非關(guān)系型的數據庫,不需要預先設定記錄結構即可自動(dòng)包容大量各種各樣的數據。
3、 收集概念的擴展
傳統統計中,收集統計數據的思維是先確定統計分析研究的目的,然后根據需要收集數據,所以要精心設計調查方案,嚴格執行每個(gè)流程,往往投入大,而得到的數據量有限。在大數據時(shí)代,收集數據就是識別、整理、提煉、汲取、分配和存儲元數據的過(guò)程。我們擁有超大量可選擇的數據,同時(shí),在存儲能力,分析能力,甄別數據的真偽,選擇關(guān)聯(lián)物,提煉和利用數據,確定分析節點(diǎn)等方面,都需要斟酌。然而,并不是任何數據都可以從現有的數據中獲得,還存在安全性、成本性、針對性的問(wèn)題。因此,我們既要繼續采用傳統的方式方法去收集特定需要的數據,又要善于利用現代網(wǎng)絡(luò )信息技術(shù)和各種數據源去收集一切相關(guān)的數據。
4、 數據來(lái)源的不同
傳統的數據收集因為具有很強的針對性,因此數據的提供者大多是確定的,身份特征是可識別的,有的還可以進(jìn)行事后核對。而大數據的來(lái)源則很難追溯,由于大數據通常來(lái)源于物聯(lián)網(wǎng),不是為了特定的數據收集目的而產(chǎn)生,而是人們一切可記錄的信號(當然,任何信號的產(chǎn)生都有其目的,但它們是發(fā)散的),并且身份識別十分困難。在大數據時(shí)代,努力打造統計數據來(lái)源第二軌,就顯得尤為重要。
5、 量化方式的變化
傳統數據為結構化數據,其量化處理已經(jīng)有一整套較為完整的方式與過(guò)程,量化的結果可直接用于各種運算與分析。大數據時(shí)代面臨著(zhù)大量的非結構化數據,Franks說(shuō)過(guò):“幾乎沒(méi)有哪種分析過(guò)程能夠直接對非結構化數據進(jìn)行分析,也無(wú)法直接從非結構化的數據中得出結論”。目前,計算機學(xué)界已著(zhù)手研發(fā)處理非結構化數據的技術(shù),從統計角度直接處理非結構化數據,或將其量化成結構化數據,這是一個(gè)重要的研究領(lǐng)域。
6、 分析思維的改變
我們從統計分析、實(shí)證分析、推斷分析三個(gè)方面論述大數據時(shí)代傳統統計學(xué)分析思維的改變。
第一,傳統的統計分析過(guò)程是“定性—定量—再定性”,第一個(gè)定性是為了找準定量分析的方向,主要靠經(jīng)驗判斷。大數據時(shí)代,統計分析過(guò)程為“定量-定性”,基礎性的工作就是找到“定量的回應”,直接從各種“定量的回應”中找出那些真正的、重要的數量特征和數量關(guān)系,得出可以作為判斷或決策依據的結論。
第二,傳統的統計實(shí)證分析,思路是“假設—驗證”,即先提出某種假設,然后通過(guò)數據的收集與分析去驗證該假設是否成立,事實(shí)證明,這種實(shí)證分析存在很大誤差。大數據時(shí)代,分析的思路是“發(fā)現—總結”,為了更全面、深入的了解研究對象,需要對數據進(jìn)行整合,從中去尋找關(guān)系、發(fā)現規律,然后再加以總結、形成結論,這將有助于發(fā)現更多意外的“發(fā)現”。
第三,傳統的統計推斷分析過(guò)程是“分布理論—概率保證—總體推斷”,通常是基于分布理論,根據樣本特征去推斷總體特征,推斷是否正確卻取決于樣本的好壞?,F在,其過(guò)程變成了“實(shí)際分布—總體特征—概率判斷”,在靜態(tài)的情形下,大數據強調的是全體數據,總體特征不再需要根據分布理論進(jìn)行推斷,只需進(jìn)行計數或計量處理即可。
7、 統計軟件的增多
傳統統計學(xué)的數據處理和分析以統計模型和統計軟件為基礎,統計模型構建了不同變量之間的數量關(guān)系,而統計軟件則是依靠使用者自主導入所收集的相關(guān)變量的一系列數據,進(jìn)行處理和分析的有力工具。常見(jiàn)的統計軟件包括 SAS、SPSS、Stata、Minitab、DPS。大數據依賴(lài)于以數據中心為基礎的非關(guān)系數據分析技術(shù),如 Google 公司通過(guò) MapReduce 軟件每個(gè)月處理超過(guò) 400PB 的數據,Yahoo 基于 Hadoop 云計算平臺建立了34個(gè)集群,儲存容量超過(guò) 100PB。若大數據能夠在統計軟件中得到充分運用,則統計分析的數據搜集過(guò)程可以簡(jiǎn)化甚至免去。
綜上所述,大數據時(shí)代的來(lái)臨,對傳統統計學(xué)的變革從樣本的定義方法一直到數據分析的思維與技術(shù)均有所體現??梢钥闯?,大數據使我們對數據的利用取得了更大的主動(dòng)權,將促使傳統統計學(xué)迅速的發(fā)展。

03

三、  大數據給統計學(xué)帶來(lái)的發(fā)展
統計學(xué)的優(yōu)勢在于“以小見(jiàn)大”,大數據的優(yōu)勢在于利用統計方法處理問(wèn)題時(shí),可以利用更多甚至是全部的數據,數據不再成為統計分析的制約因素。在大數據時(shí)代,可以將統計學(xué)與大數據有機地結合起來(lái),實(shí)現“以小見(jiàn)大”和“由繁入簡(jiǎn)”的有機結合,在大數據的基礎上使得統計效率、擬合度和預測準確性大大提高。本文將從以下五個(gè)方面闡述大數據給統計學(xué)帶來(lái)的發(fā)展。
1、 統計質(zhì)量得以提高
針對統計質(zhì)量而言,國際數據標準SDDS確定了兩條規則作為評估統計數據質(zhì)量的標準,我們可以據此歸納出四個(gè)原則來(lái)把握統計質(zhì)量的內涵:適用性、準確性、及時(shí)性、平衡性。
適用性,是指收集的統計信息符合用戶(hù)的需求。使統計信息最大化地滿(mǎn)足用戶(hù),是保證統計信息適用性的根本。大數據的廣泛覆蓋性能夠很大程度上滿(mǎn)足適用性的原則。以 CPI 為例,傳統的價(jià)格統計包括一籃子商品,通常包含千種商品、涉及幾萬(wàn)個(gè)調查銷(xiāo)售網(wǎng)點(diǎn),且商品的種類(lèi)和結構要隨著(zhù)社會(huì )經(jīng)濟的發(fā)展和人們的消費結構進(jìn)行調整,較大的誤差使得統計工作者不能保證統計數據是否適用于用戶(hù)的需求。而基于大數據的“在線(xiàn)價(jià)格指數”讓抽樣變得不再重要,統計對象可以是幾萬(wàn)種商品、所有的在線(xiàn)銷(xiāo)售商和大部分線(xiàn)下的銷(xiāo)售網(wǎng)點(diǎn),甚至可以覆蓋全部樣本,顯著(zhù)降低了統計誤差,進(jìn)而保證了統計數據的適用性。
及時(shí)性,是縮短統計信息從搜集、加工整理到數據傳輸的整個(gè)過(guò)程,縮短調查基準期與數據結果發(fā)布的間隔時(shí)間。另外,應預先公布各項統計數據發(fā)布日期,并按時(shí)發(fā)布數據,建立和規范統計信息發(fā)布制度,使用戶(hù)及時(shí)掌握使用統計信息。傳統統計數據通常存在滯后性且呈現低頻率的缺點(diǎn),而大數據的及時(shí)性能夠彌補傳統統計數據的這一缺陷,使統計數據的時(shí)效性增強。仍以消費者物價(jià)指數( CPI) 的統計數據為例,CPI 的發(fā)布以月為頻率,但一般都存在滯后期,如我國的 CPI 通常在每個(gè)月的 9 號才能發(fā)布上個(gè)月的 CPI; 而“在線(xiàn)價(jià)格指數”能夠對市場(chǎng)價(jià)格進(jìn)行實(shí)時(shí)跟蹤和匯總,能夠提供及時(shí)的統計信息,且在線(xiàn)價(jià)格指數可以將頻率從每月提高到每天甚至更高,能夠細致地分析通貨膨脹規律。
準確性,主要是指統計估算與目標特征值即“真值”之間的差異程度。實(shí)際上所謂“真值”是不可知的,一般通過(guò)分析抽樣誤差、計數誤差、人為誤差、模型設計誤差等影響數據準確性的各個(gè)因素,測算統計估算值的變動(dòng)系數、標準差、曲線(xiàn)吻合度、假設檢驗偏差等,將統計誤差控制在一個(gè)可以接受的置信區間內,以保證統計信息的準確性。大數據的全面統計可排除統計過(guò)程和統計結果的人為誤差,進(jìn)而保證統計數據的準確性。例如,傳統樣本搜集方法中,當受調查者意識到自己在接受調查時(shí)很有可能會(huì )有意地對真實(shí)情況進(jìn)行部分修飾,會(huì )使得由這些調查方法所獲得的數據無(wú)法真實(shí)反映現實(shí)。大數據可以在受調查者沒(méi)有意識到的情況下采集數據,如移動(dòng)通信用戶(hù)只把手機當成是移動(dòng)通信工具,但當用戶(hù)帶著(zhù)手機去上班、去吃飯、去旅行時(shí),移動(dòng)通信商實(shí)際上可以通過(guò)跟蹤定位手機來(lái)獲得用戶(hù)的位置信息。這種方法獲得的數據顯然比通過(guò)電話(huà)采訪(fǎng)或調查問(wèn)卷的方式獲得的用戶(hù)位置信息更準確,從而在此基礎上的統計分析結果可信度更高。
平衡性,是指數據的協(xié)調能力,發(fā)布數據者與使用數據者之間對數據理解的差異會(huì )造成數據平衡性的缺失。根據SDDS的第二條規則,即提供統計類(lèi)目核心指標的細項內容及與其相關(guān)的統計數據的核對方法以及支持數據交叉復核并保證合理性的統計框架,大數據時(shí)代通過(guò)網(wǎng)絡(luò )數據資源,有助于數據平衡性的提高。為了支持和鼓勵使用者對數據進(jìn)行核對和檢驗,規定在統計框架內公布有關(guān)總量數據的分項,公布有關(guān)數據的比較和核對。例如,作為國民帳戶(hù)一部分的進(jìn)出口和作為國際收支一部分的進(jìn)出口的交叉核對。
2、 統計成本得以降低
統計成本是進(jìn)行一項統計調查或開(kāi)展統計工作所實(shí)際付出的代價(jià),就統計成本的要素看:統計工作過(guò)程中耗費的人力、財力、物力的總和就構成了統計成本。下面從調查方法與數據利用率兩個(gè)角度來(lái)闡述大數據時(shí)代統計成本的降低。
首先,從調查方法來(lái)看,傳統的調查方法主要有電話(huà)采訪(fǎng)、調查問(wèn)卷、統計報表等,開(kāi)展一次普查,可能就要動(dòng)用全國之力,這些方法都存在其缺點(diǎn),準確性得不到保證,并且統計成本相當可觀(guān)。在大數據時(shí)代,數據可以通過(guò)網(wǎng)絡(luò )、移動(dòng)通信等途徑獲得,因此無(wú)論從時(shí)間還是從實(shí)際耗費的財力物力來(lái)看,大數據相對傳統統計調查方法的統計成本會(huì )大幅下降,而且得到的數據規模更大,準確性更高。
其次,從所得數據的利用率來(lái)看,傳統統計中,由于統計部門(mén)研究開(kāi)發(fā)力量不足,從而使許多現有的統計資料失效過(guò)期,依靠巨大的財政以及社會(huì )投入取得的大量的普查資料,也因開(kāi)發(fā)方式單一、向領(lǐng)導提供時(shí)的被動(dòng)應付以及向社會(huì )公眾發(fā)布的手段方式的局限,得不到及時(shí)廣泛的利用。而在大數據時(shí)代,數據可以被重復利用,被收集的數據不再僅限于某一特定用途,它可以為各種不同的目的服務(wù)。隨著(zhù)數據被利用次數的增加,數據被實(shí)現的潛在價(jià)值也逐漸增加,而數據的收集成本確是固定的,并不會(huì )隨著(zhù)數據被利用的次數而變化,因此每次用途的平均成本會(huì )隨再利用次數的增加而大幅下降。例如Google 利用用戶(hù)的檢索詞條可以來(lái)預測流感的傳播,但這只是其龐大的檢索數據的用途之一,相同的數據還可以用于某種新產(chǎn)品的市場(chǎng)預測,或大選結果的預測等。顯然隨著(zhù)再利用次數的增加,平均到每次用途上的數據收集成本會(huì )逐漸降低。
最后,統計成本還體現在公眾獲取方面。對此,SDDS制定了兩項規劃:一是成員國要預先公布各項統計的發(fā)布日歷表。預先公布統計發(fā)布日程表既可方便使用者安排利用數據,又可顯示統計工作管理完善和表明數據編制的透明度。二是統計發(fā)布必須同時(shí)發(fā)送所有有關(guān)各方。官方統計數據的公布是統計數據作為一項公共產(chǎn)品的基本特征之一,及時(shí)和機會(huì )均等地獲得統計數據是公眾的基本要求。因此SDDS規定應向所有有關(guān)方同時(shí)發(fā)布統計數據,以體現公平的原則。發(fā)布時(shí)可先提供概括性數據,然后再提供詳細的數據,當局應至少提供一個(gè)公眾知道并可以進(jìn)入的地方,數據一經(jīng)發(fā)布,公眾就可以公平地獲得。SDDS的目的是向成員國提供一套在數據采集和披露方面的指導標準,使各國在向公眾提供全面、及時(shí)、容易獲得和可靠的數據方面有共同的依據。在大數據時(shí)代,無(wú)論是數據的獲取、分析還是發(fā)布,皆通過(guò)網(wǎng)絡(luò )進(jìn)行,SDDS的規劃變得更為可行。
3、 統計學(xué)科體系得以延伸
大數據時(shí)代要求我們用發(fā)展、辯證的眼光看待統計學(xué)的發(fā)展,統計學(xué)應當在大數據的思想框架下構建新的學(xué)科體系。統計學(xué)有必要將大數據總體統計的思想和方法納入其學(xué)科體系,進(jìn)而,統計學(xué)教學(xué)的內容有必要從傳統的樣本統計轉向樣本統計和總體統計的結合。樣本統計通過(guò)帶有隨機性的觀(guān)測數據對總體做出推斷,這就要求總體最大限度均勻,這樣才能通過(guò)適當的抽樣方法確保樣本的代表性。樣本的產(chǎn)生是隨機的,用樣本去推斷總體會(huì )產(chǎn)生代表性誤差,而基于大數據的總體統計正好能彌補樣本統計的不足。
數據挖掘是處理大數據的重要技術(shù)之一,它不僅與統計學(xué)息息相關(guān),也應當是統計學(xué)的一部分。數據挖掘是揭示存在于數據里的模式及數據間的關(guān)系的學(xué)科,它強調對大量觀(guān)測到的數據庫的處理。它是涉及數據庫管理,人工智能,機器學(xué)習,模式識別,及數據可視化等學(xué)科的邊緣學(xué)科。用統計的觀(guān)點(diǎn)看,它可以看成是通過(guò)計算機對大量的復雜數據集的自動(dòng)探索性分析。數據挖掘既然也是數據處理,統計學(xué)就應該積極借鑒。在統計學(xué)的發(fā)展歷史上,許多數據處理相關(guān)領(lǐng)域發(fā)展的新方法被忽略了。比如,模式識別,神經(jīng)網(wǎng)絡(luò ),圖形模型,數據可視化等等都是在統計科學(xué)中出現萌芽,但隨后絕大部分又被統計學(xué)忽略的方法領(lǐng)域。而這些方法領(lǐng)域是當今世界高尖端科技的領(lǐng)域,統計學(xué)對它們的忽略是令人痛心疾首的。因此,既然統計學(xué)可以在數據挖掘科學(xué)中發(fā)揮作用,統計學(xué)就應該和數據挖掘合作,而不是將它甩給計算機科學(xué)家,從而又失去一次自我增值的機會(huì )。當今大數據時(shí)代,統計學(xué)與計算機應緊密結合,以數據挖掘為契機,進(jìn)一步延伸和完善統計學(xué)科體系,培養具有現代統計技術(shù)、計算機技術(shù)與數據挖掘技術(shù)的復合人才。同時(shí),統計學(xué)不僅要注重與其它學(xué)科的結合,其在統計原理、統計技術(shù)、統計方法等領(lǐng)域也要謀求創(chuàng )新和突破。
4、 統計學(xué)作用得以擴大
傳統統計由于成本、觀(guān)念等問(wèn)題的影響,主要用于行業(yè)和部門(mén)的統計,為行業(yè)和部門(mén)制定與完善政策而服務(wù)。在大數據時(shí)代,統計自身的發(fā)展領(lǐng)域不僅更寬廣,而且統計學(xué)在計算機科學(xué)、信息科學(xué)、經(jīng)濟學(xué)、管理學(xué)、金融工程等領(lǐng)域都有廣泛的應用并與之有力結合,共同發(fā)展。
就數據分析而言,我們應該看到,計算機與數學(xué)一樣,是統計學(xué)的基礎工具。計算機的發(fā)展使得對于比較復雜的數據的分析與計算變得簡(jiǎn)便快捷,成為統計計算的重要工具。當今,個(gè)人計算機的普及,因特網(wǎng)的使用,使社會(huì )產(chǎn)生了很大的變革,信息傳遞的質(zhì)和量都發(fā)生了飛躍。統計學(xué)的發(fā)展不能離開(kāi)計算機。毫無(wú)疑問(wèn),我們的學(xué)生應該學(xué)習相關(guān)的計算機科學(xué)知識。這將包括數據結構、算法設計、程序語(yǔ)言設計、程序設計方法、數據庫系統的開(kāi)發(fā)與管理、程序設計等等。我們也應該擴展我們的課程計劃,應該包括當前的計算機定向數據分析方法,它們大部分是在統計學(xué)科之外發(fā)展起來(lái)的。如此一來(lái),無(wú)疑會(huì )大大豐富統計學(xué)發(fā)展的內涵,更大地發(fā)揮統計學(xué)的作用。
5、 統計學(xué)專(zhuān)業(yè)就業(yè)需求得以提升
大數據對統計專(zhuān)業(yè)學(xué)生的就業(yè)起到了相當大的改善作用。當今社會(huì ),大數據就像一座巨大的金礦吸引著(zhù)政府、公司以及無(wú)數個(gè)人去淘金,但要從錯綜復雜的海量數據中提取出有價(jià)值的信息并不是一件容易的事,需要具備數據分析知識的專(zhuān)業(yè)人員來(lái)進(jìn)行數據處理,而這正是統計工作者和數據分析師的專(zhuān)長(cháng)。在大數據時(shí)代,統計工作者和數據分析師通過(guò)合理利用數據可以在一定程度上起到行業(yè)專(zhuān)家的作用,他們的作用延伸到各個(gè)領(lǐng)域,為各行各業(yè)提供有價(jià)值的建議。由于統計工作者和數據分析師可以從大數據中挖掘出大量的信息并將其轉化為價(jià)值,他們的作用將受到廣泛的重視,其地位將得到大幅提升。
眾所周知,政府統計、部門(mén)統計、民間統計是我國統計工作領(lǐng)域的三大巨頭。一直以來(lái),政府統計、部門(mén)統計在統計學(xué)生的就業(yè)中占有較高的比重。然而,隨著(zhù)大數據的觀(guān)念深入,民間統計越來(lái)越熱。民間統計是政府統計之外的涉及市場(chǎng)調研、統計分析、預測和決策等內容的一系列統計活動(dòng),包括各類(lèi)統計調查公司、統計信息咨詢(xún)中心、統計師事務(wù)所、統計研究所,以及把統計方法運用于企業(yè)決策和管理的企業(yè)管理咨詢(xún)公司等,是介于市場(chǎng)和企業(yè)、行業(yè)之間的一個(gè)橋梁,主要為企業(yè)和行業(yè)提供市場(chǎng)微觀(guān)信息。民間統計機構,由于其服務(wù)的多樣性、形式的靈活性,目前在我國獲得了大幅度的發(fā)展,已經(jīng)逐漸為廣大統計學(xué)生提供了廣闊的就業(yè)機會(huì )。隨著(zhù)民間統計機構的持續發(fā)展,民間統計機構必將成為統計專(zhuān)業(yè)學(xué)生就業(yè)的主要渠道之一。

04

四、大數據時(shí)代下對統計學(xué)的幾點(diǎn)思考
現在進(jìn)入了大數據時(shí)代,數據量足夠大了之后,我們突然發(fā)現一切社會(huì )現象到最后都有統計規律,它不像物理學(xué)那樣可以準確的去描述其因果的關(guān)系,它從本質(zhì)上來(lái)說(shuō)就是一個(gè)統計的規律,一切社會(huì )現象到最后都是一個(gè)統計的規律。因此,大數據時(shí)代給統計學(xué)帶來(lái)新的生命力,同時(shí)也引發(fā)了對統計學(xué)的再思考。
1、 改變總體、個(gè)體及樣本的定義方式
傳統的統計分析,是從總體中抽樣,然后研究樣本的性質(zhì)等。因此是先有總體,再有數據,即必須先確定總體范圍和個(gè)體單位,再收集個(gè)體數據,分析總體。大數據的產(chǎn)生系統多數是非總體式的,即無(wú)事先定義的目標總體,只有與各個(gè)時(shí)點(diǎn)相對應的事后總體,即大數據是先有數據再有總體。因為個(gè)體是不確定的,是變化著(zhù)的,是無(wú)法事先編制名錄庫的,這與傳統的總體與個(gè)體有很大的不同。更為復雜的是,事后個(gè)體的識別也很困難,因為同一個(gè)個(gè)體可能有多個(gè)不同的網(wǎng)絡(luò )符號或稱(chēng)謂,而不同網(wǎng)絡(luò )系統的相同符號(稱(chēng)謂)也未必就是同一個(gè)個(gè)體,而且還經(jīng)常存在個(gè)體異位的情況(即某一個(gè)體利用另一個(gè)體的符號完成某種行為),因此我們對于大數據往往是只見(jiàn)“數據”的外形而不見(jiàn)“個(gè)體”的真容。但是對于大數據分析來(lái)說(shuō),仍然有一個(gè)總體口徑問(wèn)題,需要識別個(gè)體身份。這就需要我們改變總體與個(gè)體的定義方式,與此對應,如果要從大數據庫中提取樣本數據,那么樣本的定義方式也需要改變。當然,考慮到大數據的流動(dòng)變化性,任何時(shí)點(diǎn)的總體都可以被理解為一個(gè)截面樣本。
2、 轉變抽樣調查的功能以拓展其應用空間
對于傳統統計學(xué)來(lái)說(shuō),抽樣調查是收集數據最重要的方式。盡管樣本只是總體中的很小一部分,但依據科學(xué)的抽樣理論、科學(xué)設計的抽樣調查就能夠確保數據的精確度和可靠性。然而,抽樣調查畢竟屬于非全面調查的范疇,它是按照科學(xué)的原理和計算,從若干單位組成的事物總體中,抽取部分樣本單位來(lái)進(jìn)行調查、觀(guān)察,用所得到的調查標志的數據代表總體,推斷總體,存在著(zhù)信息量有限、不可連續擴充、前期準備工作要求高等缺點(diǎn),很難滿(mǎn)足日益增長(cháng)的數據需求?,F在進(jìn)入了大數據時(shí)代,我們應該利用一切可以利用的、盡量多的數據來(lái)進(jìn)行分析而不是僅局限于樣本數據。但這并不意味著(zhù)抽樣調查就該退出歷史舞臺了。首先,在信息化、數字化、物聯(lián)網(wǎng)還不能全覆蓋的情況下,仍然還有很多數據信息需要通過(guò)抽樣調查的方式去獲??;其次,盡管我們可以對大數據進(jìn)行全體分析,但考慮到成本與效率因素,在很多情況下抽樣分析仍然是不錯的或明智的選擇。當然,抽樣調查也要適當轉變其功能以便進(jìn)一步拓展其應用空間: 一是可以把抽樣調查獲得的數據作為大數據分析的對照基礎與驗證依據,大數據時(shí)代互聯(lián)網(wǎng)數據的獲取速度快、量大、項目繁細,但是難以避免數據獲取的偏倚性。統計機構的數據是經(jīng)過(guò)嚴格抽樣設計獲取的,將其作為基礎與依據對互聯(lián)網(wǎng)數據進(jìn)行矯正,將互聯(lián)網(wǎng)數據作為補充資源對統計機構的數據進(jìn)行實(shí)時(shí)更新,這是一個(gè)值得關(guān)注的研究問(wèn)題。 二是可以把抽樣調查作為數據挖掘、快速進(jìn)行探測性分析的工具——從混雜的數據中尋找規律或關(guān)系的線(xiàn)索。這需要從源源不斷的數據流中抽取足以滿(mǎn)足統計目的和精度的樣本,及時(shí)調整已經(jīng)獲得的樣本,使得熱門(mén)數據與感興趣的數據進(jìn)入樣本。
3、 如何使結構化數據與非結構化數據對接
相對于結構化數據(即行數據,存儲在數據庫里,可以用二維表結構來(lái)邏輯表達實(shí)現的數據)而言,不方便用數據庫二維邏輯表來(lái)表現的數據即稱(chēng)為非結構化數據,包括所有格式的辦公文檔、文本、圖片、標準通用標記語(yǔ)言下的子集XML、HTML、各類(lèi)報表、圖像和音頻/視頻信息等等。在大數據時(shí)代,數據的概念從結構化數據擴展為結構化數據和非結構化數據。而有效實(shí)現結構化數據與非結構化數據的對接,是數據概念拓展的必然結果。通過(guò)特定的方法,實(shí)現結構化數據與非結構化數據的轉化與對接是完全可能的。但要實(shí)現這種對接,必須要增強對各種類(lèi)型數據進(jìn)行測度與描述的能力,否則大數據分析就沒(méi)有全面牢固的基礎。如果說(shuō)傳統的基于樣本數據的統計分析側重于推斷,那么基于大數據的統計分析需要更加關(guān)注描述,以便更為準確地進(jìn)行推斷。如何既能有針對性地收集所需的結構化數據,又能從大量非結構化數據中挖掘出有價(jià)值的信息,使兩者相輔相成、有機結合,就成了一個(gè)新的課題,非結構化數據如何結構化或結構化數據能否采用非結構化的表現形式等都是值得探討的問(wèn)題。
4、 采用新的梳理與分類(lèi)方法處理大數據
傳統的數據梳理與分類(lèi)是按照預先設定的方案進(jìn)行的,標志與指標的關(guān)系、分類(lèi)標識與分組規則等都是結構化的,既是對有針對性地收集的數據進(jìn)行加工,也是統計分析的組成部分。但對于大數據,由于新的網(wǎng)絡(luò )語(yǔ)言、新的信息內容、新的數據表現形式的不斷出現,使得會(huì )產(chǎn)生哪些種類(lèi)的信息、有哪些可以利用的分類(lèi)標識、不同標識之間是什么關(guān)系、類(lèi)與類(lèi)之間的識別度有多大、信息與個(gè)體之間的對應關(guān)系如何等問(wèn)題,都無(wú)法事先加以嚴格設定或控制,往往需要事后進(jìn)行補充或完善。面對超大量的數據,我們從何下手? 只能從數據本身入手,從觀(guān)察數據分布特征入手。這就需要采用不同的數據梳理與分類(lèi)方法。否則,要想尋找到能有效開(kāi)展數據分析的路徑是不可能的。因此根據大數據的特點(diǎn),創(chuàng )新與發(fā)展數據的梳理與分類(lèi)方法,是有效開(kāi)展大數據分析的重要前提。
5、 不確定性的來(lái)源和表現產(chǎn)生差異
不確定性就是指事先不能準確知道某個(gè)事件或某種決策的結果?;蛘哒f(shuō),只要事件或決策的可能結果不止一種,就會(huì )產(chǎn)生不確定性。在經(jīng)濟學(xué)中不確定性是指對于未來(lái)的收益和損失等經(jīng)濟狀況的分布范圍和狀態(tài)不能確知。不確定性給企業(yè)帶來(lái)的影響有大有小。小而言之,可能影響一次營(yíng)銷(xiāo)活動(dòng)的成??;從大的方面看,則可能使企業(yè)遭受滅頂之災、破產(chǎn)倒閉。而統計學(xué)就是為了研究事物的不確定性而產(chǎn)生的。傳統統計學(xué)對于不確定性的研究需要收集數據,在抽樣觀(guān)測的情況下進(jìn)行,其不確定性表現為如何獲得樣本、如何推斷總體、如何構建模型。大數據雖然也存在個(gè)體的差異性,但它包括了一定條件下的所有個(gè)體,而不是隨機獲得的一個(gè)樣本,這樣,大數據的不確定性表現為數據的來(lái)源、個(gè)體的識別、信息的量化、數據的分類(lèi)、關(guān)聯(lián)物的選擇、節點(diǎn)的確定,以及結論的可能性判斷等方面??偠灾?,由于在大數據時(shí)代我們已經(jīng)掌握了一定條件下的完全信息,此時(shí)的不確定性只來(lái)自于數據來(lái)源的多樣性與混雜性,以及由于個(gè)體的可變性所引起的總體多變性,而不是同類(lèi)個(gè)體之間的差異性。
6、 相關(guān)關(guān)系分析與因果關(guān)系分析并重
維克多(Vikor Mayer-Schǒnberger )在其《大數據時(shí)代》一書(shū)中認為:“通過(guò)給我們找到一個(gè)現象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現在和預測未來(lái)”以及“建立在相關(guān)關(guān)系分析法基礎上的預測是大數據的核心”。毫無(wú)疑問(wèn),從超大量數據中發(fā)現各種真實(shí)存在的相關(guān)關(guān)系,是人們認識和掌控事物、繼而做出預測判斷的重要途徑,而大數據時(shí)代新的分析工具和思路可以讓我們發(fā)現很多以前難以發(fā)現或不曾注意的事物之間的聯(lián)系,因此大力開(kāi)展相關(guān)分析是大數據時(shí)代的重要任務(wù)。但是,大數據時(shí)代并不是要求我們僅僅停留在“是什么”的階段,還要知道“為什么”,只有這樣,才能更好地理解“是什么”。只有知道原因、背景的數據才是真正的數據。如果我們只知道相關(guān)關(guān)系而不知道因果關(guān)系,那么數據分析的深度只有一半,一旦出現問(wèn)題或疑問(wèn)就無(wú)從下手。而如果我們知道了因果關(guān)系,就可以更好地利用相關(guān)關(guān)系,就可以更好地掌握預測未來(lái)的主動(dòng)權,就可以幫助我們更科學(xué)地進(jìn)行決策。當然,因果分析是困難的,正因為困難,所以要以相關(guān)分析為基礎,要更進(jìn)一步利用好大數據。相關(guān)分析與因果分析不是互相對立的,而是互補的,兩者必須并重。
7、 結合多種統計方法全面駕馭大數據
所謂歸納推斷,就是根據一類(lèi)事物的部分對象具有的某種性質(zhì),推出這類(lèi)事物的所有對象都具有這種性質(zhì)的推斷,簡(jiǎn)稱(chēng)歸納。歸納是從特殊到一般的過(guò)程,它是合情推理的。在傳統統計中,歸納推斷法是最主要的研究方法,通過(guò)樣本數據,在歸納出樣本特征的基礎上再推斷總體。對于大數據,我們依然要從中去發(fā)現新的知識,依然要通過(guò)具體的個(gè)體信息去歸納出一般的總體特征,因此歸納法依然是大數據分析的主要方法。但是大數據的分析方法不僅僅限于此,它是一個(gè)信息寶庫,只重視一般特征的歸納與概括是不夠的,還需要分析研究子類(lèi)信息乃至個(gè)體信息,以及某些特殊的、異常的信息——或許它(們)代表著(zhù)一種新生事物或未來(lái)的發(fā)展方向,還需要通過(guò)已掌握的分布特征和相關(guān)知識與經(jīng)驗去推理分析其他更多、更具體的規律,去發(fā)現更深層次的關(guān)聯(lián)關(guān)系,去對某些結論做出判斷,這就需要運用演繹推理法(簡(jiǎn)稱(chēng)演繹法)。演繹法可以幫助我們充分利用已有的知識去認識更具體、細小的特征,形成更多有用的結論。只要歸納法與演繹法結合得好,我們就既可以從大數據的偶然性中發(fā)現必然性,又可以利用全面數據的必然性去觀(guān)察偶然性、認識偶然性、甚至利用偶然性,從而提高駕馭偶然性的能力。
8、 統計思維與現代信息技術(shù)相結合
盡管用于收集和分析數據的統計技術(shù)已相對成熟、自成體系,但其所能處理的數據量是有限的,面對大數據,特別是大量的非結構數據,單憑統計技術(shù)恐怕是難以勝任的。首先遇到的問(wèn)題就是計算能力問(wèn)題,這就要求我們在不斷創(chuàng )新與發(fā)展統計技術(shù)的同時(shí),還要緊緊依靠現代信息技術(shù),特別是云計算技術(shù)。

05

五、結束語(yǔ)
大數據的產(chǎn)生對統計學(xué)具有劃時(shí)代的意義,大數據以其價(jià)值性、多樣性、大量性、高速性的特征彌補了統計學(xué)高成本、高誤差的劣勢,但這并不意味著(zhù)統計學(xué)的時(shí)代結束了,我們對大數據的搜索、聚類(lèi)、分類(lèi)等還需要依賴(lài)統計學(xué)的方法,因此大數據離不開(kāi)統計學(xué)。大數據時(shí)代的到來(lái),提高了統計質(zhì)量、降低了統計成本,使得統計學(xué)發(fā)揮作用的領(lǐng)域增大,并且使統計學(xué)科得以延伸,提高了統計學(xué)科在自然科學(xué)和社會(huì )科學(xué)中的地位,這是大數據給傳統統計帶來(lái)的機遇。在大數據時(shí)代,傳統統計學(xué)也面臨著(zhù)挑戰,要求其改變對樣本的認識、改變對不確定性的認識、建立新的數據梳理與分類(lèi)的方法、強化結構化數據與非結構化數據的對接、轉變抽樣調查的功能、結合歸納演繹法與推斷演繹法、并重相關(guān)分析與因果分析以及結合統計思想與云計算技術(shù)。我們應該牢牢抓住大數據帶來(lái)的機遇,積極應對挑戰,將大數據與統計學(xué)有機地結合,在未來(lái)的科學(xué)發(fā)展過(guò)程中,保持統計學(xué)旺盛的生命力。


                  (33卷第220162月《統計研究》

 參考文獻:
[1] Lynch C. Big data: How do your data grow? [J] Nature, 2008, 455(7209)
[2] Rifkin J. The third industrial revolution: How lateral power is transforming energy, the Economy, and the World [M]. New York: Palgrave Macmillan, 2012
[3] Bughin J. Chui M, Manyika J. Clouds, big data and smart assets: Ten tech-enabled business trends to watch [J]. McKinsey Quarterly, 2010(8)
[4] Lavalle S, Lesser E, Shockley R, et al. Big data, analytics and the path from insights to value [J]. MIT Sloan Management Review, 2011, 52(2)
[5] MacKinsey Global Institute. 2011. Big data: The next frontier for innovation, competition and productivity. June 2011. Lexington, KY: McKinsey & Company
[6] Dabenport T H, Barth P, Bean R. How big data is different [J]. MIT Sloan Management Review, 2012, 53(5).
[7] 朱建平、章貴軍、劉曉葳,大數據時(shí)代下數據分析理念的辨析[J]統計研究,2014(2)
[8] 袁衛,機遇與挑戰——寫(xiě)在統計學(xué)科成為一級學(xué)科之際[J]統計研究,2011(11)
[9] 李金昌,大數據與統計新思維[J]統計研究,2014(1)
[10] 朱建平著(zhù),世紀之交中國統計學(xué)科的回顧與思考[M]. 中國經(jīng)濟出版社,1999, 12.
[11] 曾鴻、豐敏軒,大數據與統計變革[J]中國統計,2013(9)
[12] 肖紅葉,中國經(jīng)濟統計學(xué)科建設30年回顧與評論——基于三大框架事件的研究[J]. 統計研究. 2010(2)
[13] 朱懷慶,大數據時(shí)代對本科經(jīng)管類(lèi)統計學(xué)教學(xué)的影響及策略[J]高等教育研究,2014(3)
[14] 程開(kāi)明、莊燕杰,大數據背景下的統計[J]統計研究,2014(1)
 


本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
大數據時(shí)代,傳統統計學(xué)有哪些變革?
大數據與統計新思維
統計學(xué)
有趣的統計學(xué)小知識——誤差
統計學(xué)名詞解釋
研究與統計學(xué),以及Stata與SPSS的異同
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久