綜合來(lái)講,統計學(xué)就是收集、處理、分析、解釋數據并從數據中得出結論的科學(xué)。
比如說(shuō),我們想知道中國男性和女性誰(shuí)的收入更高。全中國人民那么多,即使是官方機構想要進(jìn)行一個(gè)總體的統計都不太現實(shí),更別提我們了。因此我們需要進(jìn)行抽樣,并統計我們抽中的樣本的數據情況,對數據進(jìn)行一些必要的處理(比如處理缺失值、異常值、重復數據等),然后對數據進(jìn)行分析,并對分析結果進(jìn)行解釋。最后,給出一個(gè)可靠的結論。
以上就是一項統計學(xué)任務(wù)的流程。其中,數據分析所使用的方法可以分為描述統計方法和推斷統計方法。
之后我們會(huì )詳細討論兩者的更多細節。
我們有必要先了解下數據的類(lèi)型。
1. 按照計量尺度
2. 按照統計數據的收集方法
3. 按照被描述對象與時(shí)間的關(guān)系
1. 總體和樣本
總體:population,包含所研究的全部個(gè)體的集合。比如當我們想要研究中國人民的人均身高時(shí),全中國人民就是總體??傮w分為有限總體和無(wú)限總體,對于有限總體來(lái)說(shuō),元素的數目是可數的,而無(wú)限總體中的元素則是無(wú)限、不可數的。在無(wú)限總體中,每次抽取一個(gè)單位,并不影響下一次的抽樣結果,這是因為無(wú)限總體去除上一次抽取的樣本后,剩下的仍然是一個(gè)無(wú)限總體。因此無(wú)限總體中的每次抽樣總可以看做是獨立的。反之,在有限總體中,多次無(wú)放回的抽樣之間并不是相互獨立的。
樣本:sample,從總體中抽取的一部分元素的集合,構成樣本的元素的數目成為樣本量。抽樣的目的是根據樣本提供的信息推斷總體的特征。比如我們統計中國人民的人均身高時(shí),抽取了10000人的樣本來(lái)作為代表。那么全中國人民是我們的總體,這10000人就是我們的樣本,樣本量是10000。
2. 參數和統計量
總體特征
的概括性數字度量,它是研究者想要了解的總體的某種特征值。比如總體均值、總體標準差等。在統計中,總體參數通常用希臘字母表示,比如總體均值用μ表示,總體標準差用σ表示,總體比例用π表示等。樣本特征
的概括性數字度量。樣本統計量常用英文字母來(lái)表示。由于樣本已知,因此統計量可以輕松求得。抽樣的目的是根據樣本統計量來(lái)估計總體參數。比如用樣本標準差s估計總體標準差σ等。
一言以蔽之,參數相當于總體中的統計量,統計量相當于樣本中的參數,它們的含義一致,只是分別應用于總體和統計量,且樣本統計量可以直接通過(guò)描述統計得到,而總體參數往往是未知的,需要通過(guò)推斷統計來(lái)估計。
3. 變量
變量:variable,相信我們對變量都比較熟悉,我們最常使用的名稱(chēng)有自變量和因變量,其中后者跟隨前者的變化而變化。不過(guò)今天我們會(huì )從其他的角度對變量進(jìn)行分類(lèi)。
按照變量數據類(lèi)型分類(lèi):
其他分類(lèi)角度
這部分后續我們會(huì )接觸到。
以上內容是統計學(xué)的基礎,不難,但是必須要記清楚,避免以后在某些問(wèn)題上產(chǎn)生混淆。
聯(lián)系客服