學(xué)習教育統計中,對自由度的概念不甚了解,故求助于baidu。
自由度,很多統計量的計算公式中都有自由度的概念,可為什么同樣是計算標準差,總體標準差的自由度是n,而樣本標準差的自由度就是n-1?為什么其它公式中的自由度還有n-2、n-3呢? 它到底是什么含意?
翻看了以前的教材以及到網(wǎng)上查閱了大量相關(guān)資料,原來(lái),不僅僅是統計學(xué)里有自由度的概念呀!下面把有關(guān)自由度的問(wèn)題點(diǎn)簡(jiǎn)要歸納一下。
理論力學(xué):確定物體的位置所需要的獨立坐標數稱(chēng)作物體的自由度,當物體受到某些限制時(shí)——自由度減少。一個(gè)質(zhì)點(diǎn)在空間自由運動(dòng),它的位置由三個(gè)獨立坐標就可以確定,所以質(zhì)點(diǎn)的運動(dòng)有三個(gè)自由度。假如將質(zhì)點(diǎn)限制在一個(gè)平面或一個(gè)曲面上運動(dòng),它有兩個(gè)自由度。假如將質(zhì)點(diǎn)限制在一條直線(xiàn)或一條曲線(xiàn)上運動(dòng),它只有一個(gè)自由度。剛體在空間的運動(dòng)既有平動(dòng)也有轉動(dòng),其自由度有六個(gè),即三個(gè)平動(dòng)自由度x、y、z和三個(gè)轉動(dòng)自由度a、b、q。如果剛體運動(dòng)存在某些限制條件,自由度會(huì )相應減少。
熱力學(xué)中:分子運動(dòng)自由度就是決定一個(gè)分子在空間的位置所需要的獨立坐標數目。
統計學(xué)中:在統計模型中,自由度指樣本中可以自由變動(dòng)的變量的個(gè)數,當有約束條件時(shí),自由度減少自由度計算公式:自由度=樣本個(gè)數-樣本數據受約束條件的個(gè)數,即df = n - k(df自由度,n樣本個(gè)數,k約束條件個(gè)數)
我們當然最關(guān)心的還是統計學(xué)里面的自由度的概念。這里自由度的概念是怎么來(lái)的呢?據說(shuō):
一般總體方差(sigma^2),其實(shí)它是衡量所有數據對于中心位置(總體平均)平均差異的概念,所以也稱(chēng)為離散程度,通常表示為sum(Xi-Xbar)^1/2/N ,(有多少個(gè)數據就除多少)而樣本方差(S^2),則是利用樣本數據所計算出來(lái)估計總體變異用的(樣本統計量的基本目的:少量資料估計總體).一般習慣上,總體怎么算,樣本就怎么算,可是在統計上估計量(或叫樣本統計量)必須符合一個(gè)特性--無(wú)偏性,也就是估計量的數學(xué)期望值要等于被估計的總體參數=> E(S^2)=sigma^2(無(wú)偏估計)。很不幸的,樣本變異數E(S^2)并不會(huì )等于sigma^2所以必須做修正,而修正后即為sum(Xi-Xbar)^2/(N-1).才會(huì )繼續帶出后來(lái)的自由度概念。(自由度是由修正樣本統計量得來(lái)的嗎?)
網(wǎng)上一些文獻的說(shuō)法也是林林總總。
金志成實(shí)驗設計書(shū)中的定義:能獨立變化的數據數目。只要有n-1個(gè)數確定,第n個(gè)值就確定了,它不能自由變化。所以自由度就是n-1。自由度表示的是一組數據可以自由表化的數量的多少。
通俗點(diǎn)說(shuō),一個(gè)班上有50個(gè)人,我們知道他們語(yǔ)文成績(jì)平均分為80,現在只需要知道49個(gè)人的成績(jì)就能推斷出剩下那個(gè)人的成績(jì)。你可以隨便報出49個(gè)人的成績(jì),但是最后一個(gè)人的你不能瞎說(shuō),因為平均分已經(jīng)固定下來(lái)了,自由度少一個(gè)了。
自由度的設定是出于這樣一個(gè)理由:在總體平均數未知時(shí),用樣本平均數去計算離差(常用小s)會(huì )受到一個(gè)限制————要計算標準差(小s)就必須先知道樣本平均數,而樣本平均數和n都知道的情況下,數據的總和就是一個(gè)常數了。所以,“最后一個(gè)”樣本數據就不可以變了,因為它要是變,總和就變了,而這是不允許的。至于有的自由度是n-2什么的,都是同樣道理。
n-1是通常的計算方法,更準確的講應該是n-k,n表示“處理”的數量,k表示實(shí)際需要計算的參數的數量。如需要計算2個(gè)參數,則數據里只有n-2個(gè)數據可以自由變化。例如,一組數據,平均數一定,則這組數據有n-1個(gè)數據可以自由變化;如一組數據平均數一定,標準差也一定,則有n-2個(gè)數據可以自由變化。df=n-k的得出是需要大量的數理統計的證明的。太復雜的情況,我們就不討論了。
對卡方分布,t分布而言,從其統計量的來(lái)源看,卡方分布自由度n理解為來(lái)自n個(gè)服從正態(tài)分布的樣本,而且他們之間并沒(méi)有什么約束關(guān)系,也就是說(shuō)n個(gè)樣本都是可以自由變化的。
而對于我們在統計檢驗中構造的那些統計量而言,也可以這樣理解,一般自由度并不為n,是因為這n個(gè)樣本之間有約束關(guān)系,約束方程的個(gè)數為a,則自由度為n-a,因為一般約束方程的個(gè)數等于未知參數的個(gè)數,也就是說(shuō)自由度是n-未知參數的個(gè)數,但是這種解釋在有些場(chǎng)合不容易理解,也沒(méi)有說(shuō)到本質(zhì)上,嚴格的解釋?xiě)撨€是從統計量對應的二次型的秩的角度來(lái)理解。
參見(jiàn)南開(kāi)大學(xué)王兆軍 數理統計講義 2006
或幾篇論文:
1、劉麗君,數理統計中的“自由度”及教材中一處證明的訂正,溫州師范學(xué)院學(xué)報(自然科學(xué)版),vol24,5,2003。
2、張宏廣,自由度的求法,承德民族師專(zhuān)學(xué)報,第26 卷第2 期,2006。
3、曲衛彬,淺談“自由度”,高校教育。
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請
點(diǎn)擊舉報。