寫(xiě)在前面
本科水平的理解,希望寫(xiě)些東西對得起自己所喜愛(ài)的東西。希望能在這塊能繼續加強統計和計量的學(xué)習,在以后的工作中能運用到,提高工作中專(zhuān)業(yè)素質(zhì)。我不想談理論的,主要的原因是我不懂,其次是不感興趣。但應用計量也不是這么好學(xué),免得理論計量學(xué)者都去弄應用的了。
計量其實(shí)就是個(gè)工具,其實(shí)但凡涉及到應用的,核心的不是技術(shù),而是思想。有了計算機后,不怕不能實(shí)現,只怕你沒(méi)想到該怎么做。所以加強對自己學(xué)科問(wèn)題的理解,提出一個(gè)好問(wèn)題永遠比用了一個(gè)好技術(shù)重要的多,起碼我是這樣評價(jià)的。在技術(shù)運用中思想也是很重要的,比如計量中變量的選取就不在于技術(shù)在于思想。
一、回歸的細節
1.為什么選擇回歸
其實(shí)如果一上來(lái)就用計量經(jīng)濟學(xué)或者用回歸,是會(huì )讓人有些摸不著(zhù)頭腦。但如果從期望函數入手去理解回歸,或許回歸是有些意義的。不敢說(shuō)計量能在多大程度上解釋因果性(個(gè)人覺(jué)得這涉及到統計學(xué)科的哲學(xué)討論了),這點(diǎn)仁者見(jiàn)仁智者見(jiàn)智,但是對于預測,我們如果有涉獵統計的話(huà),那么期望無(wú)疑是對預測未來(lái)最好的術(shù)語(yǔ)了。
如果我們把一個(gè)未知的模式看成一個(gè)函數,那么預測未來(lái)我們需要一個(gè)期望函數(如果你i認為它還具有因果性的話(huà),那么這個(gè)期望函數應用則更廣)。而回歸是什么呢?
我看到一個(gè)比較好的說(shuō)法是:如果那個(gè)期望函數是線(xiàn)性的,那么回歸后得到的函數就是期望函數;如果那個(gè)函數不是線(xiàn)性的,那么回歸提供了最好的線(xiàn)性估計。
所以,回歸的作用在于,擬合期望函數。
(至于那些為發(fā)論文而用回歸的,或許他們有他們的理由吧)
不難發(fā)現,用回歸模型的例子很多,其實(shí)計量教科書(shū)上也介紹了很多模型,比如Probit,Tobit之類(lèi)的,為什么對于一些特殊的數據還要推薦用回歸,雖然那些模型能更好的擬合期望函數,其實(shí)用其他模型估計的值和回歸估計的值相差不多(這才是我們的目的);另外碰到運用工具變量和面板數據時(shí),這類(lèi)模型問(wèn)題更多。特別是異方差問(wèn)題,而在回歸模型中,這些都有公認的很好的解決方法。
2.學(xué)習應用計量中的回歸,需要注意什么(*只代表個(gè)人觀(guān)點(diǎn))
我們很多教科書(shū)都是從經(jīng)典假設入手,伍德里奇的書(shū)做了一些改進(jìn)(他的書(shū)起碼讓我明白這些假設有什么用)。但真正從實(shí)際研究中,個(gè)人覺(jué)得只要有能保證估計的一致性的假設就很好了(夸張一點(diǎn)。保證了是隨機得到就夠了)?;叵胍幌?,同方差一般很難保證的,而保證無(wú)偏性貌似意義不大。這就涉及到什么是一致性,什么是無(wú)偏性了?個(gè)人淺顯的理解,一致性能讓我們意識到如果樣本量不斷增加的話(huà),我們的估計總是不斷趨近于真值的。而無(wú)偏性的,其實(shí)只是個(gè)期望,這意味著(zhù)如果我們通過(guò)樣本得到足夠多的估計,然后再取平均,應該就是真值了。但是很少有人去做這樣的事,除非你的樣本集很多,可以分別去估計出很多值。如果你只是估計出一個(gè)值,那么無(wú)偏性好像是沒(méi)有太大用處的。
簡(jiǎn)而言之,如果你的數據是隨機得到的,那么你不用擔心太多,直接開(kāi)始計量回歸問(wèn)題是可以的,掠過(guò)一些假設問(wèn)題不大(如果覺(jué)得有問(wèn)題的話(huà),你可以去仔細學(xué),別忘了你學(xué)完那些假設后,你記得每次做回歸時(shí),檢驗你的數據是否滿(mǎn)足就才行,免得你的這個(gè)學(xué)習是沒(méi)意義的)
3.在回歸中一些實(shí)用的命令(基于stata)
對于經(jīng)典假設的檢驗(異方差,函數誤設,自相關(guān),正態(tài)性,異常觀(guān)測點(diǎn)等)
(待續.......)
其實(shí)下面說(shuō)的,stata手冊都有。但回想起當初本科的時(shí)候,有很多東西老師都沒(méi)教,故分享下。雖然這些檢驗就是一個(gè)命令的事。(在WORD弄的圖片復制不上來(lái),丫的)
個(gè)人覺(jué)得比較重要的檢驗就是函數形式誤設檢驗和異常觀(guān)測點(diǎn)的排除以及變量?jì)壬詸z驗(這涉及到工具變量法)。由于對經(jīng)典假設不感冒,對檢驗的喜好僅代表個(gè)人。
(回歸后)rvfplot,就可以了。
例:
可以從殘差圖可以看出很多東西,一般教科書(shū)都有教,這里就不廢話(huà)了。
一般教科書(shū)的異方差LM檢驗(想當初我們老師教的異方差LM檢驗,操作比較麻煩,其實(shí)人家編寫(xiě)人員早考慮到了)也就是estat hettest一個(gè)命令的事。
(回歸后)estat hottest
例:
如果是高次的異方差檢驗的話(huà)(如WHITE檢驗)
(回歸后)estat imtest即可
例
如果需要WHITE檢驗的,可以imtest white,這兩個(gè)對異方差的檢驗是相似的。
第二項 Skewness就是正態(tài)性的檢驗。
這里要說(shuō)一些個(gè)人覺(jué)得比較重要的題外話(huà),就如前面說(shuō)的,那些比較多的假設其實(shí)就多保證了無(wú)偏性,還有一個(gè)重要作用就是樣本方差公式在小樣本下也是成立的。但相比于那些假設,個(gè)人更愿意單純使用大樣本的漸進(jìn)性質(zhì)就得到有效的推斷。(對于小樣本,可以使用bootstrap,這個(gè)后面說(shuō)),這樣正態(tài)性檢驗就不是必須的了。
而對于異方差,個(gè)人更傾向于只要報告穩健標準誤即可,所謂異方差的加權修正模型,相比于其對標準誤的改進(jìn),如果在加權修正模型中存在著(zhù)殘差的估計偏誤和期望函數非線(xiàn)性帶來(lái)的誤差更大,建議不要隨意使用。就像不要盲目使用Probit之類(lèi)的非線(xiàn)性函數的原則一樣?!猅he principle of Occam’s razor所以異方差的檢驗個(gè)人覺(jué)得也不是必須的了,即無(wú)論是否有異方差報告穩健標準誤總是沒(méi)錯的。
(在期望函數的非線(xiàn)性導致異方差不只是像一般教科書(shū)說(shuō)的異方差這么簡(jiǎn)單,這當中涉及到一些數學(xué)推導,就不細說(shuō)了)
其實(shí)STATA是可以報告共線(xiàn)性導致膨脹系數的——VIF(反正以前上課就見(jiàn)書(shū)上有,老師沒(méi)教我們如何實(shí)現)
可以認為多重共線(xiàn)性會(huì )導致危害的判別標準:
最大的VIF大于10(或者30);MEAN VIF大于1
例:(回歸后)estate vif
然后用correlate命令找出相關(guān)性大的變量,刪除就可以了。
多重共線(xiàn)性和遺漏變量的取舍,伍德里奇的書(shū)有詳細說(shuō)明了,簡(jiǎn)而言之就是還是以不遺漏變量為準,多重共線(xiàn)性可以用大樣本解決,因為它只是影響了標準誤。
其實(shí)沒(méi)必要用杜賓檢驗的(限制太多),直接用LM檢驗即可。當初我們老師教的那個(gè)方法的麻煩呀,現在想想都煩。
(回歸后)estat bgodfrey, lags(1/2) ——lag(1/n)指的是滯后n期,你可以檢驗n期滯后的情況。
例:
(回歸后)estat ovtest
例:
如開(kāi)頭所言,還可以用圖片來(lái)觀(guān)測函數誤設。
(回歸后) cprplot XXX, mspline msopts(bands(10)) ——(XXX為懷疑存在高次項的變量名稱(chēng))
例:
如果兩條線(xiàn)重合度不高,就是存在高次項的證據。
異常點(diǎn)是個(gè)比較復雜的問(wèn)題。這樣說(shuō)吧,可以把回歸看成一種加權平均,權重就是方差。異常點(diǎn)會(huì )有較大的方差,對估計帶來(lái)偏誤。它的偵查也比較復雜。換個(gè)角度,可以求出某個(gè)觀(guān)測值對估計值的影響,然后以一定準則排除掉較大影響的觀(guān)測值即可(因為如果不是異常觀(guān)測點(diǎn),那正常點(diǎn)對估計的影響應該是差不多的)
這樣針對不同標準,會(huì )有不同的結果。STATA可以提供Leverage statistics,DFITS, Cook’s Distance, and Welsch Distance,COVRATIO,DFBETAs(DFBETAs可能是最直接衡量影響的變量指標,只有它是可以針對每個(gè)變量的系數,其他的都是針對整體的),回歸后,可以用predict來(lái)獲得這些指標,然后根據相關(guān)標準,列出異常觀(guān)測點(diǎn)。如:predict leverage, hat
上面說(shuō)到的列表檢驗方法技術(shù)性比較強,應該稍微看下理論再應用。想簡(jiǎn)單的可采用圖示法。
(回歸后)lvr2plot或者avplots
例:
通過(guò)這些圖應該可以很容易觀(guān)測出異常點(diǎn)了。編號后用mlabel(XXX)就可以顯示出異常點(diǎn)是哪個(gè)點(diǎn)(如下圖)
一般來(lái)說(shuō)還應該涉及變量?jì)壬缘臋z驗,但不懂應該把這個(gè)檢驗屬于回歸還是工具變量法,就不妄加議論了。
當然以上檢驗不能很好完全滿(mǎn)足各種數據的檢驗,對于時(shí)間序列數據我也不是很清楚哪些是必須的,還得多看看書(shū)。不過(guò)現在一般論文中出現的單位根、協(xié)整檢驗、穩定性檢驗、格蘭杰檢驗這些都是在STATA中可以很容易實(shí)現的。
一些后話(huà)
1.關(guān)于回歸結果的討論
我們需要點(diǎn)估計還是區間估計?
記得當初學(xué)習統計的時(shí)候,我對點(diǎn)估計就不怎么感興趣,因為畢竟是樣本推斷總體,區間估計似乎更具有說(shuō)服力。但是到計量這邊好像很多分析都立足于點(diǎn)估計的結果,可能是源于對于標準誤的不相信吧,呵呵。
BETA系數
當我們想比較各個(gè)解釋變量對被解釋變量的影響時(shí),一個(gè)比較好的方法就是將系數轉化為BETA系數,在STATA中實(shí)現方法是,(回歸后) regress, beta
小樣本問(wèn)題
不得不說(shuō)小樣本是我最不愿看到的,因為前面的推斷和估計都是建立在大樣本的漸進(jìn)性質(zhì)上的。對于小樣本我的說(shuō)法一般是,為什么不能多找些樣本呢?有這么難嗎,哎……
不過(guò)bootstrap還是能在一定程度上緩解一些小樣本問(wèn)題的(關(guān)鍵還是多找好樣本,bootstrap是治標不治本的辦法)
它是針對各種檢驗中出現的小樣本導致的不一致所設計的,但不意味著(zhù)你拿著(zhù)兩個(gè)樣本,然后用bootstrap命令就可以解決所有問(wèn)題。它的思想在于在你獲得的樣本中不斷反復重新抽樣,形成一個(gè)大樣本。一般來(lái)說(shuō),rep(重復) 50-250次就能保證標準誤了,而1000次就能有好的區間估計了。在均值比較和回歸中等涉及到檢驗時(shí)都可以運用。
2.關(guān)于學(xué)習計量的探討
對于應用計量來(lái)說(shuō),只看理論不用軟件(這是多數的)或者只重視軟件不重視理論這都是不足的。
如果只重視理論,你可以學(xué)到很多東西,但如果在實(shí)際中實(shí)現不了,那我就覺(jué)得是白學(xué)了,回歸的經(jīng)典假設學(xué)習就是一例,如果你只是會(huì )背,而不會(huì )在實(shí)踐中檢驗,那有什么意思。其實(shí)現在軟件已經(jīng)很強大了,我都懷疑還需要不需要學(xué)習編程,因為編出來(lái)的東西可能不是大家公認的,公認的方法軟件的貌似差不多都能實(shí)現了,而且是很容易的實(shí)現。
如果只重視軟件,你發(fā)現你可能是有很多都沒(méi)學(xué)會(huì ),甚至出現的一些問(wèn)題你可能都沒(méi)意識到或者沒(méi)法解決,特別是模型的假設,不重視假設你所用的方法可能從一開(kāi)始就是錯誤的。畢竟軟件中實(shí)現的過(guò)程和原理都來(lái)自于理論。一個(gè)例子就是在RE中的hauman檢驗中出現負值的情況和原因。
我的一個(gè)建議是,拿一本好書(shū)來(lái)學(xué),然后把書(shū)中涉及到的理論在STATA手冊搜索出相關(guān)內容自己實(shí)踐一遍。往往在軟件上一個(gè)復雜過(guò)程只是一個(gè)命令就解決了,理論上你得大概明白這個(gè)結果是怎樣來(lái)的(呵呵,對于大概的理解智者見(jiàn)智吧,看你是偏哪方面的)。反復看看伍德里奇的那本神書(shū)也是不錯的選擇。
3.有計量就夠了嗎?
答案顯然是否定的,我一直認為計量只是一個(gè)工具,不應該濫用。但是在中國問(wèn)題不僅僅是這么簡(jiǎn)單,在中國商界對于統計和計量的認識和運用是不足的(這有點(diǎn)類(lèi)似于金融創(chuàng )新)。
對你所運用的學(xué)科的理解決定了你使用工具所能達到的高度。舉例來(lái)說(shuō),比如變量的選?。╮eset檢驗不能解決所有問(wèn)題),假設A引致B,B引致C,你想探究A對C的影響,模型中應該包括B嗎?建議采用的原則是:我們感興趣的變量產(chǎn)生之前就決定的變量都是好的控制變量。另外工具變量法也涉及變量的選取,而這些都需要對相關(guān)學(xué)科加深理解。另外模型的解釋也是很關(guān)鍵的。計算機把分析過(guò)程變簡(jiǎn)單了,那么在解釋分析結果就應該給予更多的重視。計量只是告訴我們是不是有影響的問(wèn)題,而為什么影響、怎么樣影響的問(wèn)題還得用學(xué)科的理論來(lái)進(jìn)行解釋。
所以重視學(xué)科的學(xué)習和理解總是對于更好的運用計量工具是有好處的。
最后推薦一本雖然還沒(méi)來(lái)得及看的好書(shū)B(niǎo)aum, C. F. 2006. An Introduction to Modern Econometrics Using Stata.College Station,TX: Stata Press.
在STATA手冊中的References上很多好書(shū)也是值得一看的。
聯(lián)系客服