數理統計中有頻率學(xué)派和貝葉斯學(xué)派之分。關(guān)于兩者的差異,眾說(shuō)紛紜,網(wǎng)上博客、知乎有專(zhuān)門(mén)的討論。
然而,從更高的哲學(xué)上看待這個(gè)問(wèn)題,就會(huì )發(fā)覺(jué),貝葉斯論和頻率論的真正區別在于人們如何解釋概率之間的哲學(xué)差異。本文將透徹分析貝葉斯背后的哲學(xué)與數學(xué)思想。讓大家從一個(gè)更高的視角來(lái)把應用貝葉斯思想及推理,不光是應用于機器學(xué)習算法,還能指導工作生活。
將A視為關(guān)于世界的一些命題,將B視為一些數據或證據。例如,A代表今天下雨的命題,B代表外面人行道潮濕的證據,那么分析一下這個(gè)貝葉斯推理過(guò)程的思想。
p(雨|濕) 問(wèn)道,'外面潮濕,下雨的幾率是多少?' 為了評估這個(gè)問(wèn)題,讓我們來(lái)看看方程式的右側。在看地面之前,下雨的概率是多少, p(下雨)?將此視為對世界的假設的合理性。然后我們問(wèn)在這個(gè)假設下,外面潮濕的觀(guān)察有多少可能性, 即p(潮濕|下雨)?根據證據,這個(gè)過(guò)程有效地更新了我們對一個(gè)命題的初步信念,在一些觀(guān)察的支持下最終衡量了降雨的合理性。
我們的初始信念由先驗分布p(下雨)表示,我們的最終信念由后驗分布p(雨|濕)表示。分母只是問(wèn):'證據的總合理性是多少?',我們必須考慮所有假設,以確保后驗是一個(gè)合適的概率分布。
這種思維方式可以幫助你擺脫對世界的黑白解釋?zhuān)皇峭ㄟ^(guò)概率鏡頭來(lái)觀(guān)察事物和解釋。
從一個(gè)基于證據的世界觀(guān)開(kāi)始,如果引入新證據,你的初始世界觀(guān)的概率會(huì )發(fā)生變化。
貝葉斯定理本質(zhì):
貝葉斯定理是一種基于最佳可用證據(觀(guān)察,數據,信息)計算信念(假設,主張,命題)的有效性的方法。最本真的描述:最初的信念加上新的證據=新的和改進(jìn)的信念。
所以你對自己信仰的確定性并不是固定的,而是流動(dòng)的、可塑的。您應該能夠根據新證據修改您的意見(jiàn)。
辯證法強調不要靜止的看問(wèn)題,要動(dòng)態(tài)的看問(wèn)題。所以為突出強調動(dòng)態(tài)看問(wèn)題的哲學(xué)思想,進(jìn)一步的描述為:
我們用客觀(guān)信息修改我們的觀(guān)點(diǎn):初始信念+最近的客觀(guān)數據=新的和改進(jìn)的信念。每次重新計算系統時(shí),后驗都成為新迭代的先驗。這是一個(gè)不斷發(fā)展的系統,每一點(diǎn)新信息都越來(lái)越接近于確定性。
這種思維方式可以幫助人們減少確認偏差的影響,從而開(kāi)啟對新可能性的看法。
貝葉斯推理過(guò)程,是一個(gè)不斷修正的趨近于真理的過(guò)程。
貝葉斯定理的另一個(gè)用法是判斷一個(gè)假設發(fā)生在另一個(gè)假設上的可能性。
中心前提是第一原則,即這個(gè)世界上大多數事物都是不確定的。很多時(shí)候你沒(méi)有完美的信息,你不知道一切,你需要做出推論。
貝葉斯定理,在一個(gè)充滿(mǎn)不確定性的世界中,為我們的決策提供信息。隨著(zhù)新信息的出現,需要反思這些新證據如何改變對事物的看法,然后根據它進(jìn)行修正。
伯茨麥格雷恩有一個(gè)對貝葉斯的經(jīng)典陳述:
貝葉斯堅信,現代科學(xué)需要客觀(guān)性和精確性。貝葉斯是信仰的衡量標準。它說(shuō)我們甚至可以從缺失和不充分的數據,近似和無(wú)知中學(xué)到東西。
隨著(zhù)人們開(kāi)始認識到人類(lèi)思考和決策方式的固有不完善性,貝葉斯思想的應用正在不斷增長(cháng)。
很長(cháng)一段時(shí)間,經(jīng)典的經(jīng)濟學(xué)模型將人視為理性行為者,在開(kāi)明的自我利益的基礎上做出決策是完美的。現在我們開(kāi)始意識到這種觀(guān)點(diǎn)是有缺陷的,相反,人類(lèi)行為經(jīng)濟學(xué)作為認知偏見(jiàn)的犧牲品的觀(guān)點(diǎn)正變得越來(lái)越普遍。
貝葉斯思維也是我們學(xué)習方法的一個(gè)很好的近似。納特·西爾弗在《信號與噪音》中說(shuō):
' 相反,它(貝葉斯定理)是一種在數學(xué)和哲學(xué)上表達我們如何了解宇宙的聲明:我們通過(guò)近似來(lái)了解它,在我們收集更多證據時(shí)越來(lái)越接近真相。'
貝葉斯推理是非常強大的工具,可用于對任何隨機變量進(jìn)行建模,例如回歸參數的值、人口統計數據、業(yè)務(wù)KPI或單詞的詞性。對于在機器學(xué)習建模中當數據有限、擔心過(guò)擬合等情況下更有非常有用。
接下來(lái)通過(guò)高斯分布估計來(lái)講解貝葉斯在應用于參數估計中的數學(xué)思想與方法。
在分布參數前提下的數據的概率:條件概率分布
假設我們給出了高斯隨機變量X的樣本數據集,D = {x1,...,xN},并且給出數據的方差是σ2
我們對μ的最佳猜測是什么?這里假設數據是獨立的并且分布相同。
把高斯分布寫(xiě)成似然函數的形式如下,就是在當前參數下數據發(fā)生的概率密度函數:
我們希望選擇最大化此表達式的μ。
貝葉斯概率
對于上邊高斯分布參數估計,我們用貝葉斯定理的思想解決,我們的目的是求得參數,換作概率的表達就是,求在參數d的概率條件下的θ的概率,即p(θ|d):

p(d|θ)是似然函數,概率的形式,實(shí)質(zhì)上就是上文中寫(xiě)成條件概率形式的概率密度函數。p(θ)
是先驗概率(先前的信念)。

歸一化常數,也就是證據的總合理性量度,必須考慮所有假設。p(θ|d)是后驗分布,在面對數據時(shí)重新調整我們先前的信念(先驗概率)。
這樣,我們就把一個(gè)求取參數的過(guò)程轉化為貝葉斯定理的求解過(guò)程。
最大后驗概率估計MAP
在高斯分布估計中,假設我們事先認為某個(gè)隨機變量X的平均值是μ0,我們的信念的方差是σ02,然后我們給出X的樣本數據集,d = {x1,...,xN},如下圖所示,并且以某種方式知道數據的方差是σ2,本文只給出求取一個(gè)參數的情況。
現在求后驗分布參數μ?

上面的假設,已知知道高斯分布兩個(gè)參數如下,即先驗。

根據貝葉斯概率,我們所求即為:

p(d|u)是似然函數,如下圖所示:


p(u)是μ的先驗概率:

后驗概率可寫(xiě)為:

根據兩個(gè)高斯分布的乘積也是高斯分布,后驗概率也是高斯:


通過(guò)變換形式,最后得到:


聯(lián)系客服