作者: Tirthajyoti Sarkar
機器學(xué)習是一個(gè)絕妙的想法,它將統計學(xué)、信息理論和哲學(xué)的概念聯(lián)系在一起。
介紹
有些令人驚訝的是,在機器學(xué)習的所有高級流行術(shù)語(yǔ)中,我們并沒(méi)有聽(tīng)到太多關(guān)于將統計學(xué)、信息理論、自然哲學(xué)的一些核心概念融合為三個(gè)單詞組成的短語(yǔ)。
并且,它不僅僅是一個(gè)機器學(xué)習(ML)博士和理論家采用的模糊和晦澀的術(shù)語(yǔ)。對于任何有興趣探索的人來(lái)說(shuō),它都具有精確且易于訪(fǎng)問(wèn)的意義,并為機器學(xué)習和數據科學(xué)的從業(yè)者提供實(shí)際的回報。
我在探討最簡(jiǎn)練的描述。而你可能在想這到底是什么…
讓我們了解一下它將是多么有用......
貝葉斯及其定理
我們先從托馬斯·貝葉斯(Thomas Bayes)開(kāi)始(這不是按時(shí)間順序),順便說(shuō)一下,他從未發(fā)表過(guò)關(guān)于如何進(jìn)行統計推斷的想法,但后來(lái)因為同名定理而聞名于世。
在18世紀下半葉,并沒(méi)有數學(xué)科學(xué)的分支稱(chēng)之為'概率論'。它只是簡(jiǎn)單地被稱(chēng)為一種奇怪的'機會(huì )主義',這以亞伯拉罕·德·莫伊弗雷的一本書(shū)命名。一篇名為'關(guān)于解決機會(huì )問(wèn)題的文章'(Doctrine of Chances),貝葉斯首先提出,由他的朋友理查德·普萊斯編輯和修改,并發(fā)表在倫敦皇家學(xué)會(huì )的哲學(xué)交易中。在這篇文章中,貝葉斯以一種相當頻繁的方式描述了關(guān)于聯(lián)合概率的簡(jiǎn)單定理,該定理導致逆概率的計算,即貝葉斯定理。
自那時(shí)以來(lái),統計科學(xué)的兩個(gè)派別 - 貝葉斯和Frequntists兩派之間開(kāi)展了許多爭論。但是為了本文的目的,讓我們暫時(shí)忽略這段歷史,并專(zhuān)注于貝葉斯推理機制的簡(jiǎn)單解釋。有關(guān)該主題的直觀(guān)介紹,請參閱Brandon Rohrer的這篇精彩教程,雖然我只關(guān)心方程式。
這基本上告訴你在看到數據/證據(可能性)后更新你的信念(先驗概率),并將更新的信念度分配給術(shù)語(yǔ)后驗概率。你可以從一個(gè)信念開(kāi)始,但每個(gè)數據點(diǎn)都會(huì )強化或削弱這種信念,并且將會(huì )一直更新你的假設。
聽(tīng)起來(lái)是不是簡(jiǎn)單直觀(guān)?
我在段落的最后一句中有一個(gè)用詞,你注意到了嗎?我提到'假設'一詞。這不是我進(jìn)行的假設,而是正式的說(shuō)法。
在統計推斷的世界中,假設是一種信念。它是關(guān)于過(guò)程的真實(shí)性質(zhì)(人們永遠無(wú)法觀(guān)察到)的信念,即產(chǎn)生隨機變量的背后(我們可以觀(guān)察或測量,盡管并不是沒(méi)有噪聲)。在統計中,它通常被定義為概率分布。但是在機器學(xué)習的背景下,可以考慮任何一組規則(或邏輯或過(guò)程),我們認為這些規則可以產(chǎn)生示例或訓練數據,我們可以學(xué)習這個(gè)神秘過(guò)程的隱藏性質(zhì)。
因此,讓我們嘗試采用不同的符號重構貝葉斯定理,這些是與數據科學(xué)有關(guān)的符號。讓我們用d表示數據,用h表示假設。這意味著(zhù)我們應用貝葉斯的公式來(lái)嘗試確定數據來(lái)自哪個(gè)假設,給定數據。我們把定理改寫(xiě)為,
現在,一般來(lái)說(shuō),我們有一個(gè)很大的(通常是無(wú)限的)假設空間,即許多假設可供選擇。貝葉斯推斷的本質(zhì)是我們想要檢查數據以最大化一個(gè)假設的概率,該假設最有可能產(chǎn)生觀(guān)察到的數據。我們想要確定P(h | D)的argmax,即我們想知道哪個(gè)h,觀(guān)察到的D是最可能的。為此,我們可以安全地將該術(shù)語(yǔ)放在分母P(D)中,因為它不依賴(lài)于假設。該方案通過(guò)很拗口的最大后驗概率(MAP)名稱(chēng)而為人所知。
現在,我們應用以下數學(xué)技巧,
·最大化對于對數與原始函數同樣有效,即采用對數不會(huì )改變最大化問(wèn)題。
·乘積的對數是各個(gè)對數的總和
·數量的最大化等同于負數的最小化
是不是很好奇 ......那些負對數為2的術(shù)語(yǔ)看起來(lái)很熟悉......這來(lái)自信息論!
那么以下了解一下克勞德·香農。
香農
描述克勞德·香農(Claude Shannon)的天才和生活將需要很多文章篇幅。而克勞德·香農幾乎單槍匹馬地奠定了信息理論的基礎,并引領(lǐng)人們進(jìn)入現代高速通信和信息交流的時(shí)代。
香農的麻省理工學(xué)院(MIT)電氣工程碩士論文被稱(chēng)為20世紀最重要的碩士論文:當時(shí)22歲的香農展示了如何利用繼電器和開(kāi)關(guān)的電子電路實(shí)現19世紀數學(xué)家喬治·布爾的邏輯代數。數字計算機設計的最基本特征,也就是將'真'和'假'、'0'和'1'表示為開(kāi)關(guān)或閉合開(kāi)關(guān),以及使用電子邏輯門(mén)進(jìn)行決策和執行算術(shù),這可以追溯到香農論文中的見(jiàn)解。
但這只是他最偉大的成就之一。
1941年,香農加入貝爾實(shí)驗室,在那里他從事有關(guān)戰爭事務(wù)的研究,包括密碼學(xué)。他還在研究信息和通信背后的原始理論。1948年,這項工作出現在貝爾實(shí)驗室研究期刊上發(fā)表的一篇廣受好評的論文中。
香農通過(guò)類(lèi)似于定義物理學(xué)中熱力學(xué)熵的方程式來(lái)定義信息源產(chǎn)生的信息量。例如,消息中的數量。在最基本的術(shù)語(yǔ)中,香農的信息熵是編碼消息所需的二進(jìn)制數字的數量。并且對于具有概率p的消息或事件,該消息的最有效(即緊湊)編碼將需要-log2(p)比特。
而這正是出現在貝葉斯定理中的最大后驗表達式中出現的那些術(shù)語(yǔ)的本質(zhì)!
因此,我們可以說(shuō),在貝葉斯推理的世界中,最可能的假設取決于兩個(gè)引起長(cháng)度感覺(jué)的術(shù)語(yǔ) - 而不是最小化Length (h)。

但那些長(cháng)度的概念可能是什么呢?
Length (h):奧卡姆的剃刀
奧卡姆(威廉William of Ockham)(1287-1347)是英國圣方濟各修士和神學(xué)家,也是一位有影響力的中世紀哲學(xué)家。他作為一個(gè)偉大的邏輯學(xué)家而聞名于世主要取決于他所說(shuō)的格言,被稱(chēng)之為奧卡姆剃刀。術(shù)語(yǔ)剃刀是指通過(guò)'剃掉'不必要的假設或分割兩個(gè)類(lèi)似的結論來(lái)區分兩個(gè)假設。
歸于他的確切詞匯是:entia non sunt multiplicanda praeter necessitatem(如無(wú)必要,勿增實(shí)體)。用統計學(xué)的說(shuō)法,這意味著(zhù)人們必須努力用最簡(jiǎn)單的假設來(lái)解釋所有數據。
其他著(zhù)名學(xué)者也回應了類(lèi)似的原則。
伊薩克·牛頓爵士(Sir Issac Newton):'我們應該承認,尋求自然事物的原因,不得超出真實(shí)和足以解釋其現象者。'
伯特蘭·阿瑟·威廉·羅素(Bertrand Russell):'只要可能,就用由已知實(shí)體組成的構造來(lái)代替推導出未知實(shí)體的推論'。
總是喜歡較短的假設。
需要一個(gè)關(guān)于假設的長(cháng)度的例子嗎?
以下哪個(gè)決策樹(shù)的長(cháng)度較短? A還是B?

即使沒(méi)有對假設的'長(cháng)度'的精確定義,我相信你會(huì )認為左邊的樹(shù)(A)看起來(lái)更小或更短。當然,你是對的。因此,較短的假設是具有較少的自由參數,或復雜較小的決策邊界(對于分類(lèi)問(wèn)題),或這些屬性的某種組合,其可以表示其簡(jiǎn)潔性。
那么''Length(D|h)'是什么?
給定假設是數據的長(cháng)度。這意味著(zhù)什么?
在直覺(jué)上,它與假設的正確性或表征能力有關(guān)。除其他事項外,它還包含一個(gè)假設,即'推斷'數據的好壞程度。如果假設真的很好地生成數據并且可以無(wú)錯誤地測量數據,那么我們根本不需要數據。
想一想牛頓的運動(dòng)定律。
當這些理論首次出現在《科學(xué)溯源》(Principia)時(shí),并沒(méi)有任何嚴格的數學(xué)證明。它們不是定理。根據對自然體運動(dòng)的觀(guān)察,它們很像假設。但是這些理論真的很好地描述了數據。因此,他們成為了物理定律。
這就是為什么你不需要記憶所有的加速度數字,并作為施加在物體上的力的函數的原因。你只相信這個(gè)緊湊的假設,即F=ma定律,并且相信你需要的所有數字,只要在必要時(shí)就可以從中計算。它使Length(D|h)非常小。
但是,如果數據與緊湊假設相差很大,那么你需要對這些偏差可能的解釋進(jìn)行長(cháng)時(shí)間的描述。
因此,Length(D|h)簡(jiǎn)潔地捕捉了'數據與給定假設的擬合程度'的概念。
本質(zhì)上,它是錯誤分類(lèi)或錯誤率的概念。對于一個(gè)完美的假設,它是短的,在極限情況下為零。對于一個(gè)不完全符合數據的假設,它往往是很長(cháng)的。
這就是權衡。
如果你用奧卡姆的剃須刀剃掉你的假設,你可能會(huì )留下一個(gè)簡(jiǎn)單的模型,一個(gè)不能適應所有數據的模型。因此,你必須提供更多的數據來(lái)獲得更好的信心。另一方面,如果你創(chuàng )建了一個(gè)復雜(且很長(cháng))的假設,那么你可能真的能夠很好地擬合您的訓練數據,但是這實(shí)際上可能不是正確的假設,因為它違背了具有小熵假設的MAP原則。
聽(tīng)起來(lái)像一個(gè)偏差方差權衡?是的。

把它們放在一起
因此,貝葉斯推斷告訴我們,最佳假設是最小化假設長(cháng)度和錯誤率這兩個(gè)項之和的假設。
在這個(gè)深刻的句子中,它幾乎捕獲了所有(受監督的)機器學(xué)習。
想想它的后果,
·線(xiàn)性模型的模型復雜度 - 選擇多項式的程度,如何減少平方和殘差。
·選擇神經(jīng)網(wǎng)絡(luò )的體系結構 - 如何不過(guò)度擬合訓練數據并獲得良好的驗證準確性,但減少分類(lèi)錯誤。
·支持向量機正則化和軟邊界與硬邊界之間的平衡的內核選擇,即利用決策邊界非線(xiàn)性來(lái)權衡精度。
總結與思考
一個(gè)奇妙的事實(shí)是,在概率論的基本恒等式進(jìn)行這樣一套簡(jiǎn)單的數學(xué)操作可以導致對監督機器學(xué)習的基本限制和目標進(jìn)行如此深刻和簡(jiǎn)潔的描述。對于這些問(wèn)題的簡(jiǎn)要處理,讀者可以參考卡內基梅隆大學(xué)的博士論文'為什么采用機器學(xué)習'。
同樣值得思考的是,所有這些都與'沒(méi)有免費午餐定理'有關(guān)。https://en.wikipedia.org/wiki/No_free_lunch_theorem
如果你對這個(gè)領(lǐng)域有更深層次的興趣,可以參閱:
1.'沒(méi)有免費午餐和最小描述長(cháng)度'
citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.160.798&rep=rep1&type=pdf
2.'在監督學(xué)習中沒(méi)有免費午餐與奧卡姆剃刀'
https://pdfs.semanticscholar.org/83cd/86c2c7e507e8ebba9563a9efaba7c966a1b3.pdf
3.'沒(méi)有免費午餐和問(wèn)題描述長(cháng)度'www.no-free-lunch.org/ScVW01.pdf
聯(lián)系客服