国产又黄又a又潮娇喘视频_ 把貝葉斯、奧卡姆和香農約一塊兒，探討下機器學(xué)習的定義！

作者： Tirthajyoti Sarkar

機器學(xué)習是一個(gè)絕妙的想法，它將統計學(xué)、信息理論和哲學(xué)的概念聯(lián)系在一起。

介紹

有些令人驚訝的是，在機器學(xué)習的所有高級流行術(shù)語(yǔ)中，我們并沒(méi)有聽(tīng)到太多關(guān)于將統計學(xué)、信息理論、自然哲學(xué)的一些核心概念融合為三個(gè)單詞組成的短語(yǔ)。

并且，它不僅僅是一個(gè)機器學(xué)習（ML）博士和理論家采用的模糊和晦澀的術(shù)語(yǔ)。對于任何有興趣探索的人來(lái)說(shuō)，它都具有精確且易于訪(fǎng)問(wèn)的意義，并為機器學(xué)習和數據科學(xué)的從業(yè)者提供實(shí)際的回報。

我在探討最簡(jiǎn)練的描述。而你可能在想這到底是什么…

讓我們了解一下它將是多么有用......

貝葉斯及其定理

我們先從托馬斯·貝葉斯（Thomas Bayes）開(kāi)始（這不是按時(shí)間順序），順便說(shuō)一下，他從未發(fā)表過(guò)關(guān)于如何進(jìn)行統計推斷的想法，但后來(lái)因為同名定理而聞名于世。

在18世紀下半葉，并沒(méi)有數學(xué)科學(xué)的分支稱(chēng)之為'概率論'。它只是簡(jiǎn)單地被稱(chēng)為一種奇怪的'機會(huì )主義'，這以亞伯拉罕·德·莫伊弗雷的一本書(shū)命名。一篇名為'關(guān)于解決機會(huì )問(wèn)題的文章'（Doctrine of Chances），貝葉斯首先提出，由他的朋友理查德·普萊斯編輯和修改，并發(fā)表在倫敦皇家學(xué)會(huì )的哲學(xué)交易中。在這篇文章中，貝葉斯以一種相當頻繁的方式描述了關(guān)于聯(lián)合概率的簡(jiǎn)單定理，該定理導致逆概率的計算，即貝葉斯定理。

自那時(shí)以來(lái)，統計科學(xué)的兩個(gè)派別 - 貝葉斯和Frequntists兩派之間開(kāi)展了許多爭論。但是為了本文的目的，讓我們暫時(shí)忽略這段歷史，并專(zhuān)注于貝葉斯推理機制的簡(jiǎn)單解釋。有關(guān)該主題的直觀(guān)介紹，請參閱Brandon Rohrer的這篇精彩教程，雖然我只關(guān)心方程式。

這基本上告訴你在看到數據/證據（可能性）后更新你的信念（先驗概率），并將更新的信念度分配給術(shù)語(yǔ)后驗概率。你可以從一個(gè)信念開(kāi)始，但每個(gè)數據點(diǎn)都會(huì )強化或削弱這種信念，并且將會(huì )一直更新你的假設。

聽(tīng)起來(lái)是不是簡(jiǎn)單直觀(guān)？

我在段落的最后一句中有一個(gè)用詞，你注意到了嗎？我提到'假設'一詞。這不是我進(jìn)行的假設，而是正式的說(shuō)法。

在統計推斷的世界中，假設是一種信念。它是關(guān)于過(guò)程的真實(shí)性質(zhì)（人們永遠無(wú)法觀(guān)察到）的信念，即產(chǎn)生隨機變量的背后（我們可以觀(guān)察或測量，盡管并不是沒(méi)有噪聲）。在統計中，它通常被定義為概率分布。但是在機器學(xué)習的背景下，可以考慮任何一組規則（或邏輯或過(guò)程），我們認為這些規則可以產(chǎn)生示例或訓練數據，我們可以學(xué)習這個(gè)神秘過(guò)程的隱藏性質(zhì)。

因此，讓我們嘗試采用不同的符號重構貝葉斯定理，這些是與數據科學(xué)有關(guān)的符號。讓我們用d表示數據，用h表示假設。這意味著(zhù)我們應用貝葉斯的公式來(lái)嘗試確定數據來(lái)自哪個(gè)假設，給定數據。我們把定理改寫(xiě)為，

現在，一般來(lái)說(shuō)，我們有一個(gè)很大的（通常是無(wú)限的）假設空間，即許多假設可供選擇。貝葉斯推斷的本質(zhì)是我們想要檢查數據以最大化一個(gè)假設的概率，該假設最有可能產(chǎn)生觀(guān)察到的數據。我們想要確定P（h | D）的argmax，即我們想知道哪個(gè)h，觀(guān)察到的D是最可能的。為此，我們可以安全地將該術(shù)語(yǔ)放在分母P（D）中，因為它不依賴(lài)于假設。該方案通過(guò)很拗口的最大后驗概率（MAP）名稱(chēng)而為人所知。

現在，我們應用以下數學(xué)技巧，

·最大化對于對數與原始函數同樣有效，即采用對數不會(huì )改變最大化問(wèn)題。

·乘積的對數是各個(gè)對數的總和

·數量的最大化等同于負數的最小化

是不是很好奇 ......那些負對數為2的術(shù)語(yǔ)看起來(lái)很熟悉......這來(lái)自信息論！

那么以下了解一下克勞德·香農。

香農

描述克勞德·香農（Claude Shannon）的天才和生活將需要很多文章篇幅。而克勞德·香農幾乎單槍匹馬地奠定了信息理論的基礎，并引領(lǐng)人們進(jìn)入現代高速通信和信息交流的時(shí)代。

香農的麻省理工學(xué)院(MIT)電氣工程碩士論文被稱(chēng)為20世紀最重要的碩士論文：當時(shí)22歲的香農展示了如何利用繼電器和開(kāi)關(guān)的電子電路實(shí)現19世紀數學(xué)家喬治·布爾的邏輯代數。數字計算機設計的最基本特征，也就是將'真'和'假'、'0'和'1'表示為開(kāi)關(guān)或閉合開(kāi)關(guān)，以及使用電子邏輯門(mén)進(jìn)行決策和執行算術(shù)，這可以追溯到香農論文中的見(jiàn)解。

但這只是他最偉大的成就之一。

1941年，香農加入貝爾實(shí)驗室，在那里他從事有關(guān)戰爭事務(wù)的研究，包括密碼學(xué)。他還在研究信息和通信背后的原始理論。1948年，這項工作出現在貝爾實(shí)驗室研究期刊上發(fā)表的一篇廣受好評的論文中。

香農通過(guò)類(lèi)似于定義物理學(xué)中熱力學(xué)熵的方程式來(lái)定義信息源產(chǎn)生的信息量。例如，消息中的數量。在最基本的術(shù)語(yǔ)中，香農的信息熵是編碼消息所需的二進(jìn)制數字的數量。并且對于具有概率p的消息或事件，該消息的最有效（即緊湊）編碼將需要-log2（p）比特。

而這正是出現在貝葉斯定理中的最大后驗表達式中出現的那些術(shù)語(yǔ)的本質(zhì)！

因此，我們可以說(shuō)，在貝葉斯推理的世界中，最可能的假設取決于兩個(gè)引起長(cháng)度感覺(jué)的術(shù)語(yǔ) - 而不是最小化Length (h)。

但那些長(cháng)度的概念可能是什么呢？

Length (h)：奧卡姆的剃刀

奧卡姆（威廉William of Ockham）（1287-1347）是英國圣方濟各修士和神學(xué)家，也是一位有影響力的中世紀哲學(xué)家。他作為一個(gè)偉大的邏輯學(xué)家而聞名于世主要取決于他所說(shuō)的格言，被稱(chēng)之為奧卡姆剃刀。術(shù)語(yǔ)剃刀是指通過(guò)'剃掉'不必要的假設或分割兩個(gè)類(lèi)似的結論來(lái)區分兩個(gè)假設。

歸于他的確切詞匯是：entia non sunt multiplicanda praeter necessitatem（如無(wú)必要，勿增實(shí)體）。用統計學(xué)的說(shuō)法，這意味著(zhù)人們必須努力用最簡(jiǎn)單的假設來(lái)解釋所有數據。

其他著(zhù)名學(xué)者也回應了類(lèi)似的原則。

伊薩克·牛頓爵士（Sir Issac Newton）：'我們應該承認,尋求自然事物的原因,不得超出真實(shí)和足以解釋其現象者。'

伯特蘭·阿瑟·威廉·羅素（Bertrand Russell）：'只要可能,就用由已知實(shí)體組成的構造來(lái)代替推導出未知實(shí)體的推論'。

總是喜歡較短的假設。

需要一個(gè)關(guān)于假設的長(cháng)度的例子嗎？

以下哪個(gè)決策樹(shù)的長(cháng)度較短？ A還是B？

即使沒(méi)有對假設的'長(cháng)度'的精確定義，我相信你會(huì )認為左邊的樹(shù)（A）看起來(lái)更小或更短。當然，你是對的。因此，較短的假設是具有較少的自由參數，或復雜較小的決策邊界（對于分類(lèi)問(wèn)題），或這些屬性的某種組合，其可以表示其簡(jiǎn)潔性。

那么''Length(D|h)'是什么？

給定假設是數據的長(cháng)度。這意味著(zhù)什么？

在直覺(jué)上，它與假設的正確性或表征能力有關(guān)。除其他事項外，它還包含一個(gè)假設，即'推斷'數據的好壞程度。如果假設真的很好地生成數據并且可以無(wú)錯誤地測量數據，那么我們根本不需要數據。

想一想牛頓的運動(dòng)定律。

當這些理論首次出現在《科學(xué)溯源》（Principia）時(shí)，并沒(méi)有任何嚴格的數學(xué)證明。它們不是定理。根據對自然體運動(dòng)的觀(guān)察，它們很像假設。但是這些理論真的很好地描述了數據。因此，他們成為了物理定律。

這就是為什么你不需要記憶所有的加速度數字，并作為施加在物體上的力的函數的原因。你只相信這個(gè)緊湊的假設，即F=ma定律，并且相信你需要的所有數字，只要在必要時(shí)就可以從中計算。它使Length(D|h)非常小。

但是，如果數據與緊湊假設相差很大，那么你需要對這些偏差可能的解釋進(jìn)行長(cháng)時(shí)間的描述。

因此，Length(D|h)簡(jiǎn)潔地捕捉了'數據與給定假設的擬合程度'的概念。

本質(zhì)上，它是錯誤分類(lèi)或錯誤率的概念。對于一個(gè)完美的假設，它是短的，在極限情況下為零。對于一個(gè)不完全符合數據的假設，它往往是很長(cháng)的。

這就是權衡。

如果你用奧卡姆的剃須刀剃掉你的假設，你可能會(huì )留下一個(gè)簡(jiǎn)單的模型，一個(gè)不能適應所有數據的模型。因此，你必須提供更多的數據來(lái)獲得更好的信心。另一方面，如果你創(chuàng )建了一個(gè)復雜（且很長(cháng)）的假設，那么你可能真的能夠很好地擬合您的訓練數據，但是這實(shí)際上可能不是正確的假設，因為它違背了具有小熵假設的MAP原則。

聽(tīng)起來(lái)像一個(gè)偏差方差權衡？是的。

把它們放在一起

因此，貝葉斯推斷告訴我們，最佳假設是最小化假設長(cháng)度和錯誤率這兩個(gè)項之和的假設。

在這個(gè)深刻的句子中，它幾乎捕獲了所有（受監督的）機器學(xué)習。

想想它的后果，

·線(xiàn)性模型的模型復雜度 - 選擇多項式的程度，如何減少平方和殘差。

·選擇神經(jīng)網(wǎng)絡(luò )的體系結構 - 如何不過(guò)度擬合訓練數據并獲得良好的驗證準確性，但減少分類(lèi)錯誤。

·支持向量機正則化和軟邊界與硬邊界之間的平衡的內核選擇，即利用決策邊界非線(xiàn)性來(lái)權衡精度。

總結與思考

一個(gè)奇妙的事實(shí)是，在概率論的基本恒等式進(jìn)行這樣一套簡(jiǎn)單的數學(xué)操作可以導致對監督機器學(xué)習的基本限制和目標進(jìn)行如此深刻和簡(jiǎn)潔的描述。對于這些問(wèn)題的簡(jiǎn)要處理，讀者可以參考卡內基梅隆大學(xué)的博士論文'為什么采用機器學(xué)習'。

同樣值得思考的是，所有這些都與'沒(méi)有免費午餐定理'有關(guān)。https://en.wikipedia.org/wiki/No_free_lunch_theorem

如果你對這個(gè)領(lǐng)域有更深層次的興趣，可以參閱：

1.'沒(méi)有免費午餐和最小描述長(cháng)度'

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.160.798&rep=rep1&type=pdf

2.'在監督學(xué)習中沒(méi)有免費午餐與奧卡姆剃刀'

https://pdfs.semanticscholar.org/83cd/86c2c7e507e8ebba9563a9efaba7c966a1b3.pdf

3.'沒(méi)有免費午餐和問(wèn)題描述長(cháng)度'www.no-free-lunch.org/ScVW01.pdf

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久