欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學(xué)習的定義!

作者: Tirthajyoti Sarkar

機器學(xué)習是一個(gè)絕妙的想法,它將統計學(xué)、信息理論和哲學(xué)的概念聯(lián)系在一起。

介紹

有些令人驚訝的是,在機器學(xué)習的所有高級流行術(shù)語(yǔ)中,我們并沒(méi)有聽(tīng)到太多關(guān)于將統計學(xué)、信息理論、自然哲學(xué)的一些核心概念融合為三個(gè)單詞組成的短語(yǔ)。

并且,它不僅僅是一個(gè)機器學(xué)習(ML)博士和理論家采用的模糊和晦澀的術(shù)語(yǔ)。對于任何有興趣探索的人來(lái)說(shuō),它都具有精確且易于訪(fǎng)問(wèn)的意義,并為機器學(xué)習和數據科學(xué)的從業(yè)者提供實(shí)際的回報。

我在探討最簡(jiǎn)練的描述。而你可能在想這到底是什么…

讓我們了解一下它將是多么有用......

貝葉斯及其定理

我們先從托馬斯·貝葉斯(Thomas Bayes)開(kāi)始(這不是按時(shí)間順序),順便說(shuō)一下,他從未發(fā)表過(guò)關(guān)于如何進(jìn)行統計推斷的想法,但后來(lái)因為同名定理而聞名于世。

在18世紀下半葉,并沒(méi)有數學(xué)科學(xué)的分支稱(chēng)之為'概率論'。它只是簡(jiǎn)單地被稱(chēng)為一種奇怪的'機會(huì )主義',這以亞伯拉罕·德·莫伊弗雷的一本書(shū)命名。一篇名為'關(guān)于解決機會(huì )問(wèn)題的文章'(Doctrine of Chances),貝葉斯首先提出,由他的朋友理查德·普萊斯編輯和修改,并發(fā)表在倫敦皇家學(xué)會(huì )的哲學(xué)交易中。在這篇文章中,貝葉斯以一種相當頻繁的方式描述了關(guān)于聯(lián)合概率的簡(jiǎn)單定理,該定理導致逆概率的計算,即貝葉斯定理。

自那時(shí)以來(lái),統計科學(xué)的兩個(gè)派別 - 貝葉斯和Frequntists兩派之間開(kāi)展了許多爭論。但是為了本文的目的,讓我們暫時(shí)忽略這段歷史,并專(zhuān)注于貝葉斯推理機制的簡(jiǎn)單解釋。有關(guān)該主題的直觀(guān)介紹,請參閱Brandon Rohrer的這篇精彩教程,雖然我只關(guān)心方程式。

這基本上告訴你在看到數據/證據(可能性)后更新你的信念(先驗概率),并將更新的信念度分配給術(shù)語(yǔ)后驗概率。你可以從一個(gè)信念開(kāi)始,但每個(gè)數據點(diǎn)都會(huì )強化或削弱這種信念,并且將會(huì )一直更新你的假設。

聽(tīng)起來(lái)是不是簡(jiǎn)單直觀(guān)?

我在段落的最后一句中有一個(gè)用詞,你注意到了嗎?我提到'假設'一詞。這不是我進(jìn)行的假設,而是正式的說(shuō)法。

在統計推斷的世界中,假設是一種信念。它是關(guān)于過(guò)程的真實(shí)性質(zhì)(人們永遠無(wú)法觀(guān)察到)的信念,即產(chǎn)生隨機變量的背后(我們可以觀(guān)察或測量,盡管并不是沒(méi)有噪聲)。在統計中,它通常被定義為概率分布。但是在機器學(xué)習的背景下,可以考慮任何一組規則(或邏輯或過(guò)程),我們認為這些規則可以產(chǎn)生示例或訓練數據,我們可以學(xué)習這個(gè)神秘過(guò)程的隱藏性質(zhì)。

因此,讓我們嘗試采用不同的符號重構貝葉斯定理,這些是與數據科學(xué)有關(guān)的符號。讓我們用d表示數據,用h表示假設。這意味著(zhù)我們應用貝葉斯的公式來(lái)嘗試確定數據來(lái)自哪個(gè)假設,給定數據。我們把定理改寫(xiě)為,

現在,一般來(lái)說(shuō),我們有一個(gè)很大的(通常是無(wú)限的)假設空間,即許多假設可供選擇。貝葉斯推斷的本質(zhì)是我們想要檢查數據以最大化一個(gè)假設的概率,該假設最有可能產(chǎn)生觀(guān)察到的數據。我們想要確定P(h | D)的argmax,即我們想知道哪個(gè)h,觀(guān)察到的D是最可能的。為此,我們可以安全地將該術(shù)語(yǔ)放在分母P(D)中,因為它不依賴(lài)于假設。該方案通過(guò)很拗口的最大后驗概率(MAP)名稱(chēng)而為人所知。

現在,我們應用以下數學(xué)技巧,

·最大化對于對數與原始函數同樣有效,即采用對數不會(huì )改變最大化問(wèn)題。

·乘積的對數是各個(gè)對數的總和

·數量的最大化等同于負數的最小化

是不是很好奇 ......那些負對數為2的術(shù)語(yǔ)看起來(lái)很熟悉......這來(lái)自信息論!

那么以下了解一下克勞德·香農。

香農

描述克勞德·香農(Claude Shannon)的天才和生活將需要很多文章篇幅。而克勞德·香農幾乎單槍匹馬地奠定了信息理論的基礎,并引領(lǐng)人們進(jìn)入現代高速通信和信息交流的時(shí)代。

香農的麻省理工學(xué)院(MIT)電氣工程碩士論文被稱(chēng)為20世紀最重要的碩士論文:當時(shí)22歲的香農展示了如何利用繼電器和開(kāi)關(guān)的電子電路實(shí)現19世紀數學(xué)家喬治·布爾的邏輯代數。數字計算機設計的最基本特征,也就是將'真'和'假'、'0'和'1'表示為開(kāi)關(guān)或閉合開(kāi)關(guān),以及使用電子邏輯門(mén)進(jìn)行決策和執行算術(shù),這可以追溯到香農論文中的見(jiàn)解。

但這只是他最偉大的成就之一。

1941年,香農加入貝爾實(shí)驗室,在那里他從事有關(guān)戰爭事務(wù)的研究,包括密碼學(xué)。他還在研究信息和通信背后的原始理論。1948年,這項工作出現在貝爾實(shí)驗室研究期刊上發(fā)表的一篇廣受好評的論文中。

香農通過(guò)類(lèi)似于定義物理學(xué)中熱力學(xué)熵的方程式來(lái)定義信息源產(chǎn)生的信息量。例如,消息中的數量。在最基本的術(shù)語(yǔ)中,香農的信息熵是編碼消息所需的二進(jìn)制數字的數量。并且對于具有概率p的消息或事件,該消息的最有效(即緊湊)編碼將需要-log2(p)比特。

而這正是出現在貝葉斯定理中的最大后驗表達式中出現的那些術(shù)語(yǔ)的本質(zhì)!

因此,我們可以說(shuō),在貝葉斯推理的世界中,最可能的假設取決于兩個(gè)引起長(cháng)度感覺(jué)的術(shù)語(yǔ) - 而不是最小化Length (h)。

但那些長(cháng)度的概念可能是什么呢?

Length (h):奧卡姆的剃刀

奧卡姆(威廉William of Ockham)(1287-1347)是英國圣方濟各修士和神學(xué)家,也是一位有影響力的中世紀哲學(xué)家。他作為一個(gè)偉大的邏輯學(xué)家而聞名于世主要取決于他所說(shuō)的格言,被稱(chēng)之為奧卡姆剃刀。術(shù)語(yǔ)剃刀是指通過(guò)'剃掉'不必要的假設或分割兩個(gè)類(lèi)似的結論來(lái)區分兩個(gè)假設。

歸于他的確切詞匯是:entia non sunt multiplicanda praeter necessitatem(如無(wú)必要,勿增實(shí)體)。用統計學(xué)的說(shuō)法,這意味著(zhù)人們必須努力用最簡(jiǎn)單的假設來(lái)解釋所有數據。

其他著(zhù)名學(xué)者也回應了類(lèi)似的原則。

伊薩克·牛頓爵士(Sir Issac Newton):'我們應該承認,尋求自然事物的原因,不得超出真實(shí)和足以解釋其現象者。'

伯特蘭·阿瑟·威廉·羅素(Bertrand Russell):'只要可能,就用由已知實(shí)體組成的構造來(lái)代替推導出未知實(shí)體的推論'。

總是喜歡較短的假設。

需要一個(gè)關(guān)于假設的長(cháng)度的例子嗎?

以下哪個(gè)決策樹(shù)的長(cháng)度較短? A還是B?

即使沒(méi)有對假設的'長(cháng)度'的精確定義,我相信你會(huì )認為左邊的樹(shù)(A)看起來(lái)更小或更短。當然,你是對的。因此,較短的假設是具有較少的自由參數,或復雜較小的決策邊界(對于分類(lèi)問(wèn)題),或這些屬性的某種組合,其可以表示其簡(jiǎn)潔性。

那么''Length(D|h)'是什么?

給定假設是數據的長(cháng)度。這意味著(zhù)什么?

在直覺(jué)上,它與假設的正確性或表征能力有關(guān)。除其他事項外,它還包含一個(gè)假設,即'推斷'數據的好壞程度。如果假設真的很好地生成數據并且可以無(wú)錯誤地測量數據,那么我們根本不需要數據。

想一想牛頓的運動(dòng)定律。

當這些理論首次出現在《科學(xué)溯源》(Principia)時(shí),并沒(méi)有任何嚴格的數學(xué)證明。它們不是定理。根據對自然體運動(dòng)的觀(guān)察,它們很像假設。但是這些理論真的很好地描述了數據。因此,他們成為了物理定律。

這就是為什么你不需要記憶所有的加速度數字,并作為施加在物體上的力的函數的原因。你只相信這個(gè)緊湊的假設,即F=ma定律,并且相信你需要的所有數字,只要在必要時(shí)就可以從中計算。它使Length(D|h)非常小。

但是,如果數據與緊湊假設相差很大,那么你需要對這些偏差可能的解釋進(jìn)行長(cháng)時(shí)間的描述。

因此,Length(D|h)簡(jiǎn)潔地捕捉了'數據與給定假設的擬合程度'的概念。

本質(zhì)上,它是錯誤分類(lèi)或錯誤率的概念。對于一個(gè)完美的假設,它是短的,在極限情況下為零。對于一個(gè)不完全符合數據的假設,它往往是很長(cháng)的。

這就是權衡。

如果你用奧卡姆的剃須刀剃掉你的假設,你可能會(huì )留下一個(gè)簡(jiǎn)單的模型,一個(gè)不能適應所有數據的模型。因此,你必須提供更多的數據來(lái)獲得更好的信心。另一方面,如果你創(chuàng )建了一個(gè)復雜(且很長(cháng))的假設,那么你可能真的能夠很好地擬合您的訓練數據,但是這實(shí)際上可能不是正確的假設,因為它違背了具有小熵假設的MAP原則。

聽(tīng)起來(lái)像一個(gè)偏差方差權衡?是的。

把它們放在一起

因此,貝葉斯推斷告訴我們,最佳假設是最小化假設長(cháng)度和錯誤率這兩個(gè)項之和的假設。

在這個(gè)深刻的句子中,它幾乎捕獲了所有(受監督的)機器學(xué)習。

想想它的后果,

·線(xiàn)性模型的模型復雜度 - 選擇多項式的程度,如何減少平方和殘差。

·選擇神經(jīng)網(wǎng)絡(luò )的體系結構 - 如何不過(guò)度擬合訓練數據并獲得良好的驗證準確性,但減少分類(lèi)錯誤。

·支持向量機正則化和軟邊界與硬邊界之間的平衡的內核選擇,即利用決策邊界非線(xiàn)性來(lái)權衡精度。

總結與思考

一個(gè)奇妙的事實(shí)是,在概率論的基本恒等式進(jìn)行這樣一套簡(jiǎn)單的數學(xué)操作可以導致對監督機器學(xué)習的基本限制和目標進(jìn)行如此深刻和簡(jiǎn)潔的描述。對于這些問(wèn)題的簡(jiǎn)要處理,讀者可以參考卡內基梅隆大學(xué)的博士論文'為什么采用機器學(xué)習'。

同樣值得思考的是,所有這些都與'沒(méi)有免費午餐定理'有關(guān)。https://en.wikipedia.org/wiki/No_free_lunch_theorem

如果你對這個(gè)領(lǐng)域有更深層次的興趣,可以參閱:

1.'沒(méi)有免費午餐和最小描述長(cháng)度'

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.160.798&rep=rep1&type=pdf

2.'在監督學(xué)習中沒(méi)有免費午餐與奧卡姆剃刀'

https://pdfs.semanticscholar.org/83cd/86c2c7e507e8ebba9563a9efaba7c966a1b3.pdf

3.'沒(méi)有免費午餐和問(wèn)題描述長(cháng)度'www.no-free-lunch.org/ScVW01.pdf

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
貝葉斯、概率分布與機器學(xué)習
沒(méi)有這個(gè)公式,人工智能將變成人工智障!
透過(guò)現象看機器學(xué)習:奧卡姆剃刀,沒(méi)有免費的午餐,丑小鴨定理等
概率思維——Python貝葉斯推斷指南
深入講解貝葉斯背后的哲學(xué)與數學(xué)思想
傳說(shuō)中的貝葉斯統計到底有什么來(lái)頭?
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久