【新智元導讀】人類(lèi)的大腦,或許AI比我們懂。近日,DeepMind與哈佛大學(xué)新研究證明了大腦中存在“分布強化學(xué)習”,而大腦中的強化學(xué)習是通過(guò)“快樂(lè )之源”多巴胺驅動(dòng)。和AI系統類(lèi)似,大腦不是以“平均值”的方式預期未來(lái)可能的回報,而是以“概率分布”的方式來(lái)預期?!父@航裢?9:00,騰訊微信人工智能高級研究員錢(qián)橋手把手教你“推薦系統與數據思維”,戳右邊鏈接上 新智元We站公開(kāi)課 了解更多!」
學(xué)生時(shí)代,想必你肯定聽(tīng)過(guò)巴甫洛夫和狗的故事:
每次給狗喂食之前,都先搖動(dòng)一個(gè)鈴鐺。久而久之,狗學(xué)會(huì )了把鈴鐺當做進(jìn)食的前奏。后來(lái),只要鈴鐺一響,狗就會(huì )開(kāi)始流口水,不管接下來(lái)有沒(méi)有食物。這表明它們已經(jīng)學(xué)會(huì )了“預測獎勵”。
在最初的實(shí)驗中,巴甫洛夫通過(guò)測量它們產(chǎn)生的唾液量來(lái)估計它們的期望。但最近幾十年來(lái),科學(xué)家們開(kāi)始破譯大腦學(xué)習這些預測的方式
同時(shí),計算機科學(xué)家開(kāi)發(fā)了在A(yíng)I系統中進(jìn)行強化學(xué)習的算法。這些算法使AI系統無(wú)需外部指導即可學(xué)習復雜的策略,學(xué)習過(guò)程由獎勵預測機制指導。
DeepMind的一項新研究表明,對于破譯大腦的內部運作方式,或許AI才是我們的老師。
在這項剛剛被發(fā)表在Nature的研究中,DeepMind與哈佛大學(xué)的研究人員受最近關(guān)于分布強化學(xué)習的AI研究啟發(fā),提出了一種基于多巴胺的強化學(xué)習的方法。
他們認為:和AI系統類(lèi)似,大腦不是以“平均值”的方式預期未來(lái)可能的回報,而是以“概率分布”的方式來(lái)預期,從而證明大腦中存在“分布強化學(xué)習”。
大腦進(jìn)行強化學(xué)習,類(lèi)似于頂級AI算法“大腦中的多巴胺是一種代表驚訝(surprise)的信號?!闭撐囊蛔鱓ill Dabney說(shuō): “當情況好于預期時(shí),就會(huì )釋放出更多的多巴胺?!?/p>
一起認為,這些多巴胺神經(jīng)元反應都相同。但是研究人員發(fā)現,各個(gè)多巴胺神經(jīng)元似乎有所不同:每個(gè)神經(jīng)元“快樂(lè )”或“悲傷”的程度是不一樣的。
“更像是合唱團,它們唱著(zhù)不同的音符,相互協(xié)調,”Dabney說(shuō)。
這一發(fā)現從一種稱(chēng)為分布強化學(xué)習的過(guò)程中獲得了靈感。沒(méi)錯,就是AI用來(lái)掌握圍棋和星際爭霸2等游戲的技術(shù)之一。
最簡(jiǎn)單的說(shuō),強化學(xué)習是一種獎勵,它可以強化讓它有所得的行為。這需要了解當前的行動(dòng)如何導致未來(lái)的回報。例如,一條狗可能會(huì )學(xué)習命令“ 坐”,因為當它這樣做時(shí)會(huì )得到獎勵。
以前,AI和神經(jīng)科學(xué)中的強化學(xué)習模型都專(zhuān)注于學(xué)習以預測“平均”的未來(lái)回報?!暗@并不能反映現實(shí)情況,”Dabney說(shuō)。
他還舉了個(gè)例子:“例如,當有人玩彩票時(shí),他們期望贏(yíng)或輸,但是他們并不會(huì )期望中間結果?!?/p>
當未來(lái)不確定時(shí),可能的結果可以用概率分布來(lái)表示:有的是正的,有的是負的。使用分布強化學(xué)習算法的AI能夠預測可能的獎勵的全部范圍。
為了測試大腦的多巴胺獎勵途徑是否也通過(guò)分布起作用,該團隊記錄了小鼠中單個(gè)多巴胺神經(jīng)元的反應。他們訓練小鼠完成一項任務(wù),并給予它們大小不同且不可預測的獎勵。
研究人員發(fā)現,不同的多巴胺細胞確實(shí)表現出不同程度的驚訝。也就是說(shuō),AI算法讓我們知道了應該在神經(jīng)反應中尋找什么。
接下來(lái),新智元為大家剖析這項研究的來(lái)龍去脈。
時(shí)間差學(xué)習算法:完善強化學(xué)習預測鏈強化學(xué)習是將神經(jīng)科學(xué)和AI相聯(lián)系的最古老,最有力的想法之一。早在1980年代后期,計算機科學(xué)研究人員試圖開(kāi)發(fā)一種算法,該算法僅使用“獎懲”作為信號,學(xué)習如何獨自執行復雜的行為。
這種獎勵機制的預測與人類(lèi)自身的一些行為很類(lèi)似,比如,學(xué)生努力學(xué)習來(lái)應對考試,其獎勵回報是考試成績(jì)可能會(huì )更高??傮w而言,預測當前行為的未來(lái)回報,是這種算法的核心機制。
解決獎勵預測問(wèn)題的一個(gè)重要突破是時(shí)間差學(xué)習(TD)算法,該算法不會(huì )去計算未來(lái)的總回報,而只是嘗試在下一個(gè)時(shí)刻預測即時(shí)獎勵。

當下一刻出現新信息時(shí),將新的預測與預期的進(jìn)行比較。如果二者不同,則計算出回報的差異,并使用此“即時(shí)差異”將舊預測調整為新預測,使期望預測與現實(shí)相匹配,整個(gè)預測鏈逐漸變得更加準確。
大約在同一時(shí)期,上世紀80年代末到90年代初,神經(jīng)科學(xué)家也在努力了解多巴胺神經(jīng)元的行為。這些神經(jīng)元的放電與獎勵機制有關(guān),但其反應也取決于感覺(jué)輸入,并且會(huì )隨著(zhù)經(jīng)驗而改變。
逐漸地,一些研究人員開(kāi)始將神經(jīng)科學(xué)和AI的最新發(fā)現聯(lián)系起來(lái)。研究人員發(fā)現,某些多巴胺神經(jīng)元的反應代表了獎勵預測的錯誤:也就是說(shuō),當動(dòng)物獲得的獎勵比預期的多或少時(shí),多巴胺神經(jīng)元就會(huì )放電。
這些研究人員據此推測,人的大腦也在使用TD學(xué)習算法:計算獎勵預測誤差,通過(guò)多巴胺信號向大腦廣播。從那時(shí)起,多巴胺的獎勵預測誤差理論已在數千個(gè)實(shí)驗中得到測試和驗證,并且已成為神經(jīng)科學(xué)中最成功的定量理論之一。
破解“快樂(lè )之源”多巴胺的分布密碼由于分布式TD算法在人工神經(jīng)網(wǎng)絡(luò )中是如此強大,因此自然而然地出現了一個(gè)問(wèn)題:大腦中是否也使用了分布式TD算法?
DeepMind與哈佛大學(xué)的實(shí)驗室合作,分析了小鼠的多巴胺細胞的記錄。記錄是在小鼠執行完好學(xué)習的任務(wù)后得到的,在這些任務(wù)中它們收到了無(wú)法預測的獎勵(圖4)。評估了多巴胺神經(jīng)元的活性是否與標準TD或分布TD一致。
第一個(gè)問(wèn)題是,是否可以在神經(jīng)數據中發(fā)現這種獎勵預測。
過(guò)去,我們已經(jīng)知道多巴胺細胞會(huì )改變其放電速率指示預測錯誤,也就是說(shuō),當收到的獎勵與預測獎勵完全相同時(shí),預測誤差應該為零,因此放電速率沒(méi)有變化。對于每個(gè)多巴胺細胞,我們確定了這個(gè)不會(huì )改變放電速率的臨界獎勵。我們稱(chēng)之為“反轉點(diǎn)”。
接下來(lái)的問(wèn)題是,不同多巴胺細胞的“反轉點(diǎn)”獎勵是否不同。下圖表明,一些細胞預測出了非常大的獎勵,還有的細胞預測很少,其差異程度明顯超出了隨機差異。

圖1:在此任務(wù)中,給小鼠喝水的獎勵是隨機確定的,數量是可變的
獎勵預測中的這些差異是由正向或負向獎勵預測錯誤的選擇性放大引起的。通過(guò)測量不同多巴胺細胞表現出“積極”和“消極”預測的擴大程度的差異,在不同細胞之間發(fā)現了明顯的差異性,這種差異已經(jīng)超出了噪聲的范圍。

圖 2:多巴胺細胞編碼學(xué)習的獎勵分布??梢愿鶕烹娐蕦Κ剟罘植歼M(jìn)行解碼?;疑幱皡^域是任務(wù)中獎勵的真實(shí)分配。每個(gè)淺藍色軌跡顯示解碼程序的示例。暗藍色是平均運行時(shí)間。
最后一個(gè)問(wèn)題是,是否可以從多巴胺細胞的放電速率中解碼獎勵分布。如上圖所示,我們發(fā)現確實(shí)有可能僅使用多巴胺細胞的放電速率來(lái)重建獎勵分布(藍色),該分布與實(shí)際獎勵分布(灰色區域)非常接近。
結論:分布式強化學(xué)習是一條通向更先進(jìn)AI的光明大道這項研究證明,大腦中確實(shí)存在與AI模型中類(lèi)似的分布式強化學(xué)習機制,這對人工智能和神經(jīng)科學(xué)都有意義。
首先,它驗證了分布強化學(xué)習是一條通向更先進(jìn)AI能力的光明大道。
“如果大腦正在使用它,這應該是一個(gè)好主意,”DeepMind神經(jīng)科學(xué)研究主任、該論文的主要作者之一Matthew Botvinick說(shuō):“它告訴我們,這是一種可以在現實(shí)世界中擴展的計算技術(shù),它將很好的適應其他計算過(guò)程?!?/p>

其次,這一發(fā)現為神經(jīng)科學(xué)提出了新問(wèn)題,為理解心理層面的健康和動(dòng)機提供了新見(jiàn)解。
例如,有“悲傷”和“快樂(lè )”的多巴胺神經(jīng)元意味著(zhù)什么?如果大腦有選擇地只聽(tīng)其中一個(gè)或另一個(gè),它會(huì )導致化學(xué)失衡和誘發(fā)抑郁嗎?
從根本上說(shuō),通過(guò)進(jìn)一步解碼大腦的過(guò)程,研究結果還揭示了創(chuàng )造人類(lèi)智力的因素。Botvinick說(shuō):“它為我們提供了關(guān)于日常生活中大腦活動(dòng)的新視角?!?/p>
最后,研究人員希望這些問(wèn)題的提出和解答,能推動(dòng)神經(jīng)科學(xué)領(lǐng)域的技術(shù)進(jìn)步,并將其成果反哺AI研究,實(shí)現良性循環(huán)。
參考鏈接:
https://www.newscientist.com/article/2230327-deepmind-found-an-ai-learning-technique-also-works-in-human-brains/
https://www.vox.com/future-perfect/2020/1/15/21067228/ai-brain-protein-folding-google-deepmind
https://www.technologyreview.com/s/615054/deepmind-ai-reiforcement-learning-reveals-dopamine-neurons-in-brain/
聯(lián)系客服