近日,一條略帶詭異的消息傳遍了社交網(wǎng)絡(luò ):“Facebook 的人工智能開(kāi)發(fā)出了自己的秘密語(yǔ)言,嚇得工程師把它們的插頭給拔了?!?啥???這太有科幻片既視感了吧?難道《終結者》里要滅絕人類(lèi)的AI“天網(wǎng)”就要出現了嗎?

讓許多網(wǎng)絡(luò )媒體受驚的“AI的秘密語(yǔ)言”長(cháng)這樣[1]:
智能體B:I can i i everything else
智能體A:balls have zero to me to me to me to me to me to me to me to me to
智能體B:you i everything else
智能體A:balls have a ball to me to me to me to me to me to me to me to me
看起來(lái)每個(gè)字母都認識對吧,但連在一起完全不知道是什么意思。然后兩個(gè)AI之間還說(shuō)得興高采烈的?
這樣兩段不明所以的對話(huà),讓不少媒體一下炸開(kāi)了鍋。一家英國的通俗小報甚至引用了一名所謂“機器人學(xué)教授”的話(huà),說(shuō)這次事件“揭示了人工智能的危險性”,還說(shuō)如果這種技術(shù)被用于軍用機器人“將導致致命的后果”……聯(lián)想起不到半個(gè)月前,SpaceX 的老板伊隆·馬斯克可是剛剛警告過(guò)大家,人工智能將會(huì )從“根本上威脅人類(lèi)的存在”[2]。
說(shuō)出上述謎樣對話(huà)的AI來(lái)自Facebook旗下的人工智能實(shí)驗室(Facebook Artificial Intelligence Research,簡(jiǎn)稱(chēng) FAIR)。人工智能屬于扎克伯格提到過(guò)的 Facebook 將來(lái)三大主要方向之一,一直備受重視。在2013年9月,他們就成立了FAIR。
FAIR基本上是一個(gè)只有投入而幾乎沒(méi)有近期產(chǎn)品壓力的團隊。他們致力于研究和開(kāi)發(fā)高水平的人工智能技術(shù),解決人工智能領(lǐng)域的一些前沿問(wèn)題。例如運用機器學(xué)習進(jìn)行人臉識別的DeepFace、在機器學(xué)習中加入長(cháng)期記憶來(lái)構建自然語(yǔ)言的問(wèn)答系統等,都是這個(gè)團隊的研究成果。
難道真的是要造出個(gè)“天網(wǎng)”嗎?不,起碼現在還不是這樣的。
FAIR的研究人員表示,現在我們常見(jiàn)的語(yǔ)義分析程序(比如 Siri )已經(jīng)可以勝任一些簡(jiǎn)單的對話(huà),幫人類(lèi)完成諸如導航、訂外賣(mài)之類(lèi)的簡(jiǎn)單任務(wù),而他們希望在此基礎上再進(jìn)一步。
利用神經(jīng)網(wǎng)絡(luò )和機器學(xué)習算法,FAIR希望能做出一個(gè)能勝任復雜對話(huà)的聊天AI(類(lèi)似微軟小冰那樣的,不過(guò)要比小冰聰明得多),程序不但要“理解”聊天內容,并根據現有數據生成有意義的句子,還要能通過(guò)對話(huà)和其他參與者達成某個(gè)設定好的目標。
確切地說(shuō),他們希望賦予聊天機器人跟人談判或者協(xié)商的能力[3]。
想想平時(shí)人類(lèi)是怎么做的:每個(gè)人都有自己不同的目標,互相之間產(chǎn)生分歧,然后通過(guò)協(xié)商達成一個(gè)雙方都認可的折中方案。研究表明,工程師可以讓經(jīng)過(guò)訓練的神經(jīng)網(wǎng)絡(luò )AI模仿人類(lèi)的談判行為,帶著(zhù)各自不同的“目標”參與一個(gè)完整的協(xié)商過(guò)程,最后和其他AI或者人類(lèi)達成一個(gè)共同的決定。他們就此發(fā)布了一篇預印本論文[4],還把這個(gè)“談判者”AI的機器學(xué)習代碼給開(kāi)了源。
并沒(méi)有。并沒(méi)有。并沒(méi)有。
實(shí)際情況是這樣的:
為了模擬人類(lèi)的協(xié)商行為,研究者首先訓練了兩個(gè)能處理英文對話(huà)的AI,然后給它們設置了一個(gè)坐地分贓(大誤)的場(chǎng)景,給出了若干種數量不同的物品。同時(shí),兩個(gè)AI對于不同物品的“價(jià)值”被設置了不同的值,所以它們所看重的物品可能是不同的。它們需要通過(guò)互相對話(huà)來(lái)達成一致的分配辦法,同時(shí)讓獲得物品的總“價(jià)值”在自己看來(lái)盡可能的高。
在運行過(guò)程中,每個(gè)AI并不能直接知道某個(gè)物品在對方的“價(jià)值列表”里的數字多少,但能夠通過(guò)對話(huà)來(lái)進(jìn)行判斷——如果你聲稱(chēng)想要那個(gè)球,那這個(gè)球在你看來(lái)一定價(jià)值比較高嘛。
為了讓AI學(xué)會(huì )如何溝通,FAIR的研究者建立了一個(gè)能解析和構建英文句子,以理解或傳遞某個(gè)意思的AI模型(這也是采用機器學(xué)習的方法構建的)。然后,研究人員讓AI模型和它的一個(gè)副本一起,在上面所說(shuō)的場(chǎng)景里,采用強化學(xué)習的方式做了數千次的協(xié)商訓練。
在每輪協(xié)商訓練的雙方達成一致時(shí),一個(gè)自動(dòng)的評分程序將根據本輪的分配結果,對AI模型的表現進(jìn)行評分。協(xié)商得到的物品價(jià)值越高,得分就越多。AI模型以評分結果為標桿,不斷調整模型的各項參數,以盡可能高的效率和盡可能多的獲利為目標完成協(xié)商訓練。
同時(shí),研究人員還給AI引入了預期機制,讓AI模型在面對輸入的句子時(shí),能夠逐一評估模型所學(xué)習到的每種可行的回應方式,逐一推測這種回應可能從對方處得到的答復,并計算對應收益的期望,以此判斷實(shí)際要作出什么樣的回應。
而正是在這個(gè)過(guò)程中,研究人員出了一點(diǎn)小小的紕漏。
該項目負責人邁克爾·路易斯( Michael Lewis )在接受媒體采訪(fǎng)時(shí)表示[5]:“在早期的實(shí)驗中,我們只對完成目標與否和獲得的價(jià)值多高設置了獎勵,并沒(méi)有管AI是否用的是符合英語(yǔ)語(yǔ)法的句子。由于A(yíng)I們輸出給對方的英文句子只需要讓另一個(gè)AI能解析就可以通過(guò)訓練,于是在幾千次重復的對話(huà)訓練之后,AI們發(fā)展出了一套只有它們自己能解析的用詞方式?!?/p>
所以,對設置了訓練場(chǎng)景的研究人員來(lái)說(shuō),文章開(kāi)頭的出現的“秘密對話(huà)”實(shí)際上毫不神秘:

從對物品賦值可以看到,對Bob來(lái)說(shuō),它對書(shū)和帽子毫無(wú)所求,只要球。所以可以推測,它嘗試表示可以給出其他的所有東西;對Alice來(lái)說(shuō),盡管書(shū)和帽子都有價(jià)值,但那一個(gè)球的價(jià)值也更高。顯然,他們就是在為了最大化自己的得分而在激烈地討價(jià)還價(jià)。不難猜測,在這一對AI的用法中,重復某個(gè)單詞或句子的某個(gè)部分可能是用以表達出強調的程度。當然,從文字上看,這和平時(shí)人類(lèi)的溝通方式可是大相徑庭。
“智能體將漸漸偏離可理解的語(yǔ)言,發(fā)明出自己的暗號?!盕AIR的訪(fǎng)問(wèn)研究員、佐治亞理工的副教授巴特拉(Dhruv Batra)說(shuō)[6]。簡(jiǎn)而言之,這整件事其實(shí)就是在機器學(xué)習的調教過(guò)程中,有疏漏的訓練參數訓練出了跑偏的人工智能程序,僅此而已。
“從某種意義上來(lái)說(shuō),它們創(chuàng )造出了一套對AI來(lái)說(shuō)更簡(jiǎn)單的溝通工具。因為高效的完成目標是被獎勵的,即使這并不符合人類(lèi)的使用習慣。為此我們在后續的實(shí)驗中引入了新的技術(shù),增加了一些額外的機制,給正確使用英語(yǔ)進(jìn)行溝通的行為給予了獎勵?!边~克爾·路易斯說(shuō)。
目前從開(kāi)源了的代碼的運行截圖上來(lái)看,這個(gè)項目已經(jīng)可以調教出能和人一樣用英語(yǔ)討價(jià)還價(jià)的AI了。

對于部分媒體聲稱(chēng)的該項目因為這事已經(jīng)被關(guān)閉,AI們都被拔了插頭的說(shuō)法,邁克爾·路易斯表示這也是對實(shí)際情況的誤傳:“這個(gè)項目并沒(méi)有被關(guān)閉。我們的目標是做出能和人類(lèi)溝通的機器人,而在一些實(shí)驗中,我們發(fā)現這些機器人并不能像人類(lèi)一樣使用英語(yǔ)單詞,于是我們把程序停下來(lái),分析獎勵函數,改一改運行環(huán)境的參數,用一些額外的技術(shù)讓程序按照我們期望的那樣工作?!?/p>
說(shuō)的是啊,如果這樣也算拔插頭的話(huà),那果殼網(wǎng)的AI不是每天都被拔好多次么。
機器學(xué)習是人工智能研究的一種途徑,人們通過(guò)設計和分析一些讓計算機可以自動(dòng)“學(xué)習”的算法,來(lái)完成一些諸如推理、規劃、交流這樣的任務(wù),以解決人工智能領(lǐng)域中的問(wèn)題。
和非人工智能的程序不同,機器學(xué)習程序需要一個(gè)“學(xué)習”的過(guò)程,也就是在基礎的模型建立好之后,通過(guò)人工喂數據給程序,讓程序在給定的不同設定條件和規則下不斷運行,不斷改進(jìn)這個(gè)模型,最后得到一個(gè)可以用于某個(gè)特定方面的函數或模型的過(guò)程。
這次FAIR團隊用到的機器學(xué)習技術(shù),叫做“強化學(xué)習”,是一種基于決策和交互的機器學(xué)習方式。在“訓練”過(guò)程中,程序要基于給定的各種規則和條件作出決策,并且通過(guò)反饋的“獎勵”或“懲罰”來(lái)調整下一步?jīng)Q策,以產(chǎn)生能獲得最大利益的決策[7]。換句話(huà)說(shuō),AI所能學(xué)會(huì )的決策,完全依賴(lài)于調教它的人類(lèi)對完成什么樣的目標進(jìn)行獎勵,而不可能自作主張。
話(huà)說(shuō)回來(lái),Facebook做的這項工作雖然說(shuō)起來(lái)簡(jiǎn)單,但的確是整個(gè)人工智能研究領(lǐng)域的重要一步,這代表著(zhù)人類(lèi)向創(chuàng )造出能辯論、能溝通、能交涉的高級聊天機器人又近了一大步,向創(chuàng )造出諸如鋼鐵俠的賈維斯或者士官長(cháng)的柯塔娜那樣極具個(gè)性的數字助理AI又近了一點(diǎn)點(diǎn)。

不僅如此,目前機器學(xué)習已廣泛應用于數據挖掘、計算機視覺(jué)、自然語(yǔ)言處理、生物特征識別、搜索引擎、醫學(xué)診斷、檢測信用卡欺詐、證券市場(chǎng)分析、DNA序列測序、語(yǔ)音和手寫(xiě)識別、戰略游戲和機器人等領(lǐng)域。
機器學(xué)習這么厲害,那它會(huì )不會(huì )突然弄出一個(gè)有自我意識的AI,把人類(lèi)給團滅了???至少現在是不會(huì )。機器學(xué)習跟真正的人工智能的概念還差得挺遠,它所制造出的程序只能完成人類(lèi)預設好的,給出了具體訓練目標的任務(wù),而并不是真正的思考。
如果真的要說(shuō)有誰(shuí)會(huì )因為這次 Facebook 的研究成果而感到恐慌的話(huà),大概就是那些快要失業(yè)的談判專(zhuān)家們吧。

(編輯:Calo)
聯(lián)系客服