北京,五道口,早7點(diǎn)。不出意外,這里又如往常一樣堵了個(gè)水泄不通。原本被用來(lái)疏導交通流量、提高道路通行能力,減少交通事故的紅綠信號燈,此時(shí)早已失去了原有的功能。每當遇到這種情況,如果想要使交通重新恢復順暢,一般情況下就只有兩種方法:一是等待交警來(lái)組織車(chē)輛進(jìn)行疏通,另外一個(gè)就得靠熱心群眾來(lái)幫忙了。
無(wú)論是經(jīng)驗豐富的交警,亦或是首次遇到這種情況的菜鳥(niǎo)司機,雖然可能耗時(shí)不同,但最終應該都能順利疏通車(chē)流,使交通恢復正常。
而原本被用來(lái)疏導交通流量、提高道路通行能力的紅綠信號燈,此時(shí),依然"傻乎乎"的按照設定好的時(shí)間間隔來(lái)回變換,對于擁堵的交通毫無(wú)助益。
警察、路人與交通燈,在交通中同樣扮演著(zhù)疏通者的角色,但為什么警察與路人最終能夠順利疏通車(chē)流,而交通燈卻不能呢?因為警察與路人是自然智能的擁有者,而控制交通燈變化的,只是慣常設定好的程序,不會(huì )隨機應變。
近些年,人工智能大潮迅速席卷全球。人工智能相關(guān)技術(shù)與應用,已經(jīng)逐漸滲透到各個(gè)領(lǐng)域。同時(shí),隨著(zhù)通信技術(shù)的發(fā)展、物聯(lián)網(wǎng)的發(fā)展、深度學(xué)習技術(shù)的發(fā)展,越來(lái)越多的"物"開(kāi)始擁有"智慧",比如能跟孩子交流的音箱、能夠自動(dòng)調節亮度的電燈、能夠自動(dòng)"判斷"白天還是夜晚的窗簾,亦或者能夠更加智能的疏通車(chē)流的交通信號燈等等。
人工智能能解決堵車(chē)問(wèn)題嗎?
這些變化為大眾帶來(lái)更多便利的同時(shí),也使我們處在了一個(gè)更加智能化的世界。但是,這樣所謂的智能就足夠了嗎?
就像上面提到的堵車(chē)問(wèn)題,即便五道口的紅綠燈接入物聯(lián)網(wǎng)、接入深度學(xué)習庫,在面對復雜的交通擁堵時(shí),依然無(wú)法像人類(lèi)那樣憑借經(jīng)驗去迅速疏導車(chē)流。這就是現階段絕大多數所謂的人工智能設備為何無(wú)法真正被稱(chēng)為"智能"的主要原因。
那么,有辦法讓機器像人一樣擁有或近似擁有自然智能,以應對突發(fā)狀況,甚至作出隨機應變嗎?
·深度學(xué)習有哪些局限性?
時(shí)下,賦予機器以"智能"的手段通常是通過(guò)"機器學(xué)習"來(lái)實(shí)現的,而機器學(xué)習中最為大家所熟知的莫過(guò)于"深度學(xué)習"。
在2016年之前,人工智能領(lǐng)域大多使用有監督的深度學(xué)習方法。有監督的學(xué)習方法就是訓練者通過(guò)手工設定學(xué)習特征的方法,來(lái)讓機器學(xué)會(huì )某件事情。這就像我們上小學(xué)的時(shí)候,大多數情況下是老師在教我們識字一樣,老師教的是什么,我們就學(xué)什么,很少去自己進(jìn)行思考性的拓展學(xué)習。
有監督的深度學(xué)習就像是在給機器上課
而近兩年,人工智能領(lǐng)域開(kāi)始大范圍使用無(wú)監督的深度學(xué)習方法。即讓機器通過(guò)從大數據中尋找規律、挖掘價(jià)值,去認識某些事物。這就像我們即便不知道一種花的確切名字是什么,但通過(guò)歸納花這類(lèi)植物的特征,我們在遇見(jiàn)不同的花時(shí),都至少知道它是花,而且在遇到相同的花時(shí),我們也知道它們是相同的。雖然這個(gè)比喻不夠確切,但相信大家能明白它與有監督深度學(xué)習的區別。
不過(guò),雖然時(shí)下大都采用深度學(xué)習方法,通過(guò)數據挖掘來(lái)賦予機器以智能,但歸根到底,一種深度學(xué)習訓練方法訓練出來(lái)的機器,絕大多數情況下還是只能應對一類(lèi)事物。況且深度學(xué)習只是在圖像和語(yǔ)音等富媒體的分類(lèi)和識別上取得非常好的效果,它并非人工智能的終極方法。
最熟悉的例子莫過(guò)于谷歌AlphaGO,它是一款專(zhuān)注于圍棋的人工智能,在沒(méi)有進(jìn)行象棋相關(guān)的深度學(xué)習之前的時(shí)候,AlphaGO只能用來(lái)下圍棋。這就是現階段以深度學(xué)習方法為主的人工智能行業(yè)所面臨的一個(gè)問(wèn)題。
AlphaGO在圍棋界是大師,但在其它方面則是"智障"
但是在人類(lèi)的愿景中,要達到的是讓人工智能變得和人一樣聰明,能夠應對不同種類(lèi)的事件,甚至能夠在面對不同突發(fā)狀況時(shí),迅速作出隨機應變的反應?,F階段的深度學(xué)習方法、或更大一個(gè)范疇的機器學(xué)習很難達成這樣的結果。因此,需要讓機器在某種程度上具備接近自然智能、或具備真正自然智能的新的方法,來(lái)推動(dòng)人工智能在"智慧"層面的發(fā)展。而目前,神經(jīng)擬態(tài)計算就是這樣一種神奇的技術(shù)。
·如何讓機器像人腦一樣工作
要想了解神經(jīng)擬態(tài)計算,那么首先要了解自然智能。
神經(jīng)擬態(tài)學(xué)工程師、德國海德堡大學(xué)物理學(xué)家卡爾海因茨·邁耶(Karlheinz Meier)認為,人類(lèi)的大腦相對于計算機而言有三大特性:
其一、低能耗。人腦的功率大約是20瓦特,而當前試圖模擬人腦的超級計算機需要幾百萬(wàn)瓦特;
其二、容錯性。失去一個(gè)晶體管就能破壞一個(gè)微處理器,但大腦時(shí)刻都在失去神經(jīng)元;
其三、無(wú)須編程。大腦在與外界交互的過(guò)程中自發(fā)地學(xué)習和改變,而非遵循預設算法所限制的路徑和分支。
這三大特性,尤其是第三項特性,使人類(lèi)的智能與計算機、機器的智能區隔開(kāi)來(lái),形成了獨特的自然智能。
自然智能使人類(lèi)能夠應對不同的突發(fā)狀況
而神經(jīng)擬態(tài),就是科學(xué)家們?yōu)榱藢?shí)現這些目標,力求讓計算機去實(shí)現對人類(lèi)大腦的模擬,同時(shí)了解大腦的工作機制,最終讓計算機或機器具備如人腦一樣的近自然智能特性,從而讓計算機或機器具備更低能耗、更加高效、容錯率更高的能力。
當前,人類(lèi)大腦單個(gè)神經(jīng)細胞--即神經(jīng)元--的工作模式大體上已被科學(xué)家們掌握,大腦中每個(gè)可見(jiàn)的腦葉和神經(jīng)節的作用也已被探明,但是腦葉和神經(jīng)節中的神經(jīng)元如何組織依舊是個(gè)謎??茖W(xué)家們認為神經(jīng)元的組織方式?jīng)Q定了大腦的思考方式,同時(shí)也很可能是意識的存在方式。因此,想要實(shí)現神經(jīng)擬態(tài)計算,首先就需要構建出一顆模擬大腦神經(jīng)元工作的計算芯片。
這就是神經(jīng)擬態(tài)計算的核心原則。
正如前面所言,如果說(shuō)深度學(xué)習、機器學(xué)習是從大量有過(guò)標注的數據中去提取出來(lái)一些方式,來(lái)解決某一領(lǐng)域的問(wèn)題的話(huà),那么神經(jīng)擬態(tài)計算就是通過(guò)模擬人腦神經(jīng)元工作機制,使人工智能從數據的各種形態(tài)中提取出更多有價(jià)值的東西,而非只局限于某一領(lǐng)域。
那么有人可能就會(huì )問(wèn),"這樣做究竟有何意義呢?"
·神經(jīng)擬態(tài)計算的意義在哪?
我們還是回到現實(shí)中的堵車(chē)這件事上來(lái)。
拋開(kāi)人為因素造成的堵車(chē)不談?,F在的交通燈都是預先進(jìn)行了編程,什么時(shí)候是紅燈,什么時(shí)候是綠燈,以及怎么切換,都是編程好的。但我們都知道,實(shí)際交通環(huán)境中,不同時(shí)間段、不同地點(diǎn)的車(chē)流量是完全不同的。明明車(chē)很多的時(shí)間段、或地點(diǎn)、或方向上,綠燈的時(shí)間不夠長(cháng),有的車(chē)為了少等幾個(gè)燈時(shí),可能就會(huì )趁黃燈硬闖,車(chē)流量大的時(shí)候就很容易發(fā)生擁堵了。
普通交通燈不夠智能,無(wú)法應對越來(lái)越復雜的路況
那么如何讓交通燈變得更加智能,從而能夠應對不同時(shí)間、不同地點(diǎn)、不同方向上的不同車(chē)流,盡量避免因機械性的控制讓交通變得擁堵呢?
如果靠機器學(xué)習的方法訓練出一個(gè)模型,可以通過(guò)某一種檢測的方法讓交通燈做這樣或那樣的變化,可能會(huì )有一定的效果,但并不會(huì )適用于所有的路口。這時(shí)候,其實(shí)最需要的是在每一個(gè)路口放一個(gè)人,警察、熱心群眾都可以,不需要有博士一樣的智商,甚至不需要有一定的經(jīng)驗的人都可以幫助這個(gè)路口最大程度避免擁堵。但是如果這樣做的話(huà),就太過(guò)勞民傷財了。
而神經(jīng)擬態(tài)計算,就能夠通過(guò)不斷的訓練完成這樣的事情。
與深度學(xué)習、機器學(xué)習不同。如果給紅綠燈安裝一顆神經(jīng)擬態(tài)計算芯片,那么這個(gè)紅綠燈就可以從一個(gè)初始規則狀態(tài)開(kāi)始學(xué)習,通過(guò)視覺(jué)的輸入,通過(guò)其它體系信息的輸入,逐漸"知道"怎么樣按照當前的情況,自適應的去調整信號燈的切換,讓這個(gè)路口保持最大、最高效的通過(guò)率,以避免因車(chē)流大、綠燈時(shí)間短而造成路口堵塞的問(wèn)題。
其實(shí)在自動(dòng)駕駛領(lǐng)域,類(lèi)似的問(wèn)題最為普遍。
比如一輛自動(dòng)駕駛汽車(chē)是通過(guò)深度學(xué)習來(lái)"了解"北京路況下如何駕駛的話(huà),那么它如果到了滿(mǎn)大街都是小三輪的其它城市,這輛自動(dòng)駕駛汽車(chē)可能就傻眼了。而重新為這輛車(chē)制定一套當地的深度學(xué)習框架,又非常的費事。因此,就需要這輛車(chē)具備進(jìn)一步的自主學(xué)習能力。不需要人為去重新制定方案,只要通過(guò)多次實(shí)際行駛中對新環(huán)境的數據分析和學(xué)習,就能適應新環(huán)境的路況規則,這就才是人工智能想要達成的目標。
而神經(jīng)擬態(tài)計算正是模擬人腦結構,讓基于其的設備具有自主學(xué)習能力的技術(shù)。
那么神經(jīng)擬態(tài)計算芯片是如何模擬人腦結構的呢?以英特爾的LOIHI芯片為例我們可以大致了解其中奧妙。
人類(lèi)大腦有800億神經(jīng)元,每個(gè)神經(jīng)元又可以跟上萬(wàn)個(gè)神經(jīng)元進(jìn)行連接。怎么讓一個(gè)系統和軟硬件結合的設備可以以人腦的方式去學(xué)習呢?LOIHI就是模擬腦神經(jīng)元模式,把學(xué)習規則放入到每個(gè)神經(jīng)元里去進(jìn)行學(xué)習。
比如一個(gè)人不管是聰明還是不太聰明的人,其實(shí)都可以去學(xué)很多種技能,會(huì )說(shuō)話(huà),又會(huì )唱歌,又會(huì )寫(xiě)字,又可以炒菜做飯,所有這些都是一個(gè)大腦解決的,沒(méi)有人會(huì )切換不同大腦來(lái)做不同事情。
人類(lèi)可以同時(shí)掌握多項技能,甚至不需要經(jīng)過(guò)特殊的訓練
英特爾研發(fā)的LOIHI神經(jīng)擬態(tài)計算芯片,就是首個(gè)可以自主學(xué)習的芯片。神經(jīng)擬態(tài)計算不是馮·諾依曼體系結構上的計算--存儲體系:CPU主要負責運算,而取得的指令在存儲序列,數據也在存儲序列。任何的計算過(guò)程都是取指令、數據、算出來(lái)的結果又存在內存里,這是標準的計算架構。
神經(jīng)擬態(tài)計算的計算和存儲是在一起的,會(huì )形成很多分布式的單元,而且采用了異步計算方式,這種計算方式與馮·諾依曼結構的同步時(shí)鐘驅動(dòng)不同模塊工作的方式不同。
比如英特爾LOIHI神經(jīng)擬態(tài)計算芯片。它的整個(gè)芯片就像人類(lèi)大腦,比如當你在聽(tīng)歌的時(shí)候,其實(shí)只有一個(gè)區域在工作,不是所有都在負責聽(tīng)歌這件事。神經(jīng)擬態(tài)的好處是以很高的能效比解決一些計算問(wèn)題,而且特別是一些比較復雜的問(wèn)題,比如說(shuō)稀疏編碼、詞典學(xué)習、約束滿(mǎn)足等等。
其實(shí)神經(jīng)擬態(tài)計算的出現,就是要解決那些現在機器學(xué)習都做不了的事情,而這些事情通過(guò)類(lèi)腦芯片能夠得到很好的解決。
·神經(jīng)擬態(tài)計算為何不具有取代性?
神經(jīng)擬態(tài)研究并非什么新鮮事,但神經(jīng)擬態(tài)落地到計算芯片上、落地到實(shí)際應用中,英特爾LOIHI實(shí)屬首例。LOIHI每一個(gè)單芯片包含128個(gè)核,每一個(gè)核可以實(shí)現布局多個(gè)神經(jīng)元,每個(gè)神經(jīng)元可以跟其它神經(jīng)元產(chǎn)生互相連接。
英特爾的LOIHI神經(jīng)擬態(tài)計算芯片
LOIHI核芯里面的神經(jīng)元可以接收其它神經(jīng)元發(fā)送的脈沖,與深度學(xué)習卷積神經(jīng)網(wǎng)不同,LOIHI構成的是脈沖神經(jīng)網(wǎng)。脈沖神經(jīng)網(wǎng)同時(shí)處理時(shí)空信號,時(shí)間在里面是一個(gè)訓練參數,脈沖早一點(diǎn)來(lái)和晚一點(diǎn)來(lái),其訓練結果會(huì )產(chǎn)生差異。脈沖到達之后會(huì )驅動(dòng)神經(jīng)元里面原本記憶和存儲的以往被激發(fā)過(guò)的某些狀況,如果剛好這個(gè)脈沖來(lái)的時(shí)候導致了現在可以被激活發(fā)出一個(gè)信號的話(huà),那么它就會(huì )發(fā)出一個(gè)信號給別的神經(jīng)元,同時(shí)配合相應的算法,從而產(chǎn)生訓練和學(xué)習的過(guò)程,這也是LOIHI最底層的一種學(xué)習方式。
引入時(shí)空信號處理器的特性,使得LOIHI芯片上的神經(jīng)元里面的很多參數都可被實(shí)時(shí)調整,這使得LOIHI在工作時(shí)可以修改自己,實(shí)現自主學(xué)習、自我學(xué)習的能力,這是其與之前所有芯片的根本差異。如果都是在深度學(xué)習框架下訓練好一個(gè)模型,然后放到一個(gè)芯片里,那么這個(gè)芯片工作的時(shí)候永遠都是原來(lái)的參數,不設定新的框架就不會(huì )再改變。而神經(jīng)擬態(tài)計算芯片通過(guò)實(shí)時(shí)自主修改參數、并進(jìn)行學(xué)習訓練,就可以很好的解決人工智能的"智能"問(wèn)題,使機器能夠更接近自然智能的處理方式。
·結語(yǔ)
在深度學(xué)習、機器學(xué)習之后,到量子計算真正付諸實(shí)際應用之前,神經(jīng)擬態(tài)計算堪稱(chēng)推動(dòng)人工智能發(fā)展的重要手段。
那么既然更加先進(jìn)的技術(shù)出現了,深度學(xué)習、機器學(xué)習就應該被淘汰掉嗎?筆者認為這種觀(guān)點(diǎn)并不正確。
對于時(shí)下的人工智能行業(yè)來(lái)說(shuō),多形態(tài)技術(shù)的存在有極大的必要性,機器學(xué)習在很多領(lǐng)域依然是目前最好的訓練、學(xué)習手段之一。而深度學(xué)習在圖像、語(yǔ)音等領(lǐng)域的應用效果,也并非其它方法可以輕易去替代。
神經(jīng)擬態(tài)計算的出現,給人工智能發(fā)展開(kāi)拓了一條新的道路。它與深度學(xué)習、機器學(xué)習、數據挖掘等技術(shù)之間并非是誰(shuí)取代誰(shuí)、誰(shuí)淘汰誰(shuí)的關(guān)系,而是互補共進(jìn)的關(guān)系,只有將多種技術(shù)靈活的運用到人工智能領(lǐng)域,這個(gè)行業(yè)才能真正的發(fā)展起來(lái),才能真正成為惠及民生的產(chǎn)業(yè)。
從算法的角度看,機器學(xué)習有很多種算法,例如回歸算法、基于實(shí)例的算法、正則化算法、決策樹(shù)算法、貝葉斯算法、聚合算法、關(guān)聯(lián)規則學(xué)習算法和人工神經(jīng)網(wǎng)絡(luò )算法。很多算法可以應用于不同的具體問(wèn)題;很多具體的問(wèn)題也需要同時(shí)應用好幾種不同的算法。由于篇幅有限,我們僅介紹其中(可能是公眾心目中名氣最大的)一種:人工神經(jīng)網(wǎng)絡(luò )。
人工神經(jīng)網(wǎng)絡(luò ):
既然人工智能要模擬人類(lèi)的思考過(guò)程,一些人工智能科學(xué)家想,不如我們先看看人類(lèi)是怎樣思考的吧?
人類(lèi)的大腦是一個(gè)復雜的神經(jīng)網(wǎng)絡(luò )。它的組成單元是神經(jīng)元。每一個(gè)神經(jīng)元看起來(lái)很簡(jiǎn)單,它們先接收上一個(gè)神經(jīng)細胞的電信號刺激,再向下一個(gè)神經(jīng)細胞發(fā)出電信號刺激。
別看神經(jīng)元細胞很簡(jiǎn)單,但如果神經(jīng)元的數量很多,它們彼此之間的連接恰到好處,變成神經(jīng)網(wǎng)絡(luò ),就可以從簡(jiǎn)單中演生出復雜的智能來(lái)。例如,人類(lèi)的大腦中含有1千億個(gè)神經(jīng)元,平均每個(gè)神經(jīng)元跟其他的神經(jīng)元存在7000個(gè)突觸連接。一個(gè)三歲小孩大腦中,大約會(huì )形成1千萬(wàn)億個(gè)突觸。隨著(zhù)年齡的增長(cháng),人類(lèi)大腦的突觸數量會(huì )逐漸減少。成年人的大腦中,大約會(huì )有1百萬(wàn)億到5百萬(wàn)億個(gè)突觸。
雖然科學(xué)家還沒(méi)有完全搞清楚人類(lèi)大腦的神經(jīng)網(wǎng)絡(luò )的運作方式,但人工智能科學(xué)家想,不理解沒(méi)關(guān)系,先在計算機中模擬一組虛擬的神經(jīng)網(wǎng)絡(luò )試試看,這就是人工神經(jīng)網(wǎng)絡(luò )。

在人工神經(jīng)網(wǎng)絡(luò )中,每一個(gè)小圓圈都是在模擬一個(gè)“神經(jīng)元”。它能夠接收從上一層神經(jīng)元傳來(lái)的輸入信號(也就是一堆數字);根據不同神經(jīng)元在它眼中的重要性,分配不同的權重,然后將輸入信號按照各自的權重加起來(lái)(一堆數字乘以權重的大小,再求和);接著(zhù),它將加起來(lái)結果代入某個(gè)函數(通常是非線(xiàn)性函數),進(jìn)行運算,得到最終結果;最后,它再將這個(gè)結果輸出給神經(jīng)網(wǎng)絡(luò )中的下一層神經(jīng)元。

人工神經(jīng)網(wǎng)絡(luò )中的神經(jīng)元看起來(lái)很簡(jiǎn)單,只知道傻傻地將上一層神經(jīng)元的輸入數據進(jìn)行簡(jiǎn)單的運算,然后再傻傻地輸出。沒(méi)想到這一套還真的很管用,運用一系列精巧的算法,再給它投喂大量的數據之后,人工神經(jīng)網(wǎng)絡(luò )居然能夠像人腦的神經(jīng)網(wǎng)絡(luò )一樣,從復雜的數據中發(fā)現一系列“特征”,產(chǎn)生“聰明的思考結果”。
那么人工神經(jīng)網(wǎng)絡(luò )是怎么學(xué)習的呢?所謂的學(xué)習,本質(zhì)上是讓人工神經(jīng)網(wǎng)絡(luò )嘗試調節每一個(gè)神經(jīng)元上的權重大小,使得整個(gè)人工神經(jīng)網(wǎng)絡(luò )在某一個(gè)任務(wù)的測試中的表現達到某個(gè)要求(例如,識別汽車(chē)的正確率達到90%以上)。
請回憶一下前面講過(guò)的“梯度下降法”。人工神經(jīng)網(wǎng)絡(luò )嘗試不同的權重大小,相當于在一個(gè)參數空間的地圖上四處游走。每一種權重的組合對應的人工神經(jīng)網(wǎng)絡(luò )執行任務(wù)時(shí)的錯誤率,相當于這個(gè)地圖上的每一點(diǎn)都有一個(gè)海拔高度。尋找一組權重,使得人工神經(jīng)網(wǎng)絡(luò )的表現最好,錯誤率最低,就相當于在地圖上尋找海拔最低的地方。所以,人工神經(jīng)網(wǎng)絡(luò )的學(xué)習過(guò)程,常常要用到某種“梯度下降法”,這就是為什么如果將來(lái)你要學(xué)習人工智能,第一個(gè)要掌握的就是“梯度下降法”。


機器學(xué)習的分類(lèi):
從學(xué)習風(fēng)格的角度看,機器學(xué)習有很很多種學(xué)習方法,我們簡(jiǎn)要地列舉其中幾種方法:監督學(xué)習、非監督學(xué)習、強化學(xué)習和遷移學(xué)習。
監督學(xué)習:
比方說(shuō),你想教計算機如何識別一張照片上的動(dòng)物是不是貓。你先拿出幾十萬(wàn)張動(dòng)物的照片,凡是有貓的,你就告訴計算機有貓;凡是沒(méi)有貓的,你就告訴計算機沒(méi)有貓。也就是說(shuō),你預先給計算機要學(xué)習的數據進(jìn)行了分類(lèi)。這相當于你監督了計算機的學(xué)習過(guò)程。

經(jīng)過(guò)一段監督學(xué)習的過(guò)程之后

非監督學(xué)習:
比方說(shuō),你想教計算機區分貓和狗的照片。你拿出幾十萬(wàn)張貓和狗的照片(沒(méi)有其他動(dòng)物)。你并不告訴計算機哪些是貓,哪些是狗。也就是說(shuō),你沒(méi)有預先給計算機要學(xué)習的數據進(jìn)行分類(lèi),所以你并沒(méi)有監督計算機的學(xué)習過(guò)程。

經(jīng)過(guò)一段監督學(xué)習的過(guò)程之后,計算機就能把你輸入的照片按照相似性分成兩個(gè)大類(lèi)(也就是區分了貓和狗)。只不過(guò)計算機只是從數字照片的數學(xué)特征的角度進(jìn)行了分類(lèi),而不是從動(dòng)物學(xué)的角度進(jìn)行了分類(lèi)。

強化學(xué)習:
比方說(shuō),你想教計算機控制一只機械臂打乒乓球。一開(kāi)始,計算機控制機械臂像傻瓜一樣,拿著(zhù)球拍做很多隨機的動(dòng)作,完全不得要領(lǐng)。

但是,一旦機械臂湊巧接到一個(gè)球,并把球擊打到對手的球桌上,我們就讓計算機得一分,這叫做獎勵。一旦機械臂沒(méi)有正確地接到球、或沒(méi)有把球擊打到正確的位置上,我們就給計算機扣一分,這叫做懲罰。經(jīng)過(guò)大量的訓練之后,機械臂漸漸地從獎勵和懲罰中,學(xué)會(huì )了接球、擊打球的基本動(dòng)作。

遷移學(xué)習:
比方說(shuō),你讓計算機學(xué)會(huì )了控制機械臂打乒乓球之后,又叫它學(xué)習打網(wǎng)球。這個(gè)時(shí)候,你不需要讓計算機從零開(kāi)始重新學(xué),因為乒乓球和網(wǎng)球的規則是相似的。例如,這兩種球都要把球擊打到對方的球場(chǎng)/球桌上。所以,計算機可以將之前學(xué)到的動(dòng)作遷移過(guò)來(lái)。這樣一種學(xué)習,就叫做遷移學(xué)習。

聯(lián)系客服