【按】:12月18日,在北京供銷(xiāo)大數據集團發(fā)展周年舉行的“加快大數據中心一體化進(jìn)程·2017北京峰會(huì )”上,創(chuàng )新工場(chǎng)創(chuàng )始人兼首席執行官李開(kāi)復發(fā)表主題演講,就人工智能與大數據結合的形成的一體化平臺潛在的商機發(fā)表主題演講。在演講中,他談到了多年前從事人工智能研究工作存在的先天不足,對比了人工智能與人類(lèi)大腦各自在的優(yōu)劣勢,談到了人工智能領(lǐng)域潛在的極大商業(yè)價(jià)值以及創(chuàng )新工場(chǎng)在該領(lǐng)域的一些舉措。
創(chuàng )新工場(chǎng)創(chuàng )始人兼首席執行官李開(kāi)復。
以下文字根據李開(kāi)復現場(chǎng)演講內容整理(未經(jīng)本人審定)。
“大數據”這個(gè)詞熱了十年,“人工智能”這個(gè)詞熱了也超過(guò)了一年。
回顧近兩年的發(fā)展,我們會(huì )發(fā)現在很多領(lǐng)域機器其實(shí)都超過(guò)了人類(lèi)。前一陣微軟發(fā)表了語(yǔ)音識別技術(shù),我們也投資了其他一些人臉識別技術(shù),這些技術(shù)早已經(jīng)超過(guò)了人類(lèi)識別的能力,所以機器一次又一次地超過(guò)了人類(lèi)。這代表什么樣的商機呢?是人類(lèi)歷史以來(lái)最大的商機。
十年后,如果我們回顧人類(lèi)的發(fā)展,會(huì )發(fā)現沒(méi)有任何市場(chǎng)比人工智能來(lái)得更大;移動(dòng)互聯(lián)網(wǎng)已經(jīng)巨大,但它連人工智能的十分之一都沒(méi)有,這一點(diǎn)我可以確切地告訴大家。
我從30年前就開(kāi)始探討索人工智能,但是沒(méi)有天時(shí)地利人和——機器不夠快,大數據中心不存在,數據不夠多,算法不夠先進(jìn)……30年來(lái),不斷有科學(xué)家發(fā)明新的技術(shù),從最近四五年開(kāi)始,這項技術(shù)在很多獨特領(lǐng)域遠超人類(lèi)。
雖然人工智能還有很多局限,如,沒(méi)有情感,一次只能涉足一個(gè)領(lǐng)域,不能跨領(lǐng)域思維,但是在狹窄領(lǐng)域里已經(jīng)遠遠超過(guò)了人類(lèi)。
如何用一個(gè)更通俗的方法解釋什么是人工智能?想象一臺機器是剛出生的小寶寶,人類(lèi)的小寶寶是用教育、用知識、用書(shū)本讓他們慢慢成長(cháng),但人工智能用什么來(lái)幫助他們成長(cháng)呢?就是大數據。大量的大數據灌進(jìn)去,他們成長(cháng)就比人快。
但是機器一次只能專(zhuān)注在某一個(gè)領(lǐng)域,你要教它旅游、搜索、識別、聽(tīng)語(yǔ)言、看文字、看人臉,在單一領(lǐng)域它可以做得非常好,但是跨領(lǐng)域做不到,所以人類(lèi)還是有機會(huì )的。美國科學(xué)家發(fā)明的深度學(xué)習在中國已經(jīng)普遍開(kāi)始使用,就是這個(gè)道理。
灌輸大量大數據可以幫助機器成長(cháng)。姑且認為人的大腦還是比機器優(yōu)秀,因為我們可以統籌各種知識和各種經(jīng)驗,但是機器有一個(gè)特別大的優(yōu)勢,即“過(guò)目不忘”,不僅可以?xún)Υ嫣貏e大量的數據,而且能夠從數據中學(xué)會(huì )推理。如果它能夠看到的數據比我們多一千倍,哪怕我們比它聰明10倍,最后的結果是它還會(huì )比我們好100倍。
以無(wú)人駕駛為例,一個(gè)人,即便一天開(kāi)100公里,一年365天地開(kāi),三五十年累積起來(lái)可能也就幾百萬(wàn)公里的經(jīng)驗,但是算來(lái),今天特斯拉已經(jīng)有20億公里數據,比我們多了1000倍,而且算法還在不斷演進(jìn),它還在收集數據,還沒(méi)有真實(shí)學(xué)會(huì )。即便我們現在比它聰明10倍,它也超過(guò)了人類(lèi)。
人一輩子可能看幾十萬(wàn)張臉,但記不住幾張。我們投資的一家做人臉識別的公司,訓練的是50億張人臉,比我們多看了1000倍,我們要用一輩子時(shí)間,它可能是只用三天時(shí)間就記住了。所以現在保安這一類(lèi)用人臉來(lái)做的工作根本比不上人工智能。
大數據的海量在各個(gè)狹窄的領(lǐng)域遠遠擊敗人類(lèi)所能夠做的極限,因為我們沒(méi)有無(wú)限的時(shí)間,我們讀一本書(shū)的速度是很慢的,而IBM人工智能參加電視比賽的時(shí)候,一天就能夠把全部美國國會(huì )圖書(shū)館的所有藏書(shū)讀完。
大數據正在各個(gè)領(lǐng)域幫助人類(lèi)創(chuàng )造價(jià)值。今天人們都在做大數據的人工智能,如百度的一條搜索,今日頭條的排序,淘寶推薦的每個(gè)產(chǎn)品,滴滴每次對接司機……背后都是人工智能;結合大數據的人工智能,可以廣泛應用于傳統領(lǐng)域,比如銀行、保險、券商、機器人炒股。我個(gè)人的投資已經(jīng)兩年沒(méi)有給人,都是機器人幫我理財,但回報一定比人要好,這些領(lǐng)域人類(lèi)根本不是對手。
在一個(gè)狹窄大數據領(lǐng)域,人類(lèi)永遠不會(huì )有任何機會(huì )勝過(guò)機器。
在醫療、教育等其他傳統領(lǐng)域都有大量數據,有超過(guò)人一生能看到的數據,機器算法、人工智能可能幾天之后就能比人做得更好,產(chǎn)生的商業(yè)價(jià)值是不可想象的,絕對超過(guò)移動(dòng)互聯(lián)網(wǎng),超過(guò)整個(gè)互聯(lián)網(wǎng),超過(guò)人類(lèi)所有的歷史累積。
創(chuàng )新工場(chǎng)不只是在做預測。我們所管理的基金投資孵化的項目,超過(guò)一半是針對這個(gè)領(lǐng)域的,我們是真金白銀在賭即將來(lái)臨的人工智能時(shí)代。
這個(gè)時(shí)代即將來(lái)臨,我們能做什么事情呢?
首先是建立好一體化大數據中心。這個(gè)事情最重要。為什么呢?所有應用需要的數據不是一個(gè)公司能夠收集的,是背后巨大的數據。這個(gè)數據中心必須一體化,因為除了應用里面的數據之外,用戶(hù)填的數據,外面還要抓取各種數據。
我們還希望收集在一體化數據中心里的數據能得到很好的保護,具有安全性,從而能夠探索將這些數據變成服務(wù),幫助創(chuàng )業(yè)公司創(chuàng )造價(jià)值。
比如說(shuō)要做一個(gè)貸款的APP,不能只是依靠用戶(hù)填寫(xiě)的幾樣數據就決定貸不貸,背后還要有整個(gè)征信數據,包括出行數據、消費數據等等,它可能提交一個(gè)要求,讓背后大數據人工智能判斷這個(gè)人還款概率是多少,欺詐概率是多少,有否犯罪記錄,貸款給他壞賬概率是多少,這些都可以算清楚,而且并不需要暴露用戶(hù)隱私數據。
對于大數據一體化來(lái)說(shuō),整合各個(gè)方面的數據是非常重要的?,F在BAT三家公司都已經(jīng)一體化了,可以想象在阿里內部,他們要來(lái)決定一個(gè)人的支付寶有沒(méi)有欺詐,或者這個(gè)人想買(mǎi)東西就推給他什么,這肯定是用上了集團所有數據。如果能做到更跨領(lǐng)域甚至國家級別的一體化,機會(huì )一定是更重大的。
第二是數據量需要非常多。數據收集是一個(gè)逐漸的過(guò)程。有些數據可能不能公開(kāi),有些公司數據可能需要保護隱私,但是可以用API做一個(gè)接口,不泄露數據。還有一些數據可能是要特別保護隱私,比如醫院診斷的個(gè)人數據,可以幫助更多人更健康,更早地提醒患者或者是診斷出一些問(wèn)題,可以產(chǎn)生很大價(jià)值。
這些數據怎樣整合起來(lái)?首先要有一個(gè)一體化數據中心。
谷歌成立了一家公司,旗下有100萬(wàn)臺數據庫服務(wù)器,是世界上最大的一體化數據中心,它把所有數據加以利用,用在搜索就是谷歌,用在診斷就是谷歌健康,用在汽車(chē)就是無(wú)人駕駛……背后都是人工智能加上一體化大數據。
所有這些我們都要嘗試去做。雖然谷歌遠遠領(lǐng)先,BAT也做得不錯,但是我們還要提供給更多公司有這樣的數據資源。
三是計算資源。這對創(chuàng )業(yè)公司來(lái)說(shuō)特別重要。APP時(shí)代,我們常說(shuō)中國創(chuàng )業(yè)成本達到歷史新低,三個(gè)小朋友寫(xiě)一些程序放到app商店就可以推出去了,幾十萬(wàn)、一百萬(wàn)元就可以創(chuàng )業(yè)了。很不幸,人工智能加大數據,創(chuàng )業(yè)成本達到歷史新高,我們投資的一家公司,七個(gè)小朋友,沒(méi)有人超過(guò)三十歲,他們成立的第一天,就把我們打的款花完了,還只是買(mǎi)了一些機器,因為做的是無(wú)人駕駛。但我們不可能讓成千上萬(wàn)的雙創(chuàng )項目都買(mǎi)機器。要把這些機器放在數據中心里,將CPU和GPU的功能很好結合,談個(gè)更好的采購價(jià)錢(qián),不同的時(shí)段按照使用收費,這個(gè)也是未來(lái)大數據能夠提供的很大的潛在機會(huì )。
四是要培訓大量人才。人工智能聽(tīng)起來(lái)非常高深,但是培養一個(gè)人工智能工程師,需要多久呢?這么高深的技術(shù)也許至少要十年、二十年?做網(wǎng)絡(luò )安全的都是要有十五、二十年的工齡,做計算機網(wǎng)絡(luò )和其他的領(lǐng)域都要讀博士再做十年工作吧?實(shí)際上 ,一個(gè)優(yōu)秀的理工學(xué)生半年就可以成為AI工程師。應該做一個(gè)更大的平臺培訓年輕人,這個(gè)過(guò)程中還要有一體化的大數據平臺,不可能讓每個(gè)大學(xué)買(mǎi)幾百萬(wàn)、上千萬(wàn)的設備。
總而言之,人工智能加上大數據時(shí)代,我們需要做什么事情?一是需要讓這些機器能夠集合起來(lái),實(shí)現一體化;二是把數據收起來(lái),無(wú)論是公開(kāi)的、授權的、消費的或者隱藏的、使用的;三是培養下一代,吸引海外頂尖的人回來(lái)帶著(zhù)這些小朋友,讓他們能夠學(xué)習、成長(cháng)。
創(chuàng )新工場(chǎng)看到了這些機會(huì ),正在策劃成立一個(gè)產(chǎn)業(yè)聯(lián)盟,在和相關(guān)部委溝通。這些事情要促成,一定是在北京,因為北京有中國最優(yōu)秀的大腦,最領(lǐng)先的人工智能技術(shù),北京也是創(chuàng )業(yè)的首府。我們非常希望把這個(gè)聯(lián)盟建立起來(lái)。在計算方面,數據中心方面,和北京供銷(xiāo)大數據集團合作,在購買(mǎi)大數據方面政府能提供多少,業(yè)界能買(mǎi)多少,能夠授權多少,我們希望也能統籌大數據這件事。在吸引海外頂尖人才和培養中國年輕優(yōu)秀小伙伴方面,我們也會(huì )準備一個(gè)完整的計劃。
這幾件事情里特別核心的一件就是大數據中心和人工智能算法的整合。
今天我們也非常高興能夠和北京供銷(xiāo)大數據集團宣布一項合作,也希望得到各位的支持。
讓我們一起來(lái)引領(lǐng)人工智能和大數據時(shí)代的來(lái)臨。
聯(lián)系客服