編譯:Mika
【導讀】
點(diǎn)擊下方視頻,先睹為快:
??????
10年前,計算機視覺(jué)研究者認為,要讓一臺電腦去分辨出一只貓和狗的不同之處,這幾乎是不可能的,即便是在當時(shí)人工智能已經(jīng)取得了重大突破的情況下。
Joseph Redmon家養的貓
Joseph Redmon家養的狗
但如今我們已經(jīng)可以做到讓它的正確率在99%以上。這個(gè)方法叫做圖像分類(lèi),給它一張圖,再給這張圖貼上標簽。通過(guò)這種方式,計算機就可以知道數千種的分類(lèi)。
我是華盛頓大學(xué)的一名研究生,我正致力于一個(gè)名叫Darknet的項目,這是一個(gè)用來(lái)訓練和測試計算機視覺(jué)模型的神經(jīng)網(wǎng)絡(luò )結構。
Joseph Redmon所進(jìn)行的Darknet項目
讓我們來(lái)看看Darknet是如何看待這張圖片。
當我們在這張圖片上運行識別器時(shí),我們注意到,它不僅能判斷出圖片上是貓是狗,還能給出它是哪個(gè)品種的預測。這就是我們目前所達到的粒度級別。
它的預測是正確的,我的狗的確是一只阿拉斯加雪橇犬。
很明顯,我們在圖像識別上取得了驚人的進(jìn)步。但是如果我們對這樣一張圖片運行識別器,會(huì )如何呢?

看一下,我們看到識別器給出了一個(gè)非常相似的預測。而且是正確的,圖中是有一只阿拉斯加雪橇犬。但只使用這一個(gè)標簽,我們并不能真正的了解這張圖片,我們需要更強大的檢測器。
我正在研究一個(gè)叫做目標檢測的問(wèn)題,也就是嘗試將一張圖上的所有目標物都找出來(lái),然后將它們分別框起來(lái),再加上標注。
這就是我們對這張照片運行檢測器時(shí)所發(fā)生的?;谶@樣的結果,我們可以用計算機視覺(jué)算法做更多的事情。
我們發(fā)現,它知道這里有一只貓和一只狗。知道它們的相對位置,它們的大小,甚至還知道一些額外的信息,例如背景里有一本書(shū)。

如果你想建立一個(gè)基于計算機視覺(jué)的系統,比如說(shuō)無(wú)人駕駛汽車(chē)或者機器人系統,這就是你想要得到的信息。你需要一個(gè)能與物質(zhì)世界互動(dòng)的系統。
速度對于目標檢測至關(guān)重要
當我最開(kāi)始開(kāi)展目標檢測項目時(shí),它要花20秒去處理一張圖片。
為了理解為什么速度在這個(gè)領(lǐng)域是如此重要。舉一個(gè)例子,這是一個(gè)2秒鐘就能處理一張圖片的檢測器。這個(gè)檢測器的速度要比處理每張圖需要20秒的檢測器快10倍??梢钥吹皆谒龀鲱A測的時(shí)候,被檢測的世界已經(jīng)發(fā)生變化了。這對于一個(gè)應用來(lái)說(shuō)是沒(méi)有多大用處的。

每2秒處理一張圖
如果我們將它的速度再提升10倍,這個(gè)檢測器每秒可處理5張畫(huà)面,這就好很多了。

每秒處理5張圖
但是,舉個(gè)例子。如果有任何重大的移動(dòng),它就反應不過(guò)來(lái)了。我可不想讓這樣的一個(gè)系統來(lái)駕駛我的汽車(chē)。
這是在我電腦上運行的實(shí)時(shí)檢測系統。當我在移動(dòng)時(shí),它能順利地追蹤我。而且它強大到能適應不同的物體大小、姿勢、向前、向后的改變,很了不起。

實(shí)時(shí)檢測系統
如果我們想要建造一個(gè)基于計算機視覺(jué)的系統,那么這就是我們真正需要的。
僅僅是幾年的時(shí)間,我們就從每張圖20秒提升到了每張圖20毫秒,速度提高了1000倍。我們是如何做到的呢?
目標檢測將圖片分成小區域進(jìn)行識別
過(guò)去,目標檢測系統會(huì )將這張圖片分成很多小區域,然后在每一塊區域運行一下識別器。在識別器中獲得最高分數的輸出就會(huì )被認為是這張圖片的檢測結果。這涉及到要在一張圖片上運行數千次識別器,以及數千次的神經(jīng)網(wǎng)絡(luò )評估才能獲得檢測結果。

而現在,我們訓練了可以做出所有檢測的單一網(wǎng)絡(luò ),它能同時(shí)生成邊界盒和類(lèi)別概率。
使用我們的系統,不需要為了生成檢測結果去重復上千數次地看同一張圖片,只看一次就行了。這也是為什么我們稱(chēng)之為,目標檢測的"YOLO(you only look once)法"(只看一次)。

有了這個(gè)速度,我們就不僅限于識別圖像了,還可以實(shí)時(shí)處理視頻?,F在我們不僅看到了貓和狗,還能看到它們走來(lái)走去,互相嘻戲。

這是一個(gè)我們在微軟的COCO數據庫上,用80種不同種類(lèi)的物品訓練過(guò)的檢測器。包含了各種東西,像勺子、叉子、碗等常見(jiàn)物品。

還有各種奇特的東西,動(dòng)物、汽車(chē)、斑馬、長(cháng)頸鹿。

現在我們要做點(diǎn)兒有趣的事情,我們的攝像頭將要對準觀(guān)眾區看看能檢測出什么。
我們把檢測閥值調低一點(diǎn),這樣就可以找出更多的觀(guān)眾。看下我們能不能找出這些停車(chē)標志,我們發(fā)現了一些背包。所有這些都是在電腦上實(shí)時(shí)處理的。

請大家記住,這是一個(gè)通用的目標檢測系統。因此我們可以將它訓練用于任何領(lǐng)域的圖像識別。
拓展到自動(dòng)駕駛汽車(chē)、機器人甚至癌癥檢測等應用領(lǐng)域
我們在無(wú)人駕駛汽車(chē)中,用來(lái)發(fā)現停車(chē)標志 行人和自行車(chē)的代碼,同樣可以用于在組織活檢中找出癌細胞。全球已經(jīng)有很多研究者正在利用這一技術(shù)在醫學(xué)、機器人學(xué)等方面取得了進(jìn)展。
今天早上,我剛讀到一篇文章,人們在內羅畢國家公園對動(dòng)物數量進(jìn)行普查,使用了YOLO作為檢測系統的一部分。因為Darknet是一個(gè)開(kāi)源項目,在公共領(lǐng)域任何人都可以免費使用。
但是我們想要讓檢測器能被更多人使用,也更好用因此通過(guò)結合模型優(yōu)化,網(wǎng)絡(luò )二值化和近似法,我們實(shí)際上已經(jīng)可以在手機上進(jìn)行目標檢測了。

我真的很激動(dòng),因為我們在初級計算機視覺(jué)問(wèn)題上有了強大的解決方案,同時(shí)任何人都可以使用它來(lái)做些什么。
接下來(lái)就看所有在座的各位,以及世界上所有能夠使用這個(gè)軟件的人了。我已經(jīng)等不及想要看看,人們會(huì )用這一技術(shù)創(chuàng )造出什么來(lái)了,謝謝大家。

點(diǎn)這里??關(guān)注我,記得標星哦~

聯(lián)系客服