你有沒(méi)有遇到過(guò)這樣的煩惱,絞盡腦汁憋出了個(gè)別人沒(méi)做多的idea,感覺(jué)彌補了現今理論的重大漏洞,必定實(shí)現精度和速度的比翼齊飛!可是費了九牛二虎之力跑完了實(shí)驗,結果卻一點(diǎn)改進(jìn)也沒(méi)有。
唉!
[抱抱] 這是科研之日?!?/p>
不過(guò)前幾天新出的一篇多目標跟蹤的論文,在主流的多目標跟蹤數據集上結果異常好,幾乎打敗之前所有State-of-the-art算法,但作者卻稱(chēng)該算法只是個(gè)baseline,而且是simple baseline!
該文即 A Simple Baseline for Multi-Object Tracking :
作者來(lái)自華中科技大學(xué)和微軟亞洲研究院。
目前多目標跟蹤算法基本都是以目標檢測和目標重識別(ReID)為核心組件,目標檢測是為了發(fā)現當前畫(huà)面所有的目標,ReID則是將當前所有目標與之前幀的目標建立關(guān)聯(lián),后一步可以通過(guò)ReID特征向量的距離比較和目標區域交并比(IOU)來(lái)建立關(guān)聯(lián)。
看起來(lái)思路還是很直接的,目標檢測和ReID結合的方式就成為了多目標跟蹤方法技術(shù)分類(lèi)的依據。
作者指出目前方法多可歸納為兩類(lèi)。
1. 兩步法 Two-Step MOT Methods
先進(jìn)行目標檢測,然后對于檢測到的目標resize到固定大小,然后提取ReID特征,這種方法很顯然的好處是,目標尺度被很好的歸一化了,但明顯的問(wèn)題是目標檢測和ReID特征提取之間沒(méi)有特征復用,計算成本很高。
2. 一步到位法 One-Shot MOT Methods
目標檢測的同時(shí)也進(jìn)行ReID特征提取,現有的方法比如Track-RCNN、JDE(Towards real-time multi-object tracking)直接在Mask R-CNN、YOLOv3的檢測端并行加入ReID特征向量輸出。很顯然這能節約計算時(shí)間,但作者研究發(fā)現此類(lèi)方法存在目標ID關(guān)聯(lián)不正確的問(wèn)題。
該文研究的即 One-Shot MOT Methods 類(lèi)方法,認為現有的此類(lèi)別的多目標跟蹤方法使用了anchor-based 類(lèi)目標檢測,目標的ReID特征是在anchor區域提取的,anchor 和目標區域會(huì )出現不對齊的問(wèn)題,這會(huì )導致網(wǎng)絡(luò )訓練時(shí)存在嚴重的歧義。
如下圖,
左圖紅色和黃色框都是為了估計藍色衣服人位置的anchor,但其都與目標存在較大的位置偏差,在這些anchor上提取特征并告訴ReID網(wǎng)絡(luò )來(lái)自同一個(gè)人,是不合適的。
算法改進(jìn)
【改進(jìn)點(diǎn)一】
作者解決的辦法其實(shí)也很簡(jiǎn)單的,那就是不要使用基于anchor的目標檢測方法嘛,用anchor-free的方法,尤其是以 Objects as points 為代表的方法,將目標檢測看作為目標中心點(diǎn)檢測的問(wèn)題,依此中心點(diǎn)輸出ReID特征。
看起來(lái)不錯!
【改進(jìn)點(diǎn)二】
另外,兩步法對尺度變化不敏感,為加強處理One-Shot MOT 類(lèi)方法對大小目標通殺,作者引入了Multi-Layer Feature Aggregation,將網(wǎng)絡(luò )高層次和低層次特征融合。
也很有道理!
【改進(jìn)點(diǎn)三】
通常ReID問(wèn)題中特征向量維度越大表現越好,但這需要大量的訓練數據。在多目標跟蹤的ReID問(wèn)題中數據并不豐富,作者發(fā)現維度小一點(diǎn)其實(shí)更好,降低了過(guò)擬合的風(fēng)險,還可以減少計算量。
犀利的眼光!
該文選擇了 Objects as points 目標檢測方法,算法框架如下:
圖像經(jīng)編碼器-解碼器網(wǎng)絡(luò )輸出兩個(gè)任務(wù),目標檢測和ReID特征提取,檢測部分輸出候選目標中心點(diǎn)熱圖heatmap、目標包圍框大小 box size、目標中心相對原圖實(shí)際位置的偏移量 center offset。
ReID特征提取部分則是輸出所有候選目標中心點(diǎn)的128維ReID特征,所以檢測部分結果出來(lái),其對應的ReID特征就有了。
作者稱(chēng)該算法為FairMOT,意即目標檢測和ReID特征提取兼顧的多目標跟蹤算法。
實(shí)驗結果
重頭戲到了,以上改進(jìn)看起來(lái)只是算法替換和小打小鬧,卻帶來(lái)了異常驚艷的結果!
與其他one-shot 跟蹤算法的比較:
精度和速度都是大幅超越,完勝!
與其他在線(xiàn)跟蹤器包括多個(gè) two-step 方法 state-of-the-art 在多個(gè)數據集上的比較:
在大多數指標下都是大幅超越第二名的完勝,少部分不是第一的,也是接近頂尖的水平。
而且相比其他算法速度也很快,達到30FPS。
以下是作者跑出來(lái)的一些結果:




雖然人多的畫(huà)面各個(gè)目標框人眼已經(jīng)難以區分,但大家可以明顯感覺(jué)到在人群如此擁擠的情況下各個(gè)框的穩定性非常好。
FairMOT是目前最好的多目標跟蹤算法,而且代碼開(kāi)源了。
該文沒(méi)有提出驚世駭俗的理論,只是發(fā)現了以往算法的重大缺陷,替換修補之,結果卻很驚艷!這樣的論文對你有啟發(fā)嗎?歡迎留言討論!
論文地址:
https://arxiv.org/abs/2004.01888
代碼地址:
https://github.com/ifzhang/FairMOT
END

備注:跟蹤
目標跟蹤交流群
目標跟蹤、視覺(jué)跟蹤等更多最新技術(shù),
若已為CV君其他賬號好友請直接私信。
在看,讓更多人看到

聯(lián)系客服