視覺(jué)搜索方向工業(yè)界的最佳實(shí)踐,極具參考價(jià)值。
使用手機一鍵拍照網(wǎng)上購物具有獨特的商業(yè)價(jià)值,是一種更加直觀(guān)和方便的購物體驗,也是移動(dòng)互聯(lián)網(wǎng)時(shí)代連接線(xiàn)上線(xiàn)下的重要渠道。
請看該文在KDD2018的視頻:
本文來(lái)自于即將召開(kāi)的數據挖掘頂級會(huì )議KDD2018上阿里巴巴錄用的論文《Visual Search at Alibaba 》,作者信息
文章首先介紹了在阿里巴巴這種超級龐大體量的電子商務(wù)場(chǎng)景下視覺(jué)搜索面臨的主要挑戰:
1.異構圖像匹配。用戶(hù)拍照上傳的圖像往往帶有復雜的背景,并不完全是感興趣的商品,且含有噪聲圖像質(zhì)量較差,而商家展示的圖片往往商品更加凸顯,且圖像質(zhì)量較好,這導致查詢(xún)圖像和數據庫圖像在語(yǔ)義和感官上有巨大差異。
2.數十億級的商品細粒度品類(lèi),規模巨大。一般的圖像搜索算法無(wú)法處理,而且品類(lèi)不斷更新,品類(lèi)的自然標簽往往帶有噪聲甚至是錯誤的。
3.標注訓練數據的成本極高。如果使用監督學(xué)習的方法,海量數據清洗、標注都是極其昂貴的,所以要解決如何在沒(méi)有大量人類(lèi)注釋的情況下訓練深度模型以進(jìn)行有效的特征表示。
4.不僅僅要使用視覺(jué)搜索技術(shù)返回商品。還要連同商品其他屬性,考慮商品的質(zhì)量和購買(mǎi)意愿來(lái)改進(jìn)用戶(hù)體驗。
拍立淘視覺(jué)搜索購物示
阿里巴巴視覺(jué)搜索研發(fā)團隊結合目前最先進(jìn)的深度學(xué)習技術(shù)和自身的業(yè)務(wù)特點(diǎn),經(jīng)過(guò)4年的迭代研發(fā),其目前視覺(jué)搜索系統的主要技術(shù)特點(diǎn):
1.結合分類(lèi)建模與近鄰搜索技術(shù)的精準有效的類(lèi)別預測方法;
2.通過(guò)弱監督學(xué)習實(shí)現目標檢測和特征表示的CNN架構的聯(lián)合學(xué)習;
3.通過(guò)二值特征索引和重排序技術(shù)改進(jìn)用戶(hù)體驗,實(shí)現移動(dòng)端應用的毫秒級響應。
視覺(jué)搜索總體架構
離線(xiàn)部分涉及到商品類(lèi)目選擇、特征提取、索引構建,模型構建后每日指定時(shí)間更新模型。
在線(xiàn)部分與此相仿,在一個(gè)超大的分布式系統中,完成類(lèi)別預測、在線(xiàn)檢測和特征提取,最終返回給用戶(hù)重排序后的與查詢(xún)圖像相關(guān)的商品類(lèi)目。
下面逐步分解其重要的技術(shù)細節。
1.商品類(lèi)別預測
淘寶目前將商品分成14個(gè)大類(lèi),視覺(jué)搜索系統根據用戶(hù)上傳的圖像要精確預測用戶(hù)此刻感興趣的是哪個(gè)類(lèi)別,比如鞋子、褲子、背包還是帽子等。
研究團隊使用模型融合方法精確預測商品類(lèi)目。
1.1 從商品庫圖像中選擇商品類(lèi)目的圖像。
淘寶有大量的商品,首先通過(guò)購物偏好和圖像質(zhì)量選擇那些用戶(hù)在拍照購物場(chǎng)景中經(jīng)常購買(mǎi)的商品,建立索引,并進(jìn)行圖像去重。
1.2 基于分類(lèi)模型和圖像搜索融合技術(shù)的圖像類(lèi)別預測。
基于分類(lèi)模型的商品類(lèi)別預測,即訓練GoogLeNet V1網(wǎng)絡(luò )預測查詢(xún)圖像的類(lèi)別,使用softmax分類(lèi)函數,得到每一種可能的類(lèi)別都有一個(gè)所屬的概率;
基于圖像搜索技術(shù)的商品類(lèi)別預測,即使用GoogLeNet V1網(wǎng)絡(luò )輸出的特征在整個(gè)圖像庫中檢索最相似的Top30圖像,對這30幅圖像所在的類(lèi)別進(jìn)行加權排序,同樣得到每一種可能的類(lèi)別都有一個(gè)所屬的概率;
融合方法,將分類(lèi)模型得到的每類(lèi)的概率和圖像搜索得到的每類(lèi)的概率加權平均,得到最終的最可能的商品類(lèi)別。
通過(guò)上述簡(jiǎn)單的融合方法,取得了2%的Top1精度的改進(jìn)。
2.聯(lián)合目標檢測和特征學(xué)習
用戶(hù)拍攝圖像往往含有大面積嘈雜背景,通過(guò)檢測到用戶(hù)真正感興趣的目標可以大幅提高檢索精度。
2.1 為了精確地度量查詢(xún)圖像和數據庫每一種商品的圖像的相似性,采用triplet ranking loss 作為距離度量的損失函數。




3.圖像索引和檢索
為提高響應速度,使用大規模二值索引引擎進(jìn)行查詢(xún)和排序。

實(shí)驗
實(shí)驗部分對該大規模視覺(jué)搜索系統的各個(gè)部分進(jìn)行了分別評估。具體構造數據集的方法請查看原論文,本文僅展示評估結果。


為驗證學(xué)習到的特征既保留了語(yǔ)義信息又保持了局部近鄰,作者對少量樣本進(jìn)行了可視化:

并展示了部分檢索示例:


聯(lián)合檢測和特征學(xué)習架構的評估
如上圖Table 1所示,通過(guò)返回K(1,4,20)個(gè)檢索的目標,計算召回率。發(fā)現隨著(zhù)K的增加,召回率逐步提高,說(shuō)明這種聯(lián)合訓練方法沒(méi)有引入更多不相關(guān)的信息,證明了方法的有效性。
用戶(hù)點(diǎn)擊數據和庫目錄數據構建 triplets的性能影響評估

可以發(fā)現使用用戶(hù)點(diǎn)擊數據的弱監督信息,在召回率和MAP上都有性能的優(yōu)勢。
目標定位的評估
通過(guò)在與標注數據上訓練的SSD的比較,如下圖所示,可以看到定位的精度稍遜于SSD,但召回率相差無(wú)幾,計算延遲大幅下降。

本文介紹了阿里巴巴視覺(jué)搜索應用拍立淘的核心技術(shù),可以總結出在設計實(shí)現這套系統的過(guò)程中,工程師們關(guān)心的問(wèn)題和解決方案:
1.提高檢索召回率——算法融合;
2.提高響應速度——二值索引;
3.降低標注成本——弱監督學(xué)習;
4.結合業(yè)務(wù)的推薦——最終還是要對用戶(hù)體驗和鼓勵購買(mǎi)負責!
聯(lián)系客服