久久午夜无码鲁丝片午夜_ KDD2018 阿里巴巴論文揭示自家大規模視覺(jué)搜索算法

視覺(jué)搜索方向工業(yè)界的最佳實(shí)踐，極具參考價(jià)值。
使用手機一鍵拍照網(wǎng)上購物具有獨特的商業(yè)價(jià)值，是一種更加直觀(guān)和方便的購物體驗，也是移動(dòng)互聯(lián)網(wǎng)時(shí)代連接線(xiàn)上線(xiàn)下的重要渠道。
請看該文在KDD2018的視頻：

本文來(lái)自于即將召開(kāi)的數據挖掘頂級會(huì )議KDD2018上阿里巴巴錄用的論文《Visual Search at Alibaba 》，作者信息

文章首先介紹了在阿里巴巴這種超級龐大體量的電子商務(wù)場(chǎng)景下視覺(jué)搜索面臨的主要挑戰：
1.異構圖像匹配。用戶(hù)拍照上傳的圖像往往帶有復雜的背景，并不完全是感興趣的商品，且含有噪聲圖像質(zhì)量較差，而商家展示的圖片往往商品更加凸顯，且圖像質(zhì)量較好，這導致查詢(xún)圖像和數據庫圖像在語(yǔ)義和感官上有巨大差異。
2.數十億級的商品細粒度品類(lèi)，規模巨大。一般的圖像搜索算法無(wú)法處理，而且品類(lèi)不斷更新，品類(lèi)的自然標簽往往帶有噪聲甚至是錯誤的。
3.標注訓練數據的成本極高。如果使用監督學(xué)習的方法，海量數據清洗、標注都是極其昂貴的，所以要解決如何在沒(méi)有大量人類(lèi)注釋的情況下訓練深度模型以進(jìn)行有效的特征表示。
4.不僅僅要使用視覺(jué)搜索技術(shù)返回商品。還要連同商品其他屬性，考慮商品的質(zhì)量和購買(mǎi)意愿來(lái)改進(jìn)用戶(hù)體驗。
拍立淘視覺(jué)搜索購物示

阿里巴巴視覺(jué)搜索研發(fā)團隊結合目前最先進(jìn)的深度學(xué)習技術(shù)和自身的業(yè)務(wù)特點(diǎn)，經(jīng)過(guò)4年的迭代研發(fā)，其目前視覺(jué)搜索系統的主要技術(shù)特點(diǎn)：
1.結合分類(lèi)建模與近鄰搜索技術(shù)的精準有效的類(lèi)別預測方法；
2.通過(guò)弱監督學(xué)習實(shí)現目標檢測和特征表示的CNN架構的聯(lián)合學(xué)習；
3.通過(guò)二值特征索引和重排序技術(shù)改進(jìn)用戶(hù)體驗，實(shí)現移動(dòng)端應用的毫秒級響應。

視覺(jué)搜索總體架構

離線(xiàn)部分涉及到商品類(lèi)目選擇、特征提取、索引構建，模型構建后每日指定時(shí)間更新模型。
在線(xiàn)部分與此相仿，在一個(gè)超大的分布式系統中，完成類(lèi)別預測、在線(xiàn)檢測和特征提取，最終返回給用戶(hù)重排序后的與查詢(xún)圖像相關(guān)的商品類(lèi)目。

下面逐步分解其重要的技術(shù)細節。
1.商品類(lèi)別預測
淘寶目前將商品分成14個(gè)大類(lèi)，視覺(jué)搜索系統根據用戶(hù)上傳的圖像要精確預測用戶(hù)此刻感興趣的是哪個(gè)類(lèi)別，比如鞋子、褲子、背包還是帽子等。
研究團隊使用模型融合方法精確預測商品類(lèi)目。
1.1 從商品庫圖像中選擇商品類(lèi)目的圖像。
淘寶有大量的商品，首先通過(guò)購物偏好和圖像質(zhì)量選擇那些用戶(hù)在拍照購物場(chǎng)景中經(jīng)常購買(mǎi)的商品，建立索引，并進(jìn)行圖像去重。
1.2 基于分類(lèi)模型和圖像搜索融合技術(shù)的圖像類(lèi)別預測。
基于分類(lèi)模型的商品類(lèi)別預測，即訓練GoogLeNet V1網(wǎng)絡(luò )預測查詢(xún)圖像的類(lèi)別，使用softmax分類(lèi)函數，得到每一種可能的類(lèi)別都有一個(gè)所屬的概率；
基于圖像搜索技術(shù)的商品類(lèi)別預測，即使用GoogLeNet V1網(wǎng)絡(luò )輸出的特征在整個(gè)圖像庫中檢索最相似的Top30圖像，對這30幅圖像所在的類(lèi)別進(jìn)行加權排序，同樣得到每一種可能的類(lèi)別都有一個(gè)所屬的概率；
融合方法，將分類(lèi)模型得到的每類(lèi)的概率和圖像搜索得到的每類(lèi)的概率加權平均，得到最終的最可能的商品類(lèi)別。
通過(guò)上述簡(jiǎn)單的融合方法，取得了2%的Top1精度的改進(jìn)。
2.聯(lián)合目標檢測和特征學(xué)習
用戶(hù)拍攝圖像往往含有大面積嘈雜背景，通過(guò)檢測到用戶(hù)真正感興趣的目標可以大幅提高檢索精度。
2.1 為了精確地度量查詢(xún)圖像和數據庫每一種商品的圖像的相似性，采用triplet ranking loss 作為距離度量的損失函數。

這里存在一個(gè)很大的問(wèn)題是，負樣本的構造，直覺(jué)上使用其他類(lèi)目的庫圖像，但其實(shí)并不是一個(gè)最優(yōu)的選擇，阿里的工程師通過(guò)挖掘海量用戶(hù)的點(diǎn)擊行為，直接使用用戶(hù)的點(diǎn)擊圖像和非點(diǎn)擊圖像作為正負樣本，使用這樣的弱監督信息訓練模型。

2.2 統一的聯(lián)合檢測與特征學(xué)習的深度排序架構

如上圖所示，去除目標的背景，將目標檢測出來(lái)，裁剪出目標區域再Feed進(jìn)深度模型進(jìn)行檢索可以得到更佳的檢索精度。直觀(guān)上，可以使用一個(gè)目標檢測模型（比如SSD、Faster RCNN），但這勢必會(huì )造成時(shí)間開(kāi)銷(xiāo)增大。阿里的工程師選擇一種聯(lián)合學(xué)習的方法。如下圖：

將原始圖像Feed進(jìn)網(wǎng)絡(luò )，網(wǎng)絡(luò )有一個(gè)目標定位的分支，預測目標的位置坐標mask，然后將此mask和原始圖像求與，將得到的去除背景的圖像Feed進(jìn)檢索的特征學(xué)習網(wǎng)絡(luò )。值得一提的是，標注大量的目標框是極其昂貴的，其實(shí)這里并沒(méi)有標注目標框的監督信息被引入，檢測分支完全是為了誘導網(wǎng)絡(luò )去學(xué)習一個(gè)更有利于后續鑒別特征學(xué)習的目標框的坐標。事實(shí)證明，這種框架非常有效而且節省大量的標注人力。

3.圖像索引和檢索
為提高響應速度，使用大規模二值索引引擎進(jìn)行查詢(xún)和排序。

3.1 十億級的大規模圖像檢索
Multi-shards ：因為單機內存無(wú)法存儲這么大的特征數據，特征被存儲到多個(gè)節點(diǎn)，對于單次查詢(xún)，每個(gè)節點(diǎn)檢索出的Top K結果被合并起來(lái)得到最終的結果。
Multi-replications ：?jiǎn)蝹€(gè)數據庫特征存儲無(wú)法應對大量的查詢(xún)流量，特征數據庫被復制多份，將查詢(xún)流量分流的不同的服務(wù)器集群上，以降低用戶(hù)的平均查詢(xún)時(shí)間。
3.2 質(zhì)量感知的結果重排序
對于視覺(jué)搜索返回的商品列表結果，研究發(fā)現即是是精準的結果但并不總是最能激發(fā)用戶(hù)商品點(diǎn)擊購買(mǎi)的商品，所以最后會(huì )根據商品列表里每個(gè)商品的價(jià)格、好評度、用戶(hù)畫(huà)像等其他信息重排序。

實(shí)驗
實(shí)驗部分對該大規模視覺(jué)搜索系統的各個(gè)部分進(jìn)行了分別評估。具體構造數據集的方法請查看原論文，本文僅展示評估結果。

類(lèi)別預測評估
如上圖中Table 1所示，單純基于分類(lèi)模型的方法Top1精度是88.86%，單純基于圖像搜索的方法Top1精度85.51%，但在一些類(lèi)上，基于圖像搜索的方法精度更高，比如shirt, pants, bags ，最終通過(guò)模型融合，得到最終的精度91.01%。
搜索相關(guān)性性能評估
評估了主流的圖像分類(lèi)網(wǎng)絡(luò )架構和使用上述方法訓練的GoogLeNet V1的搜索結果的召回率性能。如下圖：

可以看到通過(guò)本文方法訓練的兼具模型小、速度快特點(diǎn)的GoogLeNet V1網(wǎng)絡(luò )取得了最好的結果。

為驗證學(xué)習到的特征既保留了語(yǔ)義信息又保持了局部近鄰，作者對少量樣本進(jìn)行了可視化：

并展示了部分檢索示例：

聯(lián)合檢測和特征學(xué)習架構的評估
如上圖Table 1所示，通過(guò)返回K（1，4，20）個(gè)檢索的目標，計算召回率。發(fā)現隨著(zhù)K的增加，召回率逐步提高，說(shuō)明這種聯(lián)合訓練方法沒(méi)有引入更多不相關(guān)的信息，證明了方法的有效性。

用戶(hù)點(diǎn)擊數據和庫目錄數據構建 triplets的性能影響評估

可以發(fā)現使用用戶(hù)點(diǎn)擊數據的弱監督信息，在召回率和MAP上都有性能的優(yōu)勢。

目標定位的評估
通過(guò)在與標注數據上訓練的SSD的比較，如下圖所示，可以看到定位的精度稍遜于SSD，但召回率相差無(wú)幾，計算延遲大幅下降。

本文介紹了阿里巴巴視覺(jué)搜索應用拍立淘的核心技術(shù)，可以總結出在設計實(shí)現這套系統的過(guò)程中，工程師們關(guān)心的問(wèn)題和解決方案：
1.提高檢索召回率——算法融合；
2.提高響應速度——二值索引；
3.降低標注成本——弱監督學(xué)習；
4.結合業(yè)務(wù)的推薦——最終還是要對用戶(hù)體驗和鼓勵購買(mǎi)負責！

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久