中文字幕在线人成视频欧美_ AAAI 2023 Oral | 如何識別未知標簽？多模態(tài)知識遷移框架實(shí)現新SOTA

機器之心專(zhuān)欄

作者：騰訊優(yōu)圖實(shí)驗室

在多標簽分類(lèi)系統中，經(jīng)常遇到大量在訓練集中未曾出現的標簽，如何準確地識別這些標簽是非常重要也極富挑戰性的問(wèn)題。為此，騰訊優(yōu)圖實(shí)驗室聯(lián)合清華大學(xué)和深圳大學(xué)，提出了一種基于多模態(tài)知識遷移的框架 MKT，利用圖文預訓練模型強大的圖文匹配能力，保留圖像分類(lèi)中關(guān)鍵的視覺(jué)一致性信息，實(shí)現多標簽場(chǎng)景的 Open Vocabulary 分類(lèi)。本工作已入選 AAAI 2023 Oral。

論文鏈接：https://arxiv.org/abs/2207.01887
代碼鏈接：https://github.com/sunanhe/MKT

背景與挑戰

圖像多標簽識別算法的目標，是識別圖像中存在的所有類(lèi)別標簽。作為計算機視覺(jué)應用中的一項基礎能力，在場(chǎng)景理解、監控系統、自動(dòng)駕駛等任務(wù)中有著(zhù)廣泛的應用。在實(shí)際落地場(chǎng)景中，多標簽識別系統不僅需要識別圖像中存在的大量已知類(lèi)別標簽，最好還能較為準確地識別出未知標簽，即模型在訓練集中未曾見(jiàn)過(guò)的標簽。迄今為止，典型的有監督多標簽分類(lèi)方法，只能在訓練過(guò)的已知類(lèi)別標簽上進(jìn)行識別，遠遠無(wú)法滿(mǎn)足實(shí)際場(chǎng)景中對大量未知標簽的識別需求。因此，如何設計有效的算法，實(shí)現在有限的已知類(lèi)別標簽上進(jìn)行訓練，并在部署時(shí)同時(shí)支持在有限的已知類(lèi)別和大量未知類(lèi)別上的標簽識別，是實(shí)際落地場(chǎng)景中非常重要的問(wèn)題。

解決思路

為了識別這些訓練集未知標簽，已有的多標簽零樣本學(xué)習（ML-ZSL）方法，往往通過(guò)從訓練集已知標簽到訓練集未知標簽的知識遷移，來(lái)實(shí)現對未知標簽的識別。然而，這些方法存在以下問(wèn)題：

1. 這些方法只利用預訓練語(yǔ)言模型（如 GloVe）的單模態(tài)知識，來(lái)提取已知和未知標簽的 Embedding，如圖 1. (b) 所示，而忽視了文本標簽的視覺(jué)語(yǔ)義信息；

2. 盡管 GloVe 等語(yǔ)言模型可以比較好地提取單個(gè) Word 標簽的 Embedding，如 'Cat'，但是不能很好地擴展到由多個(gè) Word 組成的標簽，如 'Black Cat'，因而妨礙了模型在詞組標簽上的識別效果。

單模態(tài)的語(yǔ)言模型雖然很好地建模了標簽之間的語(yǔ)義一致性，但忽視了圖像分類(lèi)中關(guān)鍵的視覺(jué)一致性信息。近來(lái)，基于圖文預訓練模型的 Open Vocabulary 分類(lèi)模型，在單標簽 Open Vocabulary 分類(lèi)任務(wù)上取得了令人印象深刻的效果，但如何將這種能力遷移到多標簽場(chǎng)景，仍是亟待探索的問(wèn)題。

由此，研究者提出了一種基于多模態(tài)知識遷移（Multi-modal Knowledge Transfer, MKT）的框架，通過(guò)遷移大規模圖文預訓練模型中的多模態(tài)知識，挖掘文本標簽中的視覺(jué)一致性信息，實(shí)現了多標簽的 Open Vocabulary 分類(lèi)。如圖 1. (c) 所示，MKT 模型主要包含圖像編碼器和圖文預訓練模型的圖像、文本編碼器。研究者采用知識蒸餾（Knowledge Distillation）和提示學(xué)習（Prompt-Tuning）來(lái)進(jìn)一步增強圖像和文本 Embedding 的語(yǔ)義一致性，從而更好地遷移圖文模型的圖文匹配能力。在實(shí)踐中，知識蒸餾使得圖像編碼器提取的圖像 embedding 更好地與其相對應的文本 Embedding 對齊，而提示學(xué)習使得標簽 Embedding 更好地適應分類(lèi)任務(wù)。除此之外，為了進(jìn)一步提升特征表達能力，研究者提出了一種簡(jiǎn)單有效的雙流特征提取模塊，同時(shí)捕獲局部和全局特征，從而增強模型的判別特征表示能力。通過(guò)上述設計，MKT 框架可以更好地利用圖文模型中豐富的語(yǔ)義信息，遷移多模態(tài)知識，更好地識別訓練集未知標簽。

圖 1. ML-ZSL 和 MKT 方法比較

技術(shù)貢獻

該研究的主要技術(shù)貢獻可概括為如下幾點(diǎn)：

研究者提出了一種基于多模態(tài)知識遷移的 Open Vocabulary 多標簽識別框架 MKT，利用圖文預訓練模型中的多模態(tài)語(yǔ)義信息，進(jìn)行未知標簽的識別。這是業(yè)界首個(gè)研究 Open Vocabulary 多標簽分類(lèi)任務(wù)的工作。
MKT 框架主要包括圖像編碼器，和圖文預訓練模型的圖像和文本編碼器。研究者采用知識蒸餾來(lái)保證圖像和文本 Embedding 的一致性，并引入提示學(xué)習機制來(lái)迭代更新標簽 Embedding。為進(jìn)一步增強特征表示能力，研究者提出了雙流特征提取模塊，同時(shí)捕獲局部和全局特征。
MKT 在 NUS-WIDE 和 Open Images 公開(kāi)數據集上顯著(zhù)超過(guò)了以往的 ML-ZSL 方法，在 Open Vocabulary 多標簽分類(lèi)任務(wù)上達到 SOTA。

技術(shù)方案

MKT 總體框圖如圖 2. 所示，主要包含 Vision Transformer、雙流模塊（Two-Stream Module）、圖文預訓練（VLP）Image/Text Encoder 等模塊。其中，Vision Transformer 是提取圖片語(yǔ)義特征的 Backbone 網(wǎng)絡(luò )。由于 CLIP 具有強大的圖文匹配能力，研究者采用 CLIP 的圖像和文本編碼器作為圖文模型多模態(tài)知識的遷移來(lái)源。標簽 Embedding 由 CLIP 文本編碼器產(chǎn)生，并通過(guò)提示學(xué)習進(jìn)一步更新。研究者引入知識蒸餾來(lái)促進(jìn)圖像和文本 Embedding 的對齊。

圖 2. MKT 總體框圖

1.Backbone 網(wǎng)絡(luò )和雙流模塊

對于一張圖片，首先經(jīng)過(guò)分塊（Patchify）輸入 Vision Transformer 網(wǎng)絡(luò )，得到表征全局特征的 CLS Feature 和表征局部特征的 Patch Feature，然后分別采用全局 Head 和局部 Head，將全局和局部特征映射到 Embedding 空間，最后采用 TopK 平均的方式得到局部 Head 的相似度分數，與全局 Head 分數求平均得到最終預測分數，并采用排序損失（Ranking Loss）優(yōu)化模型：

其中

表示圖片

的標簽 Embedding，

表示內積運算，

表示圖片

的標簽預測分數向量，

表示圖片

存在標簽的集合，是已知標簽集合的子集。

2. 知識蒸餾和特征對齊

圖像 Embedding 和對應標簽 Embedding 的對齊，在從已知標簽到未知標簽的知識遷移過(guò)程中非常重要，對于開(kāi)放集合多標簽分類(lèi)來(lái)說(shuō)是十分關(guān)鍵的?？紤]到 CLIP 模型在預訓練階段進(jìn)行圖文對比訓練，產(chǎn)生的圖像和文本 Embedding 具有比較高的相似性，研究者采用知識蒸餾來(lái)遷移 CLIP 模型的多模態(tài)特征表示能力，促進(jìn)圖像 Embedding 和相關(guān)文本 Embedding 之間的對齊，蒸餾損失函數如下式：

其中

是圖像全局特征，

是 CLIP 圖像編碼器產(chǎn)生的特征。

3. 標簽 Embedding 的提示學(xué)習

參照 CLIP，研究者首先使用固定模板 'There is a {label} in the scene' 作為標簽上下文，將標簽文本送入 CLIP 文本編碼器，從而得到標簽 Embedding。由于固定模板的文本與 CLIP 訓練時(shí)的自然文本存在差異，有理由認為通過(guò)這種方式產(chǎn)生的標簽 Embedding 不是最優(yōu)的。因此，最好對標簽 Embedding 的產(chǎn)生過(guò)程進(jìn)行進(jìn)一步 finetune，但是由于訓練標簽數量有限，直接優(yōu)化文本編碼器容易造成過(guò)擬合。受到 CoOp 的啟發(fā)，研究者采用提示學(xué)習，僅優(yōu)化上下文 Embedding，其余模型參數均固定，這種在 Embedding 空間連續搜索的方式能夠促進(jìn)最優(yōu)上下文 Embedding 的學(xué)習，從而得到更好的標簽 Embedding。

4. 損失函數

研究者將 MKT 訓練過(guò)程分為兩個(gè)階段。在第一階段，標簽 Embedding 由預訓練的 CLIP 文本編碼器產(chǎn)生，Backbone 網(wǎng)絡(luò )和雙流模塊由排序損失和蒸餾損失聯(lián)合優(yōu)化：

在第二階段，采用排序損失進(jìn)行提示學(xué)習，只優(yōu)化標簽上下文 Embedding：

算法效果

為了驗證算法的效果，研究者在 NUS-WIDE 和 Open Images 兩個(gè) Benchmark 數據集上進(jìn)行實(shí)驗。NUS-WIDE 數據集包含 925 個(gè)已知標簽，81 個(gè)未知標簽，161,789 張訓練圖片，107,859 張測試圖片。更具挑戰性的 Open Images (v4) 數據集包含 7,186 個(gè)已知標簽，400 個(gè)未知標簽，900 萬(wàn)張訓練圖片，125,456 張測試圖片。實(shí)驗結果見(jiàn)表 1.，可以看出 MKT 相比以往 ML-ZSL 的 SOTA 方法有明顯提升，也顯著(zhù)優(yōu)于直接微調（Fine Tune）CLIP 模型的結果（CLIP-FT）。

表 1. 不同方法在 NUS-WIDE 和 Open Images 數據集上 ZSL 和 GZSL 任務(wù)的比較

MKT 和 CLIP、BiAM 模型，在 NUS-WIDE 測試集上的示例圖片可視化效果對比見(jiàn)圖 3.。

圖 3. NUS-WIDE 測試集示例圖片及預測

MKT 和 BiAM 的 Grad-CAM 可視化效果對比見(jiàn)圖 4.。

圖 4. Grad-CAM 可視化比較

在表 2. 和表 3. 的消融實(shí)驗中，研究者對知識蒸餾、提示學(xué)習和雙流模塊進(jìn)行了探索，驗證了這些模塊對于 MKT 框架多標簽識別效果的重要性。

表 2. 知識蒸餾和提示學(xué)習對實(shí)驗結果的影響

表 3. 雙流模塊對實(shí)驗結果的影響

總結

騰訊優(yōu)圖實(shí)驗室針對現有多標簽分類(lèi)方法對于大量訓練集不可見(jiàn)的未知類(lèi)別標簽不能有效識別的問(wèn)題，提出了一種可遷移多模態(tài)知識的通用 Open Vocabulary 多標簽學(xué)習框架：MKT。該研究遷移圖文預訓練模型強大的圖文匹配能力，通過(guò)引入提示學(xué)習和知識蒸餾來(lái)優(yōu)化標簽 Embedding 以及提升圖像 - 標簽 Embedding 的一致性，并采用雙流模塊同時(shí)捕捉局部和全局特征，提高了模型的多標簽識別能力。在 NUS-WIDE 和 Open Images 兩個(gè)公開(kāi)數據集上的實(shí)驗結果表明，該方法有效實(shí)現了 Open Vocabulary 的多標簽學(xué)習。

參考文獻

[1] Pennington J, Socher R, Manning CD. Glove: Global vectors for word representation. InProceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) 2014 Oct (pp. 1532-1543).

[2] Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, Krueger G. Learning transferable visual models from natural language supervision. InInternational Conference on Machine Learning 2021 Jul 1 (pp. 8748-8763). PMLR.

[3] Du Y, Wei F, Zhang Z, Shi M, Gao Y, Li G. Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022 (pp. 14084-14093).

[4] Huynh D, Kuen J, Lin Z, Gu J, Elhamifar E. Open-vocabulary instance segmentation via robust cross-modal pseudo-labeling. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022 (pp. 7020-7031).

[5] Zhou K, Yang J, Loy CC, Liu Z. Learning to prompt for vision-language models. International Journal of Computer Vision. 2022 Sep;130 (9):2337-48.

[6] Huynh D, Elhamifar E. A shared multi-attention framework for multi-label zero-shot learning. InProceedings of the IEEE/CVF conference on computer vision and pattern recognition 2020 (pp. 8776-8786).

[7] Ben-Cohen A, Zamir N, Ben-Baruch E, Friedman I, Zelnik-Manor L. Semantic diversity learning for zero-shot multi-label classification. InProceedings of the IEEE/CVF International Conference on Computer Vision 2021 (pp. 640-650).

[8] Narayan S, Gupta A, Khan S, Khan FS, Shao L, Shah M. Discriminative region-based multi-label zero-shot learning. InProceedings of the IEEE/CVF International Conference on Computer Vision 2021 (pp. 8731-8740).

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久