欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
SemVLP 單流和雙流Transformer哪個(gè)好?阿里:我全都要!提出帶可插拔模塊的Transformer結構
1

寫(xiě)在前面

大規模圖像-文本對的視覺(jué)語(yǔ)言預訓練(VLP)在跨模態(tài)表征的學(xué)習方面取得了快速的進(jìn)展?,F有的預訓練方法要么直接將特征級的圖像表示和文本表示連接起來(lái)作為single-stream Transformer的輸入,要么使用two-stream Transformer將圖像-文本表示在高級語(yǔ)義空間對齊。

在真實(shí)的圖像-文本數據中,一部分圖像-文本對很容易在兩種模態(tài)上對齊語(yǔ)義,而另一部分圖像-文本對需要進(jìn)行更高級語(yǔ)義上的對齊。因此,在本文中,作者提出了一種新的預訓練方法SemVLP,它將圖像和文本表示之間的低層和高層語(yǔ)義聯(lián)合起來(lái)。
該模型采用兩種方式進(jìn)行迭代預訓練:通過(guò)使用帶有可插可拔的跨模態(tài)注意模塊 的共享Transformer網(wǎng)絡(luò )(去掉跨模態(tài)注意模塊為single-stream Transformer;插上跨模態(tài)注意模塊為two-stream Transformer),single-stream預訓練用于對齊低級語(yǔ)義,two-stream Transformer預訓練用于對齊高級語(yǔ)義。
作者在四個(gè)的視覺(jué)語(yǔ)言理解任務(wù)上進(jìn)行了大量實(shí)驗,證明了SemVLP在跨模態(tài)表示與不同語(yǔ)義粒度對齊方面的有效性。

2

論文和代碼地址


SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels


論文:https://arxiv.org/pdf/2103.07829v1.pdf代碼:未開(kāi)源

3

Motivation

受各種NLP任務(wù)中預訓練語(yǔ)言模型的成功啟發(fā),最近關(guān)于視覺(jué)語(yǔ)言預訓練(VLP)的研究證明了能夠通過(guò)利用大規模圖像-文本對學(xué)習不同模態(tài)之間的語(yǔ)義對齊,而在各種下游視覺(jué)和語(yǔ)言(V+L)任務(wù)上實(shí)現SOTA性能。

現有的VLP模型基本上遵循多層Transformer,并使用自注意機制學(xué)習大規??缒B(tài)數據上的語(yǔ)義對齊。就跨模態(tài)對齊的粒度而言,有兩種不同的模型結構來(lái)對齊跨模態(tài)表示。
單流(single-stream)Transformer架構假設兩種模態(tài)背后的底層語(yǔ)義簡(jiǎn)單明了,因此簡(jiǎn)單地將低層語(yǔ)義空間中的圖像區域特征和文本特征連接起來(lái),以便以直接的方式進(jìn)行融合 。
雙流(two-stream)Transformer架構首先使用單模態(tài)Transformer分別學(xué)習圖像和句子表示的高級抽象,然后將兩種模態(tài)與跨模態(tài)Transformer結合起來(lái) 。
不同模態(tài)之間的語(yǔ)義差異一直被視為跨模態(tài)研究中最重要的問(wèn)題之一。在真實(shí)的圖像-文本數據中,作者觀(guān)察到,一些圖像-文本對很容易在兩種模態(tài)上對齊簡(jiǎn)單語(yǔ)義,而其他圖像-文本對可能需要在更高級別的抽象后對齊。
如上圖所示,T1的標題更側重于具有粗略語(yǔ)義的圖像概述,而T2的標題則更側重于關(guān)于圖片細節的描述。對于相同圖像的不同標題,語(yǔ)義粒度跨越不同的級別,在多個(gè)層次上對齊語(yǔ)義能夠更加深入的理解現實(shí)世界的圖文數據。

在本文中,作者提出了一種VLP預訓練結構SemVLP,它在多個(gè)語(yǔ)義層次上聯(lián)合對齊圖像和文本表示。具體而言,與單流和雙流Transformer架構不同,作者使用共享Transformer網(wǎng)絡(luò )和可插拔的跨模態(tài)注意模塊,用于低級和高級語(yǔ)義對齊,如上圖所示。

對于低層語(yǔ)義對齊,可以直接將連接的圖像區域特征和文本特征,輸入到共享Transformer網(wǎng)絡(luò )進(jìn)行單流預訓練。對于高級語(yǔ)義對齊,作者引入了一種新的雙流Transformer網(wǎng)絡(luò ),通過(guò)使用共享Transformer分別編碼圖像和文本部分來(lái)提取抽象的語(yǔ)義,并在跨模態(tài)交互注意模塊進(jìn)行多模態(tài)信息的融合。
預訓練過(guò)程以迭代的方式進(jìn)行,以在兩個(gè)語(yǔ)義級別上對齊圖像文本數據。在迭代預訓練階段,共享Transformer網(wǎng)絡(luò )被迫在多個(gè)層次上對齊語(yǔ)義,這使得訓練后的模型能夠適應不同的圖像-文本對。通過(guò)這種方式,作者能夠同時(shí)利用單流結構和雙流結構進(jìn)行跨模態(tài)融合,以允許不同的預訓練風(fēng)格相互調節。

4

方法

4.1. 模型結構

SemVLP的結構如上圖所示,作者提出了一個(gè)共享的雙向Transformer編碼器,其中可插拔的跨模態(tài)注意模塊用于在多個(gè)層次上進(jìn)行對齊語(yǔ)義 。通過(guò)共享模型參數,SemVLP可以靈活地在單流和雙流預訓練結構之間切換,使得輸入文本和圖像以不同的語(yǔ)義級別編碼。

通過(guò)這種方式,作者將兩種典型的預訓練結構轉換為一種更緊湊的結構,使之能夠適用于低層和高層語(yǔ)義對齊。為了更好地理解現實(shí)世界中的圖像-文本對,作者迭代地對這兩種設置進(jìn)行預訓練。

4.1.1. Input Embeddings

SemVLP模型的輸入是圖像及其相關(guān)句子。每個(gè)圖像表示為對象序列,每個(gè)句子表示為單詞序列。經(jīng)過(guò)多個(gè)語(yǔ)義層次的跨模態(tài)融合和對齊,SemVLP模型能夠從圖像文本輸入中生成語(yǔ)言表示、圖像表示和跨模態(tài)表示。

Sentence Embeddings

本文采用與BERT相同的方法,該方法使用WordPiece tokenizer將輸入句子轉換為子詞token。輸入標記的表示為,其中是BERT中的特殊token。通過(guò)結合原始單詞嵌入、段嵌入和位置嵌入,生成每個(gè)token的最終嵌入。

Image Embeddings

作者使用預訓練的目標檢測器Faster R-CNN從圖像中提取對象級圖像特征,其中每個(gè)對象表示為2048維特征向量。為了捕獲對象的空間信息,作者還通過(guò)一個(gè)4維向量對每個(gè)對象的位置特征進(jìn)行編碼,其中表示左下角和右上角的坐標,而W和H表示輸入圖像的寬度和高度。

然后,作者將concat起來(lái)形成位置敏感的對象特征向量,并利用線(xiàn)性投影將其進(jìn)一步變換為,以確保其具有與單詞嵌入相同的向量維數。與句子嵌入中的token相似,作者還添加了一個(gè)token來(lái)表示整個(gè)圖像的表示,并將其添加到對象序列的開(kāi)頭。

4.2. 共享Transformer編碼器

考慮到句子嵌入和圖像區域嵌入,作者使用一個(gè)帶有可插拔跨模態(tài)注意模塊的Transformer編碼器來(lái)更好地學(xué)習多語(yǔ)義層次的跨模態(tài)表示。完整的編碼器是一個(gè)帶有L個(gè)塊的模型,其中第個(gè)塊由一個(gè)自注意模塊、一個(gè)非線(xiàn)性函數和一個(gè)可插拔的交叉模式注意模塊組成,其中上標表示層id。

4.2.1. 低層語(yǔ)義對齊

為了對齊底層語(yǔ)義,作者直接將圖像和文本嵌入特征concat起來(lái)作為SemVLP的單流模式的輸入,該模式由共享自注意模塊和非線(xiàn)性FFN層組成。首先初始化,編碼過(guò)程可表述如下:

其中分別是第層的文本和對象表示。這樣,就可以在一個(gè)低層次的嵌入空間中獲得圖像和文本表示之間的充分交互。最終,就得到了,即SemVLP編碼器最后一層的所有對象輸出和文本輸出的表示。

4.2.2. 高級語(yǔ)義對齊

對于高層語(yǔ)義對齊,作者采用SemVLP的雙流模式,其中文本和圖像對象首先分別編碼,然后在高層語(yǔ)義空間融合。它由共享自注意模塊、跨模態(tài)注意模塊和非線(xiàn)性FFN層組成。

為了能夠使用SemVLP模型分別對文本和圖像表示進(jìn)行編碼,作者采用了雙編碼器架構,將文本編碼器和圖像編碼器的自我注意模塊和FFN層的所有參數綁定在一起,其中,跨模態(tài)注意模塊用于進(jìn)一步融合跨模態(tài)表示。
與以前的Transformer編碼器-解碼器架構不同(以前的結構將交叉注意模塊引入到解碼器的所有塊中),本文只在上面部分的塊中引入交叉模態(tài)注意模塊,以便更好地融合高層語(yǔ)義空間中的交叉模態(tài)表示。具體來(lái)說(shuō),首先初始化。雙流模式的編碼流程可以表示如下:
其中表示引入跨模態(tài)注意的層索引。最后,就可以得到圖像對象和文本的輸出表示,。使用,我們可以使用一個(gè)帶有softmax層的簡(jiǎn)單網(wǎng)絡(luò )來(lái)執行后續的預訓練任務(wù)。

4.3. 聯(lián)合訓練

4.3.1. 預訓練任務(wù)

Masked LM Prediction

任務(wù)設置與BERT中的基本相同,作者隨機mask文本中15%的token,并要求模型使用輸出文本表示預測這些mask詞。對于不同的預訓練模式,要么借助視覺(jué)通道預測mask詞以解決歧義(單流模式),要么僅從文本通道預測mask詞以增加任務(wù)難度(雙流模式)。

Masked Object Prediction

類(lèi)似地,作者通過(guò)隨機掩蔽對象對視覺(jué)模態(tài)進(jìn)行預訓練,即用零掩蔽對象特征(object features are masked with zeros)。作者隨機mask 15%的圖像對象,并要求模型使用輸出對象表示預測這些mask對象的屬性。為了獲取更多的對象級語(yǔ)義,作者遵循LXMERT中的對象預測任務(wù),并執行兩個(gè)子任務(wù):ROI特征回歸檢測標簽分類(lèi) 。

Image-Text Matching (ITM)

該任務(wù)設置與LXMERT中的任務(wù)設置幾乎相同,即隨機抽取50%不匹配的圖像-文本對和50%匹配的圖像-文本對,并訓練分類(lèi)器預測圖像和句子在表示(單流模式)和(雙流模式)上是否相互匹配。不同之處是,在對不匹配的圖像-文本對進(jìn)行采樣時(shí),作者沒(méi)有強制執行MLM預測和對象預測的損失。

Image Question Answering (QA)

作者還將圖像問(wèn)答任務(wù)視為分類(lèi)問(wèn)題,并使用LXMERT中的圖像QA數據對模型進(jìn)行預訓練,從而獲得更好的跨模態(tài)表示。對于單流模式,作者在表示的基礎上構建分類(lèi)器,對于雙流模式,作者在表示的基礎上構建分類(lèi)器。

4.3.2. 預訓練策略

對于低水平和高水平的語(yǔ)義對齊,SemVLP通過(guò)多個(gè)預訓練任務(wù)進(jìn)行預訓練,并將所有這些任務(wù)損失以相等的權重相加。為了在多個(gè)級別上聯(lián)合對齊語(yǔ)義,給定一個(gè)mini-batch的圖像-文本對,50%的時(shí)間使用低級語(yǔ)義對齊更新模型,而50%的時(shí)間使用高級語(yǔ)義對齊更新模型。

這樣,對于SemVLP的每一次更新,模型都在多個(gè)語(yǔ)義層次上進(jìn)行預訓練,以便更好地對不同的圖像文本數據進(jìn)行建模。

5

實(shí)驗

5.1. 下游任務(wù)的性能

上表展示了在不同下游任務(wù)上,本文方法和其他預訓練模型的對比。

5.2. 不同語(yǔ)義水平的預訓練

Analysis on Various Pre-training Architectures

上表展示了本文方法使用不同語(yǔ)義級別信息進(jìn)行訓練的結果,可以看出,同時(shí)進(jìn)行高級和低級預訓的信息能夠達到更好的結果。

Analysis on Different High-level Semantic Alignments

上表展示了在不同層引入高級語(yǔ)義對齊模塊的結果,可以看出在第六層引入時(shí)候的結果較好。

6

總結

在本文中,作者提出了一種新的預訓練方法SemVLP來(lái)學(xué)習視覺(jué)和語(yǔ)言的聯(lián)合表示。與現有依賴(lài)固定級別語(yǔ)義對齊的VLP方法不同,作者通過(guò)以不同方式組裝共享Transformer編碼器和可插拔的跨模態(tài)注意模塊,在多個(gè)級別上對齊跨模式語(yǔ)義。

在各種下游V+L任務(wù)上的實(shí)驗結果,證明了本文的方法對于理解真實(shí)世界圖像文本數據背后的不同語(yǔ)義的有效性。
這篇文章的重點(diǎn)在于建立了一個(gè)可插拔的跨模態(tài)注意力模塊,從而使得能夠在不同級別的語(yǔ)義上進(jìn)行信息的對齊。并且在訓練的時(shí)候,用50%的時(shí)間用于訓練高級語(yǔ)義,50%用于訓練低級語(yǔ)義。
但是高級語(yǔ)義信息和低級語(yǔ)義信息在不同的數據、不同的任務(wù)中真的是同等重要的嗎?會(huì )不會(huì )基于數據自適應的去判斷這個(gè)用哪個(gè)分支訓練能夠獲得更好的性能和可解釋性?

▊ 作者簡(jiǎn)介

研究領(lǐng)域:FightingCV公眾號運營(yíng)者,研究方向為多模態(tài)內容理解,專(zhuān)注于解決視覺(jué)模態(tài)和語(yǔ)言模態(tài)相結合的任務(wù),促進(jìn)Vision-Language模型的實(shí)地應用。

知乎/眾號:FightingCV

END





本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
AAAI 2023 Oral | 如何識別未知標簽?多模態(tài)知識遷移框架實(shí)現新SOTA
ChatGPT火了,來(lái)聊聊大語(yǔ)言模型
關(guān)于NLP相關(guān)技術(shù)全部在這里:預訓練模型、信息抽取、文本生成、知識圖譜、對話(huà)系統
預訓練模型最新綜述:過(guò)去、現在和未來(lái)
文本 視覺(jué),多篇 Visual/Video BERT 論文介紹
Paper:《Pre-Trained Models: Past, Present and Future大規模預訓練模型的發(fā)展歷史、最新現狀和未來(lái)發(fā)展三個(gè)方向》翻譯與解讀
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久