欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局對齊來(lái)進(jìn)行視頻文本檢索!效果優(yōu)于MMT!

 寫(xiě)在前面

文本視頻檢索是一項具有挑戰性的任務(wù),其目的是基于自然語(yǔ)言描述搜索相關(guān)的視頻內容。這個(gè)問(wèn)題的關(guān)鍵是在聯(lián)合嵌入空間中測量文本視頻的相似性。然而,大多數現有的方法只考慮全局交叉模態(tài)相似性,忽略局部細節。有些作品通過(guò)跨模態(tài)局部匹配和推理結合了局部比較。這些復雜的操作會(huì )帶來(lái)巨大的計算量。

在本文中,作者設計了一種有效的全局-局部對齊方法 。多模態(tài)視頻序列和文本特征通過(guò)一組共享語(yǔ)義中心自適應聚合。計算同一中心內的視頻特征和文本特征之間的局部交叉模態(tài)相似性。這種設計實(shí)現了細致的局部比較,并降低了每個(gè)文本-視頻對之間交互的計算成本。
此外,作者還提出了一種全局對齊方法,以提供與局部角度互補的全局跨模態(tài)測量。全局聚合的視覺(jué)特征還提供了額外的監督,這對于優(yōu)化可學(xué)習語(yǔ)義中心是必不可少的。作者在三個(gè)標準文本視頻檢索基準上實(shí)現了一致的改進(jìn),并以明顯的優(yōu)勢超越了SOTA水平。

 1. 論文和代碼地址

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

論文地址:https://arxiv.org/abs/2104.10054

代碼地址:未開(kāi)源

 2. Motivation

視頻由于其豐富的多模態(tài)內容和時(shí)間動(dòng)態(tài)性而成為信息量最大的媒體之一。文本視頻檢索系統使人們能夠通過(guò)簡(jiǎn)單自然的交互方式搜索視頻。實(shí)現視頻跨模態(tài)檢索的一個(gè)方向是基于度量學(xué)習的文本視頻相似性度量。

在這種情況下,通常的做法是將描述和視頻都嵌入到聯(lián)合嵌入空間中。大多數現有作品是將描述和視頻內容編碼為全局表示,并從全局角度比較它們的相似性。這些方法側重于學(xué)習有效的語(yǔ)言和視頻表示,但忽視了細粒度語(yǔ)義對齊。
其他一些工作利用復雜的跨模態(tài)匹配操作來(lái)利用局部細節并對齊多個(gè)語(yǔ)義線(xiàn)索。他們手動(dòng)設計了三個(gè)級別的語(yǔ)義,包括事件、動(dòng)作和實(shí)體。然而,由于成對匹配操作代價(jià)昂貴,這些方法需要較高的計算成本 。
在本文中,作者提出了一種有效的文本-視頻檢索的全局-局部序列對齊方法。從局部角度 來(lái)看,作者的目標是利用一些可學(xué)習的語(yǔ)義主題來(lái)共同總結文本和視頻。與將文本描述解析為分層語(yǔ)義角色圖的方法不同,作者希望這些語(yǔ)義主題能夠在端到端訓練期間被發(fā)現并自動(dòng)學(xué)習。
作者進(jìn)一步共享文本主題和視頻主題的權重,以提供聯(lián)合主題表示學(xué)習,減少文本和視頻數據之間的語(yǔ)義差距。為了實(shí)現局部對齊,作者最小化了分組文本特征和相同主題中相應的分組視頻特征之間的距離。
全局角度來(lái)看,多模態(tài)視頻序列在每個(gè)模態(tài)內時(shí)間維度上進(jìn)行聚合。在聚合的視頻特征和全局文本特征之間計算全局相似性。全局對齊不僅作為局部對齊的補充度量,而且還為可學(xué)習的語(yǔ)義主題提供額外的監督。

 3. 方法

3.1. Overview

在本文中,作者提出了用于跨模態(tài)檢索的Text-to-Video VLADT2VLAD,它從全局和局部角度對齊文本和視頻特征。給定一對文本-視頻,模型的目標是將其編碼到一個(gè)聯(lián)合特征空間來(lái)度量相似度。如上圖所示,作者利用了多個(gè)專(zhuān)家提取對應于每個(gè)模態(tài)的局部視頻特征,利用BERT模型提取上下文詞特征。
然后,作者將來(lái)自不同專(zhuān)家的所有視頻特征送入到一個(gè)自注意力層,以增強基于跨模態(tài)關(guān)系的特征。輸出的視頻特征和文本特征被分配到一組聚類(lèi)中心,這些聚類(lèi)中心在文本編碼和視頻編碼之間共享。
作者根據指定聚合局部特征,并生成視頻和文本的局部對齊特征,以計算局部視頻文本相似性。為了對局部對齊提供額外監督并引入補充信息,作者還制定了一個(gè)全局對齊方案 。

3.2. Video Representations

與圖像數據相比,視頻更復雜,包含更豐富的信息,如動(dòng)作動(dòng)、音頻和語(yǔ)音。為了在文本視頻檢索任務(wù)中充分利用視頻數據中的多模態(tài)信息,作者利用了多個(gè)專(zhuān)家對原始視頻進(jìn)行編碼。

具體地說(shuō),給定一個(gè)輸入視頻,利用N個(gè)專(zhuān)家來(lái)提取多模態(tài)特征。對每個(gè)專(zhuān)家進(jìn)行特定任務(wù)的預訓練,以獲取相應模態(tài)的特定知識。本文的目標是實(shí)現文本視頻檢索的局部和全局對齊,因此作者從每個(gè)時(shí)間段提取特征。
對于每個(gè)專(zhuān)家,作者獲得一組段級視頻表示,即。其中T是視頻段數,是視頻的第t段。作者利用以下兩個(gè)操作進(jìn)一步處理分段級的多專(zhuān)家特征,以進(jìn)行后續的全局-局部對齊。

global expert features for global alignment

全局專(zhuān)家特征的目標是為每個(gè)專(zhuān)家執行時(shí)間聚合,以生成用于全局對齊的全局專(zhuān)家特征。目前存在一些現有的時(shí)間聚合操作來(lái)獲得全局向量,例如,CNN,Transformer和NetVLAD。

為簡(jiǎn)單起見(jiàn),作者在不使用其他參數的情況下利用最大池化操作。這個(gè)簡(jiǎn)單的操作在實(shí)驗中效果很好。將時(shí)間聚集的特征投影到同一維度以進(jìn)行后續聚類(lèi)。然后,作者通過(guò)Self-Gating機制增強了這些特征。因此,獲得了一組全局專(zhuān)家特征,其中是專(zhuān)家的數量。

fuse multi-expert features for local alignment

作者首先為每個(gè)專(zhuān)家使用一個(gè)全連接層,將不同的專(zhuān)家特征投影到C維嵌入空間。然后,將來(lái)自所有專(zhuān)家的特征concat起來(lái),生成局部特征,其中M表示來(lái)自所有專(zhuān)家的特征數量。

然后,作者進(jìn)一步研究了多模態(tài)特征與自注意機制之間的關(guān)系。與MMT相比,有兩點(diǎn)不同:

1)本文的方法只使用一層Transformer編碼器,因此引入的參數更少,計算效率更高;

2) 本文的目標是保持輸入特征的局部性。此過(guò)程的輸出特征與輸入特征具有相同的長(cháng)度。

3.3. Text Representations

BERT模型在語(yǔ)言特征編碼方面顯示了強大的泛化能力,因此作者利用了預訓練的BERT模型。BERT模型為每個(gè)文本輸入提取上下文單詞嵌入。輸入句子被標記并填充為固定長(cháng)度的序列,然后輸入到BERT模型中。

此外,作者添加了特殊token,如“[CLS]”和“[SEP]”,以指示句子的開(kāi)始和結束。特征可以計算為,其中是BERT模型,是輸入token。,其中B是序列長(cháng)度。
BERT模型與框架中的其他模塊以端到端的方式進(jìn)行了優(yōu)化。它提供了強大的文本建模能力。與視頻編碼不同,文本的全局特征與后續T2VLAD模塊的局部表示聯(lián)合提取。

3.4. Local Alignment

在上述文本編碼和視頻編碼之后,作者為每個(gè)輸入文本視頻對獲得B個(gè)局部上下文單詞嵌入和M個(gè)視頻局部特征。這些特征包含有關(guān)輸入句子和視頻的豐富信息。

然而,這兩類(lèi)特征之間的直接比較是不可行的,因為它們沒(méi)有很好地對齊。此外,局部視頻特征來(lái)自不同的模態(tài)。域gap增加了局部對齊的難度。
直觀(guān)地說(shuō),如果能夠選擇并聚合同一主題的局部文本特征和視頻特征,然后在比較他們的相似度,測量將變得更加精確。
基于這一思想,作者提出了文本到視頻VLAD(T2VLAD) ,將多個(gè)模態(tài)中的局部特征與共享中心進(jìn)行聚類(lèi)。這些中心提供共享的語(yǔ)義主題,可以彌合不同模態(tài)之間的差距。這些中心可以與整個(gè)網(wǎng)絡(luò )一起學(xué)習,并且可以動(dòng)態(tài)執行特征聚類(lèi)。
具體來(lái)說(shuō),作者學(xué)習了個(gè)C維共享聚類(lèi)中心。這里的K個(gè)聚類(lèi)中心用于局部對齊,附加的一個(gè)中心用于刪除背景信息。然后使用點(diǎn)積計算每個(gè)局部特征和聚類(lèi)中心之間的相似性。對于從視頻特征的編碼,給定一個(gè)局部視頻特征,它對第j個(gè)聚類(lèi)的分配權重可以生成如下:

其中是一個(gè)可學(xué)習的偏置項。在實(shí)踐中,可以用BN代替偏差項,該層通過(guò)兩個(gè)內置的可學(xué)習參數標準化和移位激活。然后得到每個(gè)中心上的聚類(lèi)殘差特征:

其中,具有相同尺寸的可訓練權重,“normalize”表示?2-標準化操作。然后就可以獲得一組聚合的視頻特征。的每一個(gè)特征都是視頻的局部特征對齊的。背景中心的聚合特征已被丟棄,并且不涉及以下相似度的計算。

可以使用共享聚類(lèi)中心,以相同的方式計算聚合的文本特征:

其中,是嵌入在中的局部單詞。我們可以獲得文本序列的最終局部特征。由于視頻和文本的局部特征分配和聚合共享相同的中心,因此最終特征 可以有效地對齊。然后,利用余弦距離來(lái)度量最終視頻和文本特征之間的局部相似性。

3.5. Global Alignment

作者引入全局對齊有兩個(gè)原因。首先,文本-視頻對的全局特征更全面,與局部特征互補 。其次,當缺乏輔助監控時(shí),特別是當視頻特征包含多模態(tài)信息時(shí),模型難以?xún)?yōu)化與可訓練中心的精細局部對齊 。

因此,作者通過(guò)獨立地聚合和轉換來(lái)自每個(gè)專(zhuān)家的視頻特征,來(lái)緩解全局對齊中的優(yōu)化困難。同時(shí),作者利用局部文本特征的concat結果來(lái)生成特定于專(zhuān)家的全局文本表示。
然后使用每個(gè)特征計算與相應視頻專(zhuān)家特征的相似度。具體來(lái)說(shuō),作者將全局文本-視頻相似性計算為每個(gè)全局視頻專(zhuān)家特征和相應文本特征之間余弦距離的加權和。形式上,全局相似性計算如下:

其中,表示第i個(gè)專(zhuān)家的權重。權重由文本表示通過(guò)具有softmax歸一化的線(xiàn)性投影生成。作者利用文本-視頻相似度在文本-視頻和視頻-文本檢索任務(wù)上獲得一個(gè) bi-directional max-margin ranking loss。

 4.實(shí)驗

4.1. Comparison to State-of-the-art

MSRVTT

上表展示了本文方法在MSRVTT數據集上和SOTA方法的對比,可以看出,本文方法在不同的數據劃分下,能夠以很大的優(yōu)勢超越MMT。

ActivityNet Captions

上表展示了本文方法在A(yíng)ctivityNet 數據集上和SOTA方法的對比,可以看出本文的方法能夠達到更高的性能。

LSMDC

上表展示了本文方法在LSMDC數據集上和SOTA方法的對比,可以看出本文的方法能夠達到更高的性能。

4.2.  Ablation Study

The effectiveness of the global-local alignment

上表展示了全局對齊和局部對齊的消融實(shí)驗結果,可以看出,同時(shí)進(jìn)行全局和局部建模能夠達到更好的效果。

The effectiveness of collaborative VLAD

上表展示了不同VLAD的實(shí)驗結果,可以看出共享VLAD能夠達到更好的實(shí)驗結果。

4.3. Qualitative Results

Visualization of the assignments

上圖展示了不同聚類(lèi)中心對齊的結果,結果驗證了T2VLAD可以實(shí)現文本到視頻檢索的充分局部對齊。

Visualization of the text-to-video results

上圖展示了MSRVTT 1K-A測試集上的文本視頻檢索結果。


 5. 總結

本文介紹了一種端到端的文本視頻序列對齊方法。作者發(fā)現,文本和視頻之間的局部語(yǔ)義對齊對于高性能檢索系統至關(guān)重要。作者還實(shí)現了基于NetVLAD的局部對齊目標,并將T2VLAD引入到協(xié)同文本視頻編碼中。

作者在三個(gè)標準文本視頻檢索基準測試進(jìn)行了實(shí)驗,證明了本文方法的有效性。此外,可視化結果也驗證了聯(lián)合語(yǔ)義主題學(xué)習的motivation。

▊ 作者簡(jiǎn)介

研究領(lǐng)域:FightingCV公眾號運營(yíng)者,研究方向為多模態(tài)內容理解,專(zhuān)注于解決視覺(jué)模態(tài)和語(yǔ)言模態(tài)相結合的任務(wù),促進(jìn)Vision-Language模型的實(shí)地應用。

知乎/眾號:FightingCV

END



歡迎加入「視頻檢索交流群??備注:檢索



本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
AAAI 2023 Oral | 如何識別未知標簽?多模態(tài)知識遷移框架實(shí)現新SOTA
用于RGB-D語(yǔ)義分割的全局-局部傳播網(wǎng)絡(luò )
基于改進(jìn)的點(diǎn)對特征的6D位姿估計
Nature Computational Science:發(fā)表空間轉錄組與人工智能最新研究成果
三維重建(二)
一文解析基于特征點(diǎn)的視覺(jué)全局定位技術(shù)
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久