▊ 寫(xiě)在前面
文本視頻檢索是一項具有挑戰性的任務(wù),其目的是基于自然語(yǔ)言描述搜索相關(guān)的視頻內容。這個(gè)問(wèn)題的關(guān)鍵是在聯(lián)合嵌入空間中測量文本視頻的相似性。然而,大多數現有的方法只考慮全局交叉模態(tài)相似性,忽略局部細節。有些作品通過(guò)跨模態(tài)局部匹配和推理結合了局部比較。這些復雜的操作會(huì )帶來(lái)巨大的計算量。
▊ 1. 論文和代碼地址
論文地址:https://arxiv.org/abs/2104.10054
代碼地址:未開(kāi)源
▊ 2. Motivation
視頻由于其豐富的多模態(tài)內容和時(shí)間動(dòng)態(tài)性而成為信息量最大的媒體之一。文本視頻檢索系統使人們能夠通過(guò)簡(jiǎn)單自然的交互方式搜索視頻。實(shí)現視頻跨模態(tài)檢索的一個(gè)方向是基于度量學(xué)習的文本視頻相似性度量。
▊ 3. 方法
與圖像數據相比,視頻更復雜,包含更豐富的信息,如動(dòng)作動(dòng)、音頻和語(yǔ)音。為了在文本視頻檢索任務(wù)中充分利用視頻數據中的多模態(tài)信息,作者利用了多個(gè)專(zhuān)家對原始視頻進(jìn)行編碼。
全局專(zhuān)家特征的目標是為每個(gè)專(zhuān)家執行時(shí)間聚合,以生成用于全局對齊的全局專(zhuān)家特征。目前存在一些現有的時(shí)間聚合操作來(lái)獲得全局向量,例如,CNN,Transformer和NetVLAD。
作者首先為每個(gè)專(zhuān)家使用一個(gè)全連接層,將不同的專(zhuān)家特征投影到C維嵌入空間。然后,將來(lái)自所有專(zhuān)家的特征concat起來(lái),生成局部特征,其中M表示來(lái)自所有專(zhuān)家的特征數量。
1)本文的方法只使用一層Transformer編碼器,因此引入的參數更少,計算效率更高;
2) 本文的目標是保持輸入特征的局部性。此過(guò)程的輸出特征與輸入特征具有相同的長(cháng)度。
BERT模型在語(yǔ)言特征編碼方面顯示了強大的泛化能力,因此作者利用了預訓練的BERT模型。BERT模型為每個(gè)文本輸入提取上下文單詞嵌入。輸入句子被標記并填充為固定長(cháng)度的序列,然后輸入到BERT模型中。
在上述文本編碼和視頻編碼之后,作者為每個(gè)輸入文本視頻對獲得B個(gè)局部上下文單詞嵌入和M個(gè)視頻局部特征。這些特征包含有關(guān)輸入句子和視頻的豐富信息。
其中是一個(gè)可學(xué)習的偏置項。在實(shí)踐中,可以用BN代替偏差項,該層通過(guò)兩個(gè)內置的可學(xué)習參數標準化和移位激活。然后得到每個(gè)中心上的聚類(lèi)殘差特征:
其中,和具有相同尺寸的可訓練權重,“normalize”表示?2-標準化操作。然后就可以獲得一組聚合的視頻特征。的每一個(gè)特征都是視頻的局部特征對齊的。背景中心的聚合特征已被丟棄,并且不涉及以下相似度的計算。
其中,是嵌入在中的局部單詞。我們可以獲得文本序列的最終局部特征。由于視頻和文本的局部特征分配和聚合共享相同的中心,因此最終特征和 可以有效地對齊。然后,利用余弦距離來(lái)度量最終視頻和文本特征之間的局部相似性。
作者引入全局對齊有兩個(gè)原因。首先,文本-視頻對的全局特征更全面,與局部特征互補 。其次,當缺乏輔助監控時(shí),特別是當視頻特征包含多模態(tài)信息時(shí),模型難以?xún)?yōu)化與可訓練中心的精細局部對齊 。
其中,表示第i個(gè)專(zhuān)家的權重。權重由文本表示通過(guò)具有softmax歸一化的線(xiàn)性投影生成。作者利用文本-視頻相似度在文本-視頻和視頻-文本檢索任務(wù)上獲得一個(gè) bi-directional max-margin ranking loss。
▊ 4.實(shí)驗



上表展示了不同VLAD的實(shí)驗結果,可以看出共享VLAD能夠達到更好的實(shí)驗結果。


▊ 5. 總結
本文介紹了一種端到端的文本視頻序列對齊方法。作者發(fā)現,文本和視頻之間的局部語(yǔ)義對齊對于高性能檢索系統至關(guān)重要。作者還實(shí)現了基于NetVLAD的局部對齊目標,并將T2VLAD引入到協(xié)同文本視頻編碼中。
▊ 作者簡(jiǎn)介
知乎/公眾號:FightingCV

END
歡迎加入「視頻檢索」交流群??備注:檢索
聯(lián)系客服