欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
讓SSL的性能更上一層樓!上交&字節&montreal提出分層圖像表示學(xué)習的通用框架HIRL,提升多個(gè)SSL算法的性能!已開(kāi)源!
詳細信息如下:


  • 論文鏈接:https://arxiv.org/abs/2205.13159[1]

  • 項目鏈接:https://github.com/hirl-team/HIRL[2]


      01      

摘要


學(xué)習自監督圖像表示已被廣泛研究,以促進(jìn)各種視覺(jué)理解任務(wù)?,F有的方法通常只學(xué)習一個(gè)層次的圖像語(yǔ)義,如成對語(yǔ)義相似度或圖像聚類(lèi)模式。然而,這些方法很難捕獲圖像數據集中自然存在的多層次語(yǔ)義信息,例如“波斯貓→ 貓→ 哺乳動(dòng)物”的語(yǔ)義層次。因此,不知道任意圖像自監督學(xué)習(SSL)方法是否可以從學(xué)習這種層次語(yǔ)義中獲益。

為了回答這個(gè)問(wèn)題,作者提出了一個(gè)層次圖像表示學(xué)習(Hierarchical Image Representation Learning ,HIRL)的通用框架。該框架旨在學(xué)習每個(gè)圖像的多個(gè)語(yǔ)義表示,這些表示的結構將圖像語(yǔ)義從細粒度編碼到粗粒度編碼?;诟怕史纸?,HIRL通過(guò)現成的圖像SSL方法學(xué)習最細粒度語(yǔ)義,并通過(guò)一種新的語(yǔ)義路徑識別方案學(xué)習多個(gè)粗粒度語(yǔ)義。

作者采用六種有代表性的圖像SSL方法作為baseline,并研究它們在HIRL下的性能。通過(guò)嚴格的公平比較,作者觀(guān)察到所有六種方法在不同下游任務(wù)中的性能提高,這首次驗證了學(xué)習層次圖像語(yǔ)義的一般有效性。


      02      

Motivation

近年來(lái),自監督圖像表示學(xué)習得到了廣泛的研究。它專(zhuān)注于為未標記圖像獲取信息豐富且可解釋的特征表示,其中學(xué)習信號完全來(lái)自數據本身。為了實(shí)現這一目標,目前已經(jīng)開(kāi)發(fā)了多種自監督學(xué)習(SSL)技術(shù)來(lái)捕獲原始圖像背后不同層次的語(yǔ)義,例如,捕獲圖像對之間的語(yǔ)義相似性和捕獲圖像簇的語(yǔ)義。通過(guò)這些方法學(xué)習的圖像表示已被證明對各種下游任務(wù)有效,SSL與完全監督學(xué)習之間的性能差距正在不斷縮小。

然而,對于大型圖像數據集的建模,僅捕獲單個(gè)級別的語(yǔ)義信息總是不夠的,因為這樣的數據集通常包含多個(gè)語(yǔ)義層次。例如,在不同物種的數據集中,波斯貓的圖像也具有粗粒度的貓語(yǔ)義和更粗粒度的哺乳動(dòng)物語(yǔ)義。編碼此類(lèi)分層語(yǔ)義信息(例如,波斯貓→ 貓→ 哺乳動(dòng)物)在圖像表示中可以廣泛受益于不同的下游任務(wù)。最近有一些工作旨在學(xué)習這種層次語(yǔ)義表示,通過(guò)合并這種方案,已經(jīng)驗證了一些性能增益。然而,對于任何現成的圖像SSL方法是否可以從學(xué)習多層次語(yǔ)義信息中獲益,仍然缺乏系統的研究。

為了回答這個(gè)問(wèn)題,在這項工作中,作者提出了一個(gè)層次圖像表示學(xué)習(HIRL)的一般框架。該框架旨在為每個(gè)圖像學(xué)習多個(gè)表示,這些表示對圖像的不同語(yǔ)義級別進(jìn)行編碼,從細粒度到粗粒度。為了建立這種語(yǔ)義層次結構的起點(diǎn),作者使用任意現成的圖像SSL方法來(lái)學(xué)習最細粒度語(yǔ)義的表示。

在此基礎上,作者提出了一種新的語(yǔ)義路徑判別(SPD)方法來(lái)學(xué)習更粗粒度語(yǔ)義的表示。這種方法首先在不同的語(yǔ)義層次上識別底層語(yǔ)義集群的一些代表性嵌入(即原型)。然后,對于每個(gè)圖像,它檢索由與圖像具有相同層次語(yǔ)義的原型組成的正路徑,并檢索由與圖像編碼不同語(yǔ)義的原型組成的多個(gè)負路徑。

SPD的目標是最大化圖像的層次表示與正路徑之間的相似度,同時(shí)最小化層次表示與負路徑之間的相似度。通過(guò)這種方式,HIRL框架可以將層次語(yǔ)義表示學(xué)習的目標納入各種現成的圖像SSL方法中,從而增強了它們對圖像語(yǔ)義建模的能力。

為了公平比較,作者首先在一個(gè)通用的代碼庫下重新實(shí)現了三種有代表性的基于CNN的SSL算法和三種有代表性的基于Vision Transformer的SSL算法。然后,作者將這六種圖像SSL方法應用于HIRL框架,并比較它們在啟用層次語(yǔ)義建模之前和之后的性能。在標準下游評估任務(wù)上的實(shí)驗結果,例如KNN評估、線(xiàn)性分類(lèi)和ImageNet上的微調,驗證了通過(guò)學(xué)習層次語(yǔ)義信息,六個(gè)圖像SSL baseline的有效性都得到了提高?;谶@樣的綜合比較,作者提出將HIRL作為一個(gè)通用框架,它可以通過(guò)學(xué)習分層圖像語(yǔ)義來(lái)促進(jìn)廣泛的圖像SSL方法。


      03      

Problem Definition and Preliminary

3.1 Problem Definition

在沒(méi)有標簽信息的N個(gè)原始圖像的集合上,作者試圖學(xué)習每個(gè)圖像的層次表示。具體而言,作者認為L(cháng)+1潛在空間表示不同級別的語(yǔ)義信息,并且這些潛在語(yǔ)義需要以從細到粗的方式組織,即,在空間V0中表示最細粒度的語(yǔ)義,并在剩余的L個(gè)空間中逐漸表示更粗粒度的語(yǔ)義。這樣,用低維向量來(lái)表示每個(gè)圖像,其中表示圖像在語(yǔ)義空間中的表示。遵循自監督學(xué)習的原理,在數據本身的監督下學(xué)習分層圖像表示。

3.2 Preliminary


分層圖像表示的學(xué)習是由分層原型指導的,即語(yǔ)義簇在不同語(yǔ)義級別上的代表性嵌入,表示為(L:語(yǔ)義級別的數量;:第l個(gè)語(yǔ)義級別的原型數量)。這些原型是通過(guò)分層K-均值算法獲得的,具體算法如上面的算法1所示。

為了開(kāi)始這個(gè)過(guò)程,作者通過(guò)圖像編碼器提取沒(méi)有層次語(yǔ)義的普通圖像表示,例如,來(lái)自ResNet的平均池化嵌入或來(lái)自ViT的[CLS] token嵌入,表示為。對這些圖像表示應用標準的K-均值聚類(lèi),以在第一個(gè)語(yǔ)義級別導出原型。

然后,將K-means聚類(lèi)迭代地應用于當前語(yǔ)義級別的原型,以獲得更粗粒度語(yǔ)義級別的原型。兩個(gè)連續層次的原型之間的集群分配關(guān)系存儲為邊集,邊集將層次原型構造為一組樹(shù)(如下圖(a))。以這種方式導出的層次原型形成了從細到粗的語(yǔ)義層次,適用于指導層次圖像表示的學(xué)習。


      04      

方法

4.1 Probabilistic Formalization

給定一幅圖像x,本文的目標是對其分層表示進(jìn)行建模,以精細到粗略的方式對其語(yǔ)義信息進(jìn)行編碼。直接建模所有語(yǔ)義表示的聯(lián)合分布很困難,因為缺乏最細粒度語(yǔ)義的概念。因此,HIRL框架以分解的方式解決了這個(gè)問(wèn)題,即首先對進(jìn)行建模以建立最細粒度的語(yǔ)義表示,然后對聯(lián)合分布進(jìn)行建模以獲得更粗粒度的語(yǔ)義:


第一項可以通過(guò)現成的圖像SSL方法進(jìn)行適當建模,因為它們被設計為捕獲單個(gè)級別的語(yǔ)義信息,例如,通過(guò)建模圖像patch之間的依賴(lài)關(guān)系,捕獲圖像對之間的語(yǔ)義相似性,或者建模圖像聚類(lèi)模式。然而,層次語(yǔ)義表示的第二項的建模是非常復雜的,這需要捕獲粗粒度語(yǔ)義對細粒度語(yǔ)義的依賴(lài)性以及粗粒度語(yǔ)義不同層次之間的相互依賴(lài)性。

4.2 Semantic Path Discrimination

在HIRL中,作者將通過(guò)現成的SSL方法學(xué)習的圖像表示視為位于空間中的最細粒度語(yǔ)義表示。在此基礎上,進(jìn)一步學(xué)習層次語(yǔ)義表示,以提高模型的表示學(xué)習能力。

Hierarchical representation derivation

在表示時(shí),作者使用MLP投影頭將其映射到表示更粗粒度語(yǔ)義的語(yǔ)義空間,即。學(xué)習這些層次表示法需要一些關(guān)于每個(gè)表示法中應該編碼哪些特定語(yǔ)義信息的指導。作者采用分層原型來(lái)獲得此類(lèi)指導,這些原型作為定位不同語(yǔ)義空間上潛在語(yǔ)義集群的定位點(diǎn)。在分層原型(算法1)的推導中,作者設置,以確保粗粒度語(yǔ)義的建?;谧罴毩6鹊恼Z(yǔ)義,即建模。

建模的另一個(gè)重要部分是為特定樣本的層次語(yǔ)義表示的聯(lián)合可能性建模。為了執行這種聯(lián)合建模,作者使用層次原型中的連續原型(即路徑)作為參考,并試圖將表示作為一個(gè)整體與每個(gè)樣本的最可能路徑對齊。

Semantic path retrieval

在分層原型中,作者定義語(yǔ)義路徑,即基于樹(shù)結構的從底層原型到相應頂層原型的路徑。這樣的路徑表示數據背后的一些層次語(yǔ)義,如波斯貓→ 貓→ 哺乳動(dòng)物,希望以分層表示形式編碼。

給定一幅圖像x,作者在層次原型中定義兩種路徑,即正路徑和負路徑,以學(xué)習其表示。正路徑上的原型在每個(gè)語(yǔ)義層次上編碼與x相同的語(yǔ)義,而負路徑上的原型可以在某些語(yǔ)義層次上編碼與x不同的語(yǔ)義。

作者通過(guò)首先檢索在K均值聚類(lèi)(Alg.1中的第一步)期間圖像分配給的底層原型,然后從下到上遍歷,來(lái)提取正路徑。負路徑可以從除了外的任何底層原型開(kāi)始,從下至上遍歷。對于每個(gè)圖像,存在一條正路徑和可能的負路徑。

Semantic path discrimination

基于這些定義,作者將語(yǔ)義路徑判別問(wèn)題形式化為最大化層次表示與正路徑之間的相似性,同時(shí)最小化這些表示與負路徑之間的相似性。為了度量層次表示和語(yǔ)義路徑之間的相似性,作者計算了表示和原型的每個(gè)對應對之間的相似性,并將所有成對的相似性相乘:


其中,作者將每個(gè)余弦相似性映射到[0,1]以進(jìn)行相似性乘法。從所有可能的負路徑中隨機抽取條負路徑,語(yǔ)義路徑判別的目標函數形式化為平衡的二分類(lèi)損失:


其中θ表示所有模型參數,包括圖像編碼器和投影頭的參數,表示所有圖像的數據分布。下圖中提供了語(yǔ)義路徑識別的圖形說(shuō)明。

Overall objective

在HIRL框架下,所有語(yǔ)義表示的聯(lián)合分布以因子分解的方式建?!,F成圖像SSL方法的目標函數為最細粒度語(yǔ)義的分布建模,而語(yǔ)義路徑判別的目標函數為更粗粒度語(yǔ)義的分布建模??傮w目標結合了這兩個(gè)目標,以學(xué)習所有考慮的語(yǔ)義級別上的分層圖像表示:

4.3 Pre-training and Downstream Application

Pre-training


如Alg.2所述,HIRL下的預訓練分兩個(gè)階段進(jìn)行。在第一階段,僅使用對圖像編碼器進(jìn)行訓練,以學(xué)習最細粒度的語(yǔ)義表示,從而建立圖像語(yǔ)義的基本概念。在第二階段的每個(gè)epoch開(kāi)始時(shí),對當前編碼器提取的圖像表示執行分層K-均值步驟,以更新分層原型,從而平衡作為代表性集群嵌入的分層原型的訓練效率和準確性。

在第二階段,聯(lián)合用于訓練編碼器和投影頭,這有助于模型捕獲圖像的層次語(yǔ)義。相比之下,現有的圖像SSL方法主要側重于捕獲單個(gè)級別的語(yǔ)義信息,因此效率較低。

Downstream application

在HIRL框架下進(jìn)行預訓練后,可以得到一個(gè)強大的圖像編碼器,其輸出表示可以通過(guò)的建模對細粒度語(yǔ)義進(jìn)行編碼,也可以通過(guò)的建模對不同級別的粗粒度語(yǔ)義信息進(jìn)行隱式編碼。由于這些優(yōu)點(diǎn),在下游應用中,模型可以放棄預訓練中使用的投影頭,而只使用圖像編碼器進(jìn)行特征提取,這保證了預訓練模型在各種下游任務(wù)中的可遷移性。


      05      

實(shí)驗



上表展示了不同baseline和本文方法的訓練細節和性能。在所有三項任務(wù)中,SwA V和iBOT分別在基于CNN和Vision Transformer的方法中表現最好。在添加HIRL框架后,除了線(xiàn)性分類(lèi)上的HIRL MoCo v3外,所有方法和任務(wù)都實(shí)現了性能提升,SwA V和iBOT的優(yōu)勢仍然保留。

這些結果表明,HIRL確實(shí)可以通過(guò)學(xué)習額外的層次語(yǔ)義信息來(lái)增強各種圖像SSL方法。HIRL成功地提高了所有六條baseline在兩種數據設置上的性能,但HIRL MoCo v3在10%數據學(xué)習上的性能除外。此外,帶HIRL的iBOT方法實(shí)現了新的最先進(jìn)性能。因此,通過(guò)獲取分層圖像語(yǔ)義,預訓練的模型顯示出更強的從不足數據中學(xué)習的能力。


根據上表中的比較,所有baseline在適應HIRL后,在所有三項遷移學(xué)習任務(wù)上都取得了性能增益。這些改進(jìn)驗證了HIRL在學(xué)習可遷移圖像表示方面的優(yōu)勢。


如上表所示,HIRL顯著(zhù)提高了MoCo v2、SimSiam、SwA V、MoCo v3和iBOT在所有三個(gè)指標上的聚類(lèi)性能,并提高了DINO的聚類(lèi)精度。


在上表的第一個(gè)塊中,作者評估了使用不同原型結構訓練的HIRL MoCo v2。從第一行、第三行、第四行和第五行,我們可以觀(guān)察到,隨著(zhù)原型層數量的增加,性能增加,這表明了學(xué)習更多級別語(yǔ)義信息的有效性。第二塊標簽。作者研究負路徑采樣對HIRL MoCo v2的影響。結果表明,語(yǔ)義路徑判別的目標函數在大范圍的負路徑抽樣規模下是相當有效的。


與baseline相比,其在HIRL下的變體需要每個(gè)epoch額外的分層K均值步驟,其時(shí)間復雜度為(N:數據集大小,:第l個(gè)語(yǔ)義級別的原型數量,d:表示維度)。這一步構成了HIRL額外計算的大部分。由于N和在不同的方法中是相同的,因此較大的d將導致更高的額外成本,結果如上表所示。


在上圖中,作者使用t-SNE來(lái)可視化圖像表示。作者從ImageNet訓練集的前20類(lèi)中隨機抽取2000幅圖像進(jìn)行可視化。與原始的MoCo v2和iBOT相比,在HIRL框架下訓練后,不同類(lèi)別的圖像表示得到了更好的分離。例如,最初的iBOT混淆了類(lèi)18和類(lèi)20的表示,而這兩個(gè)類(lèi)在潛在空間中被HIRL iBOT很好地劃分。



      06      

總結


這項工作提出了一個(gè)層次圖像表示學(xué)習(HIRL)的一般框架。它通過(guò)任意現成的圖像SSL方法獲取最細粒度的語(yǔ)義,通過(guò)語(yǔ)義路徑判別學(xué)習更多的粗粒度語(yǔ)義信息。HIRL成功地在廣泛的下游任務(wù)上增強了六種具有代表性的SSL方法的性能。但當前HIRL框架的主要局限性在于,它只能學(xué)習單個(gè)視覺(jué)對象的語(yǔ)義,而無(wú)法很好地捕獲不同對象之間的交互。

參考資料

[1]https://arxiv.org/abs/2205.13159
[2]https://github.com/hirl-team/HIRL

END





本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
圖層蒙版的五大功能(二)——復雜邊緣圖像摳圖
基于Transformer對透明物體進(jìn)行分割
cscl script
阿里架構師的靈魂拷問(wèn):你真的懂SOA嗎?
何愷明團隊開(kāi)源圖像分割新算法PointRend:性能顯著(zhù)提升,算力僅需Mask R-CNN的2.6%...
技術(shù)綜述 | 你真的了解圖像分類(lèi)嗎?
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久