欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
配對:一種用于對抗性環(huán)境生成的新多代理方法

任何機器學(xué)習方法的有效性都嚴重依賴(lài)于其訓練數據。在強化學(xué)習(RL)的情況下,人們可以依賴(lài)于與現實(shí)世界交互的代理收集的有限數據,也可以依賴(lài)可用于收集所需數據的模擬訓練環(huán)境。后者在模擬訓練方法越來(lái)越流行,但它有一個(gè)問(wèn)題- RL劑可以了解什么是內置模擬器,但往往是壞 在 推廣到甚至比模擬的略有不同的任務(wù)。顯然,構建一個(gè)涵蓋現實(shí)世界所有復雜性的模擬器極具挑戰性。

解決這個(gè)問(wèn)題的一種方法是通過(guò)隨機化模擬器的所有參數來(lái)自動(dòng)創(chuàng )建更多樣化的訓練環(huán)境,這一過(guò)程稱(chēng)為域隨機化(DR)。但是,即使在非常簡(jiǎn)單的環(huán)境中,DR 也可能失敗。例如,在下面的動(dòng)畫(huà)中,藍色代理試圖導航到綠色目標。左側面板顯示了使用 DR 創(chuàng )建的環(huán)境,其中障礙物和目標的位置已隨機化。許多這些 DR 環(huán)境用于訓練代理,然后將其轉移到中間面板中的簡(jiǎn)單四房間環(huán)境。請注意,代理無(wú)法找到目標。這是因為它還沒(méi)有學(xué)會(huì )繞墻走。盡管四房間示例中的墻壁配置可以在 DR 訓練階段隨機生成的,不太可能。結果,代理沒(méi)有在類(lèi)似于四室結構的墻壁上花費足夠的時(shí)間進(jìn)行訓練,無(wú)法達到目標。

除了隨機化環(huán)境參數之外,還可以訓練第二個(gè) RL 代理來(lái)學(xué)習如何設置環(huán)境參數??梢杂柧氝@個(gè)極小極大的 對手,通過(guò)發(fā)現和利用其策略中的弱點(diǎn)來(lái)最小化第一個(gè) RL 代理的性能,例如構建它以前從未遇到過(guò)的墻配置。但問(wèn)題又來(lái)了。右側面板顯示了一個(gè)由極小極大對手構建的環(huán)境,在該環(huán)境中,代理實(shí)際上不可能達到目標。雖然極小極大的對手已經(jīng)成功完成了它的任務(wù)——它最小化了原始代理的性能——但它沒(méi)有為代理提供學(xué)習的機會(huì )。使用純粹的對抗性目標也不太適合生成訓練環(huán)境。

我們 與加州大學(xué)伯克利分校合作,在最近在NeurIPS 2020 上發(fā)表的出版物“通過(guò)無(wú)監督環(huán)境設計的緊急復雜性和零樣本轉移”中提出了一種新的多智能體方法來(lái)訓練對手。在這項工作中,我們提出了一種算法,主角拮抗劑誘導后悔環(huán)境設計 (PAIRED),它基于最小最大后悔并防止對手創(chuàng )造不可能的環(huán)境,同時(shí)仍然使其能夠糾正代理策略中的弱點(diǎn)。PAIRED 激勵對手調整生成環(huán)境的難度,使其剛好超出代理當前的能力,從而形成自動(dòng)課程 越來(lái)越具有挑戰性的訓練任務(wù)。我們表明,使用 PAIRED 訓練的智能體可以學(xué)習更復雜的行為,并能更好地泛化未知的測試任務(wù)。我們已經(jīng)在我們的GitHub存儲庫上發(fā)布了 PAIRED 的開(kāi)源代碼。

PAIRED

為了靈活地約束對手,PAIRED 引入了第三個(gè)RL 代理,我們稱(chēng)之為拮抗代理,因為它與對抗代理聯(lián)合,即設計環(huán)境的代理。我們重命名我們的初始代理,即在環(huán)境中導航的主角。一旦對手創(chuàng )造了一個(gè)環(huán)境,主角和對手都會(huì )在這個(gè)環(huán)境中發(fā)揮作用。

對手的工作是最大化對手的獎勵,同時(shí)最小化主角的獎勵。這意味著(zhù)它必須創(chuàng )造可行的環(huán)境(因為對手可以解決它們并獲得高分),但對主角具有挑戰性(利用其當前政策的弱點(diǎn))。兩種獎勵之間的差距就是遺憾 ——對手試圖最大化遺憾,而主角則競爭最小化遺憾。

上面討論的方法(域隨機化、最小最大后悔和配對)可以使用相同的理論框架進(jìn)行分析,無(wú)監督環(huán)境設計(UED),我們在論文中詳細描述。UED 在環(huán)境設計和決策理論之間建立了聯(lián)系,使我們能夠證明域隨機化等價(jià)于不充分理由原則,極大極小對手遵循極大極小原則,而 PAIRED 正在優(yōu)化極小極大后悔原則。這種形式主義使我們能夠使用決策理論中的工具來(lái)了解每種方法的優(yōu)缺點(diǎn)。下面,我們展示了這些想法中的每一個(gè)如何用于環(huán)境設計: 

課程生成

極小極大遺憾的有趣之處在于,它會(huì )激勵對手生成最初簡(jiǎn)單的課程,然后是越來(lái)越具有挑戰性的環(huán)境。在大多數 RL 環(huán)境中,獎勵函數將為更有效地完成任務(wù)或以更少的時(shí)間步長(cháng)給出更高的分數。當這是真的時(shí),我們可以證明后悔會(huì )激勵對手創(chuàng )造主角無(wú)法解決的最簡(jiǎn)單的環(huán)境. 為了看到這一點(diǎn),讓我們假設對手是完美的,并且總是盡可能地獲得最高分。與此同時(shí),主角很糟糕,在所有方面都得到了零分。那樣的話(huà),后悔就看環(huán)境的難易程度了。由于可以在更少的時(shí)間步中完成更簡(jiǎn)單的環(huán)境,因此它們可以讓對手獲得更高的分數。因此,在輕松環(huán)境中失敗的遺憾大于在艱難環(huán)境中失敗的遺憾:

因此,通過(guò)最大化遺憾,對手正在尋找主角未能做到的輕松環(huán)境。一旦主角學(xué)會(huì )解決每個(gè)環(huán)境,對手必須繼續尋找主角無(wú)法解決的稍微困難的環(huán)境。因此,對手生成了越來(lái)越困難的任務(wù)的課程。

結果

我們可以看到在下面的學(xué)習曲線(xiàn)中出現的課程,它繪制了智能體成功解決的迷宮的最短路徑長(cháng)度。與 minimax 或域隨機化不同,PAIRED 對手創(chuàng )建了一個(gè)越來(lái)越長(cháng)但可能的迷宮課程,使 PAIRED 代理能夠學(xué)習更復雜的行為。

但是這些不同的訓練方案能否幫助代理更好地泛化未知的測試任務(wù)?下面,我們將看到每種算法在一系列具有挑戰性的測試任務(wù)上的零樣本傳輸性能。隨著(zhù)傳輸環(huán)境復雜性的增加,PAIRED 和基線(xiàn)之間的性能差距會(huì )擴大。對于迷宮、迷宮等極其困難的任務(wù),PAIRED是唯一可以偶爾解決的方法。這些結果提供了有希望的證據,證明 PAIRED 可用于改進(jìn)深度強化學(xué)習的泛化。

誠然,這些簡(jiǎn)單的網(wǎng)格世界并不能反映許多 RL 方法試圖解決的現實(shí)世界任務(wù)的復雜性。我們在“ Adversarial Environment Generation for Learning to Navigate the Web ”中解決了這個(gè)問(wèn)題,它檢查了 PAIRED 在應用于更復雜的問(wèn)題時(shí)的性能,例如教 RL 代理導航網(wǎng)頁(yè)。我們提出了 PAIRED 的改進(jìn)版本,并展示了如何使用它來(lái)訓練對手以生成越來(lái)越具有挑戰性的網(wǎng)站課程:

在上圖中,您可以看到對手在早期、中期和后期訓練階段構建的網(wǎng)站,這些網(wǎng)站從每頁(yè)使用很少的元素發(fā)展到同時(shí)使用許多元素,使任務(wù)逐漸變得更加困難。我們測試在此課程中訓練的代理是否可以推廣到標準化的網(wǎng)絡(luò )導航任務(wù),并達到 75% 的成功率,與最強課程學(xué)習基線(xiàn)相比提高了 4 倍:

結論

Deep RL 非常擅長(cháng)擬合模擬訓練環(huán)境,但我們如何構建涵蓋現實(shí)世界復雜性的模擬?一種解決方案是自動(dòng)化此過(guò)程。我們提出無(wú)監督環(huán)境設計 (UED) 作為描述自動(dòng)創(chuàng )建訓練環(huán)境分布的不同方法的框架,并表明 UED 包含先前的工作,如域隨機化和極小極大對抗訓練。我們認為 PAIRED 是 UED 的一個(gè)好方法,因為遺憾最大化導致課程越來(lái)越具有挑戰性的任務(wù),并準備代理成功轉移到未知的測試任務(wù)。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
三招武林絕學(xué)帶你玩轉「強化學(xué)習」
為何各國要讓宇航員出艙,太空行走很難嗎?看完才知道答案
3-6歲的孩童專(zhuān)注力訓練方法
任務(wù)自由:心流的五個(gè)原則
新員工在試用期會(huì )面臨的困惑及對策
挑戰性學(xué)習:讓學(xué)習真正發(fā)生
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久