欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
《因果科學(xué)周刊》第7期:2021因果強化學(xué)習第一課

為了幫助大家更好地了解因果科學(xué)的最新科研進(jìn)展和資訊,我們因果科學(xué)社區團隊本周整理了第7期《因果科學(xué)周刊》,推送近期因果科學(xué)領(lǐng)域值得關(guān)注的論文和資訊信息。本期的主題是“因果強化學(xué)習”,它在眾多通向通用人工智能的路徑中備受關(guān)注,我們非常榮幸邀請到了劍橋博士陸超超,研究方向是因果強化學(xué)習,一位在此領(lǐng)域特別有活力的青年科學(xué)家,他精心為大家挑選了因果強化學(xué)習領(lǐng)域的10篇干貨論文,并給本期周報撰寫(xiě)了前言、背景動(dòng)機,而且還盤(pán)點(diǎn)了Judea Peal、Bernhard Sch?lkopf 、Yann Lecun 、 Gary Marcus 、Elias Bareinboim 這幾位AI頂級專(zhuān)家對因果強化學(xué)習的獨到見(jiàn)解,非常生動(dòng)地為大家帶來(lái)了2021年因果強化學(xué)習入門(mén)的第一課!

本期作者:陸超超 Alchemist 方文毅 許雄銳  陳晗曦 趙江杰 汪昕 李欣怡 陳正鳴  趙江杰  卓卓  龔鶴揚 常政


前言

近些年來(lái),在游戲領(lǐng)域強化學(xué)習取得了巨大的進(jìn)展,已經(jīng)能夠打敗人類(lèi)最頂級的玩家。但在現實(shí)生活中,我們卻罕見(jiàn)強化學(xué)習的成功應用。帶著(zhù)這種疑惑,我們將探訪(fǎng)機器學(xué)習中一個(gè)全新的領(lǐng)域——因果強化學(xué)習。因果強化學(xué)習不僅可以為傳統強化學(xué)習中那些棘手的問(wèn)題提供一種新的解決方案,更重要的是,它還為通用人工智能提供一種解決思路。隱藏在因果強化學(xué)習背后的哲學(xué)理念是迷人的:回顧科學(xué)發(fā)展的歷史,人類(lèi)也是走著(zhù)相似的道路。具體來(lái)說(shuō),人類(lèi)是在不斷地與自然交互探索的過(guò)程中總結經(jīng)驗和規律,然后利用這些經(jīng)驗和規律更好地指導下一次與自然的交互探索,以此來(lái)不斷地發(fā)展進(jìn)步。因果強化學(xué)習就是在模仿人類(lèi)的這種行為:智能體在于環(huán)境的交互過(guò)程中學(xué)習和發(fā)現其因果關(guān)系,然后利用學(xué)到的因果關(guān)系來(lái)優(yōu)化自己的策略以指導下一步的交互。正是由于這個(gè)原因,因果強化學(xué)習可以被視為一種通用的學(xué)習算法,在現實(shí)生活中有著(zhù)廣泛的應用,比如:計算機視覺(jué)、機器人、生物醫藥、健康醫療、推薦系統,自動(dòng)駕駛,金融、社會(huì )學(xué)等等。

本期周刊首先闡述因果強化學(xué)習的背景動(dòng)機,然后羅列一些著(zhù)名學(xué)者對因果強化學(xué)習的觀(guān)點(diǎn),關(guān)于這兩部分更加詳細的內容請參考文獻[1-7]。最后精選了因果強化學(xué)習四個(gè)主題下的十篇文章。四個(gè)主題分別是:去除強化學(xué)習算法里的混雜效應、在強化學(xué)習中應用反事實(shí)框架、因果表示學(xué)習、以及使用強化學(xué)習的方法進(jìn)行因果發(fā)現。希望能激發(fā)相關(guān)研究人員進(jìn)一步的思考。


背景動(dòng)機

從強化學(xué)習的角度來(lái)看,利用因果推理可以解決強化學(xué)習中最根本的缺陷 [1,2,3,4]。目前大多數的強化學(xué)習系統只能在游戲或者類(lèi)似游戲的場(chǎng)景中取得很好的效果,比如Atari和圍棋。這些場(chǎng)景通常具有兩個(gè)共同點(diǎn):(1)人們可以很容易獲取充足的數據;(2)場(chǎng)景本身有著(zhù)清晰定義的規則。但現實(shí)中大部分場(chǎng)景無(wú)法滿(mǎn)足這兩個(gè)要求,這就導致強化學(xué)習很難應用在具體的實(shí)際任務(wù)中。幸運的是,這兩個(gè)強化學(xué)習中最根本的問(wèn)題恰好可以通過(guò)因果推理來(lái)解決。對于第一個(gè)問(wèn)題,其主要原因是,與監督學(xué)習中的標簽信息相比,強化學(xué)習中的激勵信號要稀疏很多。特別是與強化學(xué)習中高維度的狀態(tài)信息相比,這么稀疏的激勵信號很難指導智能體在如此巨大的狀態(tài)空間進(jìn)行有效地探索,這就意味著(zhù)智能體需要大量的數據才能得到足夠多的激勵信號來(lái)完成探索任務(wù)。我們可以利用因果推理從歷史數據中推斷狀態(tài),動(dòng)作和激勵信號之間的因果關(guān)系,以此來(lái)優(yōu)化下一步的探索策略,進(jìn)而幫助智能體更高效、更有效地學(xué)習價(jià)值函數或策略。對于第二個(gè)問(wèn)題,我們可以通過(guò)因果推理中干預的概念更好地理解強化學(xué)習中的動(dòng)作的概念,也就是說(shuō),智能體可以利用動(dòng)作(干預)來(lái)執行因果發(fā)現任務(wù)。更具體地說(shuō),智能體可以根據其當前狀態(tài),通過(guò)采取不同的動(dòng)作(干預)來(lái)觀(guān)察環(huán)境狀態(tài)的變化,以此能更好地發(fā)現環(huán)境的因果關(guān)系,使場(chǎng)景中的規則更加清晰,這樣可以幫助智能體更快地完成學(xué)習任務(wù)。

從自然科學(xué)的角度來(lái)看,因果強化學(xué)習與人們發(fā)現自然規律的兩種過(guò)程是一致的 [1,2]。在愛(ài)因斯坦之前,人們觀(guān)察到的物理現象相對比較簡(jiǎn)單。例如,伽利略通過(guò)做些自由落體或者小球在斜坡往下滾動(dòng)的實(shí)驗,得到一些簡(jiǎn)單的數據就能歸納出一些公式進(jìn)而發(fā)展出一套理論,然后通過(guò)這些理論演繹出一些物理性質(zhì)來(lái)對未來(lái)進(jìn)行預測。但從愛(ài)因斯坦開(kāi)始,由于物理現象越來(lái)越復雜,或者實(shí)驗越來(lái)越困難甚至根據當時(shí)的條件根本沒(méi)有辦法進(jìn)行實(shí)驗,科學(xué)家們就反其道而行之。具體來(lái)說(shuō),他們先假設一些物理性質(zhì)(比如對稱(chēng)性),然后根據這個(gè)假設發(fā)展出一套理論(比如相對論),最后可能過(guò)了幾十年等實(shí)驗條件成熟之后再做實(shí)驗驗證這套理論。因果強化學(xué)習恰好包含了這兩個(gè)相反的科學(xué)發(fā)現過(guò)程。前者就是強化學(xué)習的過(guò)程,智能體通過(guò)不斷的與環(huán)境交互作用(做實(shí)驗)來(lái)得到一些結論,后者就是因果推理的過(guò)程,先給出一些假設(因果圖),然后根據這些假設得出一些因果的結論,最后再通過(guò)實(shí)驗去驗證這些結論。因此,因果強化學(xué)習與人們發(fā)現自然規律的過(guò)程是一致的。

從認知科學(xué)的角度來(lái)看,因果強化學(xué)習與人們的認知過(guò)程是一致的 [1,2]。事實(shí)上,回顧人類(lèi)的認知史,我們總是以一種類(lèi)似因果強化學(xué)習的方式前進(jìn)。更具體地說(shuō),人類(lèi)從與大自然的互動(dòng)中總結出規則或經(jīng)驗,然后利用這些經(jīng)驗來(lái)提高自己在下一次探索中的適應能力。因果強化學(xué)習所做的就是模擬人類(lèi)的這種認知行為:智能體從與環(huán)境溝通的過(guò)程中學(xué)習因果關(guān)系,然后根據所學(xué)到的因果關(guān)系優(yōu)化其下一步探索的策略。從上面的描述中,我們可以看到這個(gè)過(guò)程分為三個(gè)階段:與自然或環(huán)境交互溝通、學(xué)習和總結因果關(guān)系、利用學(xué)到的因果關(guān)系進(jìn)行下一步探索。令人驚訝的是,我們從歷史文獻中可以找到很多著(zhù)名學(xué)者的論述來(lái)一一佐證這每個(gè)階段的觀(guān)點(diǎn)。心理學(xué)創(chuàng )始人之一Jean Piaget曾說(shuō)過(guò):“玩是一切新事物的答案?!?這里的“玩”就是指因果強化學(xué)習中的動(dòng)作(干預),所以這句話(huà)可以理解為:通過(guò)動(dòng)作(干預)才能得到新的知識(新的因果關(guān)系)。蒙納士大學(xué)哲學(xué)教授Jakob Hohwy曾說(shuō)過(guò):“我們對世界的了解,即我們反映其因果結構的方式,受到我們大腦中推理能力的支配?!?這也就是說(shuō),我們人類(lèi)認識世界是通過(guò)推理總結其因果結構的方式。因果科學(xué)的創(chuàng )始人之一David Hume也說(shuō)過(guò):“關(guān)于事實(shí)的所有推理似乎都建立在因果關(guān)系上。僅憑因果關(guān)系,我們就可以超越記憶和感官的證據?!?換言之,人們可以通過(guò)因果關(guān)系來(lái)指導自己進(jìn)行下一步對未知世界的探索。

鑒于以上幾點(diǎn),我們有理由相信因果強化學(xué)習可以作為實(shí)現通用人工智能的一種途徑,是終極算法[8]的一種實(shí)現方式。


——From 陸超超

學(xué)者觀(guān)點(diǎn)

  1. Judea Pearl [5]

Is RL an exercise in causal inference? Of course! Albeit a restricted one. By deploying interventions in training, RL allows us to infer consequences of those interventions, but ONLY those interventions. A causal model is needed to go BEYOND, i.e., to actions not used in training.
The relation between RL and causal inference has been a topic of some debate. It can be resolved, I believe, by understanding the limits of each.

陸超超簡(jiǎn)評:Pearl認為強化學(xué)習就是在做因果推理,但只是局限在因果之梯的第二層(干預層)。如果利用因果之梯的第三層(反事實(shí)推理層)的信息可以更好地進(jìn)行強化學(xué)習。

  1. Bernhard Sch?lkopf [6]

Question 1: why is RL on the original high-dimensional Atari games harder than on downsampled versions?
Question 2: why is RL easier if we permute the replayed data?
RL is closer to causality research than the machine learning mainstream in that it sometimes effectively directly estimates do-probabilities (on-policy learning). However, as soon as off-policy learning is considered, in particular in the batch (or observational) setting, issues of causality become subtle.

陸超超簡(jiǎn)評:Sch?lkopf認為,相比于主流機器學(xué)習,強化學(xué)習更加接近因果科學(xué)的研究,原因與上述Pearl的觀(guān)點(diǎn)是一致的,都認為強化學(xué)習可以做因果之梯第二層的操作。

  1. Yann Lecun and Gary Marcus [7]

[model-free] Reinforcement learning is not the answer, either.
AI systems still need better internal forward models.
Commonsense reasoning remains fundamentally unsolved.

陸超超簡(jiǎn)評:Lecun和Marcus曾經(jīng)關(guān)于通用人工只能有過(guò)一次廣為人知的辯論。盡管他們的分歧很多,但他們在七個(gè)方面達成了共識,其中上述三點(diǎn)就與因果強化學(xué)習相關(guān)。首先,他們都認為不基于模型的強化學(xué)習不是實(shí)現通用人工智能的方式,這一點(diǎn)我們在上面背景動(dòng)機一節已經(jīng)部分討論過(guò),換句話(huà)說(shuō),為了實(shí)現通用人工智能,強化學(xué)習需要基于模型,但是需要什么樣的模型呢?這就是后面兩點(diǎn)所闡述的:需要更好的內部前饋模型和能夠進(jìn)行常識推理的模型,這兩點(diǎn)正是因果模型的優(yōu)勢所在 [1,2]。

  1. Elias Bareinboim [4]

Our goal is to provide a cohesive framework that takes advantage of the capabilities of both formalisms (i.e., RL and CI) (from first principles), and that allows us to develop the next generation of AI systems.

陸超超簡(jiǎn)評:Bareinboim認為結合強化學(xué)習和因果推理是開(kāi)發(fā)下一代人工智能系統的關(guān)鍵所在。

精選論文

下面是我們按照因果強化學(xué)習的四個(gè)主題,精選推薦的十篇論文。

1)去除強化學(xué)習算法里的混雜效應(Regarding confounding)

  • Bareinboim et al. Bandits with Unobserved Confounders: A Causal Approach. 2015

  • Lu et al. Deconfounding Reinforcement Learning in Observational Settings. 2018

  • de Haan et al. Causal Confusion in Imitation Learning. 2019

    2)在強化學(xué)習中應用反事實(shí)框架(Regarding counterfactuals)

    • Bottou et al. Counterfactual Reasoning and Learning Systems: The Example of Computational Advertising. 2013

    • Buesing et al. Woulda, Coulda, Shoulda: Counterfactually-Guided Policy Search. 2019

    • Pitis et al. Counterfactual Data Augmentation using Locally Factored Dynamics. 2020

      3)因果表示學(xué)習(Regarding causal representation learning)

      • Dietterich et al. Discovering and Removing Exogenous State Variables and Rewards for Reinforcement Learning. 2018.

      • Zhang et al. Invariant Causal Prediction for Block MDPs. 2020

      4)使用強化學(xué)習的方法進(jìn)行因果發(fā)現(Regarding causal structure learning)

      • Madumal et al. Explainable Reinforcement Learning Through a Causal Lens. 2019

      • Zhu et al. Causal Discovery with Reinforcement Learning. 2020


        論文翻譯和解讀


        1)去除強化學(xué)習算法里的混雜效應

        Bareinboim et al. Bandits with Unobserved Confounders: A Causal Approach. 2015

        摘要:多臂賭博機問(wèn)題構成了順序決策的原型設定,滲透到了包括工程、商業(yè)和醫學(xué)在內的多個(gè)領(lǐng)域。多臂賭博機的一個(gè)重要特點(diǎn)是代理人通過(guò)主動(dòng)干預來(lái)探索其環(huán)境的能力,這與通過(guò)估計行動(dòng)與付出之間的關(guān)聯(lián)關(guān)系來(lái)被動(dòng)收集數據的能力具有顯著(zhù)不同。由于不可觀(guān)測的混雜因素的存(即同時(shí)影響行動(dòng)和結果變量的不可測變量)這兩種數據收集模式得到的結果通常不一致。在本篇論文,我們表明將這種區分形式化對多臂賭博機設置具有概念和算法上的意義。當前這一代的賭博機算法隱式地試圖根據對實(shí)驗分布的估計來(lái)最大化收益,我們證明該策略并不總是最佳的。的確,要在某些現實(shí)類(lèi)型的賭博機問(wèn)題(即面對未觀(guān)察到的混雜因素)中獲得較低的遺憾,理性的代理人既需要實(shí)驗量,也需要觀(guān)察量。認識到這一點(diǎn)之后,我們提出了一個(gè)賭博機 Agents 應該追求的優(yōu)化指標(同時(shí)采用實(shí)驗分布和觀(guān)察分布),并闡釋了其相較于傳統算法的優(yōu)勢。

        譯者:徐培

        簡(jiǎn)評:多臂賭博機是強化學(xué)習環(huán)境的一個(gè)簡(jiǎn)化情況。文章在強化學(xué)習的環(huán)境中形式化地給出了混雜因素的形式,討論了混雜效應其帶來(lái)的問(wèn)題?;诖?,作者改進(jìn)了賭博機問(wèn)題中的優(yōu)化目標,并且得到了更優(yōu)的結果。

        Lu et al. Deconfounding Reinforcement Learning in Observational Settings. 2018

        摘要:提出了一個(gè)用于解決使用觀(guān)測數據的強化學(xué)習(RL)問(wèn)題的一般架構。也就是說(shuō),我們考慮了僅從歷史數據中學(xué)習策略的問(wèn)題,而數據中未觀(guān)察到的因子(混雜因子)會(huì )影響到行動(dòng)和獎勵。我們的架構允許我們擴展一個(gè)有代表性的RL算法(Actor-Critic方法),使之成為一個(gè)去混雜因子的變體算法,這種擴展架構也很容易被應用于其他RL算法。除此之外,我們還通過(guò)修改OpenAI的 Gym environments和 MNIST數據集得到一個(gè)新的基準來(lái)進(jìn)行評估。利用這個(gè)基準,我們展示了這個(gè)算法在混雜環(huán)境的數據的情況下比傳統的RL算法更優(yōu)秀。據我們所知,這是第一次考慮使用混雜因素解決有觀(guān)測數據的RL問(wèn)題。

        譯者:方文毅

        簡(jiǎn)評:文章提出了一個(gè)在RL架構中考慮混雜因子的一般框架,并且在A(yíng)ctor-Critic方法中成功應用在實(shí)際數據集上。其中Actor-Critic方法同時(shí)考慮了策略和價(jià)值函數進(jìn)行學(xué)習,是強化學(xué)習算法的重要里程碑。

        de Haan et al. Causal Confusion in Imitation Learning. 2019

        摘要:通過(guò)訓練一個(gè)判別模型來(lái)預測給定觀(guān)測數據下的專(zhuān)家動(dòng)作,行為克隆(behavioral cloning)將策略學(xué)習轉變?yōu)橐粋€(gè)監督學(xué)習問(wèn)題。但這些判別模型通常是非因果的(non-causal):訓練程序并不知道專(zhuān)家與環(huán)境交互過(guò)程中的因果結構。本文指出,由于模仿學(xué)習中存在分布偏移(distributional shift),忽略因果會(huì )導致破壞性的后果,特別是會(huì )出現一種反直覺(jué)的“因果錯誤識別(causal misidentification)”現象:數據越多,效果反而越差。本文研究了這個(gè)問(wèn)題出現的原因,并提出了一種通過(guò)定向干預(targeted interventions)——基于環(huán)境互動(dòng)或專(zhuān)家詢(xún)問(wèn)——來(lái)決定正確因果模型的方法,從而避免這種問(wèn)題出現。文章展示了在一些基準控制領(lǐng)域(benchmark control domains)和現實(shí)駕駛情況下出現的因果錯誤識別,并對比了本文的解決方法與數據聚合(DAgger)及其它方法的效果。

        譯者:許雄銳

        簡(jiǎn)評:這篇文章從因果的角度研究了模仿學(xué)習中的行為克隆,發(fā)現了一類(lèi)特定的因果關(guān)系導致的錯誤,并且提出了通過(guò)干預選擇正確因果模型的方法。實(shí)驗上,這篇文章在基準控制以及現實(shí)駕駛的情況下實(shí)現了模擬和應用。

        2)在強化學(xué)習中應用反事實(shí)框架

        Bottou et al. Counterfactual Reasoning and Learning Systems: The Example of Computational Advertising. 2013

        摘要:本文工作展示了如何利用因果推斷來(lái)理解復雜學(xué)習系統的和環(huán)境交互的行為,以及預測系統變化產(chǎn)生的后果。這種預測允許人類(lèi)和算法來(lái)選擇可以提升系統性能的改變。本工作在Bing搜索引擎的廣告投放系統上展示了實(shí)驗。

        譯者:陳晗曦

        簡(jiǎn)評:本文通過(guò)廣告投放的例子,展示了Pearl提出的因果推斷方法在設計與環(huán)境交互的學(xué)習系統中起的核心作用。由于現實(shí)世界中學(xué)習系統通常會(huì )涉及除了自動(dòng)化處理以外的人類(lèi)決策,因此文章對學(xué)習算法和如何抓取驅動(dòng)算法的信號做了清晰的區分。此外文章還發(fā)現,為分析物理系統提出的一些數學(xué)、哲學(xué)工具,對于分析因果系統和其均衡性同樣非常有效。文章的整體研究思路,很有控制論的思想。

        Buesing et al. Woulda, Coulda, Shoulda: Counterfactually-Guided Policy Search. 2019

        摘要:強化學(xué)習算法對現實(shí)經(jīng)驗有很大的需求,但獲取現實(shí)經(jīng)驗需要花費比較大的代價(jià),使用 模型通過(guò)學(xué)習策略來(lái)合成數據剛好可以解決這個(gè)問(wèn)題。但是在很多復雜環(huán)境下從頭模擬真實(shí) 經(jīng)驗是一個(gè)很難的問(wèn)題,通常會(huì )導致基于模型策略評價(jià)和搜索的偏差。為了替代這種從頭 合成數據的方法,我們假定記錄真實(shí)經(jīng)驗,并且通過(guò)反事實(shí)動(dòng)作(即現實(shí)中該動(dòng)作并未發(fā)生) 模擬該經(jīng)驗的替代結果?;诖嘶A上,我們提出了反事實(shí)引導策略搜索(CF-GPS)算法, 從 off-policy 經(jīng)驗中學(xué)習部分可觀(guān)測馬爾可夫決策過(guò)程(POMDPs)中的策略,利用結構因果 模型對off-policy 的某個(gè)回合(episodes)的可能策略進(jìn)行反事實(shí)評估。CF-GPS還能通過(guò)利用 真實(shí)數據做偏差消除預測,從而改進(jìn)model-based強化學(xué)習算法。和一般基于數據重賦權的 重要性采樣(importance sampling)off-policy算法不同的是,CF-GPS利用模型明確考慮可替代的結果,讓算法可以更好的利用經(jīng)驗數據。從經(jīng)驗上我們發(fā)現,在非平凡網(wǎng)格世界任務(wù) (non-trivial grid-world)上,我們的算法優(yōu)點(diǎn)轉換為了策略評估和搜索結果的改進(jìn)。最后 論文還展示了CF-GPS的泛化性,可以將引導策略搜索和基于重參數化的隨機值梯度(Stochastic Value Gradient)轉化為反事實(shí)方法。

        譯者:趙江杰

        簡(jiǎn)評:文章提出了反事實(shí)引導策略搜索(CF-GPS)算法, 學(xué)習部分可觀(guān)測馬爾可夫決策過(guò)程(POMDPs)中的策略,利用結構因果模型(并未實(shí)施的)其他可能策略進(jìn)行反事實(shí)評估。CF-GPS利用模型明確考慮可替代的結果,讓算法可以更好的利用經(jīng)驗數據,具有很好的泛化性。

        Pitis et al. Counterfactual Data Augmentation using Locally Factored Dynamics. 2020

        摘要:許多動(dòng)態(tài)過(guò)程都涉及到一些相互作用的子流程,包括機器人控制和強化學(xué)習(RL)中一些的常見(jiàn)場(chǎng)景。盡管子流程并非獨立,但是他們之間的交互通常很稀疏,且任意時(shí)間步的動(dòng)態(tài)過(guò)程通??梢苑纸鉃榫植开毩⒌囊蚬麢C制。這種局部因果結構可以用來(lái)提高序列預測和離線(xiàn)策略強化學(xué)習的樣本效率。我們通過(guò)引入局部因果模型(LCMs)使其形式化,這個(gè)模型是通過(guò)條件作用于狀態(tài)空間的子集而從全局因果模型中歸納出來(lái)的。我們提出了一種基于面向對象狀態(tài)表示的推斷這些結構的方法,以及一種新的反事實(shí)數據增強算法(CoDA)。CoDA使用局部結構和經(jīng)驗重現來(lái)產(chǎn)生在全局模型中因果有效的反事實(shí)經(jīng)驗。我們發(fā)現CoDA顯著(zhù)地提高了局部因子任務(wù)中RL代理的表現,包括批約束和目標條件設置。

        譯者:汪昕

        簡(jiǎn)評:文章通過(guò)引入局部因果模型的機制,對于稀疏的因果關(guān)系進(jìn)行建模,并且通過(guò)反事實(shí)數據增強的方法消除觀(guān)測數據帶來(lái)的偏差。

        3)因果表示學(xué)習

        Dietterich et al. Discovering and Removing Exogenous State Variables and Rewards for Reinforcement Learning. 2018.

        摘要:外生狀態(tài)的變量和獎勵能夠通過(guò)將不受控的變化注入獎勵信號來(lái)減緩強化學(xué)習。我們將外生狀態(tài)的變量和獎勵形式化,并且確定了具有外生狀態(tài)的MDP(馬爾科夫決策過(guò)程)可以被分解為只包含了一個(gè)外生狀態(tài)+獎勵的外生馬爾可夫獎勵過(guò)程,和一個(gè)僅針對內生獎勵定義的內生馬爾可夫決策過(guò)程的條件。我們也導出了方差-協(xié)方差條件,在該條件下,與使用了完整MDP相比,對內生MDP的蒙特卡洛方法評估得到了加速。類(lèi)似的加速可能會(huì )延伸到所有強化學(xué)習的算法中。我們開(kāi)發(fā)了兩種去發(fā)現外生變量的算法,并且在多個(gè)MDP上對其進(jìn)行了測試。結果表明,該算法是實(shí)用的,并可以顯著(zhù)地提升強化學(xué)習的速度。

        譯者:李欣怡

        簡(jiǎn)評:該文章對外生狀態(tài)的馬爾可夫決策過(guò)程理論進(jìn)行了發(fā)展。文章表明一個(gè)原始的MDP可以分解為一個(gè)外生馬爾可夫獎勵過(guò)程和一個(gè)內生馬爾可夫決策決策過(guò)程,并且內生MDP的任何最優(yōu)決策都是原始MDP的最優(yōu)決策。文章最后指出了一個(gè)重要的開(kāi)放性問(wèn)題:如何最好地探索MDP以達成學(xué)習內-外分解的目的。

        Zhang et al. Invariant Causal Prediction for Block MDPs. 2020

        摘要:跨環(huán)境的泛化能力是強化學(xué)習算法成功應用于現實(shí)的重要挑戰。在這篇文章中,我們考慮了在馬爾可夫決策過(guò)程塊(block MDPs)中更一般的學(xué)習抽象問(wèn)題,它是一類(lèi)觀(guān)測值不同,但具有共享的隱狀態(tài)空間的環(huán)境族和該隱空間上的動(dòng)態(tài)結構。我們利用因果推理中的工具,提出了一種不變性預測的方法來(lái)學(xué)習模型無(wú)關(guān)狀態(tài)抽象(MISA),這種抽象在多環(huán)境設置下可以推廣到新的觀(guān)測數據中。我們證明了對于某些特定類(lèi)型的環(huán)境,該方法以高概率輸出一個(gè)對應于返回的因果特征集的狀態(tài)抽象。我們進(jìn)一步給出了在多環(huán)境設定下模型誤差和泛化誤差的更一般的邊界,在這個(gè)過(guò)程中體現了因果變量選擇與MDPs狀態(tài)抽象框架之間的聯(lián)系。我們給出的實(shí)驗證明了我們的方法在線(xiàn)性和非線(xiàn)性環(huán)境下都有效,相比現存的單任務(wù)和多任務(wù)的方法,我們的方法有更好的泛化能力。

        譯者:陳正鳴

        簡(jiǎn)評:本文的主要貢獻是拓展強化學(xué)習中環(huán)境遷移能力。而對于遷移學(xué)習來(lái)說(shuō),主要回答的是什么是不變的,也即什么是可遷移的。對此本論文給出的答案是給出了學(xué)習狀態(tài)抽象在某些條件下,等于因果特征的學(xué)習,也即用因果來(lái)解釋其可遷移性(泛化能力),換句話(huà)說(shuō),正是由于模型學(xué)到了具有因果性的狀態(tài)抽象,才具備了優(yōu)秀的跨環(huán)境泛化能力。

        4)使用強化學(xué)習的方法進(jìn)行因果發(fā)現

        Madumal et al. Explainable Reinforcement Learning Through a Causal Lens. 2019

        摘要:認知科學(xué)中流行的理論認為,人類(lèi)通過(guò)因果關(guān)系來(lái)理解和表示世界知識。為了理解這個(gè)世界,我們在頭腦中建立因果模型來(lái)編碼事件的因果關(guān)系,并以此解釋新事件發(fā)生的原因。在本文中,我們使用因果模型來(lái)推導強化學(xué)習智能體(agents)行為的因果解釋。我們提出了一種通過(guò)強化學(xué)習來(lái)學(xué)習結構因果模型,并編碼感興趣變量之間因果關(guān)系的方法。然后,根據因果模型的反事實(shí)分析,使用該模型生成對智能體行為的解釋。然后,根據因果模型的反事實(shí)分析,使用該模型生成對智能體行為的解釋。我們報告了一項研究,120名參與者觀(guān)察智能體玩一款實(shí)時(shí)戰略游戲(Starcraft II),然后收到智能體行為的解釋。我們研究了:1)參與者通過(guò)任務(wù)預測解釋獲得的理解增益;2)解釋滿(mǎn)意度和3)信任度。我們的結果表明,與其他兩個(gè)基線(xiàn)解釋模型相比,因果模型解釋在這些度量上表現更好。

        譯者:陳天豪

        簡(jiǎn)評:將強化學(xué)習算法應用于因果發(fā)現,學(xué)習了一個(gè)相對簡(jiǎn)單的結構因果模型,在實(shí)際問(wèn)題中取得了比較好的結果。

        Zhu et al. Causal Discovery with Reinforcement Learning. 2020

        摘要:從一組變量中發(fā)現因果結構是很多經(jīng)驗學(xué)科的一個(gè)基礎問(wèn)題。傳統的基于評分的因果發(fā)現 方法,依賴(lài)于局部各種啟發(fā)規則,通過(guò)預定義的評分函數來(lái)搜索有向無(wú)環(huán)圖(DAG)。同時(shí) 還有些方法,例如貪婪等價(jià)搜索(GES),當樣本無(wú)限多而且確定模型假設條件下可能會(huì )有 不錯的效果,但是在實(shí)際中這樣的條件很少能得到滿(mǎn)足,因為一般情況下樣本是有限的, 假設條件也不能完全確定。在近年來(lái)進(jìn)展較快的的神經(jīng)組合優(yōu)化思想的影響下,我們提出 了一種通過(guò)強化學(xué)習值優(yōu)化搜索DAG的方法。將觀(guān)察數據輸入到我們的encoder-decoder 模型中,生成計算相應獎勵的圖鄰接矩陣。這個(gè)獎勵包含了預定義的值函數和控制無(wú)環(huán)生成 的懲罰項。和典型的強化學(xué)習以最優(yōu)策略作為輸出不同,我們將強化學(xué)習作為一個(gè)搜索策略, 從訓練過(guò)程中生成的所有圖中,返回獎勵最大的那個(gè)圖作為輸出結果。通過(guò)在合成數據以及 真實(shí)數據上的實(shí)驗表明,我們的方法不僅能提高圖搜索性能,還能在無(wú)環(huán)約束條件下作為一種 靈活的評分函數使用。

        譯者:趙江杰

        簡(jiǎn)評:通過(guò)基于自注意力機制的encoder-decoder神經(jīng)網(wǎng)絡(luò )模型探索數據之間的關(guān)系,結合因果結構的條件,并使用策略梯度的強化學(xué)習算法對神經(jīng)網(wǎng)絡(luò )參數進(jìn)行訓練,以因果圖結構作為最終的輸出。

        近期資訊

        1)陸超超北大報告:Causal Reinforcement Learning in Healthcare and Medicine

        2021年1月13日,劍橋博士陸超超應邀在北京大學(xué)公共衛生學(xué)院生物統計系舉辦的學(xué)術(shù)講座中,做了《Causal Reinforcement  Learning in Healthcare and Medicine》的主題演講。在演講中,陸超超對因果強化學(xué)習做了簡(jiǎn)明扼要的介紹,并討論了它在健康醫療和醫藥領(lǐng)域的潛在應用。關(guān)于詳細內容,可以參閱本次演講報告的PDF文檔。

        PDF地址:

        https://causallu.files.wordpress.com/2021/01/talkpekinguniv13jan2021.pdf

        2)AI debate 2020,Judea Pearl 、Robert Ness 暢想因果革命新引擎

        2020年12月23日下午(北京時(shí)間24日凌晨),繼2019年Gary Marcus 與 Yoshua Bengio 辯論之后,AI Debate再次召開(kāi),有Judea Pearl、Rich Sutton 、 Robert Ness 、李飛飛等16位頂尖AI專(zhuān)家參與。在會(huì )上,Judea Pearl 發(fā)表了主題為「The Domestication of Causal Reasoning」的演講。他表示深度學(xué)習是個(gè)金礦,「我為推動(dòng)因果革命而打造的新引擎可以表示心理狀態(tài)的計算模型,即『深度理解』」。Pearl 表示,深度理解將成為回答「What is?」、「What if?」和「If Only?」這些問(wèn)題的唯一系統。

        接下來(lái),機器學(xué)習研究科學(xué)家 Robert Ness 談?wù)摿恕敢蚬评砼c(深度)概率編程」。Ness 表示:「概率編程將是解決因果推理的關(guān)鍵?!垢怕示幊炭梢詷嫿軌蚍词聦?shí)推理的智能體,而這是因果推理的關(guān)鍵。他認為這可以解決 Pearl 關(guān)于「If only?」的問(wèn)題。

        3) Judea Pearl 三十年前論文獲人工智能(AIJ) 獎

        受疫情影響,IJCAI-PRICAI 2020即第29屆國際人工智能聯(lián)合會(huì )議和第17屆環(huán)太平洋人工智能?chē)H會(huì )議(International Joint Conference on Artificial Intelligence-Pacific Rim International Conference on Artificial Intelligence)于2021年1月11日開(kāi)幕。在會(huì )上,Judea Pearl科研團隊在30年前發(fā)表的一篇論文“Temporal Constraint Networks”榮獲“人工智能(AIJ) 獎”。人工智能(AIJ) 獎,用于頒發(fā)給至少 15 年前發(fā)布在 AI Journal 上極具影響力的重要論文。這篇獲獎?wù)撐陌l(fā)表于 1991 年,涉及的主題是上世紀八十年代的熱門(mén)話(huà)題——時(shí)間約束。目前,該論文被引用次數接近 2500。Judea Pearl是這篇論文的第三作者,第一作者和第二作者分別是他的博士生:Rina Dechter、Itay Meiri。

        參考文獻

        [1] Chaochao Lu. Causal Reinforcement Learning: Motivation, Concepts, Challenges, and Applications. Slides: https://causallu.files.wordpress.com/2020/11/talkswarmacampus29nov2020.pdf

        [2] Chaochao Lu. Causal Reinforcement Learning: A Road to Artificial General Intelligence. Slides: https://causallu.files.wordpress.com/2019/11/talkbelllabs28nov2019.pdf

        Video: https://youtu.be/sqKcbjuXGn8

        [3] Chaochao Lu. Introduction to Causal RL. https://causallu.com/2018/12/31/introduction-to-causalrl/

        [4] Elias Bareinboim: Causal Reinforcement Learning. https://crl.causalai.net/

        [5]Judea Pearl.

        https://twitter.com/yudapearl/status/1065871039387693056?s=20

        [6] Bernhard Sch?lkopf. Causality for Machine Learning. 2019.

        [7] Yann Lecun vs Gary Marcus. Artificial Intelligence Debate: Does AI need more innate machinery? https://youtu.be/aCCotxqxFsk

        [8] Pedro Domingos. The Master Algorithm: How the quest for the ultimate learning machine will remake our world. 2015

        因果科學(xué)社區愿景回答因果問(wèn)題是各個(gè)領(lǐng)域迫切的需求,當前許多不同領(lǐng)域(例如 AI 和統計學(xué))都在使用因果推理,但是他們所使用的語(yǔ)言和模型各不相同,導致這些領(lǐng)域科學(xué)家之間溝通交流困難。因此我們希望構建一個(gè)社區,通過(guò)組織大量學(xué)術(shù)活動(dòng),使得科研人員能夠掌握統計學(xué)的核心思想,熟練使用當前 AI 各種技術(shù)(例如 Pytorch/Pyro 搭建深度概率模型),促進(jìn)各個(gè)領(lǐng)域的研究者交流和思維碰撞,從而讓各個(gè)領(lǐng)域的因果推理有著(zhù)共同的范式,甚至是共同的工程實(shí)踐標準,推動(dòng)剛剛成型的因果科學(xué)快速向前發(fā)展。具備因果推理能力的人類(lèi)緊密協(xié)作創(chuàng )造了強大的文明,我們希望在未來(lái)社會(huì )中,因果推理融入到每個(gè)學(xué)科,尤其是緊密結合和提升 AI ,期待無(wú)數具備攀登因果之梯能力的 Agents (Causal AI) 和人類(lèi)一起協(xié)作,共建下一代的人類(lèi)文明!

                

        本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
        打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
        猜你喜歡
        類(lèi)似文章
        因果AI熱度背后的打靶迷局
        讓神經(jīng)網(wǎng)絡(luò )變得透明-因果推理對機器學(xué)習的八項助力
        因果推斷方法分類(lèi)匯總:怎樣從復雜系統中找到因果關(guān)系
        蔡瑞初、陳微、郝志峰:因果推斷與因果性學(xué)習研究進(jìn)展
        基于觀(guān)測數據的因果發(fā)現及因果性學(xué)習
        哈佛教授新書(shū)《因果推理》開(kāi)放下載!311頁(yè)暢享閱讀
        更多類(lèi)似文章 >>
        生活服務(wù)
        分享 收藏 導長(cháng)圖 關(guān)注 下載文章
        綁定賬號成功
        后續可登錄賬號暢享VIP特權!
        如果VIP功能使用有故障,
        可點(diǎn)擊這里聯(lián)系客服!

        聯(lián)系客服

        欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久