本文從以下六個(gè)方面來(lái)闡述
一、基本概念
因果關(guān)系Causality指的是Cause和Effect,在很多領(lǐng)域被廣泛應用,例如數據分析, 哲學(xué)、心理學(xué)、經(jīng)濟學(xué)、教育和醫學(xué)等。
Causation和Correlation的區別,因果關(guān)系的存在,必然會(huì )伴隨著(zhù)相關(guān)性。但是,從因到果還需時(shí)間上的先后順序、以及合理的機制等。因此,相關(guān)性只是因果關(guān)系的必要不充分條件。相關(guān)性并不一定代表著(zhù)有因果關(guān)系。
因果推斷和因果發(fā)現,因果發(fā)現是是通過(guò)計算方法從大量數據中識別因果關(guān)系,因果推理是根據結果發(fā)生的條件對因果關(guān)系作出結論的過(guò)程。
Experimental Study和Observational Study,實(shí)驗學(xué)習中樣本是隨機的,treatment group和control group都是隨機分配的,但是Observational Study中Treatment的分配一定是有策略的,非隨機的。
因果推斷有兩個(gè)經(jīng)典框架,一個(gè)是基于Judea Pearl的結構因果模型Structure Causal Model,一個(gè)是基于Rubin提出的Potential Outcome Framework。不過(guò)二者在底層原理上也是相同的。下面重點(diǎn)介紹一些Rubin的POF框架中的相關(guān)概念。
1. ATE,Average Treatment Effect,人群級別的評估指標,計算方式如下
2. ITE,Individual Treatment Effect,個(gè)體級別的評估指標,計算方式如下
3. CATE,Conditional Average Treatment Effect,Subgroup級別的評估指標,計算方式如下
重要概念:Confounders
Confounder是指實(shí)驗中的一種變量,同時(shí)影響了Treatment,又影響了outcome,當實(shí)驗中農存在這種變量時(shí),便可能出現辛普森悖論。
上述表格中Age便是一個(gè)Confounder,age同時(shí)影響了治療方式Treatment,又影響治療效果,所以分組數據Young和Older,結論都是Treatment B的治療效果更好,但是總體數據卻得出Treatment A的治療效果更好,這就是辛普森悖論。
重要概念:Selection Bias
Selection Bias是指觀(guān)測組的數據分布不具有代表性,直白點(diǎn)來(lái)說(shuō)就是X和Treatment之間不是相互獨立的,會(huì )存在偏差。Confounder變量的存在會(huì )影響Unit對于Treatment的選擇,進(jìn)而導致了selection bias,進(jìn)而selection bias又會(huì )使得counterfactual outcome的預估變得更加困難。
結論:Confounder好Selection bias是Causal inference中的兩個(gè)重大難題,很多方法都是在著(zhù)力解決這兩大問(wèn)題。
1. Re-weighting methods,核心思想:為了解決數據中存在的selection bias,通過(guò)給觀(guān)察數據集中的每個(gè)樣本分配適當的權重,建立了一個(gè)偽總體,在這個(gè)偽總體上實(shí)驗組和對照組的分布是相似的,權重的計算通過(guò)propensity-score methods來(lái)求解。
2. Mathching methods,核心思想:通過(guò)距離函數計算,將相似的數據分別分到實(shí)驗組和對照組,該方法在估計反事實(shí)的同時(shí),減少了由混雜因素帶來(lái)的估計偏差。使用較多的matching方式時(shí)propensity score matching。
3. Tree-based methods,核心思想:是一種基于決策樹(shù)的預測模型,如分類(lèi)樹(shù)和回歸樹(shù)。在CART中,一棵樹(shù)被建立直到達到分裂容忍。這里只有一棵樹(shù),可以根據需要進(jìn)行生長(cháng)和修剪
4. Stratification methods,核心思想:也是為了解決數據中存在的selection bias,通過(guò)將整個(gè)組分成子組來(lái)調整選擇偏倚,在每個(gè)子組中,處理組和對照組在某些測量下是相似的
5. Multitask Learning methods,實(shí)驗組和對照組使用不同的模型,共享一些共同的特點(diǎn)
6. Meta-Learning methods,例如:S-learner,T-Learner,X-learner,R-learner等,是一個(gè)系列的解決方案。
核心思想:在original data space中執行matching是簡(jiǎn)單方便的,但是缺點(diǎn)是容易被不影響outcome的變量所誤導,因此,可以映射到subspace進(jìn)行matching來(lái)解決該問(wèn)題。存在的方案有
這里給大家分享幾篇經(jīng)典論文
該方法將因果推斷和深度學(xué)習相結合,分為以下三類(lèi)
這里給大家推薦幾篇經(jīng)典論文
聯(lián)系客服