Grimmer et al. (PA 2017) アンサンブル法による因果効果の異質性の推定

 因果効果を推定するために多くのRCTが実施されているなか,部分母集団によって効果がどのように変化するのか(Heterogeneous Treatment Effects: HTE),また異なるトリートメントによって効果がどのように変化するのか(Effects of Heterogeneous Treatments: EHT)に関する研究が増えてきている.HTEやEHTについては様々な手法(Regression trees, BART, LASSO, KRLS等々)が提案されているが,最近は特に機械学習の手法を援用したものが多い印象である.本論文が提案していることは,これまでに提案されてきた各手法を使って手元のデータをCVで分析し,予測精度の観点(本論文ではRMSE)からパフォーマンスの良かった手法に大きなウェイトをかけてやり,各推定量の加重平均をアンサンブル推定量として採用するというものである.そのうえでHTEやEHTについて推定をする.

Grimmer, J., Messing, S., & Westwood, S. J. 2017. ``Estimating Heterogeneous Treatment Effects and the Effects of Heterogeneous Treatments with Ensemble Methods.'' Political Analysis 25(4): 1–22.

 Table 2において,4種のデータ生成過程でモンテカルロシミュレーションをおこないアンサンブル法が平均的にベストだと論じているが,データ生成過程によってはアンサンブル法よりパフォーマンスの良い手法もある.また平均的にもLASSOやBayesian GLMとさして変わらない.

 ちなみにHTEやEHTについて,単純にグループやトリートメントの条件付き平均因果効果を比較すれば良いのでは?という点については著者らがこのように議論している.

When there are a large number of observations in each condition and participants who share the same set of covariates, reliable estimation of ATEs, CATEs, MATEs, and MCATEs is straightforward. The random assignment of participants to treatments ensures that a difference in means across treatment arms will reliably estimate the ATE and a difference in means across arms among respondents with the same set of covariates provides an accurate estimate of CATEs and MCATEs. With a large number of participants, the differences computed with naïve differences in means will tend to reflect systematic differences (Gelman, Hill, and Yajima 2012). But for more heterogeneous treatments with a large number of conditions, or covariates that have few observations who share the exact same covariates, a simple difference in means will be a less reliable estimate of the effect of treatments. When the sample size is relatively small, naïve differences will be likely to reflect random variation in the sample, rather than systematic differences in the underlying methods because there will be few observations who share the exact same characteristics. This renders ineffective the usual method for estimating heterogeneous treatment effects: computing a difference in means for observations with the same covariate value. It also makes simple comparisons of different levels of high-dimensional treatments highly problematic.