読者です 読者をやめる 読者になる 読者になる

Hill et al.(MBR 2011) 共変量が高次元の場合の傾向スコア法の検討

共変量が多い場合,傾向スコア法はいかに用いられるべきかを検討した論文.前回紹介したStuart(2010)でも示されているように,マッチング法といっても色々あり,傾向スコアを用いた因果推論の方法も色々ある.高次元の場合にはどの方法の組み合わせが望ましいのかを検討している.

Hill, J., Weiss, C., and Zhai, F. 2011. "Challenges With Propensity Score Strategies in a High-Dimensional Setting and a Potential Alternative." Multivariate Behavioral Research 46: 477-513.

ここでは,留年が成績に与える効果の推定が目的であるが,236個の共変量を用いている.236変数の全てが留年が決定する前の情報であるpretreatment variableであり,高次元の場合の傾向スコア分析の困難に挑戦している.処置前共変量がこんなにも豊富なデータセットはなかなかないだろう.最終的なサンプルサイズは6900,Treatment Groupすなわち留年したものは233.

傾向スコアの推定方法
傾向スコア推定の最も一般的な方法はロジットもしくはプロビット回帰である.しかしながら,どんなときもロジットやプロビットで良いというわけではない.共変量が多い場合には(さらにここではtreatmentのサンプルサイズが少ないことも),ロジットやプロビットを用いた場合の傾向スコアは0か1に分布が偏ってしまい,overfitの可能性からも比較が困難となる.ベイジアンロジットでもこの問題はつきまとう.本稿では,Logit, Probit, Bayes Logit, Bayes Probit, Generalized Boosted Models(GBM: McCaffrey et al. 2004), Bayesian Additive Regression Trees(BART: Chipman et al. 2007)の6モデルを推定し,BARTが最もoverfitが少ないことを確認している.BARTについてはHIll and Su(2013)で解説されている.

どの傾向スコア分析を採用すべきか
傾向スコアが推定されたところで,推定された傾向スコアをどのように用いて分析するかはいくつかのバリエーションがある.代表的なものとして,マッチング,層別解析,ウェイティングが挙げられるが,これらで分析されるのはそれぞれATE, ATC, ATTであるように,分析目的に応じてどれを採用するかは異なる.ここではどの方法が最もバランスがとれている(「TreatmentとControlで共変量に有意な差がない」という点のみをもってバランスがとれているとは言えないことに注意=ここではQQバランスをみている)のかを確認するため,9パターン(nearest matching4パターン, optimal matching2パターン,フルマッチング,IPTW2パターン )を試している.結果はBARTが最もバランスがとれているようで,IPTWは最もバランスがとれていない.ウェイティング法の欠点は傾向スコアが0か1に偏ってしまうときに生じるので当然といえば当然だ.

Treatment Effectの推定
Treatment Effectがアウトカムに与える効果が最終的な分析目的だが(ここではATT),ここでも分析手法を選択しなければならない.もしTreatmentとControlで完璧にバランスがとれているのであれば,平均値を比較するだけでバイアスのない推定量が得られる.これは実際の実験で行われる手続きだ.HIllらが試みているのは,この差の検定に加えた2種類の回帰モデル(with just test scores, with all covariates)である.

We can use the balance summaries, however, to discriminate between methods. Figure 5 plots treatment effect estimates for third-grade reading test scores and 95% confidence intervals for each of the three analysis choices (difference in means, regression on test scores, regression on all covariates) for each of six propensity score strategies that met a set of balance criterion for the full set of covariates (std.mn < .08, std.max < .5, std.over.1 < .4), a set of balance criterion applying to all of the continuous covariates (medQQ.max < .2, maxQQ.mean <
.08, maxQQ.over.1 < .3 ), and a set of balance criterion for the full set of covariates plus quadratic terms (std.mn < .1, std.max < 1, std.over.1 < .3).

つまり,全部で18種類の推定量があるというわけだ.それでは我々はどの推定量をレポートすれば良いのだろうか?

It is somewhat difficult to further distinguish between these methods because they represent trade-offs in some criteria over others (and some variables over others). However, the range of estimates that they yield, although narrower than the range for the full set of strategies, is still nontrivial.

BARTのススメ
本稿でHillらがススメているのがBARTである.まだ使ったことがないのでよく分からないが,ノンパラ推定でChipman et al. (2011)が嚆矢のようだ.

本稿の主眼はBARTのススメなのだが,まとめると,傾向スコアを用いた因果推論をおこなうためには,それぞれの分析段階において適切なモデル・推定量選択をしなければならない.具体的には,1)傾向スコア推定にどのモデルを使うか,2)どのタイプのマッチングもしくはウェイティングのアルゴリズムを使うか,3)どの手法でバランスチェックをするのか,そして何の基準でバランスがとれていると診断するのか,4)アウトカムの分析モデルを何にするか,の4段階での選択である.4段階もあればかなりの組み合わせがあるのだが,なぜその分析方法を採択したのかは多くの論文で明示されていない.Hillらが示しているのは,分析手法の選択で結果が無視できない違いをうんでいることだ.そしてBARTが推奨されているが,具体的には以下の記述がある.

We have presented an alternative estimation approach for this setting that relies on the BART algorithm that eliminates this complexity. This strategy has been demonstrated in previous work (Hill, 2011) to have equal or superior performance compared with some common propensity score strategies in a variety of settings. In this example the point estimate of the effect of the treatment on the treated produced by BART lies near the center of the estimate corresponding to the subset of propensity score approaches that achieve the best balance with these data. More research needs to be done to determine if there are scenarios in which BART may not perform as well. However, it appears to be a potentially promising alternative to propensity score matching, at least in situations with a large number of covariates, and at a minimum is worthy of further investigation and comparison. (p.505)