Stuart(SS 2010) 因果推論におけるマッチング法の回顧と展望

傾向スコアマッチングの歴史や方法について外観したもの.

Stuart, E. A. (2010). "Matching Methods for Causal Inference: A Review and a Look Forward." Statistical Science 25(1): 1–21.

マッチング法は経済学,社会学,政治学,疫学,薬学,医学など様々な分野で用いられているが,ディシプリンを超えてマッチングをレビューしたものは以外と少ないそうで,そこで包括的なレビューをしようというのが著者のモチベーションである.

イントロでは「強く無視できる割当」やSUTVAの説明がなされた後に,マッチング法による分析を以下の4ステップに分類する.すなわち,(1)距離の定義(Defining Closeness),(2)マッチング方法(Matching Methods),(3)マッチング診断(Diagnosing Matching),(4)アウトカムの分析(Analysis of the Outcome)の4ステップである.

(1)距離の定義(Defining Closeness)
 共変量選択と距離の測定の2点からなるのが距離の定義である.
 反実仮想の枠組みではIgnorabilityを満たす必要があるため,共変量選択は非常に重要である.理論的には,アウトカムと処置変数に関連するすべての変数を共変量選択しなければならない.だが実務上はすべての変数を利用すべきでないことが知られており,このあたりは星野本4章が分かりやすい.Stuartがここで指摘しているのは,傾向スコアマッチングにおいて実際にはアウトカムと関連のない変数を選択することはさして問題でないということだ(分散がすこし増す程度).むしろ,大問題なのはアウトカムと強く関連する潜在的な共変量を除外してしまうことなので,この分野の研究者は,「アウトカムと関連があるかもしれない」(という程度の)変数を共変量として選択することにはリベラルだという.さらに,処置変数に影響を受ける変数もまずいというのが強調されている.これは実務上は処置後変数として警戒されているが,処置後変数が入り込むと処置変数の媒介効果を取り除いてしまうため,処置変数の総合効果が過少評価されるためである.
 さて,距離をなにで測定するかについては,(1)Exact,(2)Mahalanobis,(3)Propensity Score,(4)Linear Propensity Scoreの4点を挙げている.(1)のExact Matchingは社会学ではChapinが採用していた方法で,変数が全く同じ人をマッチさせるということである.この方法は多くの点で理想なことが知られているが(Imai, King and Stuart 2008),共変量{ \displaystyle
X
}が多次元の場合には,Inexactで多くのサンプルサイズでマッチングをしたときよりバイアスが大きくなる(Rosenbaum and Rubin 1985)(Exact Matchするサンプルサイズはかなり少なくなる).こうした「多次元の呪い」はマハラノビスマッチングにも共通する問題である. マハラノビスマッチングは共変量が少ないとき(8以下)には良い(Rubin 1979)が,共変量がそれ以上のとき,さらには正規分布していないときにはバイアスが大きくなる.マッチングにおけるブレイクスルーはRosenbaum and Rubin(1983)まで待たなければならなかった.ここで傾向スコア{ \displaystyle e_i(X_i)=P(T_i|X_i) }が登場する.傾向スコアの差の距離が一定のキャリパーより低いかどうかでマッチの有無を決めるというわけだ.Rosenbaum and Rubin(1985)はSD0.25のキャリパーを提案している.近年ではprognosis score(Hansen 2008)があるらしいが,細かくは触れられておらず,また私もよく知らない.ちなみにHansenは昨年のICPSRでCausal Inferenceを担当していた.傾向スコア推定で一般的なのはロジスティック回帰であるが,CARTやGBMといったノンパラ推定もgood performanceである.モデル診断のところで重要なことが書かれているので以下にそのまま引用する.

The model diagnostics when estimating propensity scores are not the standard model diagnostics for lo- gistic regression or CART. With propensity score esti- mation, concern is not with the parameter estimates of the model, but rather with the resulting balance of the covariates (Augurzky and Schmidt, 2001). Because of this, standard concerns about collinearity do not apply. Similarly, since they do not use covariate balance as a criterion, model fit statistics identifying classification ability (such as the c-statistic) or stepwise selection models are not helpful for variable selection (Rubin, 2004; Brookhart et al., 2006; Setoguchi et al., 2008). [p.7]

C統計量に頼りすぎてはいけないと書かれているが,この点は自戒の念をこめて,大切なのはマッチしたサンプルで共変量がバランスしているかどうかということであると強調しておきたい.

Research indicates that misestimation of the propen- sity score (e.g., excluding a squared term that is in the true model) is not a large problem, and that treat- ment effect estimates are more biased when the outcome model is misspecified than when the propensity score model is misspecified (Drake, 1993; Dehejia and Wahba, 1999, 2002; Zhao, 2004). This may in part be because the propensity score is used only as a tool to get covariate balance—the accuracy of the model is less important as long as balance is obtained. [p.7]

(2)マッチング方法(Matching Methods)
まず最近傍マッチング(Nearest Neighbor Matching)であり,これは必ずATTである.これは処置群と対照群で最小の距離にあるペアをマッチさせる方法である.1vs1,1vs多,多vs多のなかでも最もシンプルなのは1vs1だろう.1vs1のマッチングは多くの場合に対照群のサンプルを落としてしまうため,対照群のデータの多くを利用しないことになることが問題ともされる(検出力が減じる).しかしながら↓

However, the reduction in power is often minimal, for two main rea- sons. First, in a two-sample comparison of means, the precision is largely driven by the smaller group size (Cohen, 1988). So if the treatment group stays the same size, and only the control group decreases in size, the overall power may not actually be reduced very much (Ho et al., 2007). Second, the power increases when the groups are more similar because of the reduced extrapolation and higher precision that is obtained when comparing groups that are similar versus groups that are quite different (Snedecor and Cochran, 1980).

ただpoor matchが生じないためにもキャリパーを設定することが考えられるが,そうすると処置群のサンプルがマッチしないこともあり,この点はトレードオフだとRosenbaum and Rubin(1985)は述べている.
上記のように,最近傍マッチングでは全てのサンプルが利用されるわけではないが,層別解析,フルマッチング,ウェイティング法は基本的に全てのサンプルを利用する.これらの手法の基本的な発想は全てのサンプルに0~1のウェイトをかけてやるというものである.ウェイティング法については{ \displaystyle \frac{T_i}{e_i}+\frac{1-T_i}{1-e_i} }をかけてやるIPW,オッズ{ \displaystyle T_i+(1-T_i)\frac{e_i}{1-e_i} }をかけてやる方法(Hirano, Imbens and Ridder 2003),カーネルウェイトをかけてやる方法(Heckman, Ichimura and Todd 1997)がある.ウェイティング法の欠点は,傾向スコアが極端な値をとる場合(0or1に近い値)には分散が大きくなってしまうということ.

If the model is correctly specified and thus the weights are correct, then the large variance is appro- priate. However, a worry is that some of the extreme weights may be related more to the estimation procedure than to the true underlying probabilities. [p.10]

この問題に対してはダブリーロバストIPWが提唱されているが,この方法は星野本にわかりやすく書かれている.
さて,重要なのがコモンサポートの問題である.処置群と対照群で傾向スコアがオーバーラップしていないときに生じる問題であるが,いくつかの解決策が提示されている.

(3)マッチング診断(Diagnosing Matching)
この診断がマッチング法で最も重要であるとStuartは述べる.書くのがだんだん辛くなってきたので省略するが,マッチされたペアもしくはグループにおいて{ \displaystyle p(X|T=1)=p(X|T=0) }となっていれば共変量バランスがとれているのだが,こうなっていることを診断しなければならない.そのための方法としては大きく,(a)数値のチェック.(b)グラフチェック,の2点.前者についてRubin(2001)がすすめているのは,

1. The standardized difference of means of the propensity score.
2. The ratio of the variances of the propensity score in the treated and control groups.
3. For each covariate, the ratio of the variance of the residuals orthogonal to the propensity score in the treated and control groups.

後者については,マッチング前と後のグループの傾向スコアの分布をプロットすること,さらに,standardized differences of meansのプロットが推奨されている.マッチング後にstandardized differences of meansが小さくなっていることがポイントである.

(4)アウトカムの分析(Analysis of the Outcome)
マッチングの最終ゴールは処置変数がアウトカムに与える影響の分析だが,ここからが本来の目的であるアウトカムの分析ステップとなる.k:1マッチング後,層別解析とフルマッチング後,分散推定について書かれているが省略.

最後は今後のマッチング法の課題について書かれているが,力尽きたので後ほど追記したい.

まとめると,マッチング法を用いた因果推論の具体的な分析手順が示され,さらに各手順における代表的な手法が紹介されており,その説明も平易であるので,マッチングにある程度明るい人が読むと非常に有益な論文だと思う.著者はこの分野では有名なStuartであることも一読の価値があるだろう.