読者です 読者をやめる 読者になる 読者になる

King and Roberts(PA 2015) 頑健標準誤差を無自覚に使ってはいけません

計量社会学のレクチャーで漸近理論の話が出てくることはあまりないが,これはまずいと思っている.漸近的性質については計量屋のフロンティアでいまもたくさん成果が出ているし,それらをフォローするのは難しいが,基本的なことは共有されるべきである.さて,推定値を正当化する漸近的近似が適切でない場合,頑健な標準誤差の推定値が過小になったりする.やみくもに頑健標準誤差やクラスター標準誤差を使えば良いというわけではないということは,モストリーハームレスの8章でも扱わているが,本論文もその類のものである.

King, R. and Robert, M. 2015. "How Robust Standard Errors Expose Methodological Problems They Do Not Fix, and What to Do About It" Political Analysis 23: 159-179.

要旨は以下である.

“Robust standard errors” are used in a vast array of scholarship to correct standard errors for model misspecification. However, when misspecification is bad enough to make classical and robust standard errors diverge, assuming that it is nevertheless not so bad as to bias everything else requires considerable optimism. And even if the optimism is warranted, settling for a misspecified model, with or without robust standard errors, will still bias estimators of all but a few quantities of interest. The resulting cavernous gap between theory and practice suggests that considerable gains in applied statistics may be possible. We seek to help researchers realize these gains via a more productive way to understand and use robust standard errors; a new general and easier-to-use “generalized information matrix test” statistic that can formally assess misspecification (based on differences between robust and classical variance estimates); and practical illustra- tions via simulations and real examples from published research. How robust standard errors are used needs to change, but instead of jettisoning this popular tool we show how to use it to provide effective clues about model misspecification, likely biases, and a guide to considerably more reliable, and defensible, inferences. Accompanying this article is software that implements the methods we describe.

主眼は,頑健標準誤差においてmisspecificationがおきていないかを検定する"generalized information matrix test"の提案である.頑健標準誤差はポリサイでも多用されているようで,著者らによれば,

Among all articles between 2009 and 2012 that used some type of regression analysis published in the American Political Science Review, 66% reported robust standard errors. In International Organization, the figure is 73%, and in American Journal of Political Science, it is 45%.

ほどである.社会学でもかなり無自覚に使っているユーザーは多いと思われるが,通常の標準誤差と頑健標準誤差に大きな違いがある場合には注意が必要となる.かつては不均一分散の検定に使われていたブロッシュ=ペーガン検定やホワイト検定では,こうした問題をスルーしてしまう(モデルミススペシフィケーションなのか単なる不均一分散があるだけなのかの区別ができないということ).キングらに言わせればこういうことである.

However, they are often used in applications as a default setting, without justification (sometimes even as an effort to inoculate oneself from criticism), and without regard to the serious consequences their use implies about the likely misspecification in the rest of one’s model. Moreover, a model for which robust and classical standard error estimates differ is direct confirmation of misspecification that extends beyond what the procedure corrects, which means that some estimates drawn from it will be biased—often in a way that can be fixed but not merely by using robust standard errors.

まず頑健標準誤差の成功例を確認しよう.均一分散で線形正規分布を仮定した回帰モデルで最尤推定を行った場合,データ生成過程で実際には不均一分散が生じていたとしても,頑健標準誤差を用いれば,有効性はないが一致性と不偏性をもつ推定量となる.こうした頑健標準誤差の利点に対して,キングらは問題点は2つあると指摘する.

First, even if the functional form, independence, and other specification assumptions of this regression are correct, only certain quantities of interest can be consistently estimated. For example, if the dependent variable is the Democratic proportion of the two-party vote, we can consistently estimate a regression coefficient, but not the probability that the Democrat wins, the variation in vote outcome, risk ratios, vote predictions with confidence intervals, or other quantities. In general, computing quantities of interest from a model, such as by simulation, requires not only valid point estimates and a variance matrix, but also the veracity of the model’s complete stochastic component (King, Tomz, and Wittenberg 2000; Imai, King, and Lau 2008).
Second, if robust and classical standard errors diverge—which means the author acknowledges that one part of his or her model is wrong—then why should readers believe that all the other parts of the model that have not been examined are correctly specified? We normally prefer theories that come with measures of many validated observable implications; when one is shown to be inconsistent with the evidence, the validity of the whole theory is normally given more scrutiny, if not rejected (King, Keohane, and Verba 1994). Statistical modeling works the same way: each of the standard diagnostic tests evaluates an observable implication of the statistical model. The more these observable implications are evaluated, the better, since each one makes the theory vulnerable to being proven wrong. This is how science progresses. According to the contrary philosophy of science implied by the most common use of robust standard errors, if it looks like a duck and smells like a duck, it is just possible that it could be a beautiful blue-crested falcon.

キングらは頑健標準誤差を使うべきではないと言っているのではない.モデル推定において通常の標準誤差と頑健標準誤差に大きな違いがある場合には,ミススペシフィケーションの可能性が高いため,手持ちデータに関する基礎的な診断をすべきだとしている.その診断に応じて適切な推定手法を選ぶべきだと.彼らが結論が述べているように,要はこういうことである.

Robust standard errors should be treated not as a way to avoid reviewer criticism or as a magical cure-all. They are neither. They should instead be used for their fundamental contribution—as an excellent model diagnostic procedure. We strongly echo what the best data analysts have been saying for decades: use all the standard diagnostic tests; be sure that your model actually fits the data; seek out as many observable implications as you can observe from your model. And use all these diagnostic evaluation procedures to respecify your model. If you have succeeded in choosing a better model, your robust and classical standard errors should now approximately coincide.

GIM(generalized information matrix)テストでモデルを改善させた証は,大きな乖離のあった通常の標準誤差と頑健標準誤差がだいたい一致するということである.

O'Brien et al.(SMR 2008) APC混合効果モデル

簡単なメモをしておく.アウトカムに対する年齢(age),時代(period),世代(cohort)の効果を識別するのは単純でない.なぜなら「世代=時代ー年齢」が成立しているからだ.これらを工夫して何とか識別しようとするのがAPCモデルであるが,これは社会学での呼び方であり(おそらく),経済学や政治学ではなんと呼ばれているか知らない.例えば,経済学で有名なDeaton and Paxson(JPE 1994)ではAPCモデルという語は使われていない.それはさておき,本論文はAPCの世代特性におけるランダム効果推定のメリットを提示するものである.

O’Brien, R. M., Hudson, K., & Stockard, J. (2008). "A Mixed Model Estimation of Age, Period, and Cohort Effects." Sociological Methods & Research, 36(3), 402–428.

APCを同時投入すると完全な多重共線性が生じるため,著者らによればこれまで以下の解決策がとられてきた.

1. APCの関連を線形から非線形にするために少なくとも1つの変数を適当なものに変換する
2. APCの2つ以上の変数についてアウトカムに対する効果が全く同じであると仮定する
3. 特定のコーホートの効果が時間の変化に応じて変化すると仮定する

私は第1の方法のものをよく見る気がするのだが,著者らによれば,上記で最も用いられるのは第2の方法らしい.さて,本稿では次式のように年齢,時代を固定効果,世代特性をランダム効果として推定している(Age Period Cohort Mixed Model: APCMM).
{ \displaystyle
Y_{ij}=\mu+\alpha_i+\pi_j+\chi_k+\upsilon_k+\epsilon_{ij}
}
{ \displaystyle \mu }は切片,{ \displaystyle \alpha_i, \pi_j }は年齢と時代の固定効果(ダミー変数),{ \displaystyle \chi_k}は世代特性,{ \displaystyle \upsilon_k }はランダム誤差項である.APCMMの利点として著者らは以下のように述べている.

They can (1) assess the amount of variance in the dependent variable that is associated with cohorts while controlling for the age and period dummy variables, (2) model the dependencies that result from the age-period-specific rates for a single cohort being observed multiple times, and (3) assess how much of the variance in observations that is associated with cohorts is explained by differences in the characteristics of cohorts.

世代の固定効果はコントロールされていないので,年齢と時代の効果については留意が必要となるのは言うまでもない.APCのうち1つ以上の効果が0である場合にはOLSで推定しれやれば良いが,APCすべての効果を無視できない場合には本論文のように混合効果モデルで推定するのもひとつの手である.

Western and Bloome(SM 2009) Variance Function Regressionによる不平等の分析

最近Bruce Westernがよく使っているVariance Function Regression(VFR)を本人が解説した論文.国内学会の報告等でもVFRは最近みかける.

Western, B., and Bloome, D. 2009. "VARIANCE FUNCTION REGRESSIONS FOR STUDYING INEQUALITY." Sociological Methodology 39(1): 293-326.

通常の回帰分析は女性より男性のほうが高い賃金を予測するとか,大卒者が非大卒より高い階層帰属意識であるとか,グループ間の比較(between-group)を主眼としている.それに対してVFRはグループ内(within-group)の分散に着目し,女性や男性の賃金の不平等のばらつきに何が影響を与えているのかに関心がある.簡潔に述べれば,回帰分析で推定された残差分散を分析するのがVFRである.手順としては,第1に被説明変数を説明変数に回帰して{ \displaystyle
\beta_{ki}
}を推定し残差を保存,第2に(対数)残差二乗をさらに説明変数に回帰し{ \displaystyle
\lambda_{ki}
}を得る.平均値と分散は逆の動きをすることが多いので{ \displaystyle
\beta_{ki}
}{ \displaystyle
\lambda_{ki}
}はだいたいが逆の符号になるが,{ \displaystyle
\beta_{ki}
}{ \displaystyle
\lambda_{ki}
}が同じ符号になっていればストーリとしては面白くなるだろう.推定方法について,本稿で取り上げられているのは,(1)GLM,(2)ML,(3) REML,(4)Bayesである.GLM以外は先の手順を繰り返す.著者らはモンテカルロシミュレーションを行い,バイアスが小さいのは(3) REMLと(4)Bayesでありこれらを用いることを推奨している.VFRを用いれば不平等変化の要因分解も可能である.不平等の変化は,a)between-group不平等,b)within-group不平等,c)グループ(集団)比率の変化に分解できる.この計算は簡単にできるし,少しのプログラムでベイズでもできる.要因分解についてはLemieux(AER 2006)に従っているのでそちらを参照するほうが分かりやすいし詳しい.VFRは記述的な分析なので,モデルを慎重にたてる必要がある.とりわけステップ2を意識して欠落変数バイアスにご注意あれ.ちなみにstataでのVFRの一例は以下.

reg Y ‘X’;
predict R, r;
gen R2=Rˆ2;
glm R2 ‘Z’, family(gamma) link(log); predict S2, mu;
gen LOGLIK=−.5∗(ln(S2)+(R2/S2)); egen LL0 = sum(LOGLIK);
di LL0;
∗Updating beta and lambda coefficients; gen DLL=1;
while DLL > .00001 {;
drop R;
quietly: reg Y ‘X’ [aw=1/S2]; drop S2;
predict R, r;
replace R2=Rˆ2;
est store BETA;
quietly:
glm R2 ‘Z’, family(gamma) link(log); predict S2, mu;
est store LAMBDA;
replace LOGLIK=−.5∗(ln(S2)+(R2/S2)); egen LLN = sum(LOGLIK);
di LLN;
replace DLL=LLN-LL0; replace LL0=LLN; drop LLN;
};
est table BETA LAMBDA, b se;

Atanasov and Black(WP 2015) Shock-Based IV再考

制度変更等を利用したShock-Based IVはIVが満たすべき仮定のひとつである独立性(as-if random assignment to treatment)や除外制約(only through)を満たしていると考えられているため,多くの研究で利用されているが,先行研究のShock-Based IVは本当に仮定を満たしているのかを再分析し検証した論文.

Atanasov, V. and B. Black. 2015. “The Trouble with Instruments: Re-Examining Shock-Based IV Designs.SSRN Working Paper

要旨は以下.

Credible causal inference in accounting and finance research often comes from “natural” experiments. These natural experiments generate “shocks” which can be exploited using various research designs, including difference-in-differences (DiD), instrumental variables based on the shock (shock based IV), and regression discontinuity (RD). There is much to be said for shock-based designs. Moreover, if one must use IV, shock-based IV designs are highly likely to be preferred to non-shock IV designs. But shock- based IV remains problematic. Often, a near-equivalent DiD design is available, and is usually preferable. We illustrate the problems with shock-based IV by re-analyzing three recent, high-quality papers. None of the IVs in these papers turn out to be valid. For Desai and Dharmapala’s (REStat 2009) study of the interaction between tax shelter opportunities and corporate governance, their first stage fails when we impose a balanced sample of firms with data both before and after the shock. For Duchin, Matsusaka and Ozbas’s (DMO) (JFE 2010) study of the effect of board independence on firm performance, their first stage also fails when we balance treated and control firms on the pre-shock proportion of independent directors. For Iliev’s (JF 2010) RD/IV study of the cost of compliance with SOX § 404, we use combined DiD/RD and principal strata methods, and find cost estimates somewhat below his RD estimate, and well below his RD/IV estimate. The principal problem is that Iliev’s IV does not, for subtle reasons, satisfy the core “only through” condition (exclusion restriction) for a valid instrument. We discuss common themes that emerge from our re-analysis, including the fragility of IV compared to other shock-based designs; the need for covariate balance between treated and control firms; and the difficulty in satisfying the only-through condition. Our results suggest that even for shock-based designs, the scope for IV methods is very limited.

本稿で検討しているのはDesai and Dharmapala (REStat 2009), Duchin, Matsusaka and Ozbas (JFE 2010), Iliev (JF 2010)の3論文で使われているIVである.

Desai and Dharmapala (REStat 2009)

Desai and Dharmapala (2009, below D&D) study how corporate governance mediates the effect of tax shelter opportunities on firm value. Their shock is 1996 Treasury regulations that simplified taxation for small private firms. As an unintended side effect, these rules increased tax shelter opportunities for multinational firms. D&D use this shock, interacted with measures of the firm’s need to shelter income, as instruments for “book-tax gap” (a proxy for tax sheltering). They find that greater sheltering opportunities increase firm value, but only for firms with high institutional ownership (a proxy for corporate governance).

問題点:独立性を明らかに満たしていない.すなわちTreatmentとControlで共変量バランスがとれていない.共変量バランスを補正したところ1st Stageが有意にならなかった.

Duchin, Matsusaka and Ozbas (JFE 2010)

Duchin, Matsusaka and Ozbas (2010, below, DMO) study the effect of board independence on firm value and profitability. Their instrument for a change in board independence is whether a firm had to add independent directors to its audit committee to meet a 1999 New York Stock Exchange (NYSE) and NASDAQ requirement that audit committees consist entirely of independent directors (“Audit Committee Shock”). DMO find that a higher proportion of independent directors is value-neutral overall, but positive (negative) for firms with low (high) information costs. Over 2000-2005, firms in the top quartile of information cost that increase board independence by 10% (the amount predicted by their instrument) suffer a 3.0% drop in ROA relative to bottom-quartile firms; a 24% relative drop in Tobin’s q; and 31% lower cumulative share returns.

問題点:独立性を明らかに満たしていない.すなわちTreatmentとControlで共変量バランスがとれていない.共変量バランスを補正したところ1st Stageが有意にならなかった.

Iliev (JF 2010)

lIiev (2010) studies the cost of compliance with § 404 of the Sarbanes-Oxley Act (SOX) for firms near the compliance threshold (public float of $75M), using a combined regression discontinuity (RD) and IV design. His RD design exploits the discontinuity at $75M in float between firms which do (don’t) need to comply with SOX § 404. Iliev finds that some firms manipulate their float to stay below the $75M threshold, and uses IV to address this manipulation.

問題点RDDの強みはRCTに似た環境をつくることができる点だが,共変量バランスチェックを行っていない.再分析でチェックを行ってみたところTreatmentとControlで共変量バランスがとれていない.そこでIIieveのデザインであるRD/IVではなくDiD/RD(RDのバンド幅のサンプルでDiDをする)を用いて再分析したところ,有意であることは変わらなかったが過大推定になっていることを発見した.この理由として,Atanasov and Black(WP 2015)はIIievの採用したIVは除外制約を満たしていないのではないかと指摘している.

Black本人が話していたことではあるが,IIievになぜDiD/RDを使わなかったと聞いたところ知らなかったそうである.また,BlackはIVやRDDを用いる際には常に共変量チェックを怠らないよう注意を促している.

Busso et al.(REST 2014) 傾向スコアマッチングと傾向スコアウェイティングの有限標本特性

傾向スコアによるマッチングとウェイティングの推定量を比較した論文.

Busso, M., DiNardo, J., & McCrary, J. (2014). "New Evidence on the Finite Sample Properties of Propensity Score Reweighting and Matching Estimators." Review of Economics and Statistics 96(5): 885–897.

様々な先行研究でウェイティングはマッチングに比べてパフォーマンスが悪いとの指摘がある.例えば,Frolich(2004)はウェイティングが最もシンプルなマッチング法と比べても最悪な推定量になっていることを報告している.Frolich(2004)のAbstractは以下.

The finite-sample properties of matching and weighting estimators, often used for estimating average treatment effects, are analyzed. Potential and feasible precision gains relative to pair matching are examined. Local linear matching (with and without trimming), k-nearest-neighbor matching, and particularly the weighting estimators performed worst. Ridge matching, on the other hand, leads to an approximately 25% smaller MSE than does pair matching. In addition, ridge matching is least sensitive to the design choice. [abstract]

一方で,Hirano et al.(2003)はFrolich(2004)とは異なる主張をしており,この点をBusso et al.(2014)は以下のように要約している.

In a recent article in the Review of Economics and Statistics, Frolich (2004) uses simulation to examine the finite sample properties of various propensity score matching estimators and compares them to those of a particular reweighting estimator. To the best of our knowledge, this is the only paper in the literature to explicitly compare the finite sample performance of propensity score matching and reweighting. The topic is an important one, both because large sample theory is currently only available for some matching estimators and because there can be meaningful discrepancies between large and small sample performance. Summarizing his findings regarding the mean squared error of the various estimators studied, Frolich (2004, p. 86) states that the “the weighting estimator turned out to be the worst of all [estimators considered]... it is far worse than pair matching in all of the designs”. This conclusion is at odds with some of the conclusions from the large sample literature. For example, Hirano et al. (2003) show that reweighting can be asymptotically efficient in a particular sense. This juxtaposition of conclusions motivated us to re-examine the evidence.

こうした従来の主張に対して,本稿が主張するのはFrolich(2004)の結論は間違っているということだ.

We conclude that reweighting is a much more effective approach to estimating average treatment effects than is suggested by the analysis in Frolich (2004). In particular, we conclude that in finite samples an appropriate reweighting estimator nearly always outperforms pair matching. Reweighting typically has bias on par with that of pair matching, yet much smaller variance. Moreover, in DGPs where overlap is good, reweighting not only outperforms pair matching, but is competitive with the most sophisticated matching estimators discussed in the literature.

ウェイティングもそこまで悪くないというのは朗報だそうだ.

This is an important finding because reweighting is simple to implement, and standard errors are readily obtained using two-step method of moments calculations. In contrast, sophisticated matching estimators involve more complicated programming, and standard errors are only available for some of the matching estimators used in the literature (Abadie and Imbens 2006, 2008, 2010).

以上のように,Busso et al.(REST 2014)では様々なData Generating Process(DGP)に着目してシミュレーションを試みており,結論も興味深い.しかしながら,応用計量分析家が実際に傾向スコアを用いて因果効果を推定する際にはStuart(2010)が示すように,かなりのヴァリエーションがあるので,それらのヴァリエーションとのシミュレーションも気になるところである(例えばBusso et al.(2014)のシミュレーション枠組みでBayes LogitやBARTで傾向スコアを推定した場合のマッチングとウェイティングの比較等).オーバーラップが満たされている場合にはウェイティング推定量は多くのマッチング推定量とcompetitiveだそうだが,この点については逆だと思っていた(とういかそう習った気がする).余談だが,傾向スコアの祖であるルービンは明らかにマッチング推しであり,このあたりの趨勢は自身でもう少し整理が必要に感じた.

Hainmueller et al.(JOP 2015) 現職候補者は有利なのか:RDDの外的妥当性

Regression Discontinuity Design(RDD)の外的妥当性を検討した論文.

Hainmueller, J., Hall, A. and J. Snyder. 2015. "Assessing the External Validity of Election RD Estimates: An Investigation of the Incumbency Advantage." Journal of Politics 77(3): 707-720.

選挙において現職候補者が有利(incumbency effects)だというのをRDDで示したのがLee(2008)であるが,この論文はRDDの解説でしばしば引かれる.一般に,RDDの内的妥当性は非常に高いことが示されているが(Buddelmeyer and Skoufias 2004; Cook et al. 2008; Berk et al. 2010; Shadish et al. 2011),外的妥当性についてはさらなる検証の余地があるとされる.すなわち,カットオフ近傍のsubpopulationへの局所平均効果になっているため,カットオフ近傍から離れた場合に同様の効果があるかは必ずしも自明ではないということだ.そこで,Lee(2008)の結論は外的妥当性があるのだろうかという問いを検証したのが本稿Hainmueller et al.(2015)である.

方法としてはAngrist and Rokkanen(2013)に従っている.Angrist and Rokkanen(2013)はIZAからのDPだがJASAから2016年パブリッシュされるAngrist and Rokkanen(JASA 2016)と同じ内容である.論旨は以下の4点から成る.

First, we motivate our study in several ways. We discuss theoretical reasons to expect a larger, smaller, or equal effect away from the RD threshold, we present the results of a survey of political scientists that shows widespread disagreement over whether the effect ought to be larger or smaller away from the threshold, and we present descriptive evidence that obtaining an estimate even in relatively small windows around the RD threshold can markedly increase the estimate’s coverage, and thus its pertinence. Second, we lay out the technical details of the method. Third, we apply the method to U.S. statewide offices, presenting the results of the validity tests and the estimates of the incumbency advantage away from the threshold. Finally, we conclude.

以上に基づき,条件付き独立の仮定(CIA){ \displaystyle
E[Y_{i, t+1}(D_{i, t})|V_{i, t}, X_{i, t}]=E[Y_{i, t+1}(D_{i, t})|X_{i, t}]
}を用いることでバンド幅をLee(2008)より拡大して推定したところ(windowは15%ポイント=より競争の少なかった地域での推定),Incumbency Effectsは微弱もしくは確認されなかったそうである.windowを広げてTreatment Effectが推定できているかどうかはCIAが成立しているかどうかに依存するが,本稿ではCIAのチェックも行っている.RDDの外的妥当性については色々と議論があったところなのでとても勉強になった.方法論についてよりフォーマルな議論をしているAngrist and Rokkanen(JASA 2016)は今後多く引用されるのではないだろうか.

Primo et al.(2007) クラスター化標準誤差 vs マルチレベルモデリング

社会学や心理学でしばしば用いられるマルチレベルモデリングであるが,経済学者のいる研究会で「それって標準誤差をクラスター化すれば良いのでは?」と言われた経験のある人は多いのではないだろうか.このセリフを言ったことも言われたこともあるのだが,よくまとまっている論文とブログをみつけたのでメモしておく.

Primo, D. M., Jacobsmeier, M. L., & Milyo, J. 2007. "Estimating the Impact of State Policies and Institutions with Mixed-Level Data.State Politics & Policy Quarterly, 7(4), 446–459.

 この論文を知ったきっかけはAndrew Gelmanのブログである.したがって,Gelmanのブログにも簡単な解説とコメントがのっている.

 Primoらが推定しているのは以下の3モデル.

1) least-squares estimation ignoring state clustering,

(2) least squares estimation ignoring state clustering, with standard errors corrected using cluster information,

(3) multilevel modeling

Gelmanブログのコメントが秀逸なので彼の要約をそのままメモする(ちなみにGelmanは3)はstataでできないと書いているがそれは2007年当時のことであり現在はmixedコマンドで簡単に推定できる).

1. One big advantage of multilevel modeling, beyond the cluster-standard-error approach recommended in this paper, is that it gives separate estimates for the individual states. Primo et al. minimize this issue by focusing on global questions–“Do voter registration laws affect turnout? Do legislators in states with term limits behave differently than legislators in states with no term limits”–and in their example they focus on p-values rather than point estimate or estimates of variation. Thus, in the examples they look at, multilevel modeling doesn’t have such a big comparative advantage.

 

2. Another advantage of multilevel modeling comes with unbalanced data–in their context, different sample sizes in different states.

 

3. I agree that it’s frustrating when software doesn’t work, and I agree with Primo et al. completely that it’s better to go with a reasonable method that runs, rather than trying to use a fancier approach that doesn’t work on your computer. That said, I think their abstract would’ve been clearer if they had simply said, “Stata couldn’t fit our multilevel model,” rather than vaguer claims about “large datasets or many cross-level interactions.”

 

4. I’d like to get their data and try to fit their model in R. It might very well crash in R also–we’ve had some difficulties with lmer()–in which case it would be useful to figure out what’s going on and how to get it to work.

 

5. I’d recommend displaying their Table 1 as a graph. (John K. also wrote a paper on this for political scientists.)

 

6. I completely disagree with their statement on page 456 that cluster-adjusted standard errors “requires fewer assumptions” than hierarchical linear modeling. As Tukey emphasized, methods are just methods. A method can be motivated by an assumption but it doesn’t “require” the assumption. For a simple example, least squares is maximum likelihood for a model with normally distributed errors. But if the errors have a different distribution, least squares is still least squares: it did not “require” the assumption. To go to the next step, classical least squares (which is what Primo et al. recommend for their point estimation) is simply multilevel modeling with group-level variance parameters set to zero. Thus, their estimate requires more assumptions than the multilevel estimate.

 

7. But, to conclude, I’m not criticizing their choice of clustered standard errors for their example. It’s not a bad idea to use a method that you’re comfortable with. Beyond that, it can be extremely helpful to fit complete-pooling and no-pooling models as a way of understanding multilevel data structures. (See here for more of my pluralistic thinking on this topic.) I hope that as more people read our book, they’ll become more comfortable with multilevel models. But what I really hope is that the software will improve (maybe I have to do some of the work on this) so we can actually fit such models, especially varying-intercept, varying-slope models with lots of predictors and nonnested levels.

 

Imbens (JEL 2010) たかがLATEされどLATE

社会科学で急速に増えている実験や自然実験を用いた分析のトレンドを激しく非難したDeaton(2010)Heckman and Urzua(2009)に反論した論文.誘導系vs構造推定を含め,エコノメ界隈では皆が知っているこのやりとりだが,日本の社会学界隈ではあまり知られていないだろう.しかしながら,Deaton (2009)[以下Deaton]やHeckman and Urzua (2009)[以下HU]で述べられていることは,いかにも社会学者が言いそうなことも含まれているため,社会学界隈でももっと普及するべきやりとりのように思う.実際に,社会学者のStephen Morganは因果推論のレクチャーでDeaton (2009), Heckman and Urzua (2009), Imbens(2010)をリーディングリストに挙げている.(社会学者が実際に論争に絡んでいるものとしては社会学者Sobelと経済学者HeckmanのやりとりであるSobel(SM 2005)Heckman(SM 2006)を勧めたい)

Imbens, G. W. 2010. "Better LATE Than Nothing: Some Comments on Deaton (2009) and Heckman and Urzua (2009)." Journal of Economic Literature 48(2): 399-423.

Deaton (2009)やHeckman and Urzua (2009)が批判しているのは,開発経済学でのスタンダードとなりつつあるRCTや自然実験等を利用したIVEから明らかになるLATEである.Deatonらの批判を簡潔にまとめると,effect of causeばっかりやってないでcause of effectをやれ!LATEって知ってなにか良いことあるのか?という点に集約できるだろう( Heckman and Vytlacil(2005)はLIVやMTEを提唱している).おそらく5年後に社会学者が似たような批判をするだろう.こうした批判に対して,Imbensが極めて明快に,effect of causeとcause of effectは補完的だしLATEが分かると良いことたくさんあるしLATE批判してるけど代わりになにするの?と回答している.

"Problems of identification and interpretation are swept under the rug and replaced by ‘an effect’ identified by IV that is often very difficult to interpret as an answer to an interesting economic question" (HU, p. 20).

"The LATE may, or may not, be a parameter of interest . . . and in general, there is no reason to suppose that it will be . . . I find it hard to make any sense of the LATE" (Deaton, p. 10).

"futility of trying to avoid thinking about how and why things work" (Deaton, p. 14).

これに対してImbensが冒頭で述べているのは,

By emphasizing internal validity and study design, this litera- ture has shown the importance of looking for clear and exogenous sources of variation in potential causes. In contrast to what Deaton and HU suggest, this issue of data quality and study design is distinct from the choice between more or less structural or theory driven models and estimation methods.

ということだ.むしろImbensが懸念するのは以下である.

In my opinion, the main concern with the current trend toward credible causal inference in general, and toward randomized experiments in particular, is that it may lead researchers to avoid questions where randomization is difficult, or even conceptually impossible, and natural experiments are not available.

DeatonやHUはより理論的な研究に力を入れるべきだと述べているが,Imbensはそもそもそうした方向性では限界があるからRCTとかIVとかRDDが出てきたんだろと述べている.具体的には,2節でLaLonde(1986)の構造推定論文を引き,4節のThe Benefits of Randomized Experiments,5節のInstrumental Variables, Local Average Treatment Effects, and Regression Discontinuity Designsで近年の因果推論がいかにempirical workに貢献してきたかを説いている.5節のInstrumental Variables, Local Average Treatment Effects, and Regression Discontinuity Designsが調査観察データについてなので以下に簡潔にまとめる.

5. Instrumental Variables, Local Average Treatment Effects, and Regression Discontinuity Designs

IVやRDDが実験に続くセカンドベストと考えられている理由は2つ

First, they rely on additional assumptions and, second, they have less external validity. Often, however, such evaluations are all we have.

fuzzy RDDを含むIVの仮定を確認すると,

The first key assumption is that draft eligibility is exogenous. Since it was actually randomly assigned, this is true by design in this case. The second is that there is no direct effect of the instrument, the lottery number, on the outcome. This is what Angrist, Imbens, and Rubin (1996) call the exclusion restriction. This is a substantive assumption that may well be violated. See Angrist (1990) and Angrist, Imbens, and Rubin (1996) for discussions of potential violations. The third assumption is what IA call monotonicity, which requires that any man who would serve if not draft eligible, would also serve if draft eligible. In this setting, monotonicity, or as it is sometimes called “no-defiers,” seems a very reasonable assumption.

最後の仮定はIVに連動するどころか逆の反応をする「天邪鬼」のようなdefiersがいないことを意味する(IVではcompliers, defiers, never-takers, always-takersの4subpopulationが想定できる).DeatonはLATE(compliersにおける推定量)なんか興味ないだろと言っているが,それは分析目的に依存するし,Imbensもそう述べている.結局はどの母集団を分析したいのかという問題が背景にあるが,この点を説明するためにImbensはManskiの部分識別(Partial Identification)の話を引いている.さらに,そもそもすべての母集団の因果効果を識別できないからLATEがでてきたという話もしながらImbensは以下のように述べている.

Again, researchers do not necessarily set out to estimate the average for these particular subpopulations but, in the face of the lack of internal validity of estimates for other subpopulations, they justifiably choose to report estimates for them.

Hill et al.(MBR 2011) 共変量が高次元の場合の傾向スコア法の検討

共変量が多い場合,傾向スコア法はいかに用いられるべきかを検討した論文.前回紹介したStuart(2010)でも示されているように,マッチング法といっても色々あり,傾向スコアを用いた因果推論の方法も色々ある.高次元の場合にはどの方法の組み合わせが望ましいのかを検討している.

Hill, J., Weiss, C., and Zhai, F. 2011. "Challenges With Propensity Score Strategies in a High-Dimensional Setting and a Potential Alternative." Multivariate Behavioral Research 46: 477-513.

ここでは,留年が成績に与える効果の推定が目的であるが,236個の共変量を用いている.236変数の全てが留年が決定する前の情報であるpretreatment variableであり,高次元の場合の傾向スコア分析の困難に挑戦している.処置前共変量がこんなにも豊富なデータセットはなかなかないだろう.最終的なサンプルサイズは6900,Treatment Groupすなわち留年したものは233.

傾向スコアの推定方法
傾向スコア推定の最も一般的な方法はロジットもしくはプロビット回帰である.しかしながら,どんなときもロジットやプロビットで良いというわけではない.共変量が多い場合には(さらにここではtreatmentのサンプルサイズが少ないことも),ロジットやプロビットを用いた場合の傾向スコアは0か1に分布が偏ってしまい,overfitの可能性からも比較が困難となる.ベイジアンロジットでもこの問題はつきまとう.本稿では,Logit, Probit, Bayes Logit, Bayes Probit, Generalized Boosted Models(GBM: McCaffrey et al. 2004), Bayesian Additive Regression Trees(BART: Chipman et al. 2007)の6モデルを推定し,BARTが最もoverfitが少ないことを確認している.BARTについてはHIll and Su(2013)で解説されている.

どの傾向スコア分析を採用すべきか
傾向スコアが推定されたところで,推定された傾向スコアをどのように用いて分析するかはいくつかのバリエーションがある.代表的なものとして,マッチング,層別解析,ウェイティングが挙げられるが,これらで分析されるのはそれぞれATE, ATC, ATTであるように,分析目的に応じてどれを採用するかは異なる.ここではどの方法が最もバランスがとれている(「TreatmentとControlで共変量に有意な差がない」という点のみをもってバランスがとれているとは言えないことに注意=ここではQQバランスをみている)のかを確認するため,9パターン(nearest matching4パターン, optimal matching2パターン,フルマッチング,IPTW2パターン )を試している.結果はBARTが最もバランスがとれているようで,IPTWは最もバランスがとれていない.ウェイティング法の欠点は傾向スコアが0か1に偏ってしまうときに生じるので当然といえば当然だ.

Treatment Effectの推定
Treatment Effectがアウトカムに与える効果が最終的な分析目的だが(ここではATT),ここでも分析手法を選択しなければならない.もしTreatmentとControlで完璧にバランスがとれているのであれば,平均値を比較するだけでバイアスのない推定量が得られる.これは実際の実験で行われる手続きだ.HIllらが試みているのは,この差の検定に加えた2種類の回帰モデル(with just test scores, with all covariates)である.

We can use the balance summaries, however, to discriminate between methods. Figure 5 plots treatment effect estimates for third-grade reading test scores and 95% confidence intervals for each of the three analysis choices (difference in means, regression on test scores, regression on all covariates) for each of six propensity score strategies that met a set of balance criterion for the full set of covariates (std.mn < .08, std.max < .5, std.over.1 < .4), a set of balance criterion applying to all of the continuous covariates (medQQ.max < .2, maxQQ.mean <
.08, maxQQ.over.1 < .3 ), and a set of balance criterion for the full set of covariates plus quadratic terms (std.mn < .1, std.max < 1, std.over.1 < .3).

つまり,全部で18種類の推定量があるというわけだ.それでは我々はどの推定量をレポートすれば良いのだろうか?

It is somewhat difficult to further distinguish between these methods because they represent trade-offs in some criteria over others (and some variables over others). However, the range of estimates that they yield, although narrower than the range for the full set of strategies, is still nontrivial.

BARTのススメ
本稿でHillらがススメているのがBARTである.まだ使ったことがないのでよく分からないが,ノンパラ推定でChipman et al. (2011)が嚆矢のようだ.

本稿の主眼はBARTのススメなのだが,まとめると,傾向スコアを用いた因果推論をおこなうためには,それぞれの分析段階において適切なモデル・推定量選択をしなければならない.具体的には,1)傾向スコア推定にどのモデルを使うか,2)どのタイプのマッチングもしくはウェイティングのアルゴリズムを使うか,3)どの手法でバランスチェックをするのか,そして何の基準でバランスがとれていると診断するのか,4)アウトカムの分析モデルを何にするか,の4段階での選択である.4段階もあればかなりの組み合わせがあるのだが,なぜその分析方法を採択したのかは多くの論文で明示されていない.Hillらが示しているのは,分析手法の選択で結果が無視できない違いをうんでいることだ.そしてBARTが推奨されているが,具体的には以下の記述がある.

We have presented an alternative estimation approach for this setting that relies on the BART algorithm that eliminates this complexity. This strategy has been demonstrated in previous work (Hill, 2011) to have equal or superior performance compared with some common propensity score strategies in a variety of settings. In this example the point estimate of the effect of the treatment on the treated produced by BART lies near the center of the estimate corresponding to the subset of propensity score approaches that achieve the best balance with these data. More research needs to be done to determine if there are scenarios in which BART may not perform as well. However, it appears to be a potentially promising alternative to propensity score matching, at least in situations with a large number of covariates, and at a minimum is worthy of further investigation and comparison. (p.505)

Stuart(SS 2010) 因果推論におけるマッチング法の回顧と展望

傾向スコアマッチングの歴史や方法について外観したもの.

Stuart, E. A. (2010). "Matching Methods for Causal Inference: A Review and a Look Forward." Statistical Science 25(1): 1–21.

マッチング法は経済学,社会学,政治学,疫学,薬学,医学など様々な分野で用いられているが,ディシプリンを超えてマッチングをレビューしたものは以外と少ないそうで,そこで包括的なレビューをしようというのが著者のモチベーションである.

イントロでは「強く無視できる割当」やSUTVAの説明がなされた後に,マッチング法による分析を以下の4ステップに分類する.すなわち,(1)距離の定義(Defining Closeness),(2)マッチング方法(Matching Methods),(3)マッチング診断(Diagnosing Matching),(4)アウトカムの分析(Analysis of the Outcome)の4ステップである.

(1)距離の定義(Defining Closeness)
 共変量選択と距離の測定の2点からなるのが距離の定義である.
 反実仮想の枠組みではIgnorabilityを満たす必要があるため,共変量選択は非常に重要である.理論的には,アウトカムと処置変数に関連するすべての変数を共変量選択しなければならない.だが実務上はすべての変数を利用すべきでないことが知られており,このあたりは星野本4章が分かりやすい.Stuartがここで指摘しているのは,傾向スコアマッチングにおいて実際にはアウトカムと関連のない変数を選択することはさして問題でないということだ(分散がすこし増す程度).むしろ,大問題なのはアウトカムと強く関連する潜在的な共変量を除外してしまうことなので,この分野の研究者は,「アウトカムと関連があるかもしれない」(という程度の)変数を共変量として選択することにはリベラルだという.さらに,処置変数に影響を受ける変数もまずいというのが強調されている.これは実務上は処置後変数として警戒されているが,処置後変数が入り込むと処置変数の媒介効果を取り除いてしまうため,処置変数の総合効果が過少評価されるためである.
 さて,距離をなにで測定するかについては,(1)Exact,(2)Mahalanobis,(3)Propensity Score,(4)Linear Propensity Scoreの4点を挙げている.(1)のExact Matchingは社会学ではChapinが採用していた方法で,変数が全く同じ人をマッチさせるということである.この方法は多くの点で理想なことが知られているが(Imai, King and Stuart 2008),共変量{ \displaystyle
X
}が多次元の場合には,Inexactで多くのサンプルサイズでマッチングをしたときよりバイアスが大きくなる(Rosenbaum and Rubin 1985)(Exact Matchするサンプルサイズはかなり少なくなる).こうした「多次元の呪い」はマハラノビスマッチングにも共通する問題である. マハラノビスマッチングは共変量が少ないとき(8以下)には良い(Rubin 1979)が,共変量がそれ以上のとき,さらには正規分布していないときにはバイアスが大きくなる.マッチングにおけるブレイクスルーはRosenbaum and Rubin(1983)まで待たなければならなかった.ここで傾向スコア{ \displaystyle e_i(X_i)=P(T_i|X_i) }が登場する.傾向スコアの差の距離が一定のキャリパーより低いかどうかでマッチの有無を決めるというわけだ.Rosenbaum and Rubin(1985)はSD0.25のキャリパーを提案している.近年ではprognosis score(Hansen 2008)があるらしいが,細かくは触れられておらず,また私もよく知らない.ちなみにHansenは昨年のICPSRでCausal Inferenceを担当していた.傾向スコア推定で一般的なのはロジスティック回帰であるが,CARTやGBMといったノンパラ推定もgood performanceである.モデル診断のところで重要なことが書かれているので以下にそのまま引用する.

The model diagnostics when estimating propensity scores are not the standard model diagnostics for lo- gistic regression or CART. With propensity score esti- mation, concern is not with the parameter estimates of the model, but rather with the resulting balance of the covariates (Augurzky and Schmidt, 2001). Because of this, standard concerns about collinearity do not apply. Similarly, since they do not use covariate balance as a criterion, model fit statistics identifying classification ability (such as the c-statistic) or stepwise selection models are not helpful for variable selection (Rubin, 2004; Brookhart et al., 2006; Setoguchi et al., 2008). [p.7]

C統計量に頼りすぎてはいけないと書かれているが,この点は自戒の念をこめて,大切なのはマッチしたサンプルで共変量がバランスしているかどうかということであると強調しておきたい.

Research indicates that misestimation of the propen- sity score (e.g., excluding a squared term that is in the true model) is not a large problem, and that treat- ment effect estimates are more biased when the outcome model is misspecified than when the propensity score model is misspecified (Drake, 1993; Dehejia and Wahba, 1999, 2002; Zhao, 2004). This may in part be because the propensity score is used only as a tool to get covariate balance—the accuracy of the model is less important as long as balance is obtained. [p.7]

(2)マッチング方法(Matching Methods)
まず最近傍マッチング(Nearest Neighbor Matching)であり,これは必ずATTである.これは処置群と対照群で最小の距離にあるペアをマッチさせる方法である.1vs1,1vs多,多vs多のなかでも最もシンプルなのは1vs1だろう.1vs1のマッチングは多くの場合に対照群のサンプルを落としてしまうため,対照群のデータの多くを利用しないことになることが問題ともされる(検出力が減じる).しかしながら↓

However, the reduction in power is often minimal, for two main rea- sons. First, in a two-sample comparison of means, the precision is largely driven by the smaller group size (Cohen, 1988). So if the treatment group stays the same size, and only the control group decreases in size, the overall power may not actually be reduced very much (Ho et al., 2007). Second, the power increases when the groups are more similar because of the reduced extrapolation and higher precision that is obtained when comparing groups that are similar versus groups that are quite different (Snedecor and Cochran, 1980).

ただpoor matchが生じないためにもキャリパーを設定することが考えられるが,そうすると処置群のサンプルがマッチしないこともあり,この点はトレードオフだとRosenbaum and Rubin(1985)は述べている.
上記のように,最近傍マッチングでは全てのサンプルが利用されるわけではないが,層別解析,フルマッチング,ウェイティング法は基本的に全てのサンプルを利用する.これらの手法の基本的な発想は全てのサンプルに0~1のウェイトをかけてやるというものである.ウェイティング法については{ \displaystyle \frac{T_i}{e_i}+\frac{1-T_i}{1-e_i} }をかけてやるIPW,オッズ{ \displaystyle T_i+(1-T_i)\frac{e_i}{1-e_i} }をかけてやる方法(Hirano, Imbens and Ridder 2003),カーネルウェイトをかけてやる方法(Heckman, Ichimura and Todd 1997)がある.ウェイティング法の欠点は,傾向スコアが極端な値をとる場合(0or1に近い値)には分散が大きくなってしまうということ.

If the model is correctly specified and thus the weights are correct, then the large variance is appro- priate. However, a worry is that some of the extreme weights may be related more to the estimation procedure than to the true underlying probabilities. [p.10]

この問題に対してはダブリーロバストIPWが提唱されているが,この方法は星野本にわかりやすく書かれている.
さて,重要なのがコモンサポートの問題である.処置群と対照群で傾向スコアがオーバーラップしていないときに生じる問題であるが,いくつかの解決策が提示されている.

(3)マッチング診断(Diagnosing Matching)
この診断がマッチング法で最も重要であるとStuartは述べる.書くのがだんだん辛くなってきたので省略するが,マッチされたペアもしくはグループにおいて{ \displaystyle p(X|T=1)=p(X|T=0) }となっていれば共変量バランスがとれているのだが,こうなっていることを診断しなければならない.そのための方法としては大きく,(a)数値のチェック.(b)グラフチェック,の2点.前者についてRubin(2001)がすすめているのは,

1. The standardized difference of means of the propensity score.
2. The ratio of the variances of the propensity score in the treated and control groups.
3. For each covariate, the ratio of the variance of the residuals orthogonal to the propensity score in the treated and control groups.

後者については,マッチング前と後のグループの傾向スコアの分布をプロットすること,さらに,standardized differences of meansのプロットが推奨されている.マッチング後にstandardized differences of meansが小さくなっていることがポイントである.

(4)アウトカムの分析(Analysis of the Outcome)
マッチングの最終ゴールは処置変数がアウトカムに与える影響の分析だが,ここからが本来の目的であるアウトカムの分析ステップとなる.k:1マッチング後,層別解析とフルマッチング後,分散推定について書かれているが省略.

最後は今後のマッチング法の課題について書かれているが,力尽きたので後ほど追記したい.

まとめると,マッチング法を用いた因果推論の具体的な分析手順が示され,さらに各手順における代表的な手法が紹介されており,その説明も平易であるので,マッチングにある程度明るい人が読むと非常に有益な論文だと思う.著者はこの分野では有名なStuartであることも一読の価値があるだろう.