Takaku(SSM 2016) 乳幼児医療費助成は子どもの健康を改善したか

 子どもが医療機関にかかる際に自己負担額が軽減される,乳幼児医療費助成制度が子どもの健康を改善したのか否かを検証した論文.乳幼児期の健康は,その後の健康のみならず様々な面で影響があることが知られており重要なテーマである.

Takaku, R. (2016). "Effects of reduced cost-sharing on children’s health: Evidence from Japan." Social Science & Medicine, 151: 46-55.

 日本の医療保険制度では,就学前児童の外来診療は2割負担となっているが,ほとんどの自治体が独自に2割負担をさらに軽減するための乳幼児医療費助成制度を拡充してきた. 著者が着目するのはこの点である.すなわち,乳幼児医療費助成の在り方が自治体によって異なるのであれば,それを自然実験とみなして識別戦略を練ることが可能になるということだ.社会学ではこうした分析デザインはあまりないが,経済学や近年のポリサイではよくみられる方法である.この論文の面白いところは,自治体によって異なる乳幼児医療費助成の拡充について,独自の調査で明らかにし,その結果を分析に用いているところである.本論文で扱われているのは1995~2010年であるが,この期間に乳幼児医療費助成が自治体ごとにどう変化したのかが分かる公式な資料はないそうだ.そこで全国市区町村に対して郵送調査を行い,乳幼児医療費助成の拡充過程をまず明らかにする.回収率は55%だったそうだが,15歳以下人口でウェイトをかけたところ回収率は75%まで上昇している.郵送調査によって得られた市区町村の医療費助成対象年齢から,都道府県ごとに子どもの年齢及び調査年別にみた「医療費助成の対象となる確率」を下式で算出している.
{ \displaystyle
Prob_{npt} = \sum_{m=1}^{N} W_{mt}*Elig_{nmt}
}
 t時点における都道府県pに居住するn歳のiさんが乳幼児医療費助成の対象となる確率{ \displaystyle
Prob_{npt} }は「都道府県pにおける市区町村mに居住するn歳のiさんが乳幼児医療費助成の対象年齢であるか否か」に15歳以下人口のウェイトをかけた{ \displaystyle \sum_{m=1}^{N} W_{mt}*Elig_{nmt}
}に等しいという設定である.そして,「国民生活基礎調査」のおける子どもの健康に関する指標と「医療費助成の対象となる確率」をマッチさせ,乳幼児医療費助成を拡充した都道府県で子どもの健康指標が改善したかを検証している.したがって,最終的な分析モデルは,アウトカム=子どもの健康指標を{ \displaystyle H_{it} },統制変数を{ \displaystyle X_{it} },誤差項を{ \displaystyle \upsilon_{it} }とすると,
{ \displaystyle H_{it}=G(Prob_{npt}, X_{it}, \upsilon_{it}) }
となる.知りたいのは{ \displaystyle Prob_{npt} }の因果効果であるため,幾つかのSpecification Testを行い,さらに測定誤差の問題に対処するために回収率の低かった都道府県を除いた分析を行っているが,結果に大きな違いはみられなかった.アウトカムである子どもの健康指標については,有訴(熱,だるさ,咳,頭痛,ぜいぜい,⻭痛,鼻づまり,便秘,下痢,胃痛,発疹,切り傷),入院しているか否か,健康上の問題による日常生活の困難の有無,主観的健康観,病院外来の有無を設定している.また就学児と未就学児に分けて分析を行っている.ちなみにこ健康指標については本人が回答しているのではなく親が代わりに回答している.

 分析結果は以下の通りである.

  • 有訴確率について,「医療費助成の対象となる確率」は未就学児においてのみ有意に負の効果(=有訴確率を下げる)があるが,就学児については有意な効果はない.有訴の内容について細かくみると,未就学児フルサンプルでは熱,せき,歯痛,便秘が全体の負の効果を牽引している.就学児については健康上の問題による日常生活の困難の有無,主観的健康観も検討したが効果はなかった.
  • 入院確率について,「医療費助成の対象となる確率」は未就学児・就学児ともに有意な効果はない.
  • 病院外来にかかっている確率について,「医療費助成の対象となる確率」は未就学児においてのみ有意に正の効果があるが,回収率の低かった都道府県を除くと有意でなくなる.症状について細かくみると,主に重篤でないと思われる「せき」が有意に正の効果をもっており,先の入院確率において有意な効果がないという分析結果と整合的だとされている.

 以上から,乳幼児医療費助成の拡充が子どもの健康改善に与える効果は限定的だったと結論づけている.分析結果をうけて,著者は幾つかの論点を挙げている.まず,今回の分析では乳幼児医療費助成が子どもの健康改善に与える効果は限定的だったが,医療の目的はそれだけではないので,効果が限定的だからという理由のみで制度は否定されないということ.また,今回の分析では乳幼児医療費助成の短効果に着目したが,長期的にはどうなるかわからないということ.例えばCurrie et al.(2008)では短期的な効果はないが長期的には効果があることが示されているそうだ.さらに,今回の分析とは直接関連しないが,日本では乳幼児医療費助成は拡充される一方で,妊娠中の女性に対する医療費助成を実施している自治体は少ないそうである.Currie and Gruber(1996)では妊娠中の女性に対する医療費助成が生まれてくる子どもの健康状態を改善したことを報告しているため,今後の乳幼児医療費助成の在り方については様々な選択肢があるだろう.実際に,子どもの医療については厚労省子どもの医療制度の在り方等に関する検討会」でも議論されている.この結果を知ってショックを受ける関係者は多いかもしれないが,分析デザインが練られており,またテーマも重要で政策的インプリケーションも豊富なので,各方面で貢献のある分析だと思った.

Polavieja(ASR 2015) 伝統主義は女性労働参加を抑制するか:Synthetic IVによる推定

価値観が行動を規定することは社会科学でしばしば指摘されているが,本稿では伝統主義(traditionalism)が女性の就業/非就業に影響を与えているのかを分析している.

Polavieja, J. G. 2015. "Capturing Culture: A New Method to Estimate Exogenous Cultural Effects Using Migrant Populations." American Sociological Review 80(1): 166–191.

推定したいのは伝統主義T(0~5の値をとる)が女性の就労に与える効果である.ここでIVを使う.まず分析対象を移民に絞り,彼らの伝統主義を欠損値にする(実際には観察されている).次に,その移民経験者の出身国の人たちの伝統主義を共変量に回帰させてimputationして得られるsynthetic trait(T')を得る.このT'をTの操作変数にするということだ.操作変数の仮定としては,独立性,関連性,除外制約があるが,著者はこれを満たしていると述べている.だが,明らかに独立性,除外制約は満たしていないだろうというのが読んでみての感想である.

独立性について,著者のディフェンスは「実際に移民が現在住んでいないところの人たち,つまり社会環境が違う人たちから合成されたT'なので現在の移民が住んでいる環境からは独立である」というものである.おかしいのは,第1に,IVが独立でなければならないのは著者がいう社会環境だけでなく,共変量を含めたあらゆる欠落変数に対してだ.したがって著者はそうした変数との関連がないのかをチェックすべきだが,その点については何も言及されていない.第2に,住んでいる国が違うからといって社会環境が全く異なるというわけではない.確かに国が違えば文化は異なるが,当然共通する部分だってある.共通する部分があれば著者のいう"By construction, synthetic traits satisfy the exogeneity condition"というのは成り立たない.著者曰く,このSynthetic IVは疫学で使われるらしいのだが,まずい気がする.

除外制約について,著者はかなり苦し紛れに書いているのが分かるが,結果として除外制約が成立しているとするのは無理がある.著者はまず以下のように述べる.

Unlike the exogeneity condition, the exclusion restriction is not automatically ensured by the use of migrating populations. Suppose, for instance, that we used donors' age and schooling as the sole predictors of traditional values in the imputation equation. In this case, we would impute synthetic values of traditionalism for migrants by imposing on them the same age-schooling-traditionalism covariance matrix as observed for donors. The problem in this example is that synthetic values would be computed as a linear product of two variables that do not satisfy exclusion.

このままでは除外制約を満たさないので,以下の対処をしている.

To ensure the exclusion restriction is met, the imputation regression should include at least one regressor that is (arguably) orthogonal to the error term in the structural equation of interest (i.e., one that has no effect on Y other than through T). I propose to use regressors that measure cultural transmission as a means to build exclusion into the imputation model.

ここで言われている誤差項に直交する説明変数として,移民の出身国における(おおまかな)一世代前の女性労働参加率である.除外制約はIVであるT'がTを通してのみアウトカムに効果があるということであるのに,imputationの回帰式に特定の説明変数を加えたからOKという話とは別である.さらに言えば,一世代前の女性労働参加率がほんとうに直交しているかどうかも怪しい.

ざっと読んだだけでも問題点と思われる箇所が目に付いたが,ASRに通っているし,実はSynthetic IVというのはかなり進んでいたりするということもあるのだろうか(ざっとググった感じはそうでもなさそう).このあたりは詳しい人に教えて欲しい.アバディーらのSynthetic Controlはかなり使える手法だと思うが,著者が提唱しているSISTER=Synthetic IVというのは可能なのだろうか.分析の結論としては,伝統主義思想は女性労働参加をかなり抑制するようで,教育効果の約2倍ほどあるらしい.

Gelman(2006) マルチレベルモデリングで出来ること出来ないこと

マルチレベルモデリングの有用性と限界が明確に述べてある論文.著者はData Analysis Using Regression and Multilevel/Hierarchical Modelsで有名なAndrew Gelman.

Gelman, A. 2006. “Multilevel (Hierarchical) Modeling: What It Can and Cannot DoTECHNOMETRICS 48(3): 432-435.

要旨は以下.

Multilevel (hierarchical) modeling is a generalization of linear and generalized linear modeling in which regression coefficients are themselves given a model, whose parameters are also estimated from data. We illustrate the strengths and limitations of multilevel modeling through an example of the prediction of home radon levels in U.S. counties. The multilevel model is highly effective for predictions at both levels of the model, but could easily be misinterpreted for causal inference.

結論から述べれば,マルチレベルモデリングは予測には役立つが因果推論として解釈するには困難があるということだ.ここでは肺がんを引き起こすといわれるラドンを例にとりマルチレベルモデリングを定式している.ラドンは地域によって偏りがあるらしく,本分析の目的はラドン分布の偏りを調べることであり,そうすれば各家庭はなんらかの対処ができるかもしれない.居住地(レベル1)は群(レベル2)にネストされていると考えよう.レベル1の説明変数は居住地(各家庭のこと)の地下で測定がされたか否か(ラドンは地下にあるため地下で測定していたらより高い値がでやすいと予想される).レベル2の説明変数は群で観測される土壌ウランの値.定式を以下とする.
{ \displaystyle
y_{ij}\sim N(\alpha_j+\beta x_{ij}, \sigma_y^2)
}
{ \displaystyle
\alpha_j\sim N(\gamma_0+\gamma_1 u_{j}, \sigma_\alpha^2)
}
上式をミネソタ州データ(919house, 85counties)を用いた階層ベイズ(Hierarchical Bayes Methods)で分析する.

Data Reduction
ここでは上式のマルチレベルモデリングを,すべてプールした{ \displaystyle y=\alpha+\beta x}とプールなしの{ \displaystyle y=\alpha_j+\beta x}と比較している.Fig1.からマルチレベルモデリングが他の2モデルに比べてData Reductionの面で優れていることが一目瞭然である.

Prediction
Gelmanはマルチレベルモデリングが最も役に立つのはこの「予測」であると述べている.どこかの群で新しい家が建てられた時に計測されるラドンの値を予測するのに適しているのだ.変量効果のおかげである.例えば,

We can use cross-validation to formally demonstrate the benefits of multilevel modeling. We perform two cross-validation tests: first removing single data points and checking the pre- diction from the model fit to the rest of the data, then removing single counties and performing the same procedure. For each cross-validation step, we compare complete-pooling, nopooling, and multilevel estimates. Other cross-validation tests for this example were performed by Price et al. (1996).

のようにして色々と試行錯誤できる.

Causal Inference
マルチレベルモデリングは因果推論として使えるのだろうか.つまり,地下測定ダミーの係数を因果効果として解釈できるのだろうか.かなり難しいというのがGelmanの結論である.問題はレベル1の変数とレベル2の誤差項の相関である.上式における尤度と事前密度をかけた場合には,事後密度ではレベル2の誤差項とレベル1の変数は独立であることを仮定している.この独立性はまず成立しないだろう.経済学でマルチレベルモデリングがあまり使われないのは,こういうところにあるのだろう.

In other settings, especially in social science, individual averages used as group-level predictors are often interpreted as “contextual effects.” For example, the presence of more basements in a county would somehow have a radon-lowering effect. This makes no sense here, but it serves as a warning that, with identical data of a social nature (e.g., consider substituting “income” for “radon level” and “ethnic minority” for “basement” in our study), it would be easy to leap to a misleading conclusion and find contextual effects where none necessarily exist.

要するにこれは生態学的誤謬の話であり,何の用心もなしにレベル2の係数を因果効果のように解釈することは危険である(ちなみにレベル2変数にIVを使う方法もあることはある).以上の点は,マルチレベルモデリングをよく理解している人にとっては「何をいまさら」という点であるが,分析目的に応じてマルチレベルモデリングを採用するか否かを決める必要がある(すべての分析手法について言えることですが).Gelmanはブログでもこういう分かりやすい記事を書いてくれるから重宝する.

Charles et al. (SS 2015) ケアワークにおける世代間再生産

親がケアワーカーだと子もケアワーカーになりやすいのかを検証した論文.

Charles, M., Ellis, C., & England, P. 2015. "Is There a Caring Class? Intergenerational Transmission of Care Work." Sociological Science 2: 527–547.

親の社会経済状況が子の社会経済状況に大きな影響を与えることは広く知られている.社会学では伝統的に階級や階層の世代間継承が分析されてきたが,特定の職業の世代間継承については蓄積が少ない(Weeden and Grusky 2005; Jonsson et al. 2009).そこで,著者らはケアワークという職業に着目し,親から子への世代間再生産が生じているのかを検証している.データはGSSで,1977年から2010年のなかの23waveを使用している.GSSを使用するのは,回答者の親の職業や従業上の地位に関する質問項目を含むからである.ケアワークの定義に関しては,先行研究で指摘されているものに則っている(看護や介護系はもちろん教師,保育士,ベビーシッター,チャイルドマインダー,在宅医療従事者等も含む).現在ケアワークに従事しているかをアウトカムに,着目する独立変数には親(父と母を分けて)がケアワーカーであったかを設定している.基本的な属性や職業威信等が統制されている.ロジスティック回帰分析を行った結果は,同性の親がケアワークであった場合には子もケアワークに従事する確率が高くなっている.但し,女性に限っては異性である父親がケアワークに従事しても自らがケアワークに従事しやすいという結果を得ており,これは男性の場合に異性である母親ケアワークの効果がないことと異なる.世代間継承のメカニズムは様々あるが,著者らが挙げているのは利他傾向のあるケアワークに就く親は子に生活面でも利他心を伝えることがあり,子に継承された利他心は,子が職業選択の際に「利他傾向が求められるだろうケアワーク」を選択しているという図式だ.それに対して,そんな図式は存在せず,ただ単に子が親と全く同じ職業を選択している可能性もある.そこで著者らは親子で全くおなじ職業(親と子が両方とも幼稚園の職員,親と子が両方とも看護師など)の対象者を除いて再分析している.すると先ほど得られた親の効果はすべてなくなっており,このことから,著者らは親から子へのケアワーク継承は,ケアワークという職種全体で生じているというよりも,ケアワークにおける特定の職業を継承するという形で生じているだろうと述べる.なお,補助的な分析によって親がケアワークだと本人が(質問紙上で)利他的になりやすいという傾向はほぼない*1ことも確認している.分析の粗さはあるものの,この枠組みは日本でも応用可能なので非常に興味深いし,やってみる価値があると思う.著者らがあげている世代間継承のメカニズムについて一点付記すれば,今日のケアワーク選択理由としては積極的/消極的に二極化してる*2と思われるので,そのあたりをうまいマクロ変数を設定して分析することも可能だろう.今回の分析から著者らがいうような,

Care-working parents may transmit values, networks, and human capital resources that are specific to detailed occupations, rather than generic to care work.

こういうことが本当に生じているかは怪しい.

*1:ケアワークの場合のみ息子が利他傾向

*2:本当はケアワークに就きたくないがその他に選択肢がないのでケアワークに就いたという人もいまや少なくない.

King and Roberts(PA 2015) 頑健標準誤差を無自覚に使ってはいけません

計量社会学のレクチャーで漸近理論の話が出てくることはあまりないが,これはまずいと思っている.漸近的性質については計量屋のフロンティアでいまもたくさん成果が出ているし,それらをフォローするのは難しいが,基本的なことは共有されるべきである.さて,推定値を正当化する漸近的近似が適切でない場合,頑健な標準誤差の推定値が過小になったりする.やみくもに頑健標準誤差やクラスター標準誤差を使えば良いというわけではないということは,モストリーハームレスの8章でも扱わているが,本論文もその類のものである.

King, R. and Robert, M. 2015. "How Robust Standard Errors Expose Methodological Problems They Do Not Fix, and What to Do About It" Political Analysis 23: 159-179.

要旨は以下である.

“Robust standard errors” are used in a vast array of scholarship to correct standard errors for model misspecification. However, when misspecification is bad enough to make classical and robust standard errors diverge, assuming that it is nevertheless not so bad as to bias everything else requires considerable optimism. And even if the optimism is warranted, settling for a misspecified model, with or without robust standard errors, will still bias estimators of all but a few quantities of interest. The resulting cavernous gap between theory and practice suggests that considerable gains in applied statistics may be possible. We seek to help researchers realize these gains via a more productive way to understand and use robust standard errors; a new general and easier-to-use “generalized information matrix test” statistic that can formally assess misspecification (based on differences between robust and classical variance estimates); and practical illustra- tions via simulations and real examples from published research. How robust standard errors are used needs to change, but instead of jettisoning this popular tool we show how to use it to provide effective clues about model misspecification, likely biases, and a guide to considerably more reliable, and defensible, inferences. Accompanying this article is software that implements the methods we describe.

主眼は,頑健標準誤差においてmisspecificationがおきていないかを検定する"generalized information matrix test"の提案である.頑健標準誤差はポリサイでも多用されているようで,著者らによれば,

Among all articles between 2009 and 2012 that used some type of regression analysis published in the American Political Science Review, 66% reported robust standard errors. In International Organization, the figure is 73%, and in American Journal of Political Science, it is 45%.

ほどである.社会学でもかなり無自覚に使っているユーザーは多いと思われるが,通常の標準誤差と頑健標準誤差に大きな違いがある場合には注意が必要となる.かつては不均一分散の検定に使われていたブロッシュ=ペーガン検定やホワイト検定では,こうした問題をスルーしてしまう(モデルミススペシフィケーションなのか単なる不均一分散があるだけなのかの区別ができないということ).キングらに言わせればこういうことである.

However, they are often used in applications as a default setting, without justification (sometimes even as an effort to inoculate oneself from criticism), and without regard to the serious consequences their use implies about the likely misspecification in the rest of one’s model. Moreover, a model for which robust and classical standard error estimates differ is direct confirmation of misspecification that extends beyond what the procedure corrects, which means that some estimates drawn from it will be biased—often in a way that can be fixed but not merely by using robust standard errors.

まず頑健標準誤差の成功例を確認しよう.均一分散で線形正規分布を仮定した回帰モデルで最尤推定を行った場合,データ生成過程で実際には不均一分散が生じていたとしても,頑健標準誤差を用いれば,有効性はないが一致性と不偏性をもつ推定量となる.こうした頑健標準誤差の利点に対して,キングらは問題点は2つあると指摘する.

First, even if the functional form, independence, and other specification assumptions of this regression are correct, only certain quantities of interest can be consistently estimated. For example, if the dependent variable is the Democratic proportion of the two-party vote, we can consistently estimate a regression coefficient, but not the probability that the Democrat wins, the variation in vote outcome, risk ratios, vote predictions with confidence intervals, or other quantities. In general, computing quantities of interest from a model, such as by simulation, requires not only valid point estimates and a variance matrix, but also the veracity of the model’s complete stochastic component (King, Tomz, and Wittenberg 2000; Imai, King, and Lau 2008).
Second, if robust and classical standard errors diverge—which means the author acknowledges that one part of his or her model is wrong—then why should readers believe that all the other parts of the model that have not been examined are correctly specified? We normally prefer theories that come with measures of many validated observable implications; when one is shown to be inconsistent with the evidence, the validity of the whole theory is normally given more scrutiny, if not rejected (King, Keohane, and Verba 1994). Statistical modeling works the same way: each of the standard diagnostic tests evaluates an observable implication of the statistical model. The more these observable implications are evaluated, the better, since each one makes the theory vulnerable to being proven wrong. This is how science progresses. According to the contrary philosophy of science implied by the most common use of robust standard errors, if it looks like a duck and smells like a duck, it is just possible that it could be a beautiful blue-crested falcon.

キングらは頑健標準誤差を使うべきではないと言っているのではない.モデル推定において通常の標準誤差と頑健標準誤差に大きな違いがある場合には,ミススペシフィケーションの可能性が高いため,手持ちデータに関する基礎的な診断をすべきだとしている.その診断に応じて適切な推定手法を選ぶべきだと.彼らが結論が述べているように,要はこういうことである.

Robust standard errors should be treated not as a way to avoid reviewer criticism or as a magical cure-all. They are neither. They should instead be used for their fundamental contribution—as an excellent model diagnostic procedure. We strongly echo what the best data analysts have been saying for decades: use all the standard diagnostic tests; be sure that your model actually fits the data; seek out as many observable implications as you can observe from your model. And use all these diagnostic evaluation procedures to respecify your model. If you have succeeded in choosing a better model, your robust and classical standard errors should now approximately coincide.

GIM(generalized information matrix)テストでモデルを改善させた証は,大きな乖離のあった通常の標準誤差と頑健標準誤差がだいたい一致するということである.

O'Brien et al.(SMR 2008) APC混合効果モデル

簡単なメモをしておく.アウトカムに対する年齢(age),時代(period),世代(cohort)の効果を識別するのは単純でない.なぜなら「世代=時代ー年齢」が成立しているからだ.これらを工夫して何とか識別しようとするのがAPCモデルであるが,これは社会学での呼び方であり(おそらく),経済学や政治学ではなんと呼ばれているか知らない.例えば,経済学で有名なDeaton and Paxson(JPE 1994)ではAPCモデルという語は使われていない.それはさておき,本論文はAPCの世代特性におけるランダム効果推定のメリットを提示するものである.

O’Brien, R. M., Hudson, K., & Stockard, J. (2008). "A Mixed Model Estimation of Age, Period, and Cohort Effects." Sociological Methods & Research, 36(3), 402–428.

APCを同時投入すると完全な多重共線性が生じるため,著者らによればこれまで以下の解決策がとられてきた.

1. APCの関連を線形から非線形にするために少なくとも1つの変数を適当なものに変換する
2. APCの2つ以上の変数についてアウトカムに対する効果が全く同じであると仮定する
3. 特定のコーホートの効果が時間の変化に応じて変化すると仮定する

私は第1の方法のものをよく見る気がするのだが,著者らによれば,上記で最も用いられるのは第2の方法らしい.さて,本稿では次式のように年齢,時代を固定効果,世代特性をランダム効果として推定している(Age Period Cohort Mixed Model: APCMM).
{ \displaystyle
Y_{ij}=\mu+\alpha_i+\pi_j+\chi_k+\upsilon_k+\epsilon_{ij}
}
{ \displaystyle \mu }は切片,{ \displaystyle \alpha_i, \pi_j }は年齢と時代の固定効果(ダミー変数),{ \displaystyle \chi_k}は世代特性,{ \displaystyle \upsilon_k }はランダム誤差項である.APCMMの利点として著者らは以下のように述べている.

They can (1) assess the amount of variance in the dependent variable that is associated with cohorts while controlling for the age and period dummy variables, (2) model the dependencies that result from the age-period-specific rates for a single cohort being observed multiple times, and (3) assess how much of the variance in observations that is associated with cohorts is explained by differences in the characteristics of cohorts.

世代の固定効果はコントロールされていないので,年齢と時代の効果については留意が必要となるのは言うまでもない.APCのうち1つ以上の効果が0である場合にはOLSで推定しれやれば良いが,APCすべての効果を無視できない場合には本論文のように混合効果モデルで推定するのもひとつの手である.

Western and Bloome(SM 2009) Variance Function Regressionによる不平等の分析

最近Bruce Westernがよく使っているVariance Function Regression(VFR)を本人が解説した論文.国内学会の報告等でもVFRは最近みかける.

Western, B., and Bloome, D. 2009. "VARIANCE FUNCTION REGRESSIONS FOR STUDYING INEQUALITY." Sociological Methodology 39(1): 293-326.

通常の回帰分析は女性より男性のほうが高い賃金を予測するとか,大卒者が非大卒より高い階層帰属意識であるとか,グループ間の比較(between-group)を主眼としている.それに対してVFRはグループ内(within-group)の分散に着目し,女性や男性の賃金の不平等のばらつきに何が影響を与えているのかに関心がある.簡潔に述べれば,回帰分析で推定された残差分散を分析するのがVFRである.手順としては,第1に被説明変数を説明変数に回帰して{ \displaystyle
\beta_{ki}
}を推定し残差を保存,第2に(対数)残差二乗をさらに説明変数に回帰し{ \displaystyle
\lambda_{ki}
}を得る.平均値と分散は逆の動きをすることが多いので{ \displaystyle
\beta_{ki}
}{ \displaystyle
\lambda_{ki}
}はだいたいが逆の符号になるが,{ \displaystyle
\beta_{ki}
}{ \displaystyle
\lambda_{ki}
}が同じ符号になっていればストーリとしては面白くなるだろう.推定方法について,本稿で取り上げられているのは,(1)GLM,(2)ML,(3) REML,(4)Bayesである.GLM以外は先の手順を繰り返す.著者らはモンテカルロシミュレーションを行い,バイアスが小さいのは(3) REMLと(4)Bayesでありこれらを用いることを推奨している.VFRを用いれば不平等変化の要因分解も可能である.不平等の変化は,a)between-group不平等,b)within-group不平等,c)グループ(集団)比率の変化に分解できる.この計算は簡単にできるし,少しのプログラムでベイズでもできる.要因分解についてはLemieux(AER 2006)に従っているのでそちらを参照するほうが分かりやすいし詳しい.VFRは記述的な分析なので,モデルを慎重にたてる必要がある.とりわけステップ2を意識して欠落変数バイアスにご注意あれ.ちなみにstataでのVFRの一例は以下.

reg Y ‘X’;
predict R, r;
gen R2=Rˆ2;
glm R2 ‘Z’, family(gamma) link(log); predict S2, mu;
gen LOGLIK=−.5∗(ln(S2)+(R2/S2)); egen LL0 = sum(LOGLIK);
di LL0;
∗Updating beta and lambda coefficients; gen DLL=1;
while DLL > .00001 {;
drop R;
quietly: reg Y ‘X’ [aw=1/S2]; drop S2;
predict R, r;
replace R2=Rˆ2;
est store BETA;
quietly:
glm R2 ‘Z’, family(gamma) link(log); predict S2, mu;
est store LAMBDA;
replace LOGLIK=−.5∗(ln(S2)+(R2/S2)); egen LLN = sum(LOGLIK);
di LLN;
replace DLL=LLN-LL0; replace LL0=LLN; drop LLN;
};
est table BETA LAMBDA, b se;

Atanasov and Black(WP 2015) Shock-Based IV再考

制度変更等を利用したShock-Based IVはIVが満たすべき仮定のひとつである独立性(as-if random assignment to treatment)や除外制約(only through)を満たしていると考えられているため,多くの研究で利用されているが,先行研究のShock-Based IVは本当に仮定を満たしているのかを再分析し検証した論文.

Atanasov, V. and B. Black. 2015. “The Trouble with Instruments: Re-Examining Shock-Based IV Designs.SSRN Working Paper

要旨は以下.

Credible causal inference in accounting and finance research often comes from “natural” experiments. These natural experiments generate “shocks” which can be exploited using various research designs, including difference-in-differences (DiD), instrumental variables based on the shock (shock based IV), and regression discontinuity (RD). There is much to be said for shock-based designs. Moreover, if one must use IV, shock-based IV designs are highly likely to be preferred to non-shock IV designs. But shock- based IV remains problematic. Often, a near-equivalent DiD design is available, and is usually preferable. We illustrate the problems with shock-based IV by re-analyzing three recent, high-quality papers. None of the IVs in these papers turn out to be valid. For Desai and Dharmapala’s (REStat 2009) study of the interaction between tax shelter opportunities and corporate governance, their first stage fails when we impose a balanced sample of firms with data both before and after the shock. For Duchin, Matsusaka and Ozbas’s (DMO) (JFE 2010) study of the effect of board independence on firm performance, their first stage also fails when we balance treated and control firms on the pre-shock proportion of independent directors. For Iliev’s (JF 2010) RD/IV study of the cost of compliance with SOX § 404, we use combined DiD/RD and principal strata methods, and find cost estimates somewhat below his RD estimate, and well below his RD/IV estimate. The principal problem is that Iliev’s IV does not, for subtle reasons, satisfy the core “only through” condition (exclusion restriction) for a valid instrument. We discuss common themes that emerge from our re-analysis, including the fragility of IV compared to other shock-based designs; the need for covariate balance between treated and control firms; and the difficulty in satisfying the only-through condition. Our results suggest that even for shock-based designs, the scope for IV methods is very limited.

本稿で検討しているのはDesai and Dharmapala (REStat 2009), Duchin, Matsusaka and Ozbas (JFE 2010), Iliev (JF 2010)の3論文で使われているIVである.

Desai and Dharmapala (REStat 2009)

Desai and Dharmapala (2009, below D&D) study how corporate governance mediates the effect of tax shelter opportunities on firm value. Their shock is 1996 Treasury regulations that simplified taxation for small private firms. As an unintended side effect, these rules increased tax shelter opportunities for multinational firms. D&D use this shock, interacted with measures of the firm’s need to shelter income, as instruments for “book-tax gap” (a proxy for tax sheltering). They find that greater sheltering opportunities increase firm value, but only for firms with high institutional ownership (a proxy for corporate governance).

問題点:独立性を明らかに満たしていない.すなわちTreatmentとControlで共変量バランスがとれていない.共変量バランスを補正したところ1st Stageが有意にならなかった.

Duchin, Matsusaka and Ozbas (JFE 2010)

Duchin, Matsusaka and Ozbas (2010, below, DMO) study the effect of board independence on firm value and profitability. Their instrument for a change in board independence is whether a firm had to add independent directors to its audit committee to meet a 1999 New York Stock Exchange (NYSE) and NASDAQ requirement that audit committees consist entirely of independent directors (“Audit Committee Shock”). DMO find that a higher proportion of independent directors is value-neutral overall, but positive (negative) for firms with low (high) information costs. Over 2000-2005, firms in the top quartile of information cost that increase board independence by 10% (the amount predicted by their instrument) suffer a 3.0% drop in ROA relative to bottom-quartile firms; a 24% relative drop in Tobin’s q; and 31% lower cumulative share returns.

問題点:独立性を明らかに満たしていない.すなわちTreatmentとControlで共変量バランスがとれていない.共変量バランスを補正したところ1st Stageが有意にならなかった.

Iliev (JF 2010)

lIiev (2010) studies the cost of compliance with § 404 of the Sarbanes-Oxley Act (SOX) for firms near the compliance threshold (public float of $75M), using a combined regression discontinuity (RD) and IV design. His RD design exploits the discontinuity at $75M in float between firms which do (don’t) need to comply with SOX § 404. Iliev finds that some firms manipulate their float to stay below the $75M threshold, and uses IV to address this manipulation.

問題点RDDの強みはRCTに似た環境をつくることができる点だが,共変量バランスチェックを行っていない.再分析でチェックを行ってみたところTreatmentとControlで共変量バランスがとれていない.そこでIIieveのデザインであるRD/IVではなくDiD/RD(RDのバンド幅のサンプルでDiDをする)を用いて再分析したところ,有意であることは変わらなかったが過大推定になっていることを発見した.この理由として,Atanasov and Black(WP 2015)はIIievの採用したIVは除外制約を満たしていないのではないかと指摘している.

Black本人が話していたことではあるが,IIievになぜDiD/RDを使わなかったと聞いたところ知らなかったそうである.また,BlackはIVやRDDを用いる際には常に共変量チェックを怠らないよう注意を促している.

Busso et al.(REST 2014) 傾向スコアマッチングと傾向スコアウェイティングの有限標本特性

傾向スコアによるマッチングとウェイティングの推定量を比較した論文.

Busso, M., DiNardo, J., & McCrary, J. (2014). "New Evidence on the Finite Sample Properties of Propensity Score Reweighting and Matching Estimators." Review of Economics and Statistics 96(5): 885–897.

様々な先行研究でウェイティングはマッチングに比べてパフォーマンスが悪いとの指摘がある.例えば,Frolich(2004)はウェイティングが最もシンプルなマッチング法と比べても最悪な推定量になっていることを報告している.Frolich(2004)のAbstractは以下.

The finite-sample properties of matching and weighting estimators, often used for estimating average treatment effects, are analyzed. Potential and feasible precision gains relative to pair matching are examined. Local linear matching (with and without trimming), k-nearest-neighbor matching, and particularly the weighting estimators performed worst. Ridge matching, on the other hand, leads to an approximately 25% smaller MSE than does pair matching. In addition, ridge matching is least sensitive to the design choice. [abstract]

一方で,Hirano et al.(2003)はFrolich(2004)とは異なる主張をしており,この点をBusso et al.(2014)は以下のように要約している.

In a recent article in the Review of Economics and Statistics, Frolich (2004) uses simulation to examine the finite sample properties of various propensity score matching estimators and compares them to those of a particular reweighting estimator. To the best of our knowledge, this is the only paper in the literature to explicitly compare the finite sample performance of propensity score matching and reweighting. The topic is an important one, both because large sample theory is currently only available for some matching estimators and because there can be meaningful discrepancies between large and small sample performance. Summarizing his findings regarding the mean squared error of the various estimators studied, Frolich (2004, p. 86) states that the “the weighting estimator turned out to be the worst of all [estimators considered]... it is far worse than pair matching in all of the designs”. This conclusion is at odds with some of the conclusions from the large sample literature. For example, Hirano et al. (2003) show that reweighting can be asymptotically efficient in a particular sense. This juxtaposition of conclusions motivated us to re-examine the evidence.

こうした従来の主張に対して,本稿が主張するのはFrolich(2004)の結論は間違っているということだ.

We conclude that reweighting is a much more effective approach to estimating average treatment effects than is suggested by the analysis in Frolich (2004). In particular, we conclude that in finite samples an appropriate reweighting estimator nearly always outperforms pair matching. Reweighting typically has bias on par with that of pair matching, yet much smaller variance. Moreover, in DGPs where overlap is good, reweighting not only outperforms pair matching, but is competitive with the most sophisticated matching estimators discussed in the literature.

ウェイティングもそこまで悪くないというのは朗報だそうだ.

This is an important finding because reweighting is simple to implement, and standard errors are readily obtained using two-step method of moments calculations. In contrast, sophisticated matching estimators involve more complicated programming, and standard errors are only available for some of the matching estimators used in the literature (Abadie and Imbens 2006, 2008, 2010).

以上のように,Busso et al.(REST 2014)では様々なData Generating Process(DGP)に着目してシミュレーションを試みており,結論も興味深い.しかしながら,応用計量分析家が実際に傾向スコアを用いて因果効果を推定する際にはStuart(2010)が示すように,かなりのヴァリエーションがあるので,それらのヴァリエーションとのシミュレーションも気になるところである(例えばBusso et al.(2014)のシミュレーション枠組みでBayes LogitやBARTで傾向スコアを推定した場合のマッチングとウェイティングの比較等).オーバーラップが満たされている場合にはウェイティング推定量は多くのマッチング推定量とcompetitiveだそうだが,この点については逆だと思っていた(とういかそう習った気がする).余談だが,傾向スコアの祖であるルービンは明らかにマッチング推しであり,このあたりの趨勢は自身でもう少し整理が必要に感じた.

Hainmueller et al.(JOP 2015) 現職候補者は有利なのか:RDDの外的妥当性

Regression Discontinuity Design(RDD)の外的妥当性を検討した論文.

Hainmueller, J., Hall, A. and J. Snyder. 2015. "Assessing the External Validity of Election RD Estimates: An Investigation of the Incumbency Advantage." Journal of Politics 77(3): 707-720.

選挙において現職候補者が有利(incumbency effects)だというのをRDDで示したのがLee(2008)であるが,この論文はRDDの解説でしばしば引かれる.一般に,RDDの内的妥当性は非常に高いことが示されているが(Buddelmeyer and Skoufias 2004; Cook et al. 2008; Berk et al. 2010; Shadish et al. 2011),外的妥当性についてはさらなる検証の余地があるとされる.すなわち,カットオフ近傍のsubpopulationへの局所平均効果になっているため,カットオフ近傍から離れた場合に同様の効果があるかは必ずしも自明ではないということだ.そこで,Lee(2008)の結論は外的妥当性があるのだろうかという問いを検証したのが本稿Hainmueller et al.(2015)である.

方法としてはAngrist and Rokkanen(2013)に従っている.Angrist and Rokkanen(2013)はIZAからのDPだがJASAから2016年パブリッシュされるAngrist and Rokkanen(JASA 2016)と同じ内容である.論旨は以下の4点から成る.

First, we motivate our study in several ways. We discuss theoretical reasons to expect a larger, smaller, or equal effect away from the RD threshold, we present the results of a survey of political scientists that shows widespread disagreement over whether the effect ought to be larger or smaller away from the threshold, and we present descriptive evidence that obtaining an estimate even in relatively small windows around the RD threshold can markedly increase the estimate’s coverage, and thus its pertinence. Second, we lay out the technical details of the method. Third, we apply the method to U.S. statewide offices, presenting the results of the validity tests and the estimates of the incumbency advantage away from the threshold. Finally, we conclude.

以上に基づき,条件付き独立の仮定(CIA){ \displaystyle
E[Y_{i, t+1}(D_{i, t})|V_{i, t}, X_{i, t}]=E[Y_{i, t+1}(D_{i, t})|X_{i, t}]
}を用いることでバンド幅をLee(2008)より拡大して推定したところ(windowは15%ポイント=より競争の少なかった地域での推定),Incumbency Effectsは微弱もしくは確認されなかったそうである.windowを広げてTreatment Effectが推定できているかどうかはCIAが成立しているかどうかに依存するが,本稿ではCIAのチェックも行っている.RDDの外的妥当性については色々と議論があったところなのでとても勉強になった.方法論についてよりフォーマルな議論をしているAngrist and Rokkanen(JASA 2016)は今後多く引用されるのではないだろうか.