Luo et al. (AJS 2016) コーディング条件に対するIEの感度

APCモデルにおけるコーディングとIntrinsic Estimator (IE)の感度を分析したペーパー.IEを提唱したYang et al. (SM 2004)やYang et al. (AJS 2008)に対するコメントという位置付けである.ちゃんと読んでいないが斜め読みでメモ.

Luo, L., Hodges, J., Winship, C., & Powers, D. 2016. ``The Sensitivity of the Intrinsic Estimator to Coding Schemes: Comment on Yang, Schulhofer-Wohl, Fu, and Land.'' American Journal of Sociology 122(3): 930–961.

APCモデルの関心は年齢,時代,世代の効果を推定することであるが, A=P-Cという線形従属の関係があるためそのままでは推定できない.Yangたちはこれまで使用されてきた伝統的な制約のかけ方とは異なる方法でIEを提唱した.現在は社会学のみならず疫学や犯罪学などでも広く使われている.

Intrinsic Estimator

  • 年齢,時代のグループ数を a, pとすると,コーホート*1数は a+p-1
  •  \bf Yが目的変数, \bf Xがデザイン行列, \bf bがパラメターのベクトル
  • APCは線形従属なので \bf Xがフルランクとならない
  • そこでヌルベクトル \bf X_0とすれば一つの解 \bf b_1を使って他の解を {\bf b_1}+r \bf B_0と表現できる
  • つまりIE ({\bf b_1}+r{\bf B_0})^T({\bf b_1}+r{\bf B_0})を最小化する rを代入した値

IEの言い分と批判

  • IEサイド:伝統的な制約を課したGLMよりも優れているどころか真のAPCパラメターを識別している
  • IE批判サイド:いやIEも制約を課した推定なんだけど...

APCモデルにおけるコーディング

  • 年齢 \times時代のコーホート表を考えると,様々なコーディングができてしまう
  • 線形コーディングやカテゴリカルコーディング等々(参照かエフェクトかゼロサムか等々)
  • APCはそもそも識別できないのでを無理やり制約をかけて解いているのでコーディングの違いによってはパラメターの推定値が真逆になることも

結論

  • コーディング方法が複数存在することもあってIEは無限の推定値をもつ
  • IEが真のAPCパラメターを識別しているというのは嘘

補足

  • IE批判は昔からありIEも一つの制約解であることは知られていたがコーディングでここまで大きく推定値が変化するとは
  • IEはリッジ回帰の一種とみることもできるがベイジアンコウホートも同様
  • ベイジアンコウホートについてはこの解説がわかりやすい
  • 一番わかりやすいのはFig.4で「ゼロサムコーディング」と「最初のグループを参照コーディング」ではsolution lineのうち最小となる点(ノルム)が変わる f:id:analyticalsociology:20171110140132p:plain

ちなみにIE関連の話はGelmanも少しだけ絡んでいて彼のブログにもそのことが触れてある.Gelmanも最初はYangたちの気持ちもわからんでもないという論調だったのだが最後には,

I’ll go with Luo/Hodges/Winship/Powers, who agree with Heckman/Robb and Fienberg/Mason before them.

と述べている. Luo/Hodges/Winship/Powersというのは本ペーパーの著者たちのこと.というわけでIEを使ったらすべて解決ではないということは自覚しておかなければならない(APCテキストをちゃんと読んだ人はわかっていたことだと思うけど).ちなみにこのコメントに対するIE側のリプライがこれだが未読.

*1:Cohortの訳については「コーホート」「コウホート」「コホート」などがあるが,どれを用いるかでなんとなく流派がわかってしまうという話はさておき.

Imai and Tingley(AJPS 2012) 混合分布モデルを用いた競合仮説の検証

社会科学ではある現象に対して複数の説明の仕方があることが多い.例えば競合する仮説が複数ある場合などが典型であり,そうした場合に混合分布モデル(Finite Mixture Model)が使えますというのを紹介した論文.さっとメモ.

Imai, K., & Tingley, D. (2012). A Statistical Method for Empirical Testing of Competing Theories. American Journal of Political Science, 56(1), 218–236. 

簡単にまとめると,混合分布モデルは,(1)競合する理論・仮説が想定する効果の推定,(2)競合する理論・仮説が妥当する場合の条件の推定をしようとしている.つまり,観察されたデータはどのモデルにどの程度整合的なのかを推定する.

セットアップ

  • ある現象を説明する M個の統計モデルがあるとする
  • モデル間でネストしているか,いないかはどちらでも良い
  • すべてのモデルについて特定している必要はない
  • 観察 iはモデル Z_i=1, 2, ..., Mから生成されているとする
  • どのモデルからデータが生成されているかわからないので, Z_iも同時に推定する

推定

わかること

  • 各モデルのパラメター推定値とモデル確率の推定値
  • 特定のモデルに整合的な観察 i
  • 特定のモデルの全体に占めるパフォーマンス

補足

  • 実装はflexmixMCMCpack
  • 競合する理論・仮説の統計モデルを f_m(y|x, \theta_m)とするとデータ生成過程は Y_i|X_i, Z_i \sim f_{Z_i}(Y_i|X_i, \theta_{Z_i}).ただし \theta_{Z_i} Z_iのパラメター
  • 観察が理論・仮説 mによって生成される確率は \pi_m(X_i, \psi_m) = Pr(Z_i=m|X_i)
  • 混合分布はどちらかといえば予測力を高める方法で因果効果の推定に向いているわけではない.ただしデザイン次第では因果推論もできる
  • 共変量が多いモデルが選ばれやすい
  • 変量効果モデルと違ってグループを事前に決める必要がない

Quillian et al. (PNAS 2017) 雇用時の人種差別のメタ分析

雇用時において人種差別があることは多くのフィールド実験で指摘されてきたが,近年ではそうした差別もだんだんなくなっているとの指摘もある.そこで過去のフィールド実験を用いた研究のメタ分析を行ったところ,雇用時の人種差別は改善されていなかったという(1989〜2015にかけて).ちなみに社会学者でこの分野でフィールド実験論文をASRにパブリッシュしているPagerも著者の一人.

Quillian, L., Pager, D., Hexel, O., & Midtbøen, A. H. 2017. “Meta-analysis of field experiments shows no change in racial discrimination in hiring over time.Proceedings of the National Academy of Sciences, 201706255. 

Nishi et al. (Nature 2015) 富の可視化と不平等

不平等の生成について,被験者に富(wealth)の状況を可視化してラボ実験した論文.非常に面白いし社会政策上のインパクトもある.日本でも何かできないだろうか.

Nishi A, Shirado H, Rand DG, Christakis NA. 2015. “Inequality and visibility of wealth in experimental social networks.Nature 526(7573): 426–429.

ヒトは相対的に平等な資源配分を好むことが知られているが,社会にはさまざまな度合いの経済的不平等が存在する.本論文では,不平等を決定すると考えられる要因のいくつかと不平等がもたらす影響を調べるため,被験者が相互作用して富を得たり失ったりする「ネットワーク化された公共財ゲーム」実験を行っっている.被験者(n = 1462)を,初期保有額が多い状態もしくは少ない状態にランダムに割り当て,3つの経済的不平等レベル(ジニ係数がそれぞれ0.0,0.2,0.4)の社会的ネットワーク内に組み込む状況をつくりだした.さらに,ネットワーク内の隣人の富の状態を可視化した(ここがポイント).その結果,富の可視化は初期の不平等が与える以下の影響を促進することが明らかとなった.すなわち,初期の不平等が大きい状況では,富が不可視であるよりも可視である方が不平等はより大きくなる.この結果は,可視化に対する反応がより豊かな被験者とより貧しい被験者で異なることを反映したものである.また,富の可視化は全体的な協力・相互連帯や富のレベルを低下させることも明らかとなった.

ラボ実験の詳細についてメモ.

 被験者は1462人で平均30分の80セッションに分割.各セッションの平均サイズは17.21.30%のつながり(tie)が存在するErdős–Rényiランダムグラフで配置をしている.したがって,被験者は初期に平均5.33の隣接がある.被験者は隣人と10ラウンドの協力ゲームを行った.各ラウンドではすべての被験者は協力するかどうかを選択する.協力=すべての隣人の富を100単位ずつ増やすために自分の富を隣人ごとに50単位ずつ減らすことである(最後に現金換算される).非協力=被験者の富も減らず隣人の富も増えないことである.これらの相互作用は経済的取引を構成し各個人の富に影響を及ぼし,その結果全体の富と不平等の変化をもたらすというセッティングである.

 被験者が協力の選択をした後,被験者は隣人の選択を知らされる.その後被験者はtieを作ったり断ったりして隣人を変える機会を得る.具体的には,すべての対の被験者の30%が各ラウンドでランダムに選ばれ、ネットワークを再編する機会が与えられている.2人の被験者の間に既に協力が存在する場合は,2人のうちの1人が無作為に選ばれ,自発的に他の人と同調するかどうかを選択することができる.両者の間にすでにtieが存在していない場合は,両者にtieを形成する選択肢が与えられ,両者が承認すれば新しいtieが形成される.この決定をする際に被験者は過去のラウンドで協力し合っていたか,または非協力したかどうかを知っている.

 このセッティングの下で,初期の不平等と富の可視化を操作する.初期の富不平等を操作に関しては,被験者は3つの条件のうちの1つにランダムに割り当てられる.「初期不平等がない(ジニ係数が0.0)」条件では,各被験者は500単位の同じ初期財産でゲーム開始.他の2つの条件では,「豊かな」被験者は「貧しい」被験者よりも大きな初期財産を保有するので,初期での不平等が存在する.重要なのは,すべてのグループで初期の1人当たり総資産額は等しく(つまり500単位),富の分布のみが異なるということである.被験者は,初期の低or高不平等条件下に無作為に割り当てられ,また無作為に生成されたネットワーク内のノードの1つに無作為に割り当てられる.

 さらに本論文の重要な点として,隣人の富の可視化を操作する.「目に見えない」状態では,被験者は自身の蓄積された富を知っているだけ.「目に見える」状態では,被験者は自身の蓄積された富と直接的につながった隣人のそれぞれの富を見ることができる.繰り返しになるが被験者は,隣人の富の可視化の条件にかかわらずそれぞれの隣人が協調しているかどうかは知らされている.「目に見えない」状態と「目に見える」状態の両方で,被験者はネットワーク全体についての知識はなく,隣人に関する知識しか持っていない.

 以上がラボ実験の詳細だが,結果についてもう少し詳しく.まず可視化は初期不平等が低いグループでも高いグループでもジニ係数を高める(初期ジニ係数が0のグループは効果なし).次に初期の不平等度合いにかかわらず初期保有財産が多いものは最終的にも多く,少ないものは最終的にも少なかった.そして全体の富に関しては,可視化が負の影響を与えている!ちなみに可視化は協力率も近接率も下げている(初期保有財産は協力率・近接率とほぼ関連がない).メカニズムについてはあまり言及はないが,ニューロや心理的な影響を挙げている.

 富を可視化するということは相対的剥奪にさらされる可能性が高まるということである.現実の社会では富がどの程度可視化されていて,我々がどこまで精確に隣人の富を計算できているか知らないが,このあたりグニャグニャっと実験のセッティングを変えて何かできそうな気がする.しかしラボでサンプルサイズが1500弱とはさすがという感じである.

Imai and Ratkovic(AoAS 2013) ランダム化プログラム評価における因果効果の異質性の推定

最新のPAでGrimmerらの因果効果の異質性論文がでたのでその関連でImai and Ratkovic(AoAS 2013)をメモ.

Imai, K. and Ratkovic, M. 2013. “ESTIMATING TREATMENT EFFECT HETEROGENEITY IN RANDOMIZED PROGRAM EVALUATION.The Annals of Applied Statistics, 7(1), pp.443-470.

因果効果を推定するというときにその多くはATEだったりATETだったりするわけだが,政策担当者からすると「どの介入方法が効果が大きいのか(小さいのか)」また「どの個体(unit)で効果が大きいのか(小さいのか)」を知りたいことがある.どういうトリートメントがどういうグループで因果効果が大きかったり小さかったりするのかを推定することは因果効果の異質性と呼ばれる.最近の因果推論ではホットなトピックであり,ポリサイ,エコン,ソシオでも多くの論文がでている.

本論文の肝は方法に関する説明があるsection2.分析枠組みはもちろんルービンのPO.後に提案する方法のテストで使うデータは有名なget-out-the-vote(GOTV)と障害のある労働者にジョブトレーニングをしたnational supported work(NSW)の2つ.GOTVはトリートメントが192種類,NSWはトレーニングを受けたか否かの1種類.モチベーションは2つ.(1)(GOTVの場合)正の効果があるトリートメントはどれで,そのうちトリートメントの効果が最も大きいのはどれか,(2)各トリートメントはどの個体に効果がある(ない)のか.

今回の方法のポイントは因果効果の異質性の推定を変数選択の問題とみている点.大まかに説明すると,プリトリートメント(ここではグループや個体と同義)変数と異なるトリートメント変数のパラメターそれぞれにLASSOの制約をかけながら(ペナルティ項が2つあるのがポイント),サポートベクターマシーン(具体的にはL2-SVM)で異なるパラメターを推定しているのである.推定のアルゴリズムは3段階で,まずは変数をリスケール(LASSOで必要になってくる),次にモデルをフィットさせる(例のようにペナルティ項の \lambdaを決めていく),最後にフィットの評価で一般化交差検証を用いる.FindItパッケージで色々試せる.

さてGOTVを例に推定した結果をみてみよう.トリートメント192種のうち因果効果がゼロでないとされたのは15種類であった.最も効果があったのは「訪問」「電話なし」「メールなし」だったそう.

NSWに例については,プリトリートメント変数が45あるので,どの個体に効果があったのかという点も検証できる.結果は,「学歴低」「高所得ヒスパニック」「大卒無職blacks」「高卒無職ヒスパニック」に大きな効果があったそうである.

因果効果の異質性について他にもたくさん論文があり,冒頭にあげたGrimmerたちがシミュレーションで比較しているようなので後でそちらもチェック.

King and Nielsen (WP 2016) なぜ傾向スコアをマッチングに使うべきでないのか?


 先日の研究会でKingらの傾向スコアマッチング使うな論文がとりあげられたのでメモ.この論文の存在はあまりにも有名だが,実はちゃんど読んでいないという人が多い気がする(そのうちの一人だった).

Gary King and Richard Nielsen. 2016. “Why Propensity Scores Should Not Be Used for Matching”. Working Paper.

  一番わかりやすいのはまずはKingのレクチャーをみた後に本文を読むという順番だと思う.ごく簡単に結論をまとめると,傾向スコアマッチングを使うと,マハラノビス距離マッチングやCoarsened Exact Matching (CEM:大まかな属性で厳密なマッチングをする方法)に比べて,モデル依存(推定モデルによって結果が変わる程度)やインバランス(本文ではAbadie and Imbens (ECTA 2006)のMahalanobis Discrepancy を指標としている)の程度が大きくなってしまう.ハイライトは本文中のFig1~3で,この図からは(1)傾向スコアは最も似ている(近い)人とのマッチングができていない,(2)傾向スコアを基準にマッチング相手を枝刈り(prune)していくとモデル依存とインバランスの程度が大きくなってしまうことがわかる.

 ではなぜこんなことが起こってしまうのかというと,傾向スコアマッチングが近似しようとしている実験状況に理由がある.以下の表の通り,マッチングをするうえでは完全にブロックしたうえでランダムな割り当てをする方法が,ブロックなしの完全なランダム化よりも様々な統計的性質の面で望ましい.例えばImai et al. (SS 2009)では,完全にブロックしたうえでランダムな割り当てはブロックなしの完全なランダム化よりも標準誤差が約600%も小さいことが報告されている.

共変量のバランス 完全なランダム化 完全にブロック(層化)したうえでのランダム化
観察されている共変量 平均的にバランスする 完全にバランス(一致)する
観察されていない共変量 平均的にバランスする 平均的にバランスする

 そのうえで,傾向スコアマッチングが近似しようとしているのは完全なランダム化である.これは共変量を1次元の指標にして,共変量とは独立にトリートメントの効果を推定しようとしていることからも明らかである(本文中に書かれているが1対1マッチングにおいて同じ傾向スコアのマッチング相手がいたらランダムにどちらかを選ぶ).それに対して,マハラノビス距離やCEMなど他の方法は完全にブロック(層化)したうえでのランダム化に近似しようとしている(各共変量の距離を計算するので).したがって,傾向スコアマッチングよりもマハラノビス距離マッチングやCEMの方が望ましいということである.

 というわけで,Kingらはマッチングをする際にはマハラノビス距離やCEMを利用することを薦めている.ただし,傾向スコアが数式的に問題があるというわけでなく,またマッチング以外に傾向スコアを用いることについては今回の指摘はあてはまらないと繰り返している.それでも傾向スコアマッチングを使いたい場合にはFig3にあるように,枝刈りに応じたインバランスの程度を必ず示して,傾向スコア基準ではバランスは改善されているはずなのに実際にはインバランスが大きくなっていないかを確認すべきであると指摘する.

 ルービンたちに気を遣ってか「傾向スコアは数式に問題があるわけでなく実践面で問題があるのだ」と繰り返されているが,これは実際の分析では強く無視できる割り当てが担保できていないことを含意しているのだろう(そこで感度分析をするわけだが).よくわからなかったのは,シミュレーションのデータ生成過程.2つの共変量それぞれについてUniform(0,5)でコントロール,Uniform(1,6)でトリートメントをランダムに発生させているのだけど,一般的に傾向スコアマッチングを使う際にはトリートメントが共変量との何らかの関連のもとで発生する状況を想定する.この場合にも今回と同じような結果になるのかについては書かれていなかった気がする(ただそれでもマハラノビス距離やCEMはうまくいってるからトリートメントのデータ生成過程に関しても一般的な結果なのだろうか).アペンディックス等にあるのかもしれないけど,シミュレーション自体は簡単なので後で試してみたい.

 それとこのWPが出たのは結構前なんだけど,まだパブリッシュされていないのは査読が長いのか,それとも何かあったんだろうかというのは研究会で話題になった.

Watts(NHB 2017) 社会科学はもっと問題解決志向になるべきか

ダンカン・ワッツが社会科学のあり方について綴ったエッセイ.こういう話は既にいろんなところで多くなされてきているのだが,ワッツが書いているし短いのでサッと読んでみた.

Watts, D. J. (2017). "Should social science be more solution-oriented?Nature Human Behaviour, 1(1): 1-5. 

社会学*1としてMicrosoftに勤めているワッツは,同僚の物理学者やコンピュータサイエンティストとの交流が多く,しばしば「社会科学とは何か」について議論をするそうだ.本エッセイでは,そうした議論から生まれたであろうワッツの社会科学観のようなものが綴られている.結論としては,ワッツは「社会科学はもっと現実の問題を扱って,問題解決志向の分析をすべきで,そこからじゃあどんな理論が考えられるんだろうと問えば良い」と考えているようだ.以下に内容を箇条書きでメモ. 

・社会科学は物理学と違って一つの現象を一つの理論で説明できていない.例えば社会的伝染や集団行為を説明する際に,モチベーション自体は同じなのにGranovetter(AJS 1978)Bikhchandani et al.(JPE 1992)のように異なる説明の仕方が混在している.

・なぜこういう混在が起きているのかについて,昔は適切なデータへのアクセスがなく実際にテストできないからだと考える人たちがいた.ただしそれが問題だとしたら,今日のビッグデータを用いた計算社会科学や様々な実験によって解決されているだろう.

・社会科学における分析手法の発展は目を見張るものがあるが,現実には上述の問題は解決されていない.ワッツによれば,分析手法の発展によって理論の構築は一層の混乱を招く作業となった.

・社会科学に限らず,それぞれの分野がそれぞれの流儀や流行りの分析手法で論文を書いて評価を得ているため,分野間の交流が少ない.結果いろんな理論や結果が混在.

・そこで,現実問題の何かを対象にして様々な社会科学分野の研究者が分析すれば良い.この問題解決志向の良いところは以下の5点.

・First, the requirement that solutions work in the real world would automatically satisfy replicability requirements, thereby disciplining social-scientic theorizing in ways that would augment the existing peer review system.

・Second, solving any nontrivial real-world problem would almost certainly require fundamental advances in social-behavioural science, and possibly also in related fields such as computer science and statistics.

・Third, realizing these advances would require tightly coordinated, multidisciplinary team-based research of the sort that is common in industry but largely absent in academic social science. 

・Fourth, constructing teams of this sort would bring the incoherency problem to the forefront and force researchers to address it directly.

・Finally, the emphasis on practical applications would help justify larger upfront investments than are typical for social-science research, thereby enabling more ambitious research designs. 

 

 ワッツのいう問題解決志向の社会科学研究って既にかなりあるのではと思いながら読み始めたが,ワッツは社会科学のすべての研究が問題解決志向になるべきだと言ってるわけではなく,またこれまでの社会科学で問題解決志向の研究がなかったと言っているわけではないことを繰り返していた.また最後の方でワッツが,「(問題解決志向の研究において)研究そのものは専門家だけが理解できる複雑なものであるが,問題の内容を理解したり,提案された解決策が実際に機能しているかどうかを確認するために特別な専門知識は必要ない」と述べているのは印象的である.ちなみに,2015年には『社会学評論』でも「社会学は政策形成にいかに貢献しうるか」という特集が組まれており,ワッツのいう問題解決志向の研究と遠くない内容である.

 なお,ビッグデータの利用可能性と分析手法が飛躍的に発展するなか,理論はもういらないのかという問いが色々なところで立てられているが,ほとんどの人は「いや依然として理論は重要」「ビッグデータを使う時こそ理論の重要性が増す」と答えている.マイケル・メイシーもそんなようなことを言っていた.

*1:ワッツ自身が自らを名乗るときに社会学者としているが,彼の博士号は物理学.

Broockman and Kalla (Science 2016) 差別や偏見を減らすような介入とは

現在計画中のフィールド実験に関連するのでメモ.性同一性障害トランスジェンダーに対する様々な嫌悪を示すトランスフォビアを減らす介入について,フィールド実験を行った論文.

Broockman and Kalla. 2016. "Durably reducing transphobia: A field experiment on door-to-door canvassing.Science, 352(6282), 220–224.

差別や偏見は根強いもので,これらを払拭するためには長期間の集中的な何らかの介入が必要だとされてきた.しかしながら,本研究は約10分間の「相手の立場になって考えさせる」会話が,そうした偏見を少なくとも3ヶ月間は減らすことをフィールド実験によって明らかにした.本研究でのトリートメントは,訪問員が調査対象者を訪問し「性同一性障害トランスジェンダーの立場に立って考えさせる」ような会話をするという介入である.調査対象者に対しては,介入前後(後は3日後,3週間後,6週間後,3ヶ月後)にオンラインサーベイで意識(アウトカム)を訪ねている.一応アブストを以下にメモ.

Abstract

Existing research depicts intergroup prejudices as deeply ingrained, requiring intense intervention to lastingly reduce. Here, we show that a single approximately 10-minute conversation encouraging actively taking the perspective of others can markedly reduce prejudice for at least 3 months. We illustrate this potential with a door-to-door canvassing intervention in South Florida targeting antitransgender prejudice. Despite declines in homophobia, transphobia remains pervasive. For the intervention, 56 canvassers went door to door encouraging active perspective-taking with 501 voters at voters’ doorsteps. A randomized trial found that these conversations substantially reduced transphobia, with decreases greater than Americans’ average decrease in homophobia from 1998 to 2012. These effects persisted for 3 months, and both transgender and nontransgender canvassers were effective. The intervention also increased support for a nondiscrimination law, even after exposing voters to counterarguments.

 

Solon et al.(JHR 2015) 何のためのウェイティングか?

応用計量分析では様々な理由でウェイトをかけることがあるが,何のためにウェイトをかけているのか,またそれが適切なのかについては訓練された応用計量屋でも混乱したり間違うことがよくある. こうした問題を受けて,ウェイティングに関する理論,方法,目的を整理したのが本論文である.

Solon, G., Haider, S. J., & Wooldridge, J. M. (2015). "What Are We Weighting For?" Journal of Human Resources, 50(2), 301–316.

まず著者らは,研究目的を I) 母集団の記述に関心がある場合,II) 因果効果に関心がある場合の2つに分類し,それぞれにおいて必要とされるウェティングについて解説を行っている.

I. 母集団の記述に関心がある場合

 ある母集団を記述することが目的の研究がある.この場合は単純で,ウェイトを用いるか否かは,標本が母集団を代表しているか否かに依存している.例えば,アメリカの貧困率を記述することに関心があるとしよう.1968年センサスでは13%という値が分かっているが,この貧困率を標本調査である1968年PSIDを用いて記述したいとする.しかしながら,PSIDで貧困率を計算すると26%となり,これはPSIDがサンプリングにおいて低所得世帯を多くとる設計になっているためである.つまりPSIDでは,低所得層がオーバーサンプリングされているのだ(低所得層についてより精確な情報を知りたいので敢えてオーバーサンプリングしている).PSIDの標本から母集団の記述統計量は示すには,セレクション(センサスに比べてPSIDでどの程度オーバーサンプリングになっているか)の逆確率でウェイティングすれば良い.この処置を行ったところ,PSIDで計算した貧困率は12%となり,13%に近い値となった.

 同様の例として,人種と賃金の関係を記述したく,PSID標本を用いて,対数賃金を人種(whites,blacks),潜在経験年数に回帰することを想定しよう.その結果,blacksダミーの係数は-0.344であり,これはexp(-0.344)=0.71から,whitesの71%の賃金となる傾向を示している.しかしながら,PSIDは低所得層をオーバーサンプリングしているため,先述のような問題が生じる.ここでの解決策は,同様にセレクションの逆確率をウェイトとして用い,WLSでモデル推定することである.その結果,推定された係数の値は-0.260となり,blacksの賃金はwhitesの77%(exp(-0.260)=77)という傾向がわかる.

 以上からわかるように,記述統計量にしてもOLSにしても,標本が関心のある母集団を代表していない場合には,セレクション(センサス等でセレクションが分かっていなければならない)の逆確率をウェイトとして用いることができる.シンプルな解決法であり,特に厄介なことはない.

II. 因果効果に関心がある場合

母集団を記述するのとは異なり,因果関係を明らかにすることが研究目的の場合もある.こうなると母集団を記述する場合とは異なり,ウェイティングは厄介であり,使い方に注意が必要となる.著者らは,因果効果に関心がある場合のウェイティングの動機を以下の3つに分類する.

(1)不均一分散に対処しより精確な推定量を得る

(2) 内生的なサンプリングに対処し一致推定量を得る

(3)モデル化されない異質性下において平均部分効果(average partial effect)を識別する

いずれかの動機によって対処手続きが異なってくる.

(1)不均一分散に対処しより精確な推定量を得る

最もメジャーなのがこれだろう.多くのテキストが,ウェイティングを用いる理由として誤差項の不均一分散に対処するためだと書いている.著者らが挙げるのは,Friedberg(AER 1998)とWolfers(AER 2006)である.この研究は,アメリカの離婚法改正(双方の離婚合意なしに一方的な離婚が可能になったこと)が離婚率に与えた影響を検証している.年ごとの州のパネルデータを作成しDIDで分析し,ウェイトはよくあるように年毎の州の人口を用いている.Friedberg(1998)は人口サイズに関連する不均一分散に対処するためにこのウェイト利用を正当化している.問題は,より精確な推定をするためにウェイティングを用いると断っておきながら,結果を見るとOLSよりWLSの標準誤差が大きくなっていることだ.どうしてこのようなことが起こるのか.

 アウトカムがグループ平均で,かつグループ内サンプルサイズがグループ間で大きく異なる場合を考えよう.さらに議論を単純化するためにクロスセクションの以下のモデルを考える.
{ \displaystyle
 y_i=X_i\beta+\nu_i
}
グループ平均レベルの誤差項{ \displaystyle \nu_i }は説明変数と独立であり,また{ \displaystyle \sum_{j=1}^{J_i}\frac{\nu_{ij}}{J_i} }に等しいとしよう.{ \displaystyle \nu_{ij} }はグループiにおける個人jのミクロレベルの誤差項であり,{ \displaystyle J_i }はグループiにおいて観察される個人の数とする.この時,ミクロレベルの誤差項がiidならグループ平均レベルの誤差項は{ \displaystyle \nu_i=\frac{\sigma^2}{J_i} }.したがって,グループ平均レベルにいる個人の数{ \displaystyle J_i }がグループ間で大きく異なるならば不均一分散の程度は大きくなる.この場合,以下のWLSで推定することで不偏推定量を得る.
{ \displaystyle \sqrt{J_i}y_i=\sqrt{J_i}X_i\beta+\sqrt{J_i}\nu_i }
Friedberg(AER 1998)とWolfers(AER 2006)に戻ると,カリフォルニアとワイオミングでは人口が大きく異なるので,人口でウェイティングするのはより精確な推定量をもたらすと思われる.ではなぜ実際には標準誤差が大きくなってしまうのか.その理由は,個人レベルの誤差項{ \displaystyle \nu_{ij} }が独立であるという仮定が満たされていないからだ.観察されないグループレベルの共通要因によって,個人レベルの誤差項が互いに正の相関をもつことが多い.こうしたクラスター化した場合をモデルにすると,
{ \displaystyle \nu_{ij}=c_i+u_{ij} }
{ \displaystyle c_i, u_{ij} }がそれぞれ{ \displaystyle \sigma_c^2, \sigma_u^2 }でiidならば,グループ平均レベルの誤差項は{ \displaystyle \nu_i=\frac{\sigma^2}{J_i} }とはならず,
{ \displaystyle Var(\nu_i)=\sigma_c^2+\frac{\sigma_u^2}{J_i} }
{ \displaystyle \sigma_c^2 }{ \displaystyle J_i }が大きいならば,グループ平均レベルの分散{ \displaystyle Var(\nu_i) }{ \displaystyle \sigma_c^2 }に近似でき均一分散となる.つまりこの場合にはWLSよりOLSの方がBLUEに近い.WLSの場合には{ \displaystyle J_i\sigma_c^2+\sigma_u^2 }となりこれは不均一分散となる.
 で,応用屋はどうすれば良いのか.第1に,一般的な教科書にあるように修正ブロッシュ=ペーガン検定(modified Breusch-Pagan test)で不均一分散の検定をする.これはOLSの残差二乗をグループサイズの逆数{ \displaystyle \frac{1}{J_i} }に回帰し検定することを意味する.修正ブロッシュ=ペーガン検定の特徴は,切片が{ \displaystyle \sigma_c^2 },傾きが{ \displaystyle \sigma_u^2 }の一致推定量となる点である.以上の検定はグループ内サンプルサイズに対する誤差分散の関連を見ているに過ぎないが,説明変数の不均一分散についても調べることができる(Wooldridge 2013, Chapter 8).著者らがすすめるのは,不均一分散をはじめから問題とするのではなく,まずは適切な診断をしてあげること.第2に,ウェイティングを用いるのかどう用いるのかにかかわらず,真の分散構造は結局はわからないので,誤差項の不均一分散が残っているかもしれない.したがって著者らはheteroskedasticity-robust standard errorsを報告するよう薦めている.第3に,OLSとWLSの両方を報告し,ロバスト標準誤差を比較することである.これは先述のFriedberg(AER 1998)とWolfers(AER 2006)の例でみたように,WLSよりOLSの標準誤差が小さくなっていたら注意が必要ということだ.

(2) 内生的なサンプリングに対処し一致推定量を得る

内生的なサンプリングが生じている場合に一致推定量を得るためにウェイティングを用いるという動機がある.内生的なサンプリングとは,セレクション確率が説明変数で条件づけた上でも被説明変数によって変わってしまうサンプリングのことである.内生的なサンプリングの古典的な例としては,通勤手段(電車かバスか)の規定要因を調べた研究があげられる(Manski and Lerman 1977 ECTA).調査費用等の問題で,サンプリングが各人の住所地ではなく駅や駐車場で行われていたならば,それはランダムサンプリングではなく被説明変数の交通手段にセレクションが生じているだろう.他にも,対数賃金を教育年数に回帰する例を考えよう.労働経済学では教育年数の内生性を取り除くために様々な操作変数を見つけて推定を行ってきたが,先のPSIDを用いたIVEはやはりサンプリングの段階でセレクションが生じているため一致推定量とならない.これは(1)で扱った問題と似ているが,ここでは{ \displaystyle \sqrt{J_i}y_i=\sqrt{J_i}X_i\beta+\sqrt{J_i}\nu_i }{ \displaystyle J_i }がセレクションの逆確率を表す.この例はより一般的にWooldridge(ECTA 1999)がM推定として扱っているが,そこで強調されているのは,サンプリング確率が内生的でなく外生的に決まっているのならばウェイティングは必要ないということだ.換言すれば,被説明変数のサンプリング確率が説明変数のみに基づいて決定されてるのであればウェイティングは必要ない.
 で,応用屋はどうすれば良いのか.第1に,サンプリング確率が内生的に決まっている場合にはセレクションの逆確率でウェイティングせよ.第2に,ウェイティングはロバスト標準誤差とセットで.第3に,サンプリング確率が外生的ならば,ウェイト有り/無しの両方を報告せよ.両推定量は一致推定量となるが,ウェト無しの方がより精確である.両方を報告するのは,比較がmodel specificationに役立つためである.

(3)モデル化されない異質性下において平均部分効果を識別する

グループで異なる効果の異質性がある場合には,モデルスペシフィケーションを誤るとWLSでも問題が生じる.ユニットで効果が異なるという異質性については,社会学者が強く関心を抱く点なので要チェックだろう.一般的には,(I)の記述の例で見たようにWLSによって母集団での割合をウェイト付けることでpopulation average partial effectの一致推定量が得られると考えられるが,実はそうではない.
 このことを理解するために,以下のモデルを考えよう.
{ \displaystyle y_i=\beta_1+\beta_2X_i+\beta_3D_i+\beta_4X_iD_i+\nu_i }
{ \displaystyle D_i }は都市ダミーで{ \displaystyle \nu_i }は説明変数と独立であるとする.すると{ \displaystyle X_i }の効果は異質である.つまり,地方効果が{ \displaystyle \beta_2 }で都市効果が{ \displaystyle \beta_2+\beta_4 }となるからだ.母集団における都市人口の割合を{ \displaystyle \pi }とすると,population average effectは{ \displaystyle \beta_2+\beta_4\pi }である.
 モデルスペシフィケーションを誤って交差項を入れず,かつ都市でのオーバーサンプリングが生じた結果として都市人口割合が{ \displaystyle p > \pi }であると仮定しよう.この時,{ \displaystyle p\neq\pi }なので,a)OLSEは特定の地方・都市効果について一致推定量となるが母集団についてはその限りでない.さらに,b)説明変数{ \displaystyle X }の異常値が推定の影響を与えるため,OLSEは{ \displaystyle  X}のグループ内分散がグループ間でどのように異なっているかに依存する.同じモデルをセレクションの逆確率でウェイティングしたWLSを考えると,WLSが解決するのはa)だけであり,OLSとWLSはそれぞれ異なるpopulation average partial effectを推定するが,両方ともpopulation average effectを識別できない.
 で,応用屋はどうすれば良いのか.第1に,モデル化されていない異質性がある(と考えられる)場合には,「母集団の構成を反映したウェイティングをすればpopulation average partial effectを識別できる」という話を信じないこと.先の例で言えば,モデルスペシフィケーションが誤っている場合には,WLSでaverage partial effect({ \displaystyle \beta_2+\beta_4\pi })すら求められない.また都市と地方で分散が同じならば,WLSでpopulataion average partial effectが求めれる(ただし大体は分散が異なるので求められない).第2に,ウェイト有りと無しを比較してモデルスペシフィケーションを考える.この作業でうまい交差項が見つかるかもしれない.第3に,効果の異質性が大きいと考えられるならば,異質性に着目せよ.average partial effectだけでなく,効果の異質性も重要である.

 以上,(III)は対処に少し厄介だが,いずれのケースでもなぜウェイティングをするのかを明確にし,適切な診断が必要となる.共通して重要なのは,ウェイト有りと無しを比較してあれこれ考えることだ.ちなみにこうした比較はロバスト標準誤差についても同様である(KIng and Roberts 2015 PA).

Gerber and Green(2012) Field Experiment, Ch.4

勉強会のメモの続き.実験で共変量をどう使うかについての章である.

4.1. Using Covariates to Rescale Outcomes

共変量とはPotential Outcome(以下PO)を予測すると考えられる観察された変数であり,処置の割り当てに影響を受けないと仮定される.つまり共変量とは基本的に処置の前に決定しているpre-treatment variableである.以下の議論では共変量がこの仮定を満たすとする.割り当て確率が等しいとき共変量について以下が成り立つ.
{ \displaystyle E[X_i]=E[X_i|D_i=1]=E[X_i|D_i=0] }
{ \displaystyle X_i }がプレテストスコアで{ \displaystyle Y_i }が処置後のポストテストスコアだとするとDID推定量は,
{ \displaystyle 
E(\widehat{ATE})=E[Y_i-X_i|D_i=1]-E[Y_i-X_i|D_i=0] \\
=E[Y_i|D_i=1]-E[X_i|D_i=1]-E[Y_i|D_i=0]+E[X_i|D_i=0] \\
=E[Y_i(1)]-E[Y_i(0)]
}
となる.ランダム割り当てがなされていればDIM(Differences-in-means)推定量{ \displaystyle E[Y_i(1)]-E[Y_i(0)] }とDID推定量はともに不偏推定量となるが,小標本の場合に両者は異なる推定値となる(証明略).結論を述べると,DID推定量の標本分散がDIM推定量の標本分散より小さくなるのは,共変量とPOの関連が強い時である.フォーマルには,
{ \displaystyle 
\frac{Cov(Y_i(0), X_i)}{Var(X_i)}+\frac{Cov(Y_i(1), X)}{Var(X_i)} > 1
}
と書ける.つまり実際にフィールド実験を行う際には,a)サンプルサイズを大きくする,b)共変量の情報を集める,が予算制約下でのトレードオフとなっている.共変量を集めることによって生じうる深刻な問題としては,共変量を集めること自体が対象者の処置への反応の仕方を変えてしまい,それによってアウトカムも変化してしまうことであり,これでは除外制約等を満たさない.ここでは共変量を利用することでうまくいったケースについてMuralidharan and Sundararaman(JPE 2011)の結果を再現してみよう.アウトカムは学校の平均テストスコア,処置は教員へのボーナス,共変量は事前の平均テストスコアである.POがわかっているとして,Y_i(0)をX_iに回帰した時のR^2は0.87となり関連が強いことがわかる.その上で,10万回の実験シミュレーションを行ってみると以下のような結果となる.
f:id:analyticalsociology:20160325150723p:plain
DIDEの方がATEの標準誤差が小さいことがわかるだろう.DIMとDIDの平均ATEともに4.0で同じだが,標準誤差は4.77と1.53でありDIDの方が約68%(1-(1.53/4.77))小さい.ちなみにDIMでDIDと同程度に標準誤差を小さくするためにはサンプルサイズを40から392に大きくする必要がある(1/(1-0.68)^2).このRスクリプトは以下.

# clear workspace
rm(list = ls())

# Load in library to read stata files
library(foreign)

# Load in Data from website
teacherout <- read.dta("http://hdl.handle.net/10079/wwpzgz8")

# Or load in Data as a .csv file from website
#teacherout <- read.csv(file="http://hdl.handle.net/10079/1ns1rzk",head=TRUE,sep=",")

# Attach Data
attach(teacherout)

## Reproduce Figure 4.1
# Create space to draw Figure 4.1
par(family="Gill Sans MT",font.main=1)
layout(matrix(c(1,2),2,1,byrow=TRUE))

# Graph the top part of Figure 4.1
hist(diffinmean,xlim=c(-10,20),freq=FALSE,ylim=c(0,.25),main="Sampling Distributions",xlab="Difference-in-Means")
lines(density(diffinmean))

# Graph the bottom part of Figure 4.1
hist(diffinchangemeans,xlim=c(-10,20),freq=FALSE,ylim=c(0,.25),main=NULL,xlab="Difference-in-Differences")
lines(density(diffinchangemeans))

# Detach data so can reload data with identical variable names in examples below.
detach(teacherout)

4.2. Adjusting Covariates Using Regression

POと回帰の関係を整理してみよう.
{ \displaystyle 
Y_i=Y_i(0)(1-d_i)+Y_i(1)d_i=Y_i(0)+(Y_i(1)-Y_i(0)d_i) \\
=\mu_{Y(0)}+[\mu_{Y(1)}-\mu_{Y(0)}]d_i+Y_i(0)-\mu_{Y(0)}+[(Y_i(1)-\mu_{Y(1)})-(Y_i(0)-\mu_{Y(0)})]d_i \\
=a+bd_i+u_i
}
以上のようにYをdに回帰すればDIMによるATEと同じものを得る.共変量によってアウトカムを調整した場合も同様で,
{ \displaystyle 
Y_i-X_i=Y_i(0)(1-d_i)+Y_i(1)d_i-X_i\\
=a+bd_i+u_i-X_i
}
となる.回帰式の右側に共変量を1つ以上含む場合にも,
{ \displaystyle 
Y_i=Y_i(0)(1-d_i)+Y_i(1)d_i \\
=a+bd_i+cX_i+(u_i-cX_i)
}
cが1に近い時に上式は{ \displaystyle 
=a+bd_i+u_i-X_i
}に近い値となる.
以上は単なる整理だが,実験ではアウトカムと共変量は相関であり因果ではない.ランダム割り当てを伴う実験で共変量を用いるのは,誤差項から共変量を引いてやることでアウトカムの説明されない部分を小さくし標準誤差を小さくするためである.但し問題としては,小標本の場合に回帰調整ではバイアスを持つ可能性があることに注意が必要である.

4.3. Covariate Imbalance and the Detection of Administrative Errors

さて,実験をやったことある人ならば経験済みだろうが,小標本である場合にはランダム割り当てでも処置群と対照群でバランスが取れない=共変量と割り当てに相関が生じることがある.まずやるべきなのは2群のバランスをチェックすることだ.バランスしていない場合には,割り当てを共変量に回帰しF統計量を計算し,p-valueを求めるためにrandomization inferenceをする.偶然でないインバランスであればコントロールしてやれば良い.この点については以下のように著者らがそんな心配するなと回答している.

Sometimes researchers worry that observed imbalance is symptomatic of a broader problem of imbalance among other unobserved factors that affect outcomes. So long as imbalance is solely due to random chance(as opposed to administrative error) and so long as we control for the covariate that is imbalanced, there is no reason to expect imbalance on other covariates or on unmeasured causes of the outcome variable.

4.4. Blocked Randomization and Covariate Adjustment

偶然のインバランスが生じた時に共変量をどう用いるかによってATEの推定値は異なってくることを確認したが,事前にブロックランダマイゼーションという方法もある.実験家の格言としては,

Block what you can, and randomize what you cannot

というものがあるそうだ.準備期間が十分にあるのであれば,複数の共変量についてブロックすることができるが,そうでない場合には先行研究を参考にPOを強く予測する変数を選択すべきである.Block randomizationの場合,Yをdとxに回帰するかYをdに回帰するかに関わらず同じATEを得る.共変量調整を行ったrandomizationの場合,偶然にインバランスして共変量と割り当てが相関する可能性があり,不偏推定量を得てもATEの推定値の標準誤差が大きくなってしまうことがある.これをcollinearity penaltyと呼ぶ.但し大標本では2つの標本分布は近いものとなる.改めてComplete randomizationとblock randomizationの違いをみてみよう.
f:id:analyticalsociology:20160326121651p:plain
POを強く予測する共変量でブロックしたATEが最もばらつきが小さいことがわかる.

4.5. Analysis of Block Randomized Experiments with Treatment Probabilities That Vary by Block

これまではブロックごとの割り当て確率が等しいと仮定してきたが,ブロックごとに割り当て確率が異なる場合は全てをプールしてATEを推定するとバイアスが生じる.この場合,各ブロックごとにATEを推定してそこに当該ブロックにおける割り当て確率をかけてやり,各ブロックから得るこの値を足し合わせてやれば良い.以上を簡単にまとめると,Block randomizationの手順は概ね以下となろう.

  1. どの共変量がPOを強く予測するか確認する→POを共変量に回帰してR^2を確認
  2. 共変量についてブロックランダマイゼーション→RのblockToolsパッケージが便利→処置群と対照群のサンプルサイズを決定→各ブロックで2群のバランスがとれているかチェック
  3. ブロックがATEのばらつきを小さくするのにどの程度うまくいったかの確認→上の図でみたようにcomplete randomizationとblock randomizationの標本分布を比較
  4. block randomizationとblockに用いた共変量で調整した回帰のATE標本分布を比較
  5. ばらつきの小さいものを選ぶ!