Luo et al. (AJS 2016) コーディング条件に対するIEの感度

APCモデルにおけるコーディングとIntrinsic Estimator (IE)の感度を分析したペーパー.IEを提唱したYang et al. (SM 2004)やYang et al. (AJS 2008)に対するコメントという位置付けである.ちゃんと読んでいないが斜め読みでメモ.

Luo, L., Hodges, J., Winship, C., & Powers, D. 2016. ``The Sensitivity of the Intrinsic Estimator to Coding Schemes: Comment on Yang, Schulhofer-Wohl, Fu, and Land.'' American Journal of Sociology 122(3): 930–961.

APCモデルの関心は年齢,時代,世代の効果を推定することであるが, A=P-Cという線形従属の関係があるためそのままでは推定できない.Yangたちはこれまで使用されてきた伝統的な制約のかけ方とは異なる方法でIEを提唱した.現在は社会学のみならず疫学や犯罪学などでも広く使われている.

Intrinsic Estimator

  • 年齢,時代のグループ数を a, pとすると,コーホート*1数は a+p-1
  •  \bf Yが目的変数, \bf Xがデザイン行列, \bf bがパラメターのベクトル
  • APCは線形従属なので \bf Xがフルランクとならない
  • そこでヌルベクトル \bf X_0とすれば一つの解 \bf b_1を使って他の解を {\bf b_1}+r \bf B_0と表現できる
  • つまりIE ({\bf b_1}+r{\bf B_0})^T({\bf b_1}+r{\bf B_0})を最小化する rを代入した値

IEの言い分と批判

  • IEサイド:伝統的な制約を課したGLMよりも優れているどころか真のAPCパラメターを識別している
  • IE批判サイド:いやIEも制約を課した推定なんだけど...

APCモデルにおけるコーディング

  • 年齢 \times時代のコーホート表を考えると,様々なコーディングができてしまう
  • 線形コーディングやカテゴリカルコーディング等々(参照かエフェクトかゼロサムか等々)
  • APCはそもそも識別できないのでを無理やり制約をかけて解いているのでコーディングの違いによってはパラメターの推定値が真逆になることも

結論

  • コーディング方法が複数存在することもあってIEは無限の推定値をもつ
  • IEが真のAPCパラメターを識別しているというのは嘘

補足

  • IE批判は昔からありIEも一つの制約解であることは知られていたがコーディングでここまで大きく推定値が変化するとは
  • IEはリッジ回帰の一種とみることもできるがベイジアンコウホートも同様
  • ベイジアンコウホートについてはこの解説がわかりやすい
  • 一番わかりやすいのはFig.4で「ゼロサムコーディング」と「最初のグループを参照コーディング」ではsolution lineのうち最小となる点(ノルム)が変わる f:id:analyticalsociology:20171110140132p:plain

ちなみにIE関連の話はGelmanも少しだけ絡んでいて彼のブログにもそのことが触れてある.Gelmanも最初はYangたちの気持ちもわからんでもないという論調だったのだが最後には,

I’ll go with Luo/Hodges/Winship/Powers, who agree with Heckman/Robb and Fienberg/Mason before them.

と述べている. Luo/Hodges/Winship/Powersというのは本ペーパーの著者たちのこと.というわけでIEを使ったらすべて解決ではないということは自覚しておかなければならない(APCテキストをちゃんと読んだ人はわかっていたことだと思うけど).ちなみにこのコメントに対するIE側のリプライがこれだが未読.

*1:Cohortの訳については「コーホート」「コウホート」「コホート」などがあるが,どれを用いるかでなんとなく流派がわかってしまうという話はさておき.