Kleven et al. (2019) 子どもの誕生がジェンダー不平等に与える影響


論文情報

Kleven, Henrik, Camille Landais, and Jakob Egholt Søgaard. 2019. "Children and Gender Inequality: Evidence from Denmark." American Economic Journal: Applied Economics, 11 (4): 181-209.

要約(DeepL翻訳を少し修正)

デンマークの行政データを用いて、労働市場におけるジェンダー不平等に対する子どもの影響を研究している。子どもの誕生は、労働時間、参加率、賃金率において約20%の長期的なジェンダー格差を生み出している。我々は、職業、セクター、企業の選択の観点から、これらの「子どもペナルティ」を生成するメカニズムを明らかにした。その結果、子どもペナルティによって引き起こされた世代間の不平等の割合が、過去30~40年の間に劇的に増加していることがわかった。最後に、子どもペナルティが親から娘へと世代を超えて伝わっていることを示し、子ども時代の環境がジェンダーアイデンティティに与える影響を示唆している.

問い

子どもの誕生はジェンダー不平等にどのような影響を与えるのか

方法

主にイベントスタディデザイン

結果

  • 労働時間、参加率、賃金率において約20%の長期的なジェンダー格差を生み出している
  • こうした格差を生み出しているのは母親が出産後に転職・離職するからである
  • ジェンダー格差に占める出産イベントの寄与は過去30~40年の間に劇的に増加している
  • 子どもペナルティは世代間で継承されている(性別役割分業をしている両親をもつ場合には子どもペナルティが大きくなる傾向)

Rose and Rizopoulos (2019) 生物統計における因果推論のための機械学習

Sherri Rose, Dimitris Rizopoulos, Machine learning for causal inference in Biostatistics, Biostatistics, Volume 21, Issue 2, April 2020, Pages 336–338.

 DeepLで翻訳してみた。

一般的な推論問題と不確実性の定量化は、長い間統計科学の礎となってきました。機械学習の進歩は多くの分野に浸透していますが、これらの手続きのための推論、特に因果推論は普及していませんでした。しかし、これは急速に変化しています。様々な科学分野が機械学習による因果推論に集中し始めている今こそ、公開討論を行う絶好の機会ではないかと考えています。我々は『Biostatistics』の編集者としての役割として、統計学コンピュータサイエンス、疫学、健康経済学、政策、法律の専門家によるこのトピックに関する一連の解説を企画することにしました。意図的に初期または中期の研究者のリーダーを招聘し、多様性の多面的な側面を考慮して、プラットフォームに与えられた声の幅を広げることにした。因果関係推論に特化した機械学習の分野は小さいため、学会プログラム、arXiv論文、学科のウェブサイトを読み、波状に招待状を送ることで、視点のバランスをとるようにしました。全員が「はい」と答えたわけではありませんでしたが、専門家のネットワークの外や分野を超えて意図的に手を伸ばしていたことを考えれば、予想外のことではありません。私たちは、他の主催者の潜在的な利益のためにこれらの経験を共有し、この時間の投資が必要であることを主張しています。私たちがキュレーションしたコレクションには5つの作品が含まれており、ここで簡単に紹介する。
最初の解説では、機械学習を実装する際に構造的人種差別を理解することの中心性について論じている(Robinsonほか、2020年)。構造的人種差別は健康への応用で蔓延しており、著者は因果グラフの使用を通して専門的に自分のテーゼを提示しています。因果モデル化は、研究者にデータがどのように生成されたかを批判的に考えることを強制し、また、統計的なターゲットパラメータの充実した因果解釈を可能にします。アルゴリズミック・バイアスを評価し、排除することは、研究の成長分野ですが、ほとんどの研究は、健康と生物医学に焦点を当てていません。私たちは、学者がこれらの問題に取り組み、各プロジェクトで検討することを奨励しています。これは、配備を目的としたツールを作成したり、政策提言を行ったりする際に必要とされるべきである。
Subbaswamy and Saria (2020)では、著者は一般化可能性という重要なトピックに取り組んでいる。与えられたアルゴリズムの一般化可能性の欠如は、訓練シナリオとそれが適用されたシステムとの間の条件の変化を含む多くの要因に起因する可能性がある。因果推論(特に予測など)の問題では、一般化可能性を本格的に扱う必要がある。著者らは因果グラフを活用して、基礎となるデータ生成プロセスを理解し、シフトの影響を受けやすいかどうかを評価し、いくつかのアルゴリズム的アプローチをまとめている。特に、機械学習が臨床や公衆衛生の文献で増殖し始めるのを見ていると、それが広く実用に供される準備ができていると主張するすべての作業において、一般化可能性の懸念に対処するための基準を設定することが重要である。
Diaz (2020)の解説は、主に推定を扱ったこのシリーズの最初のものである。推定に先立つ因果モデル化ステップが明確に強調されているが、機械学習と推論の統合が主な主題である。著者は、追加の因果仮定と組み合わせることで、因果推定値を生成できる機械学習ベースの効果推定器を構築するために、セミパラメトリック理論に依存した手順に焦点を当てている。具体的には、標的最小損失ベース推定(TMLE)と二重/偏重機械学習DML)の特性を列挙する。TMLEとDMLは、有効な統計的推論を得ながらも、データ適応的な手順を用いて関連する厄介なパラメータを推定することができる文献からの成功例を示すものである。
精密医療と個別化された治療法の特定の約束は、臨床現場での関心が高まっている。Shalit(2020)は、個別レベルの治療ルールの推定を探求している。これらの効果を推定する能力と、どのようなデータを用いて推定するかについては、多くの議論がなされている。著者はこの議論に飛び込み、統計的および因果関係の課題を提示するとともに、p-ハッキングの懸念を取り巻く誤解を明らかにしている。無作為化比較試験のサンプルサイズは大きな制限であるが、交絡因子やその他の事項を適切に管理すれば、観察データから洞察が得られる可能性がある。無作為化データと観察データの融合はもう一つの可能性を秘めている。

我々は、規制と政策の問題についての解説(Stern and Price, 2020)でこのシリーズを締めくくる。医療における機械学習の導入は、意思決定支援やテストなど様々な形で行われており、現在では機械学習をベースにしたソフトウェアを搭載したデバイスが登場しています。FDAは、いわゆる「医療機器としてのソフトウェア」を規制しているが、その安全性と有効性を理解する上で、明確な合併症が発生する。特にデジタルバイオマーカーの収集が増加しているため、アルゴリズムを規制するという課題は膨大であり、進行中である。著者らはまた、前の4つのコメントのテーマ(一般化可能性、アルゴリズムのバイアス、機械学習に基づく効果推定、個別化された治療)をうまく結びつけて、機械学習空間における規制と政策を検討する際に、それらすべてがどのように現れるかを示しています。
我々は、因果関係推論のための機械学習の重要な側面や視点をすべて網羅したとは決して主張しない。他にもたくさんありますが、この一連の解説が、分野を超えた議論に拍車をかける一助になればと願っています。私たちが強調している重要なテーマは、この分野を追求する際に必要とされる思慮深い考察である。健康と生物医学における因果関係推論のための機械学習は、関係するステークスを考えると、参加するための流行として扱われるべきではありませんし、新しいアルゴリズムのための単なる証明の場として扱われるべきではありません。ニック・ジュエルの言葉を引用すると、「すべてのデータポイントの背後には人間の物語があり、家族がいて、苦しみがある」(Jewell, 2003)ということを覚えておく必要があります。応用される現実世界の問題、理論的裏付け、潜在的な社会的影響、特に疎外されたグループに対する複雑な問題に真摯に取り組むことが重要である。

www.DeepL.com/Translator(無料版)で翻訳しました。

 

 

Rubin (1974) ランダム化および非ランダム化データを用いた因果効果の推定

潜在的結果の枠組み(Potential Outcome Framework)を元祖ともされる論文(元々のアイディアはNeyman 1923と言われている).反事実的条件に基づく潜在的結果の枠組みは,この論文を契機に急速に広まる.そんな有名な論文だけに,原著に目を通した人は少ないではないだろうか.ということで息抜きに読んでみたのが,couterfactualとかpotntial outcomeという用語は一度も使われていないことに気づいた.Rubinはこれらの用語をいつから使い始めたのだろうか.この点については,既にレビューが存在するのだと思う(知らんけど).ちなみにこの論文も潜在的結果に直接触れているというよりは,注意深く読むと潜在的結果のことに触れているのかな?という印象をもった.

Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688–701. 

 

Blackwell and Glynn (2018) パネルデータを用いた因果推論

パネル(TSCS)データでstructural nested mean modelsやmarginal structural modelsをもっと使おうよという論文.パネルデータを用いて因果推論をする場合には,時間不変の観察されない要因を取り除きたいのか,原因と結果にタイムラグがあるようなダイナミックな因果関係に関心があるのか,いずれが重要なのかを見定める必要がある.前者ならFE,後者ならSNMMやMSMといったように,用いる方法が異なってくるからだ.

BLACKWELL, M., & GLYNN, A. (2018). How to Make Causal Inferences with Time-Series Cross-Sectional Data under Selection on Observables. American Political Science Review, 112(4), 1067-1082.

 

Zhou and Wodtke (2019) RWRによるControlled Direct Effectsの推定

Controlled Direct Effectsの推定にはsequentual g-estimationが多用されてきた(Acharya et al. 2016が典型).ここでは,残差を使ったRegression-with-Residuals(RWR)を提案している.RWRの良いところは,実装が簡単な点(とはいえsequentual gもが面倒なわけではない),mediatorとintermediate confounderのinteratcionが考慮できる点.

Zhou, X., & Wodtke, G. (2019). A Regression-with-Residuals Method for Estimating Controlled Direct Effects. Political Analysis, 27(3), 360-369.

 

Athey and Imbens (2019) エコノミストが知っておくべき機械学習の方法

Annual Reviewでのレビュー.機械学習の基礎が解説されており,経済学でどのように応用されているかについても少しだけ触れている.

Athey, Susan and Imbens, Guido W.  2019. "Machine Learning Methods That Economists Should Know About" Annual Review of Economics 11(1): 685-725.

経済学で機械学習の導入がなぜ遅れたかという問いに触れている.

Why has the acceptance of ML methods been so much slower in economics compared to the broader statistics community? A large part of it may be the culture as Breiman refers to it. Economics journals emphasize the use of methods with formal properties of a type that many of the ML methods do not naturally deliver. This includes large sample properties of estimators and tests, including consistency, normality, and efficiency. In contrast, the focus in the ML literature is often on working properties of algorithms in specific settings, with the formal results being of a different type, e.g., guarantees of error rates. There are typically fewer theoretical results of the type traditionally reported in econometrics papers, although recently there have been some major advances in this area (Wager & Athey 2017, Farrell et al. 2018). There are no formal results that show that, for supervised learning problems, deep learning or neural net methods are uniformly superior to regression trees or random forests, and it appears unlikely that general results for such comparisons will soon be available, if ever. 

 

Hubbard et al. (2010) 混合効果モデルとGEEモデルの違い

個体があるグループにネストされている場合に社会学では混合効果(マルチレベル)モデルを用いることが多いが,疫学系の研究会にでているとGEEを用いることが多い気がする.本論文では,混合効果とGEEの違いを簡単に解説している.そもそも知りたい量が違うという点がハイライト.

Hubbard, Alan E., et al. “To GEE or Not to GEE: Comparing Population Average and Mixed Models for Estimating the Associations Between Neighborhood Risk Factors and Health.Epidemiology, vol. 21, no. 4, 2010, pp. 467–474.

アブスト

Two modeling approaches are commonly used to estimate the associations between neighborhood characteristics and individual-level health outcomes in multilevel studies (subjects within neighborhoods). Random effects models (or mixed models) use maximum likelihood estimation. Population average models typically use a generalized estimating equation (GEE) approach. These methods are used in place of basic regression approaches because the health of residents in the same neighborhood may be correlated, thus violating independence assumptions made by traditional regression procedures. This violation is particularly relevant to estimates of the variability of estimates. Though the literature appears to favor the mixed-model approach, little theoretical guidance has been offered to justify this choice. In this paper, we review the assumptions behind the estimates and inference provided by these 2 approaches. We propose a perspective that treats regression models for what they are in most circumstances: reasonable approximations of some true underlying relationship. We argue in general that mixed models involve unverifiable assumptions on the data-generating distribution, which lead to potentially misleading estimates and biased inference. We conclude that the estimation-equation approach of population average models provides a more useful approximation of the truth.

 

 

 

清水(2017) 統計的因果探索

先日読了したこちらの本についても簡単にメモ.何年か前の社会心理学会の方法論セミナーで話を聞いた際から気にはなっていた統計的因果探索ですが,何をやっているのかはよくわからないままでした.解説本も出たことだし,真面目に読んでみようということで読みました.

統計的因果探索 (機械学習プロフェッショナルシリーズ)

統計的因果探索 (機械学習プロフェッショナルシリーズ)

 

結論から言うと非常に勉強になった.特に本丸であるLiNGAM(Linear non-Gaussian Acyclic Model)の導入部分にあたる3章までがこれ以上ないくらいにわかりやすく,4章以降にスムースに接続できた.社会学で応用できそうなアイディアも浮かんだので収穫あり(ちなみに清水先生はSEMで有名な社会学者K. Bollenとの共著あり).現在はLiNGAMの仮定(線形性,非巡回性,非ガウス性)をどこまで緩められるかの研究,また観測変数の未観測共通原因がある場合の研究が盛んなよう.そこにスパース性が絡んでくるので面白そう.実装に関しては著者のHPにまとめられているように,公開されているのはMATLABやRが中心.ベイズの枠組みでも色々と検討されているそうなので,Stanによる実装も試してみたい.LiNGAMのアツさがわかる一冊.

因果ダイアグラム:結論の前に仮定をかこう

構造的因果モデルの勉強を少しずつはじめている関係で,edXにあがっているCausal Diagrams: Draw Your Assumptions Before Your Conclusionsという講義を受けてみました.講師はMiguel Hernánで他にもRobins,Pearl,VanderWeeleへのインタビューやショートレクチャーもあるように,なんとも豪華な顔ぶれ.9週でデザインされたコースのようだが,まとまった時間があれば数日で終わる内容だった.テクニカルな話はほとんどないので,真面目に勉強するならHernán and Robins (2018) Causal Inference を読んでねという流れ(AcknowledgmentsにTadayoshi Fushiki先生のお名前を発見).パールの肉声を初めて聞いたけどもう81歳なんですね.ちなみにシラバスは以下の通り.

Course Description

This course introduces causal diagrams as tools for researchers who study the effects of treatments, exposures, and policies. The course focuses on translating expert knowledge into a causal diagram, drawing causal diagrams under different assumptions, and using causal diagrams to identify common biases and guide data analysis. The first part of the course introduces the theory of causal diagrams and describe its applications to causal inference. The second part of the course presents a series of case studies that highlight the practical applications of causal diagrams to real-world questions from the health and social sciences.

Course Outline

Lesson 1: Causal Diagrams
Released on September 26, 2017

Lesson 2: Confounding
Released on October 3, 2017

Lesson 3: Selection Bias
Released on October 10, 2017

Lesson 4: Measurement Bias/ Putting it All Together
Released on October 17, 2017

Lesson 5: Time-varying Treatments
Released on October 24, 2017

Cases:
Released on October 31, 2017

The Birth Weight Paradox with Dr. Allen Wilcox
Measurement Bias in Memory Loss with Dr. Maria Glymour
Confounding in Mediation Analysis with Dr. Tyler VanderWeele
Genes as Instrumental Variables with Dr. Sonja Swanson

 

 

Grimmer et al. (PA 2017) アンサンブル法による因果効果の異質性の推定

 因果効果を推定するために多くのRCTが実施されているなか,部分母集団によって効果がどのように変化するのか(Heterogeneous Treatment Effects: HTE),また異なるトリートメントによって効果がどのように変化するのか(Effects of Heterogeneous Treatments: EHT)に関する研究が増えてきている.HTEやEHTについては様々な手法(Regression trees, BART, LASSO, KRLS等々)が提案されているが,最近は特に機械学習の手法を援用したものが多い印象である.本論文が提案していることは,これまでに提案されてきた各手法を使って手元のデータをCVで分析し,予測精度の観点(本論文ではRMSE)からパフォーマンスの良かった手法に大きなウェイトをかけてやり,各推定量の加重平均をアンサンブル推定量として採用するというものである.そのうえでHTEやEHTについて推定をする.

Grimmer, J., Messing, S., & Westwood, S. J. 2017. ``Estimating Heterogeneous Treatment Effects and the Effects of Heterogeneous Treatments with Ensemble Methods.'' Political Analysis 25(4): 1–22.

 Table 2において,4種のデータ生成過程でモンテカルロシミュレーションをおこないアンサンブル法が平均的にベストだと論じているが,データ生成過程によってはアンサンブル法よりパフォーマンスの良い手法もある.また平均的にもLASSOやBayesian GLMとさして変わらない.

 ちなみにHTEやEHTについて,単純にグループやトリートメントの条件付き平均因果効果を比較すれば良いのでは?という点については著者らがこのように議論している.

When there are a large number of observations in each condition and participants who share the same set of covariates, reliable estimation of ATEs, CATEs, MATEs, and MCATEs is straightforward. The random assignment of participants to treatments ensures that a difference in means across treatment arms will reliably estimate the ATE and a difference in means across arms among respondents with the same set of covariates provides an accurate estimate of CATEs and MCATEs. With a large number of participants, the differences computed with naïve differences in means will tend to reflect systematic differences (Gelman, Hill, and Yajima 2012). But for more heterogeneous treatments with a large number of conditions, or covariates that have few observations who share the exact same covariates, a simple difference in means will be a less reliable estimate of the effect of treatments. When the sample size is relatively small, naïve differences will be likely to reflect random variation in the sample, rather than systematic differences in the underlying methods because there will be few observations who share the exact same characteristics. This renders ineffective the usual method for estimating heterogeneous treatment effects: computing a difference in means for observations with the same covariate value. It also makes simple comparisons of different levels of high-dimensional treatments highly problematic.