問題設定:統計的因果推論
d分離の概念は、回帰モデルに因果推論の機能を備えさせてくれる。通常、回帰分析は「説明変数(Explanatory variable)」と「目的変数(Objective variable)」の区別を導入する。説明変数は予測の前提となる変数を意味し、目的変数は予測したい変数を意味する。だが、説明変数と目的変数の区別は、「原因」と「結果」の区別と対応するとは限らない。そのため因果推論では、全ての説明変数を参照するのではなく、d分離した後に残っている説明変数のみを扱う。このd分離に基づく説明変数の取捨選択を特に「回帰調整(regression adjustment)」と呼ぶ。尚、回帰調整後の説明変数は特に「原因変数(cause variable)」と呼ばれ、目的変数は「結果変数(outcome variable)」として参照される。
ベイジアンネットワークや因果ダイアグラムは、この原因変数と結果変数の関連を可視化するデータビジュアライゼーションとしても機能する。例えば$$Z \rightarrow X \rightarrow Y$$のようなネットワーク構造を可視化されたなら、$$X$$は$$Z$$の結果変数であると共に$$Y$$の原因変数であると考えられる。こうしたデータビジュアライゼーションは、回帰モデルの設計以前に、回帰モデルの問題設定をも方向付けてくれる。
問題解決策:回帰モデル
統計的因果推論問題の枠組みの中で導入される回帰モデルとしては、「決定木(decision tree)」の「アンサンブル学習(Ensemble Learning)」によって成り立つ「ランダムフォレスト(Random Forest)」(Breiman, L., 2001)や、アンサンブル学習と「勾配降下法(Gradient descent)」の組み合わせに重きを置いた「勾配ブースティング回帰木(Gradient Boosted Regression Trees)」(Friedman, J. H., 2001)など、様々なモデルが提案され、また大衆化されてもいる。これらの回帰モデルは、統計的因果推論問題の枠組みにおいては、機能的に等価で、比較可能である。「決定係数(coefficient of determination)をはじめとする指標を利用すれば、より性能の高い回帰モデルを選定することもできる。
しかし、回帰モデルが統計的因果推論問題の解決策として機能するのは、多くの場合、d分離に基づく「回帰調整」やグラフィカルモデルのデータビジュアライゼーションによる方向付けが得られるためであるに過ぎない。例えばWager, S., & Athey, S. (2018)やOprescu, M., et al. (2019, May)などのように、当の回帰モデルそのものの理論に準拠した因果推論の問題解決策を深化させる取り組みは、限定的である。回帰問題や分類問題の解決策として機能しているという実績だけでは、統計的因果推論問題の枠組みの中で機能する解決策であると考えることはできない。
特にWager, S., & Athey, S. (2018)はこの因果推論という問題設定とランダムフォレストという解決策の整合性を気に掛け、仮説検証時の信頼区間の設立を可能にするべく、「推定量は十分に理解された漸近サンプリング分布と一致する必要がある」(Wager, S., & Athey, S., 2018, p2.)と主張し、「漸近正規性(Asymptotic normality)」の重要性を説いている。そしてこの関連から、Wager, S., & Athey, S. (2018)は従来からよく知られるランダムフォレストのアルゴリズムを拡張することで、決定木の葉に対応する処置(treatment)の因果的効果を推定する「因果木(causal trees)」によって構成された「因果フォレスト(Causal Forests)」という新しいアルゴリズムを提案している。
こうした事例が言い表しているのは、回帰モデルそれ自体には因果的効果の識別可能性を高める機能が備わっていないということである。実際問題として、回帰問題の枠組みにおける問題解決策に過ぎず、それが統計的因果推論問題の枠組みの中でも機能すると考えることには何の必然性も無い。回帰問題の枠組みと統計的因果推論問題の枠組みは区別される必要がある。双方のモデルは、前提となる「問題の歴史」が異なるのである。回帰問題や分類問題の解決策として機能しているという「原因」のみから、回帰モデルが因果推論問題の解決策として機能するという「結果」を導き出すという認識は、それ自体「疑似相関」なのであろう。
参考文献
– Biau, G., & Scornet, E. (2016). A random forest guided tour. Test, 25(2), 197-227.
– Bollen, K. A. (1989). Structural equations with latent variables (Vol. 210). John Wiley & Sons.
– Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.
– Glymour, M. M., & Greenland, S. (2008). Causal diagrams. Modern epidemiology, 3, 183-209.
– Heckerman, D., Geiger, D., & Chickering, D. M. (1995). Learning Bayesian networks: The combination of knowledge and statistical data. Machine learning, 20(3), 197-243.
– Heckerman, D. (2008). A tutorial on learning with Bayesian networks. Innovations in Bayesian networks, 33-82.
– Hoyer, P. O., Shimizu, S., Kerminen, A. J., & Palviainen, M. (2008). Estimation of causal effects using linear non-Gaussian causal models with hidden variables. International Journal of Approximate Reasoning, 49(2), 362-378.
– Hu, W., Zhang, C., Zhan, F., Zhang, L., & Wong, T. T. (2021, October). Conditional directed graph convolution for 3d human pose estimation. In Proceedings of the 29th ACM International Conference on Multimedia (pp. 602-611).
– Koller, D., & Friedman, N. (2009). Probabilistic graphical models: principles and techniques. MIT press.
– Neapolitan, R. E. (2004). Learning bayesian networks (Vol. 38). Upper Saddle River: Pearson Prentice Hall.
– Oprescu, M., Syrgkanis, V., & Wu, Z. S. (2019, May). Orthogonal random forest for causal inference. In International Conference on Machine Learning (pp. 4932-4941). PMLR.
– Pearl, J. (2003). Causality: models, reasoning, and inference. Econometric Theory, 19(675-685):46.
– Pearl, J. (2009). Causal inference in statistics: An overview. Statistics surveys, 3, 96-146.
– Perozzi, B., Al-Rfou, R., & Skiena, S. (2014, August). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 701-710).
– Spirtes, P. L., Meek, C., & Richardson, T. S. (2013). Causal inference in the presence of latent variables and selection bias. arXiv preprint arXiv:1302.4983.
– Spirtes, P., Glymour, C. N., Scheines, R., & Heckerman, D. (2000). Causation, prediction, and search. MIT press.
– Splawa-Neyman, J., Dabrowska, D. M., & Speed, T. P. (1990). On the application of probability theory to agricultural experiments. Essay on principles. Section 9. Statistical Science, 465-472.
– Rubin, D. B. (2005). Causal inference using potential outcomes: Design, modeling, decisions. Journal of the American Statistical Association, 100(469), 322-331.
– Ueno, M. (2012). Robust learning Bayesian networks for prior belief. arXiv preprint arXiv:1202.3766.
– Wager, S., & Athey, S. (2018). Estimation and inference of heterogeneous treatment effects using random forests. Journal of the American Statistical Association, 113(523), 1228-1242.
– 鈴木譲, 植野真臣(著)『確率的グラフィカルモデル』共立出版、2016