問題設定:統計的因果推論問題の枠組み

「統計的因果推論(Causal inference in statistics)」とは、観測データから得られた不完全な情報に基づき、事象間の因果関係の効果の大きさを統計的に推定してく手法を意味する。一般的にこの因果関係は、「原因(cause)」と「結果(effect)」の区別によって記述される。だが、この「原因」と「結果」は必ずしも一対一で対応している訳ではない。ある「結果」を招く「原因」は複数の事象によって成り立っている場合もある。また、一つの「原因」から複数の「結果」が引き起こされる可能性もある。因果関係の観察者は、複数の候補の中から、「原因」と「結果」をそれぞれ選択することにより、因果関係を特定することになる。統計的因果推論は、この選択の妥当性を検証する手法に他ならない。

「原因」と「結果」の区別を導入した場合、一見するとこの両者の関連は二値論理として構造化されているように思える。しかし、因果関係を特定する上で重要となるのは、この「原因」と「結果」の区別によって「排除された第三項」である。その第三項は、当の「原因」と「結果」の関連に対して独立である場合もあれば、当の「原因」と「結果」の関連を条件付けている場合もある。因果関係として記述される「原因」と「結果」の関連は、こうした多値論理によって構造化されている関連の一部であるに過ぎない。統計的因果推論は、当の因果関係を特定するために、この多値論理構造を情報源とする。この多値論理構造は、後述するように、一般的には「グラフ理論(graph theory)」によって表現される傾向にある。

因果関係は相関関係(correlation)ではない。変数Xと変数Yが相関している場合、$$X$$の値が大きい場合に$$Y$$の値も大きい傾向にある。だが、$$X$$の値を増加させた場合に$$Y$$の値も増加するとは限らない。もしかすれば、実は$$Y$$の値を増加させた場合に$$X$$の値が増加する可能性もある。この「$$X$$の値を増加させる」という操作(operation)に$$Y$$も連動する場合、その関連は相関関係ではなく因果関係となる。

因果関係と相関関係の差異を曖昧にした場合の盲点となるのは、「疑似相関(Spurious correlation)」である。疑似相関は、二つの事象の間に因果関係が無いにも拘わらず、この二つの事象の区別によって「排除された第三項」が関連することで、当の二つの事象の間に因果関係があるかのように視えてしまう状態を意味する。多くの場合、ここでの「排除された第三項」は、「潜在変数(latent variable)」として記述される。この潜在変数が当の二つの事象に影響を及ぼす場合、この潜在変数は「交絡因子(confounding factor)」と呼ばれる。尚、この交絡因子という用語は、「共分散分析(analysis of covariance)」の文脈では「共変量(covariate)」と呼ばれる。

疑似相関は、この交絡因子を見抜けない場合に推論される状態でもある。例えば潜在変数$$Z$$が相互に独立の変数となる$$X$$と$$Y$$に対して影響を与えている場合、$$X$$と$$Y$$には何ら関連が無くとも、$$X$$の値が大きい場合に$$Y$$の値も大きい傾向が伺える。だがこの場合、$$X$$の値を増加させたとしても、$$Z$$の値が変わらない限り、$$Y$$の値が増加する訳ではない。故に$$X$$と$$Y$$の間には如何なる因果関係も生じていないことになる。

「排除された第三項」となる因子は一つとは限らない。ある変数が二つ以上の変数から因果的な影響を受けている場合、その変数は「合流点(collider)」として位置付けられる。合流点$$Z$$に影響を与えている変数$$X$$と$$Y$$は、相互に関連しているとは限らない。相互に独立であったとしても、共に$$Z$$に影響を及ぼすことは可能である。合流点は、合流点に影響を与えている変数同士の関連性を無条件に規定する訳では決してない。合流点$$Z$$があるという理由だけで$$X$$と$$Y$$の間に因果関係を想定してしまえば、それは疑似相関となる場合がある。

一方で、単純に推論された因果関係が真の因果関係の逆向きとなる場合にも、疑似相関の問題が表れる。変数$$X$$が「原因」で変数$$Y$$が「結果」となる時、両者の間には因果関係が生じている。$$X$$の値を増加させた場合に$$Y$$の値も増加することになる。だが、$$Y$$の値を増加させたからといって、$$X$$の値が増加する訳ではない。「$$X$$の値を増加させる」という操作を無視すれば、確かに$$X$$の値が大きい場合に$$Y$$も大きい傾向が見受けられるであろう。しかしそれは局所的な観察に基づいた相関関係の記述に過ぎず、因果関係を特定したことにはなり得ない。

疑似相関と因果関係を混同しないためには、何を「原因」や「結果」として選択するのかだけではなく、「何を選択しないのか」も重要となる。「何を選択しないのか」を分析するには、「原因」と「結果」の区別によって「排除された第三項」を記述しなければならない。統計的因果推論は、交絡因子や合流点のような概念を記述することにより、この「排除された第三項」に具体的な意味付けを与える。それによりこの手法は、「原因」と「結果」の選択の妥当性を検証するためのフレームワークを提供しているのである。

問題解決策:形式としての因果的効果

事象Xが事象Yの「原因」になるか否かを分析する際、$$X$$が生じた場合と$$X$$が生じなかった場合の比較が有用になる。そのためには、現に生起した事象ばかりを観察するのではなく、実際には生起しなかった事象による「潜在的な結果(Potential outcome)」についても計算しなければならない。この「潜在的な結果」という概念を記述したのはイェジ・ネイマンだが、後に統計学者ドナルド・ルービンが、この概念をロナルド・フィッシャーの「ランダムに制御された試験(Randomized Controlled Trial: RCT)」と結び付けることにより、「反事実(counterfactual)」の想定に基づいたRCTが、因果的効果の識別に有用であることを主張した(Rubin, D. B., 2005)。

「反事実」の記述

「反事実」とは、観測され得たものの、実際には観測されなかった要因を意味する。この概念はネイマンの「潜在的な結果」概念を再記述した概念として位置付けられる。「潜在的な結果」は、現に観測された結果から区別される。現に観測された変数は「結果変数(outcome variable)」であるのに対し、実際には観測されなかった要因の変数は「潜在的結果変数(potential outcome variable)」であるということになる。

例えば医療機関において、患者$$Y$$の健康状態を$$Y_0$$、治療を受けた直後の健康状態を$$Y_1$$とするなら、$$Y_0$$と$$Y_1$$は同時には成立し得ない状態である。現に患者$$Y$$が治療を受けた場合、実際に観測されるのは$$Y_1$$である。治療を受けなかった場合の健康状態は、「潜在的な結果」である。それを想定するということは、「反事実」を想定するということに等しい。

期待値としての因果的効果

ルービンの理念によれば、患者$$Y$$において、治療を受けた場合と治療を受けなかった場合の双方の「結果」を観察できるのならば、その差異を知ることで、「個体水準での因果的効果(Unit-Level Causal Effect)」を推論することができるという。つまり、$$Y_1 – Y_0$$が計算可能ならば、治療を受けることの因果的効果を計測することができるという訳だ。

一般的に治療の因果的効果は、患者$$Y$$一人ではなく、複数人の患者に対する処置によって把握される。つまり、単体水準ではなく集団水準で把握される。その際に記述される因果的効果は、次のように、各患者の平均的な因果的効果として計算される。

$$\frac{1}{N}\sum_{i=1}^N (Y^i_1 – Y^i_0) = \frac{1}{N}\sum_{i=1}^N Y^i_1 – \frac{1}{N}\sum_{i=1}^N Y^i_0$$

ここで、$$N$$は全患者の人数を、$$Y^i_1$$は治療を受けた場合の$$i$$番目の患者を、$$Y^i_0$$は治療を受けなかった場合の$$i$$番目の患者を、それぞれ表わす。

RCTは、この反事実を想定することで実施される。RCTは対象者集団を二つ以上のグループへとアトランダムに分割した上で因果的効果を識別する試験方法である。治療の因果的効果を測定するのならば、全患者を治療群と非治療群とにアトランダムに割り当てることになる。

例えば、いわゆる「風邪薬」が患者の健康状態に与える因果的効果を検証する場合を想定してみよう。そのウイルスの性質にも左右されるものの、一般的に風邪は高齢者ほど重症化し易いとされる。仮に、治療を受けた患者たちの平均年齢が40歳であるのに対し、治療を受けなかった患者たちの平均年齢が70歳であるとするなら、もはやこの年齢層の偏りの影響は無視できなくなる。もし「風邪薬」による治療を受けなかった患者がこの治療を受けた患者よりも重症化したとしても、それが年齢による結果なのか、「風邪薬」を飲まなかったことによる結果なのかが判断できない。この場合、年齢は「交絡因子」である。

治療を受けた患者と治療を受けなかった患者を無作為に抽出するRCTが有用となるのは、患者たちの健康状態を規定する因子が二つのグループ間で同一の分布に従うと期待できるためである。「交絡因子」は無視した上で、あくまで「風邪薬」による治療を受けた患者の健康状態の平均値と、「風邪薬」による治療を受けなかった患者の健康状態の平均値とを、比較することが可能になる。この比較が可能になることで初めて、各患者の平均的な因果的効果も計算可能になる。

「風邪薬」の因果的効果は、次のように、集団単位での因果的効果として計測することになる。

$$E(Y_1 – Y_0) = \frac{1}{N}\sum_{i=1}^N (Y^i_1 – Y^i_0) = \frac{1}{N}\sum_{i=1}^N Y^i_1 – \frac{1}{N}\sum_{i=1}^N Y^i_0 = E(Y_1) – E(Y_0)$$

ここで、$$E(\cdot)$$を$$\cdot$$の期待値である。治療を受けた患者の平均的な健康状態を$$E(Y_1 \mid Z=1)$$、治療を受けなかった患者の平均的な健康状態を$$E(y_0 \mid Z=0)$$とするなら、集団単位での因果的効果は次のように再記述できる。

$$E(Y_1) – E(Y_0) = E(Y_1 \mid Z=1) – E(y_0 \mid Z=0)$$

上式の両辺は等号で結ばれているものの、計算の観点は異なっている。左辺は「反事実」を想定することで記述されている。つまり、結果変数と潜在的結果変数の差分となる。これでは実際には観測されなかった要因の変数を対象として扱うために、計算が困難、あるいは不可能になる。これに対し、右辺が指し示しているのは、実質的に結果変数同士の差分である。と言うのも、$$Z$$が言い表しているのは、実際に観測されるデータに対する条件付きの抽出であるためだ。

「介入」の操作

$$E(\cdot \mid Z=z)$$の操作は、関連する全データの中で$$Z=z$$の場合のデータを対象に計算するという抽出処理を意味する。この概念は、統計的因果推論問題の枠組みでは、特に「介入(intervention)」という概念から厳密に区別されている。「介入」は、因果推論対象となる変数において、ある変数の値を意図的に変化させる操作を表わす。抽出処理が$$E(\cdot \mid Z=z)$$であるなら、「介入」の処理は、一般的には「do」という記号を使用することで、$$E(\cdot \mid do(Z=z))$$と記述される。抽出処理が$$Z=z$$の場合のデータのみを参照するのに対し、$$do(Z=z)$$は、全ての関連データにおいて、$$Z=z$$にした場合のデータを参照する。

「介入」が有用となるのは、交絡因子の影響を強制的に停止させることができるためだ。ここで、再び「風邪薬」の治療のケースを想定してみよう。変数$$X$$が一人の患者に費やす医師の診察時間の長さで、$$Z$$は「風邪薬」による治療を施すか否かを指し示す。すなわち、$$Z=1$$で医師は「風邪薬」を処方し、$$Z=0$$で医師は「風邪薬」を処方しない。

今、$$X$$が極端に短くなり、医師は患者の状態を十分に把握できず、患者もまた自身の状態を伝えられなくなるとする。もしかすれば、患者の健康状態を改善するために必要となるのは、「風邪薬」ではないのかもしれない。鼻水やくしゃみなどの症状から、単なる「風邪」のように視えても、実際に患者が患っているのは「アレルギー性鼻炎」かもしれない。そうした患者に必要なのは、「風邪薬」ではなく、まずはアレルギー検査であろう。あるいは、「うがい」や「手洗い」、「入浴」や「睡眠時間の確保」など、様々な生活習慣を改善する必要もある。だが診察時間が短ければ、医師はこうした可能性に気付くことができなくなる。結果、医師と患者は本来必要であった解決策を実践できず、患者の健康状態は改善されないかもしれない。

この状況が意味するのは、$$X$$が交絡因子であるということだ。$$X$$が$$Y$$と$$Z$$の双方に影響を及ぼしているのである。診察時間が長ければ、患者の健康状態を改善する機会が増えるためだ。これに対し、例えば$$do(Z=1)$$という「介入」の操作は、全ての患者に対して、一律に同じ「風邪薬」を処方した場合を想定することになる。この「介入」を施すと、もはや「風邪薬」を処方するという医師の意志決定に対し、医師の診察時間の長さは何の影響も与えなくなる。つまり、$$X$$に起因する$$Z$$と$$Y$$の間の疑似相関を気にせずに済むようになるのである。

この$$do(Z=z)$$という操作に基づいた因果的効果は、次のような条件付き確率によって計算される。

$$p(Y=y \mid do(Z=z)) = p_I(Y=y \mid Z=z) = \sum_{x} p_I(Y=y \mid Z=z,X=x)p_I(X=x \mid Z=z)$$

ここで、$$p(\cdot)$$は「介入」前のグラフ構造における確率を、$$p_I(\cdot)$$は「介入」後のグラフ構造における確率を、それぞれ表わす。「介入」の操作により、$$Z$$と$$X$$は独立である。したがって、

$$p_I(X=x \mid Z=z) = p_I(X=x)$$

故に、

$$p_I(Y=y \mid Z=z) \sum_x^{} p_I(Y=y \mid Z=z, X=x)p_I(X=x)$$

ここで、$$Z$$は「介入」それ自体の影響を受け、$$Y$$は「介入」それ自体の影響を受けた$$Z$$の影響を受けている。これに対し、$$X$$はこれらの影響は受けていない。したがって、

$$p_I(X=x) = p(X=x)$$

また、$$p_I(Y=y \mid Z=z, X=x)$$は$$Z$$と$$X$$が規定されることによって規定されるという点では、$$p(Y=y \mid Z=z, X=x)$$と変わらない依存関係のうちに置かれている。つまり、

$$p_I(Y=y \mid Z=z, X=x) = p(Y=y \mid Z=z, X=x)$$

以上より、

$$p(Y=y \mid do(Z=z)) = \sum_{x} p(Y=y \mid Z=z,X=x)p(X=x)$$

問題解決策:構造方程式モデル

「介入」という操作の機能は、因果関係の構造を再記述することにより、因果的効果を計算可能にするという点にある。因果的効果の観察者は、「介入」の対象となる変数を選択することで、因果的効果を計算する。いわゆる「構造方程式モデル(Structural Equation model)」は、この「介入」対象の選択を方向付ける理論として記述されている。

構造方程式モデルは、直接的には観測できない「潜在変数(latent variable)」と「観測変数(observed variable)」の区別を導入することにより、各変数間の因果関係を表現する統計モデルの一種である。このモデルは回帰分析や因子分析を機能的に再利用することで、自然現象や社会現象を記述する。

初歩的な構造方程式モデルは、潜在変数と観測変数の区別とは別途で、「誤差変数(error variable)」も導入する。例えば変数$$x$$が変数$$y$$と変数$$z$$によって規定される場合、$$x$$を巡る因果関係は$$x = f_x (y, z, e_x)$$のように記述できる。この場合、$$y$$および$$z$$が$$x$$という「結果」の「原因」となる。ただしこの因果関係の特定には誤差が生じる。と言うのも、$$x$$を規定するのは「排除された第三項」である可能性も否定できないためだ。このモデルでは、こうした潜在的な影響が$$e_x$$として表現されている。

問題解決策:グラフィカルモデル

統計的因果推論問題の枠組みでは、この構造方程式モデルが「グラフィカルモデル(Graphical Model)」として再記述される。グラフィカルモデルは、確率変数間の「条件付き依存性(conditional dependence)」や「条件付き独立性(conditional independence)」を「グラフ(graph)」によって構造化する確率モデルである。グラフの構造は、「ノード(node)」と「エッジ(edge)」の区別によって成り立っている。ノードは、$$N$$個の要素から成る有限集合$$\mathbf {V} = \{V_1, V_2, …, V_N\}$$の各要素を表わす。エッジは、これらのノードの関連を表わす。$$V_i$$と$$V_j$$の間に関連が存在するなら、そのエッジは$$E_{ij}$$と表せる。エッジ集合を$$\mathbf {E}$$とするなら、グラフ$$G = (\mathbf {V}, \mathbf{E})$$は二つの集合$$\mathbf {V}$$と$$\mathbf {E}$$によって定義される。

$$E_{ij} \in \mathbf {E}$$かつ$$E_{ji} \notin \mathbf{E}$$の時、エッジ$$E_{ij}$$は「有向エッジ(directed edge)」となる。ノード間の関連は$$V_i \rightarrow V_j$$となる。一方、$$E_{ij} \in \mathbf {E}$$かつ$$E_{ji} \in \mathbf{E}$$の時、エッジ$$E_{ij}$$は「無向エッジ(undirected edge)」となる。ノード間の関連は$$V_i \ – \ V_j$$となる。全てのエッジが有向エッジとなるグラフは「有効グラフ(directed graph)」と呼ぶのに対し、全てのエッジが無向エッジとなるグラフは「無向グラフ(undirected graph)」と呼ぶ。

ノード間の関連は、しばしば親子関係として把握される傾向にある。グラフを「木」と捉えるなら、エッジで結ばれている二つのノードのうち、より根に近いノードは「親ノード(parent node)」と呼ばれ、より葉に近いノードは「子ノード(child node)」と呼ばれる。また、ある親ノードから観て、子ノードや子ノードの子ノードなどのようなノード集合は「子孫(descendants)」と呼ばれる場合もある。一方、逆に子ノードから観た親ノードの集合は「先祖(ancestor)」と呼ばれる場合もある。

グラフィカルモデルは、こうしたグラフによって、条件付き依存性や条件付き独立性を表現する。$$X$$、$$Y$$、$$Z$$が無効グラフ$$G$$における互いに排他的なノードの集合である時、$$X$$と$$Y$$の各ノード間の全てのパス(path)が$$Z$$の少なくとも一つ以上のノードを包含している場合、$$Z$$は$$X$$と$$Y$$を「分離(separtion)」している。これは、$$Z$$を与えた場合に$$X$$と$$Y$$は条件付き独立であることを意味し、$$I(X, Y \mid Z)$$となる。

ただし、グラフで表現可能な条件付き独立性が真の分布における条件付き独立性に一致するとは限らない。グラフの構造的制約ゆえの誤差は生じ得る。例えば四つの確率変数$$X_1$$、$$X_2$$、$$X_3$$、$$X_4$$が真の条件付き独立性$$I(X_1, X_2 \mid X_3, X_4)$$、$$I(X_2, X_1 \mid X_3, X_4)$$、$$I(X_3, X_4 \mid X_1, X_2)$$、$$I(X_4, X_3 \mid X_1, X_2)$$を有している場合、これら全ての条件付き独立性を表現できるグラフ構造はあり得ない。つまり、グラフィカルモデルが条件付き独立性を表現しているとは見做せない事例が存在するのである。

d分離

グラフィカルモデルが条件付き独立性を表現しているとは見做せない事例が存在する以上、条件付き独立性とグラフ構造との対応関係を保証していかなければならない。そのために機能するのが、いわゆる「d分離(d-separtion)」である。このd分離という概念は、エッジによる「結合(connections)」を次の三つに区別することで記述されている。

逐次結合

一つ目は「逐次結合(serial connections)」である。ノード$$X$$、$$Y$$、$$Z$$が$$X \rightarrow Y \rightarrow Z$$というエッジを結ぶ場合、$$X$$から$$Y$$、および$$Y$$から$$Z$$までの結合は逐次結合である。観察者が何の情報も有していない初期状態の場合、$$X$$は$$Y$$と$$Z$$に影響を与え、更に$$Y$$は$$Z$$に影響を与える。一方、$$Y$$の状態が既知となった場合、パスはブロックされる。$$X$$と$$Z$$は独立になる。このような場合に、$$X$$と$$Z$$は$$Y$$を所与としてd分離である。

分岐結合

二つ目は「分岐結合(diverging connections)」である。$$X \rightarrow Y$$、$$X \rightarrow Z$$の時、$$X$$と$$Y$$および$$Z$$の結合は分岐結合である。因果的効果として観れば、$$X$$は$$Y$$と$$Z$$を区別した場合の「排除された第三項」である。もし$$Y$$と$$Z$$の間に因果関係があるかのように思えたならば、それは疑似相関である。この場合、$$Y$$と$$Z$$は$$X$$を所与としてd分離である。

合流結合

三つ目は「合流結合(converging connections)」である。これは$$Y \rightarrow X$$、$$Z \rightarrow X$$のように、$$X$$が$$Y$$と$$Z$$の合流点となる場合、一連のノード間の結合は合流結合となる。観察者が$$X$$についての何の情報も有していない初期状態の場合、$$Y$$と$$Z$$のうちいずれか一方の変数についての情報を得ても、他方の変数の観察には何ら影響を与えない。一方、$$X$$についての情報が得られた後は、一方の情報が何であれ、それが他方の観察に影響を及ぼす。この場合、$$Y$$と$$Z$$は$$X$$を介してd分離である。

形式としてのエビデンス

観察者が変数、特にこの場合は確率変数についての情報を得た場合、観察者はその変数についての「エビデンス(evidence)」を獲得したことになる。ここでいうエビデンスとは、その確率変数の状態についての確からしさである。確率変数の状態は、その変数の値を知ることで特定される。観察者がある変数の値を観測した時、その変数は「インスタンス化される(instantiate)」。確率変数の値それ自体を示すエビデンスは特に「ハードエビデンス(hard evidence)」と呼ぶ。一方、その値が確率値として示される場合、そのエビデンスは「ソフトエビデンス(soft evidence)」と呼ぶ。

エビデンスとインスタンス化という概念は、d分離の定義の再記述を可能にする。グラフィカルモデルにおける二つの確率変数$$X$$と$$Y$$の全てのパスに存在する次のような変数$$V$$がある場合に、d分離が生じている。

– 逐次結合あるいは分岐結合で$$V$$がインスタンス化されている場合
– 合流結合で$$V$$あるいは$$V$$の下位ノードがインスタンス化されていない場合

バックドア基準とフロントドア基準の差異

グラフィカルモデルは上述した因果的効果の識別可能性条件を明確化する機能も持つ。「介入」の操作$$do(Z=z)$$を前提とするなら、因果的効果$$p(Y=y \mid do(Z=z))$$を定量的に評価するためには、この$$Y$$と$$Z$$の区別によって「排除された第三項」を観察しなければならない。因果的効果が識別可能となるのは、因果的効果が観測変数の同時分布によって記述される場合である。

非循環有向グラフ$$G$$において、$$Z \rightarrow X$$、$$Z \rightarrow Y$$、そして$$X \rightarrow Y$$が成り立つ時、$$Z$$の変化が及ぼす$$Y$$への影響は直接的な影響とは限らず、$$X$$を介した間接的な影響も生じる。$$Z \rightarrow Y$$の因果的効果のみを計測する場合、$$Z \rightarrow X$$と$$X \rightarrow Y$$から成る間接的なパスを特に「バックドアパス(Backdoor path)」と呼ぶ。$$Z \rightarrow Y$$の因果的効果を知るためには、このバックドアパスの影響を無害化しなければならない。そのために必要となるのが、$$X$$に対する「介入」の操作である。この時の$$X$$のように、バックドアパスを生み出し、疑似相関の原因となっている因子を特に「バックドア基準(Backdoor criterion)」と呼ぶ。因果的効果を識別するためには、このバックドア基準に照準を定めた「介入」の操作をまず施さなければならない。

より厳密に言い換えるなら、バックドア基準を満たす条件はd分離の概念によって再記述できる。非循環有向グラフ$$G$$において、$$X$$は$$Y$$の子孫ではない場合、次の二つの条件を満たす変数集合$$Z$$は$$X$$と$$Y$$について「バックドア基準」を満たす。

1. $$X$$から$$Z$$への任意の要素への有向パスが存在しない。
2. $$G$$より、$$X$$から向けられるエッジを全て取り除いたグラフにおいて、$$Z$$が$$X$$と$$Y$$をd分離する。

一方、因果的効果が識別可能であるための十分条件としては、「フロントドア基準(Front-door criterion)」がある。次の三つの条件を満たす変数集合$$Z$$は$$X$$と$$Y$$についてフロントドア基準を満たす。

1. $$X$$から$$Y$$への任意の有向パス上に$$Z$$の要素が存在する。
2. $$G$$より、$$X$$から向けられるエッジを全て取り除いたグラフにおいて、空集合は$$X$$と$$Z$$における任意の要素をd分離する。
3. $$G$$より、$$Z$$の任意の要素から向けられるエッジを全て取り除いたグラフにおいて、$$X$$は$$Z$$の任意の要素と$$Y$$をd分離する。

$$Z$$から$$Y$$への因果的効果を識別するためには、$$Z$$と$$Y$$の区別によって「排除された第三項」を適切に無視しなければならない。適切に無視するというのは、その第三項による影響を無害化した上で無視するということである。そのためには「介入」の操作が必要になる。だがこの操作は原理上如何なる変数に対しても適用可能である。バックドア基準とフロントドア基準は、この「介入」の操作対象を絞り込む際に機能する。単純化して観れば、多くの場合、「排除された第三項」となるのは、$$Z$$と$$Y$$の中間変数、$$Y$$と結ばれていない$$Z$$の先祖、$$Z$$と結ばれていない$$Y$$の子孫、そして$$Z$$と$$Y$$の合流点である。単純化して言えば、これらの要素を取り除いて残ったノードが、「介入」の操作対象になり得る。

問題解決策:ベイジアンネットワーク

ベイズ主義の思想的影響下でモデル化されている「ベイジアンネットワーク(Bayesian Network)」は、d分離の概念により、グラフが真の条件付き独立性を表現し得ない可能性を無害化している。ベイジアンネットワークの設計思想においては、グラフで表現可能な条件付き独立性だけを理解できれば良いと考えられる。その根底にある理念は、あらゆる因果関係がグラフ幾何的に表現可能であるという仮定を導入している。

$$N$$個の確率変数集合$$x = \{x_1, …, x_N\}$$を有するベイジアンネットワークは、$$x$$に対応するノード集合によって構造化された「非循環有向グラフ(Directed Acyclic Graph: DAG)」のネットワーク構造$$G$$と、$$G$$の各エッジに対応する条件付き確率のパラメタ集合$$\theta = p(x_i \mid \prod_i, G) (i = 1, …, N)$$によって構成される。

ベイジアンネットワークの機能の一つは、同時確率分布$$p(x)$$の近似を獲得できる点にある。ネットワーク構造はDAGであるため、子ノードの存在しないノード$$x_A$$が少なくとも一つ以上存在している。仮にこの$$x_A$$をネットワーク構造から除去する場合、連鎖規則により、$$p(x \backslash \{x_A\})$$は$$p(x_A \mid \prod_{x_A})$$を除く全ての条件付き確率の積となる。

$$p(x) = p(x_A \mid x \backslash \{x_A\}) p(x \backslash \{x_A\})$$

$$x_A$$は$$\prod_{x_A}$$を所与として$$x \backslash (\{x_A\} \cup \prod_{x_A})$$とd分離である。したがって、

$$p(x) = p(x_A \mid x \backslash \{x_A\})p(x \backslash \{x_A\}) = p(x_A \mid {\prod}_{x_A})p(x \backslash \{x_A\})$$

$$p(x \backslash \{x_A\})$$についても同様に変形できる。同時確率分布は親ノードの変数を所与とする全ての条件付き確率の積となる。

$$p(x \mid G) = \prod_i p(x_i \mid {\prod}_i, G)$$

このように、ベイジアンネットワークは非循環有向グラフとd分離の仮定のみで同時確率分布の近似を求める統計モデルとして機能する。このベイジアンネットワークの有用性は同時確率分布を直接的に推定する場合と比べれば、際立ってくる。$$m$$個の値を取る変数が$$N$$個ある場合、その同時確率分布を推定する場合は$$m^N$$個のパラメタを推定しなければならない。一方、ベイジアンネットワークの場合は$$p(x \mid G)$$のデータから推定するだけであるため、計算に必要なデータの個数は圧倒的に少数で済む。ただし、ベイジアンネットワークの$$p(x \mid G)$$が前提としているのは、あくまでもDAGである。ネットワーク構造が循環性を許容する場合、同時確率分布の条件付き確率の積は使えない。循環しているノード間については、同時確率分布を近似することはできないためである。

問題解決策:因果ダイアグラム

確率変数間の因果関係をデータの生成過程として記述し、その因果関係をDAGで表現する場合、そのグラフィカルモデルはとりわけ「因果ダイアグラム(Causal Diagram)」と呼ばれる。$$N$$個の確率変数の有限集合$$\mathbf {V} = \{x_i, …, x_N\}$$によって構成されたDAGのグラフ$$G$$は、$$G$$が確率変数間の関連を構造方程式モデル$$x_i = g_i (p(x_i), e_i) (i = 1, …, N)$$を前提とすると共に、各確率変数がこの構造方程式モデルの関連に従って自律的に生成される場合、$$G$$は因果ダイアグラムとなる。ここで、$$e_i$$は誤差変数で、$$p(x_i)$$は$$G$$における$$x_i$$の親ノード全体から構成された集合で、$$G$$における$$x_i$$の原因として位置付けられる。$$x_i$$の構造方程式モデルは、因果的効果を記述する上では、ノンパラメトリックでもパラメトリックでも構わない。

確率変数間の関連が上記の構造方程式モデルで規定される場合、その同時分布は$$p(x_1, …, x_N) = \prod_{i=1}^{N} p(x_i \mid p(x_i))$$と、逐次的に因数分解できる。この因数分解が可能な場合に、因果ダイアグラム$$G$$は幾つかの条件付き独立性を成り立たせている。これについてはベイジアンネットワーク同様、d分離の概念で記述される傾向にある。この意味で、因果ダイアグラムもまた、条件付き独立性の関連を視覚化するグラフィカルモデルであるのように思える。

しかし、因果ダイアグラムが視覚化しているのは、条件付き独立性の関連であるというよりは、データの生成過程である。実際、ベイジアンネットワークにおける無向エッジは、そこで結ばれるノード同士が条件付き独立性の関連にあることを意味する。一方、因果ダイアグラムにおける無向エッジは、そこで結ばれるノード同士には如何なる直接的な因果関係も存在しないことを意味する。この差異は、逆の場合も同様である。ベイジアンネットワークにおける有向エッジは条件付きな依存関係を指し示しているのに対して、因果ダイアグラムにおける有向エッジは直接的な因果関係が存在する可能性を指し示している。因果ダイアグラムは、因果関係が存在する場合には、その可能性を示す。これに対し、因果関係が存在しない場合には、より直接的な強い意味で、その不在を主張する。因果ダイアグラムが注力しているのは、因果関係の存在を特定することではなく、因果関係が存在しないことを根拠付けることなのである。

因果ダイアグラムがベイジアンネットワークと異なるのは、データの生成過程を表現する点にある。因果ダイアグラムでは、この生成過程に自律性を見出す。つまり各確率変数は自律的に生成されているという想定に立つのである。それは、構造方程式モデルにおける各要素同士の間には従属関係が無いということを意味する。更に、自律的であるというのは、この構造方程式モデルの系(System)が外部環境による「介入」のような人為的操作や自然発生的な変異の影響を受けたとしても、構造方程式モデルの全体の構成が変異する訳ではないということも意味する。これは、各要素間に依存関係が無いためでもある。ある一部の要素が変化したとしても、その他の要素が変化するとは限らない。

参考文献

– Bollen, K. A. (1989). Structural equations with latent variables (Vol. 210). John Wiley & Sons.
– Buntine, W. (1991). Theory refinement on Bayesian networks. In Uncertainty proceedings 1991 (pp. 52-60). Morgan Kaufmann.
– Glymour, M. M., & Greenland, S. (2008). Causal diagrams. Modern epidemiology, 3, 183-209.
– Heckerman, D. (2008). A tutorial on learning with Bayesian networks. Innovations in Bayesian networks, 33-82.
– Koller, D., & Friedman, N. (2009). Probabilistic graphical models: principles and techniques. MIT press.
– Pearl, J. (2009). Causal inference in statistics: An overview. Statistics surveys, 3, 96-146.
– Splawa-Neyman, J., Dabrowska, D. M., & Speed, T. P. (1990). On the application of probability theory to agricultural experiments. Essay on principles. Section 9. Statistical Science, 465-472.
– Rubin, D. B. (2005). Causal inference using potential outcomes: Design, modeling, decisions. Journal of the American Statistical Association, 100(469), 322-331.
– 鈴木譲, 植野真臣(著)『確率的グラフィカルモデル』共立出版、2016