統計的因果探索問題における「グラフニューラルネットワーク」の機能

問題設定：統計的因果探索問題

ベイジアンネットワークの構造学習は、独立性検定や条件付き独立性検定による消去法的な探索を前提とした「スコア準拠の構造学習」として実行される。この消去法的な探索は、扱い難い探索空間の複合性を縮減する。しかし、大規模なネットワークを対象とした構造学習では、多くの場合、構造についての付加的な仮定を利用した近似探索が必要になる。

ニューラルネットワークは、「普遍近似定理(Universal approximation theorem)」により、近似探索を可能にする「関数近似器(function approximator)」として機能することが知られている。この関連からYu, Y., et al. (2019)は、DAGの制約条件を満たすサンプリング分布を適切に捕捉することを目指した「グラフ準拠の深層生成モデル(graph-based deep generative model)」を提案している。このモデルは、「自己符号化器(Auto-Encoder)」に変分推論の機能を搭載した「変分自己符号化器(Variational Auto-Encoder: VAE)」として設計されている。

問題解決策：変分自己符号化器

$$m$$個のノードから構成されたDAGの重み付けられている隣接行列を$$A \in \mathbb{R}^{m \times m}$$、$$m$$個の確率変数の同時確率分布のサンプルを$$X \in \mathbb{R}^{m \times d}$$、そしてノイズの行列を$$Z \in \mathbb{R}^{m \times d}$$とする。この時、線形構造方程式モデルは次のようになる。

$$X = A^TX + Z$$

ここで、行列$$A$$は、因果順序が既知であれば、行と列の並び替えにより、厳密な上三角形に置換できる行列を表わす。単位行列を$$I$$とするなら、上記の方程式は次のように再記述できる。

$$X = (I – A^T)^{-1}Z$$

$$A$$をパラメタとして持ち、$$Z$$を引数として受け取る関数を$$f_A$$とするなら、上記の方程式は更に次のように再記述できる。

$$X = f_{A}(Z)$$

この時、$$Z$$はノードの特徴に関連した観測データ点となり、$$X$$は$$f_A$$によって出力される高次元の特徴写像と捉えられる。Yu, Y., et al. (2019)は、この抽象化により、DAGの線形構造方程式モデルをニューラルネットワークのアフィン変換の形式へと纏め上げた。この形式は、様々なニューラルネットワークの深層アーキテクチャに適用することができる。仮に$$f_1$$と$$f_2$$という二層のニューラルネットワークで表現するなら、上記の方程式は、例えば次のような構造として設計できる。

$$X = f_2((I – A^T)^{-1}f_1(Z))$$

$$f_2$$が正則行列であるなら、この方程式は線形構造方程式モデルの一般化した形式としても再記述できる。

$$f_2^{-1}(X) = A^Tf_2^{-1}(X) + f_1(Z)$$

Yu, Y., et al. (2019)の変分自己符号化器のモデリングは、この一般化された形式を具象化することで進められている。

変分自己符号化器のモデル学習

分布$$Z$$とサンプル$$X^1, …, X^n$$が得られた時、生成モデルとしての$$X = f_2((I – A^T)^{-1}f_1(Z))$$は、以下のような対数尤度最大化によって学習すると考えられる。

$$\frac{1}{n}\sum_{k=1}^{n}\log p(X^k) = \frac{1}{n}\sum_{k=1}^{n}\log \int_{}^{}p(X^k \mid Z)p(Z)dZ$$

しかし、この最大化問題は計算が困難であるため、やはり変分推論が採用される。すると結局、変分事後分布$$q(Z \mid X)$$を実際の事後分布$$p(Z \mid X)$$へと近似させるべく、上記の対数尤度最大化問題を変分下限最大化問題へと再設定し、更に真の分布とのKLダイバージェンス最小化問題へと再設定される。

$$\mathcal{L}_{ELBO} = \frac{1}{n} \sum_{k=1}^{n}\mathcal{L}_{ELBO}^k$$

$$\mathcal{L}_{ELBO}^k \equiv E_{q(Z \mid X^k)} \log p(X^k \mid Z) – D_{KL}\left(q(Z \mid X^k) \mid \mid p(Z)\right)$$

$$D_{KL}\left(q(Z \mid X^k) \mid \mid p(Z\mid X^k)\right) \geq 0$$

変分自己符号化器は、この変分下限最大化問題からKLダイバージェンス最小化問題へと再設定された問題の枠組みの中で機能する。変分自己符号化器における符号化器(encoder)は、確率密度関数$$q(Z \mid X^k)$$に倣い、観測データ点$$X^k$$を潜在変数$$Z$$へと写像する。一方、変分自己符号化器における復号化器(decoder)は、確率密度関数$$q(X^k \mid Z)$$に倣い、$$Z$$から$$X^k$$を再構成する。$$X^k$$の出力が復号化器の機能であるのならば、その構造方程式は$$X = f_2((I – A^T)^{-1}f_1(Z))$$と等価になる。一方、これに対して符号化器の構造方程式は、次のようになる。

$$Z = f_4((I – A^T)f_3(X))$$

ここで、$$f_3$$と$$f_4$$はそれぞれ$$f_2$$と$$f_1$$を反転した深層アーキテクチャとして構造化されているニューラルネットワークである。

誤差関数

この符号化器と復号化器の構造を前提としただけでは、変分自己符号化器と他の一般的な自己符号化器との差異がわからなくなる。ここで想起しなくてはならないのは、$$X^k$$と$$Z$$がそれぞれ$$m \times d$$の行列であるという点だ。単純化して、事前分布を次のように標準化された行列正規分布$$p(Z) = \mathcal{M}\mathcal{N}_{m \times d} (0, I, I)$$によってモデル化されると仮定する。復号化器のモデルにおいて、$$f_3$$が多層のパーセプトロンで、$$f_4$$が恒等写像であるとする。この時、変分事後分布$$q(Z \mid X)$$は平均値$$M_Z \in \mathbb{R}^{m \times d}$$と標準偏差$$S_Z \in \mathbb{R}^{m \times d}$$のガウス分布に従う。この分布の各パラメタは次のように計算される。

$$[M_Z \mid \log S_Z] = (I – A^T)MLP(X, W^1, W^2)$$

ここで、$$MLP(X, W^1, W^2) = ReLU(XW^1)W^2$$で、$$ReLU$$はReLu関数を、$$W^1$$と$$W^2$$は二層から成るパーセプトロンの各層における重みパラメタを表わす。

一方で、符号化器のモデルにおいては、$$f_1$$は恒等写像で、$$f_2$$が多層パーセプトロンとなる。この時、尤度$$p(X \mid Z)$$は平均値$$M_X \in \mathbb{R}^{m \times d}$$と標準偏差$$S_X \in \mathbb{R}^{m \times d}$$のガウス分布に従う。この分布の各パラメタは次のように計算される。

$$[M_X \mid \log S_X] = MLP((I – A^T)^{-1}Z, W^3, W^4)$$

ここで、$$W^3$$と$$W^4$$は重みパラメタを表わす。符号化器と復号化器のそれぞれの計算を前提とするなら、上述した変分法におけるKLダイバージェンスは次のようになる。

$$D_{KL}\left(q(Z \mid X) \mid \mid p(Z)\right) = \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^d(S_Z)^2_{ij} + (M_Z)^2_{ij} – 2 \log (S_Z)_{ij} – 1$$

尚、再構成の精度については、次のようなモンテカルロ法による近似によって得られる。

$$E_{q(Z \mid X)}[\log p(X \mid Z)] \approx \frac{1}{L}\sum_{l=1}^L\sum_{i=1}^m\sum_{j=1}^d – \frac{\left(X_{ij} – (M_X^{(l)})_{ij}\right)^2}{2(S_X^{(l)})^2_{ij}} – \log (S_X^{(l)})_{ij} – c$$

ここで、$$c$$は定数である。また、$$M_X^{(l)}$$と$$S_X^{(l)}$$は、モンテカルロ法によってサンプリングされた$$Z^{(l)} \sim q(Z \mid X), \ l = 1, …, L$$を観測した符号化器の出力である。

以上のように、構造方程式モデルにおいてはノイズとして記述されていた$$Z$$は、変分自己符号化器においては潜在変数として記述されている。変分自己符号化器の場合、$$Z$$のカラム次元は$$d$$とは異なる場合がある。ニューラルネットワーク最適化問題の枠組みでは、$$Z$$のサイズを変更した場合の影響は、重み行列のサイズにしか及ばない。データの次元が想定よりも小さいことが判明した場合には、$$d$$よりも小さな値を指定することもできる。

ノイズを潜在変数として扱うこの変分自己符号化器は、構造方程式モデルのみならず、他の一般的な自己符号化器からも一線を画している。通常の自己符号化器を想定した場合、その再構成誤差関数は次のようになる。

$$\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^d (X_{ij} – \hat{X}_{ij})^2 + \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^d Z_{ij}^2$$

ここで、第一項は観測データ点の再構成誤差で、第二項は潜在空間に関連した正則項である。この再構成誤差は、その正負を反転させれば、上述した再構成の精度$$E_{q(Z \mid X)}[\log p(X \mid Z)]$$にも関連していることがわかる。そして、もし標準偏差$$S_X$$が$$1$$であるなら、平均値$$M_X$$は$$\hat{X}$$として得られる。そして、変分事後分布からモンテカルロ法のサンプルが一つだけ抽出される。更に、上記の正則項は、$$S_Z = 1$$で$$M_Z$$が$$Z$$として得られるならば、変分下限最大化問題におけるKLダイバージェンス$$D_{KL}\left(q(Z \mid X) \mid \mid p(Z)\right)$$に照応する。

更に、$$f_1$$から$$f_4$$までの、恐らくは非線形な特徴写像を取り除くなら、$$Z = (I – A^T)X$$と$$\hat{X} = (I – A^T)^{-1}Z$$が得られる。この組み合わせは、完全な再構成へと帰結していく。そして、誤差関数は次のような最小二乗法(least squares loss)の関数に変換できる。

$$\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^d Z_{ij}^2 = \frac{1}{2}\mid \mid (I – A^T)X \mid \mid ^2_F$$

DAGとしての制約条件

変分下限最大化問題の誤差関数にせよ、再構成の誤差関数にせよ、$$A$$が非循環であるという制約を保証している訳ではない。この論点でYu, Y., et al. (2019)は、Zheng, X., et al. (2018)が提案しているNO TEARS(Non-combinatorial Optimization via Trace Exponential and Augmented lagRangian for Structure learning)に倣い、変分自己符号化器のネットワーク構造や誤差関数から、観測データ点のデータ構造へと観点を切り替えている。観測データ点のデータ構造は、DAGの制約条件から、任意の非負の隣接行列$$B$$であると言える。この$$B$$における$$k$$乗した$$(i, j)$$の要素が正である場合、ノード$$i$$とノード$$j$$との間に、長さ$$k$$の経路が存在することになる。つまり、$$B^k$$の対角要素が正であるということは、そこに循環性が存在していることを意味する。定式化するなら、この条件は次のようになる。

$$\sum_{k=1}^d \frac{\mathrm{tr} B^k}{k!} = 0$$

ここで、$$d$$は$$B$$の行数である。もし$$B$$がDAGの条件を満たさない場合、上式の左辺の値は$$0$$にはならなくなる。

$$\sum_{k=1}^d \frac{\mathrm{tr} B^k}{k!} > 0$$

そのため、この項を誤差関数として導入すれば、$$B$$がDAGになるように、モデルに学習させることが可能になる。上述した変分自己符号化器における行列$$A$$は、非負性を満たす訳ではない。しかしここは単純に、$$B = A \circ A$$とすれば、変分自己符号化器のモデルにNO TEARSの誤差関数を接続させることが可能になる。

## 機能的等価物：いわゆる「グラフニューラルネットワーク」

Yu, Y., et al. (2019)は、以上のような設計により、DAGの条件を考慮した変分自己符号化器をモデリングしている。このモデルにはDAG-GNN(DAG Graph Neural Networks)という固有名詞が割り当てられている。しかしながら、モデルの深層アーキテクチャそれ自体は変分自己符号化器と大差が無い。DAGの条件を満たすために追加されたNO TEARSの誤差関数も、実際には「グラフニューラルネットワーク」の分野で導入された訳ではなく、因果探索問題の枠組みにおける構造方程式モデルの誤差関数として導入されている。この点で言えば、Yu, Y., et al. (2019)のモデルの差別化要因は、「グラフニューラルネットワーク」にあるのではない。このモデルは、あくまでも因果探索という「問題の歴史」の中で設計されたモデルの一種である。

概念史を冷徹に観察するなら、「グラフニューラルネットワーク」は、「深層学習(Deep Learning)」に匹敵するほどのバズワードと化している。元来グラフニューラルネットワークという概念は、ノードやエッジで構成されたグラフ構造を学習するニューラルネットワークとして記述されてきた。その機能は、ノードの分類、グラフの分類、エッジあるいはリンク(link)の予測、グラフ生成モデルの設計など、多岐に渡る。このことが意味するのは、グラフニューラルネットワークは様々な問題設定に対する問題解決策として機能するということである。しかしそれ故に、グラフニューラルネットワークは問題の枠組みを曖昧にしてしまっている。例えばノードやグラフの分類問題で導入されるグラフニューラルネットワークが、必ずしもグラフ生成のモデリングにおいても機能するとは限らない。一口に「グラフニューラルネットワーク」と述べても、その機能は問題設定に依存する。

グラフ埋め込み法

一方でグラフニューラルネットワークの理論の中には、ノードの分類からグラフ生成モデリングまでのほぼ全ての問題設定に関連する理論も存在する。例えば「グラフ埋め込み法(graph embedding)」(Cui, P., et al., 2018)は、グラフのノードに関わる情報を低次元のベクトルで表現する。ニューラルネットワークとの関連で言えば、この手法はグラフについての表現学習(representation learning)として機能する。グラフ埋め込み法で目指されるのは、$$N$$個の要素から成るノード集合$$\mathbf {V} = \{V_1, V_2, …, V_N\}$$と各ノードのエッジ集合$$\mathbf {E}$$から構成されたグラフ$$G = (\textbf{V}, \textbf{E})$$において、ノードの近傍性を保持したまま、$$k(グラフ畳み込み

「グラフニューラルネットワーク」という概念は、自然言語処理のみならず、画像認識の分野でも記述されている。いわゆる「グラフ畳み込み(Graph Convolution)」は、画像の分類問題で導入される傾向にあった「畳み込みニューラルネットワーク(Convolutional Networks)」をグラフ構造に適応させるためのアルゴリズムである。表現学習問題の枠組みとして観れば、このグラフ畳み込みは、グラフ埋め込み法と機能的に等価である。グラフ構造の表現力を獲得した畳み込みニューラルネットワークは、特に「グラフ畳み込みニューラルネットワーク(Graph Convolutional Network: GCN)」と呼ばれている。

通常の畳み込み演算は、画像のような格子状のデータ構造に対して導入される。一方、グラフ構造を隣接行列のようなデータ構造で表現した場合、その行列は局所的に疎になる場合もあれば、DAGのような下三角形ないし上三角形になる場合もある。ソーシャルネットワークやナレッジグラフなどのように、多くの現実世界のグラフデータセットは、非常に広いノードの次数分布(degree distributions)を有するグラフの局所的な近傍構造を観測データ点とした場合、そもそも高い表現力を有している畳み込みニューラルネットワークでは、過剰適合のリスクが高まる。GCNを提案しているKipf, T. N., & Welling, M. (2016)は、グラフ畳み込みが、この過剰適合の問題解決策として機能すると、直感的に(intuitively)に期待している。

Kipf, T. N., & Welling, M. (2016)が導入している問題解決策は、信号処理の分野で導入されていた問題解決策の機能的な再利用となっている。それは、信号を周波数成分に分解し、その位相や強度を抽出する「スペクトル解析(spectral analysis)」を応用した事例である。Kipf, T. N., & Welling, M. (2016)はこのスペクトル解析に用いられるフーリエ変換(Fourier transform)をグラフを対象としたスペクトル解析に応用する。しかしこの手法では、グラフ構造全体を扱い、隣接行列から固有ベクトルを抽出する計算処理が伴うために、計算コストが懸念される。またこの手法は、グラフ構造が可変ではないという半ば暗黙の了解に基づいて設計されている。また、Kipf, T. N., & Welling, M. (2016)が想定しているのは、基本的に無向グラフである(Kipf, T. N., & Welling, M., 2016, p8.)。あるいはTong, Z., et al. (2020)やHu, W., et al. (2021)のように、有向グラフを対象としたグラフ畳み込みの手法を提案する者たちもいるが、その理論が因果探索問題の枠組みでも機能し得るのかを判断するには、また別の機能分析が必要になる。

グラフ注意機構

グラフ畳み込みの決定的な弱点は、同一の近傍のノードに異なる重要度を割り当てることができない点である。この演算では基本的に近傍の情報を等質化してしまう。近傍ごとに異なる重み付けを行ないたくても、予めハイパーパラメタや初期化戦略で補うしかなかった。これに対してVeličković, P., et al. (2017)は、グラフ構造を対象としたAttentionモデルを提案している。Attentionモデルは、自然言語処理のニューラルネットワーク言語モデルにブレークスルーをもたらしたTransformersのモデリングにおける中核を成している。このモデルは、自身が＜注意を向ける対象＞と＜注意を向けない対象＞を自律的に区別する。そうすることで、データのどの部分に注意すべきかをモデル自身で判断することを可能にしている。

Attentinoの機構は、グラフ内の全てのエッジに共通の手法で適用される。そのため、大域的なグラフ構造や全てのノードを参照していない場合でも、この機構は適用することができる。この特性は既存の「グラフニューラルネットワーク」の手法に対して大きな差別化要因になっている。例えばこの機構により、「グラフニューラルネットワーク」の対象となるグラフは無向である必要が無くなる。またこの機構は、帰納的な学習により、学習中は全く見えない(unseen)未知のグラフ構造にも適用できる(Veličković, P., et al., 2017, p5.)。

Veličković, P., et al. (2017)のモデリングは、グラフ構造に対するAttentionを実現する「グラフAttention層(Graph Attention Layer)」を設計するところから始まる。ノード数を$$N$$、各ノードの特徴の数を$$F$$とするなら、ノード集合は$$\textbf{h} = \{\vec{h}_1, …, \vec{h}_N\}, \vec{h}_i \in \mathbb{R}^F$$と表記できる。この層では、このノード集合$$\textbf{h}$$とグラフを入力として受け取り、新たなノード集合$$\textbf{h}’ = \{\vec{h’}_1, …, \vec{h’}_N\}, \vec{h’}_i \in \mathbb{R}^{F’}$$を出力する。この入出力の写像を可能にするためには、入力された特徴集合を表現するための、最低でも一つの学習パラメタを有した線形変換器が必要になる。この関連からVeličković, P., et al. (2017)は、重み行列$$\textbf{W} \in \mathbb{R}^{F’ \times F}$$を各ノードに割り当てている。次に、Attentionのモジュール$$\alpha : \mathbb{R}^{F’} \times \mathbb{R}^{F’} \rightarrow \mathbb{R}$$に基づいて、以下のようなAttention係数$$e_{ij}$$を計算する。

$$e_{ij} = \alpha (\textbf{W}\vec{h}_i, \textbf{W}\vec{h}_j)$$

ここで、$$i$$と$$j$$はノードを特定する番号を表わす。双方の値は任意となるものの、グラフ上でノード$$i$$の近傍となる$$j \in N_i$$に対してのみ$$e_{ij}$$を計算するグラフ構造を加味した特殊なモジュールとなる「マスクされたAttention(Masked Attention)」を導入している。「グラフAttention層」は、ノード$$i$$からの近傍のうち、$$i$$自身も含めた距離$$1$$の近傍に言及する。そして、ノード間の差異を規格化するために、次のようなソフトマックス関数が追加されている。

$$\alpha_{ij} = \frac{\exp (e_{ij})}{\sum_{k \in N_i}^{}\exp(e_{ij})}$$

説明可能なAI？

Veličković, P., et al. (2017)は、学習済みのAttentionモデルの重み行列を分析すれば、「解釈可能性(interpretability)」が高まることも期待している。解釈可能性とは、文字通り人間がモデルの振る舞いを解釈できることを意味する。これはいわゆる「説明可能なAI(Explainable AI)」を成立させるための条件として知られている。「説明可能なAI」とは、人工知能(Artificial Intelligence: AI)が出力した学習結果や推論結果に関して、人間が納得できる根拠を示すことができるAIを意味する。モデルが解釈可能である場合、そのモデルは「説明可能性(Explainability)」を担保していると見做される。

「説明可能なAI」や「解釈可能性」に対する期待は、「深層学習」のブラックボックス的な振る舞いに対する反動として生じている。Yuan, H., et al. (2020)がサーベイしているように、「グラフニューラルネットワーク」は全般的に「説明可能性」との関連からも期待を寄せられている分野である。

しかしながら、「グラフニューラルネットワーク」に限られたことではないが、「説明可能性」の意味論はそれ自体複合的な概念の集合体として記述される傾向にある。一口に「説明」と述べても、インスタンス水準での説明(Instance-level Explanations)もあり得れば、モデル水準での説明(Model-level Explanations)もあり得る。またその「説明」の範囲には、学習過程が含まれる場合もあれば、含まれない場合もある。また、そもそもの「説明」の形式は、当のモデルが前提としている問題設定にも左右される。「グラフニューラルネットワーク」に限定して観ても、ノードの分類、グラフの分類、エッジあるいはリンクの予測、グラフ生成モデルの設計など、問題設定は多岐に渡るのであった。「説明」の対象は、それ自体複合的である。

したがって、「解釈可能性」、「説明可能性」、あるいは「説明可能なAI」といった概念は、決して従来の「深層学習」の背景にあった数学、統計学、統計力学などのような科学・学問の理論や方法を「理解できない者たち」への救済措置になる訳ではない。「深層学習」それ自体の理論や方法にせよ、ブラックボックス的なモデルの説明可能性を担保する理論にせよ、「理解することがそれなりに困難である」という点では、変わりないのである。

バズワードとしての「グラフニューラルネットワーク」

以上のような概念史を俯瞰すればわかるように、「グラフニューラルネットワーク」の歴史は、同時代に流行していた手法の機能的な再利用によって成り立っている。Skip-Gramが流行している時代にはDeepWalkやnode2vecが、画像認識の畳み込みに基づいた「深層学習」が支配的であった時代にはグラフ畳み込みが、Transformersをはじめとする注意機構が畳み込みニューラルネットワークを相対化した時代にはグラフ注意機構が、「説明可能なAI」が流行し始めてからは「説明可能なグラフニューラルネットワーク」の可能性が、それぞれ提示されている。これらの事例が暗示しているのは、「グラフニューラルネットワーク」の概念史が、「深層学習」の概念史の言わば「後追い」になっているという点である。

「深層学習」同様、「グラフニューラルネットワーク」もまた、数学、統計学、統計力学など、多種多様な他分野の理論の組み合わせによって成り立っている。その結果、「深さ」を持つニューラルネットワークであれば他所の何の理論を再利用していようとも「深層学習」と呼ばれてきたのと同じように、「グラフ」を扱う「ニューラルネットワーク」であれば何であれ「グラフニューラルネットワーク」と称されてきた訳だ。殊更多種多様なモデルが「グラフニューラルネットワーク」という名称で語られる傾向にあるのは、この用語が、「深層学習」同様に、バズワードと化しているためである。

したがって、「グラフニューラルネットワーク」が統計的因果探索問題の枠組みにおける問題解決策として機能するという認識には、全く何の必然性も無い。そう考えなければならない積極的な動機付けは、ほとんど皆無である。例えば上述した通り、グラフ畳み込みを素朴に応用するだけでは、DAGの構造を表現することができない。「グラフニューラルネットワーク」と称される「何か」が統計的因果探索問題の解決策として機能するか否かは、その「何か」についての詳細を確認しない限り、判断することが不可能となる。もし統計的因果探索問題の解決策となり得る「グラフニューラルネットワーク」を発見できたとしても、他の構造方程式モデルやベイジアンネットワークのような無数の機能的に等価な問題解決策との比較を介して観察されない限りは、その「グラフニューラルネットワーク」を採用するための意思決定を進めることができないのである。

参考文献

– Akaike, H. (1973). “Information theory and an extension of the maximum likelihood principle.” In B. N. Petrov and F. Csaki (Eds.), Second international symposium on information theory (pp. 267281). Budapest: Academiai Kiado.
– Akaike, H. (1974). A new look at the statistical model identification. IEEE transactions on automatic control, 19(6), 716-723.
– Akaike, H. (1981). Likelihood of a model and information criteria. Journal of econometrics, 16(1), 3-14.
– Biau, G., & Scornet, E. (2016). A random forest guided tour. Test, 25(2), 197-227.
– Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.
– Bollen, K. A. (1989). Structural equations with latent variables (Vol. 210). John Wiley & Sons.
– Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.
– Bühlmann, P., Peters, J., & Ernest, J. (2014). CAM: Causal additive models, high-dimensional order search and penalized regression. The Annals of Statistics, 42(6), 2526-2556.
– Buntine, W. (1991). Theory refinement on Bayesian networks. In Uncertainty proceedings 1991 (pp. 52-60). Morgan Kaufmann.
– Cai, R., Xie, F., Glymour, C., Hao, Z., & Zhang, K. (2019). Triad constraints for learning causal structure of latent variables. Advances in neural information processing systems, 32.
– Cui, P., Wang, X., Pei, J., & Zhu, W. (2018). A survey on network embedding. IEEE transactions on knowledge and data engineering, 31(5), 833-852.
– Friedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of statistics, 1189-1232.
– Glymour, M. M., & Greenland, S. (2008). Causal diagrams. Modern epidemiology, 3, 183-209.
– Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
– Gretton, A., Bousquet, O., Smola, A., & Schölkopf, B. (2005, October). Measuring statistical dependence with Hilbert-Schmidt norms. In International conference on algorithmic learning theory (pp. 63-77). Springer, Berlin, Heidelberg.
– Gretton, A., Fukumizu, K., Teo, C., Song, L., Schölkopf, B., & Smola, A. (2007). A kernel statistical test of independence. Advances in neural information processing systems, 20.
– Grover, A., & Leskovec, J. (2016, August). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855-864).
– Heckerman, D., Geiger, D., & Chickering, D. M. (1995). Learning Bayesian networks: The combination of knowledge and statistical data. Machine learning, 20(3), 197-243.
– Heckerman, D. (2008). A tutorial on learning with Bayesian networks. Innovations in Bayesian networks, 33-82.
– Hoffman, M., Bach, F., & Blei, D. (2010). Online learning for latent dirichlet allocation. advances in neural information processing systems, 23.
– Hoffman, M. D., Blei, D. M., Wang, C., & Paisley, J. (2013). Stochastic variational inference. Journal of Machine Learning Research.
– Hoyer, P. O., Shimizu, S., Kerminen, A. J., & Palviainen, M. (2008). Estimation of causal effects using linear non-Gaussian causal models with hidden variables. International Journal of Approximate Reasoning, 49(2), 362-378.
– Hu, W., Zhang, C., Zhan, F., Zhang, L., & Wong, T. T. (2021, October). Conditional directed graph convolution for 3d human pose estimation. In Proceedings of the 29th ACM International Conference on Multimedia (pp. 602-611).
– Kalainathan, D. (2019). Generative neural networks to infer causal mechanisms: algorithms and applications (Doctoral dissertation, Université Paris Saclay (COmUE)).
– Kalainathan, D., Goudet, O., Guyon, I., Lopez-Paz, D., & Sebag, M. (2018). Structural agnostic modeling: Adversarial learning of causal graphs. arXiv preprint arXiv:1803.04929.
– Kipf, T. N., & Welling, M. (2016). Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907.
– Koller, D., & Friedman, N. (2009). Probabilistic graphical models: principles and techniques. MIT press.
– LaMont, C. H., & Wiggins, P. A. (2015). Information-based inference for singular models and finite sample sizes: A frequentist information criterion. arXiv preprint arXiv:1506.05855.
– Neapolitan, R. E. (2004). Learning bayesian networks (Vol. 38). Upper Saddle River: Pearson Prentice Hall.
– Nowozin, S., Cseke, B., & Tomioka, R. (2016). f-gan: Training generative neural samplers using variational divergence minimization. Advances in neural information processing systems, 29.
– Maeda, T. N., & Shimizu, S. (2020, June). RCD: Repetitive causal discovery of linear non-Gaussian acyclic models with latent confounders. In International Conference on Artificial Intelligence and Statistics (pp. 735-745). PMLR.
– Maeda, T. N., & Shimizu, S. (2021, December). Causal additive models with unobserved variables. In Uncertainty in Artificial Intelligence (pp. 97-106). PMLR.
– Oprescu, M., Syrgkanis, V., & Wu, Z. S. (2019, May). Orthogonal random forest for causal inference. In International Conference on Machine Learning (pp. 4932-4941). PMLR.
– Pearl, J. (2003). Causality: models, reasoning, and inference. Econometric Theory, 19(675-685):46.
– Pearl, J. (2009). Causal inference in statistics: An overview. Statistics surveys, 3, 96-146.
– Perozzi, B., Al-Rfou, R., & Skiena, S. (2014, August). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 701-710).
– Shimizu, S., Hoyer, P. O., Hyvärinen, A., Kerminen, A., & Jordan, M. (2006). A linear non-Gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7(10).
– Shimizu, S., & Bollen, K. (2014). Bayesian estimation of causal direction in acyclic structural equation models with individual-specific confounder variables and non-Gaussian distributions. J. Mach. Learn. Res., 15(1), 2629-2652.
– Spirtes, P. L., Meek, C., & Richardson, T. S. (2013). Causal inference in the presence of latent variables and selection bias. arXiv preprint arXiv:1302.4983.
– Spirtes, P., Glymour, C. N., Scheines, R., & Heckerman, D. (2000). Causation, prediction, and search. MIT press.
– Splawa-Neyman, J., Dabrowska, D. M., & Speed, T. P. (1990). On the application of probability theory to agricultural experiments. Essay on principles. Section 9. Statistical Science, 465-472.
– Rubin, D. B. (2005). Causal inference using potential outcomes: Design, modeling, decisions. Journal of the American Statistical Association, 100(469), 322-331.
– Schwarz, G. (1978). Estimating the dimension of a model. The annals of statistics, 461-464.
– Tong, Z., Liang, Y., Sun, C., Rosenblum, D. S., & Lim, A. (2020). Directed graph convolutional network. arXiv preprint arXiv:2004.13970.
– Ueno, M. (2012). Robust learning Bayesian networks for prior belief. arXiv preprint arXiv:1202.3766.
– Wager, S., & Athey, S. (2018). Estimation and inference of heterogeneous treatment effects using random forests. Journal of the American Statistical Association, 113(523), 1228-1242.
– Veličković, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2017). Graph attention networks. arXiv preprint arXiv:1710.10903.
– Yu, Y., Chen, J., Gao, T., & Yu, M. (2019, May). DAG-GNN: DAG structure learning with graph neural networks. In International Conference on Machine Learning (pp. 7154-7163). PMLR.
– Yuan, H., Yu, H., Gui, S., & Ji, S. (2020). Explainability in graph neural networks: A taxonomic survey. arXiv preprint arXiv:2012.15445.
– Zeng, Y., Shimizu, S., Cai, R., Xie, F., Yamamoto, M., & Hao, Z. (2021, December). Causal discovery with multi-domain LiNGAM for latent factors. In Causal Analysis Workshop Series (pp. 1-4). PMLR.
– Zheng, X., Aragam, B., Ravikumar, P. K., & Xing, E. P. (2018). Dags with no tears: Continuous optimization for structure learning. Advances in Neural Information Processing Systems, 31.
– 赤池弘次. (1996). AIC と MDL と BIC. オペレーションズ・リサーチ, 41(7), 375-378.
– 鈴木譲, 植野真臣（著）『確率的グラフィカルモデル』共立出版、2016