問題設定:大統領選の「賭けサイト」の予測は、如何に失敗したのか

米大統領選、主要賭けサイトのオッズは? | ロイター | 東洋経済オンライン | 経済ニュースの新基準』によれば、2016年の米大統領選の行く末を予測する「賭けサイト」では、総じて75%以上の確率で民主党のヒラリー・クリントン候補の勝利が見込まれていた。周知のように、この「賭けサイト」の予測は失敗に終わっている。現実にはドナルド・トランプが勝利したからだ。

この「賭けサイト」の予測が如何に失敗したのかを知るためには、ここで言及されている「オッズ(odds)」の概念を正確に把握する必要がある。オッズは確率を別の表現で再記述した概念だ。例えば「ヒラリー・クリントンに勝算がある(odds in favor)」という文言は、「ヒラリー・クリントンの勝つ確率」が「ヒラリー・クリントンの勝たない確率」よりも高いことを指す。

一般的に、オッズは整数比で表現する。例えば「ヒラリー・クリントンの勝つ確率」が75%である場合、オッズは3:1となる。「ヒラリー・クリントンの勝つ確率」が「ヒラリー・クリントンの勝たない確率」よりも3倍高いということを意味している。逆に、「ドナルド・トランプには勝算が無い(odds against)」と述べたい場合、3:1で勝算が無いということになる。

定式化するなら、確率pで勝利する場合のオッズoは、次のようになる。

$$o = \frac{p}{p-1} \tag{1}$$

逆に、オッズから確率を求める場合は、次のようになる。

$$p = \frac{o}{o+1} \tag{2}$$

確率が$$0 \le p \le 1 \tag{3}$$の範囲を取るのに対し、オッズは次のような範囲を取る。

$$0 \le o < \infty \tag{4}$$以上の定式化からもわかるように、適切なオッズの計算は、適切な確率の計算に依存している。また、この逆の依存関係も同時に指摘できる。そうなると、「賭けサイト」の予測が失敗に終わった背景にあるのは、確率論的な問題であると推論できる。そこで、「ベイズ主義」を参照してみたい。

「感染者問題」の「陽性」と「罹患率」に潜む非合理性、「ベイズの定理」からの違反

問題解決策:「ベイズの定理」の通時的解釈

大統領選の「賭けサイト」の予測が如何に失敗に終わったのかを知るための鍵となるのは、時間経過である。オッズを計算するためには確率の計算が必要になる。だがそもそも、確率を計算するためには「情報」が必要になる。

大統領選を巡る「情報」は、マスメディアの機能を担うテレビ局や新聞社などのような組織や、経済システムの証券市場など、様々なドメインから投げ掛けられる。皆が大統領選の勝敗を予測する中で、次々と新しい情報が矢継ぎ早に投げ掛けられる。そのため、適切な確率計算を可能にするには、常に新規性と精度の高い情報を探索して観測し続けなければならない。

「他責」志向の人間に統計学はできない』でも詳述したように、ベイズ主義の理念は、こうした不確実で複合性の高い状況下で観測と推論を反復することによって、より予測の精度を高めていくことにある。つまり、証拠を蒐集すればするほど、真理に近付いていくという、推論を介した世界の学習方法こそが、ベイズの確率論の真髄なのである。

「他責」志向の人間に統計学はできない

この理念に照応するように、『「感染者問題」の「陽性」と「罹患率」に潜む非合理性、「ベイズの定理」からの違反』で詳述した「ベイズの定理」には、時間経過によって情報が更新されていくことを加味した別の表現方法がある。

この表現方法において重要となるのは、「仮説(hypothesis)」と「データ(data)」の区別だ。仮説をH、データをDとするなら、ベイズの定理は次のように再記述できる。

$$P(H \mid D) = \frac{P(H)P(D\mid H)}{P(D)} \tag{5}$$

ここで、$$P(H)$$はデータDを観測する前の仮説の確率を表し、特に「事前確率(prior probability)」と呼ばれる。$$P(H \mid D)$$はデータDを観測した後の仮説Hの確率で、特に「事後分布(posterior probability)」と呼ばれる。$$P(D \mid H)$$は、ある仮説Hの下での観測によってデータDが得られる確率で、尤度に相当する。また、$$P(D)$$は、仮説Hとは無関係に、観測によって得られるデータDの確率を表す。

仮説とデータの区別の下で再記述された「ベイズの定理」は、事前確率に尤度を掛けることで事後確率が計算できることを言い表している。言い換えれば、観測者は、ある仮説Hの下での観測によってデータDを得られた場合に、自身の仮説Hの「確からしさ」を――事前確率から事後確率へと――更新する機会を得ている。

重要なのは、仮説Hの「確からしさ」は、観測によって新しいデータDが得られる度に、更新することが可能であるという点だ。これは次のように、ある時点tの観測によって計算された事後確率が、次の観測時t+1における事前確率として再利用することができるということを意味する。

$$P^{(t+1)}(H \mid D) = \frac{P^t(H)P^t(D\mid H)}{P^t(D)} \ (t = 1, 2, …) \tag{6}$$

この反復的な観測に基づいた確率の更新は、特に「ベイズ更新(Bayesian Updating)」と呼ばれている。そして、このベイズ更新を援用した推定法を「ベイズ推定(Bayesian estimation)」とも呼ぶ。また、一連の仮説とデータの区別に基づいたベイズの定理の再記述は、時間経過を加味しているという意味で、「通時的解釈(diachronic interpretation)」と呼ばれる場合がある。

この「通時的解釈」における「ベイズの定理」が言い表しているのは、観測者は探索と観測を反復することによって、データと仮説について「学習(learning)」することが可能であるということだ。実際、逐次学習するモデルの一種である「カルマンフィルタ(kalman filter)」のようなモデルや、一般的な機械学習や統計的機械学習も、「ベイズの定理」の「通時的解釈」で表現することができる。

フィルタリング問題におけるカルマンフィルタの機能

問題解決策:「オッズ」のベイズ更新

上記の「ベイズの定理」の「通時的解釈」を前提とすれば、大統領選のオッズは、二つの仮説を区別することで計算可能になる。つまり、「ヒラリー・クリントンが勝つ」という仮説と「ヒラリー・クリントンが負ける」という仮説だ。この二つの仮説をAとBとするなら、(5)から、それぞれの「ベイズの定理」は次のように表せる。

$$P(A \mid D) = \frac{P(A)P(D\mid A)}{P(D)} \tag{7}$$

$$P(B \mid D) = \frac{P(B)P(D\mid B)}{P(D)} \tag{8}$$

オッズは整数比で表現されるのであった。そのため、オッズを確率から計算するには、比を計算しなければならない。(7)と(8)から、それぞれの事後確率の比は次のようになる。

$$\frac{P(A \mid D)}{P(B\mid D)} = \frac{P(A)P(D \mid A)}{P(B)P(D \mid B)} \tag{9}$$

「ヒラリー・クリントンが勝つ」という仮説と「ヒラリー・クリントンが負ける」という仮説が、二値論理で構造化されていると仮定しよう。つまり大統領選の結末は、ヒラリー・クリントンが「勝つ」か「負ける」かのいずれかの一方に収束すると仮定してみよう。この場合、次の関係が成り立つ。

$$P(B) = 1 – P(A) \tag{10}$$

(9)と(10)より、「ヒラリー・クリントンが勝つ」のオッズを$$O(A)$$、データDを観測したという条件の下で「ヒラリー・クリントンが勝つ」のオッズを$$O(A \mid D)$$とするなら、

$$O(A \mid D) = O(A) \frac{P(D \mid A)}{P(D \mid B)} \tag{11}$$

これにより、確率と同じように、オッズもまた、観測によって得られたデータDによって更新することが可能であることがわかる。事後のオッズは、事前のオッズに尤度比を掛けることで計算できる。つまり、オッズの観測者たちもまた、確率の観測者と同様に、学習していることになる。

問題解決策:理由不十分の原則

ここで注意しておかなければならないのは、事前確率はいつでも設定できる訳ではないということである。単なる数学の問題集で「ベイズの定理」を前提とした問題が出題されているのならば、恐らく事前確率を設定するための手掛かりが問題文の中に記載されているはずだ。しかし、現実の不確実な状況下では、必ずしもそうした手掛かりが得られるとは限らない。無論現実の実践家からすれば、問題が厳密に明確化されていないからといって、その解決を放棄する訳にはいかないだろう。大統領選についても、同じことが言える。

そこでベイズ主義者たちは、経験や常識によって、この問題の不確実性に対処している。つまり、事前確率を設定し得る上で手掛かりとなる情報が全く無い場合には、全ての事前確率を等確率として仮定することで、「ベイズの定理」による計算を可能にしているのである。この事前確率を等確率として計算を出発させる発想を特に「理由不十分の原則(Principle of insufficient reason)」と呼ぶ。

問題解決策:逐次合理性

尤も、事前確率を設定し得る情報が無いのが本当に計算の開始時のみであることは、強調しておくべきことである。と言うのも、一度「ベイズの定理」によって事後確率を求めれば、それを次の計算時に事前確率として活用することができるからだ。つまり、一度でも結果となる事象のデータが得られれば、それを手掛かりとすることで、二度目以降の計算における事前確率を求められるのである。こうして結果となる事象のデータが得られる度に、「ベイズの定理」によって、確率も変異していく。つまり「ベイズ更新」が実行される。

ベイズ更新は、結果となる事象の情報を一つずつ処理していく。だがこう述べると、結果となる事象のデータを処理する順番によって学習の結果が変わってしまうのではないかと懸念する者もいるだろう。しかしベイズ統計学では、結果となる事象のデータが同一であるなら、どのような順番でそれらのデータを処理しても、その計算結果は変わらないことが保証されている。これをベイズ統計学では「逐次合理性(Sequential Rationality)」と呼ぶ。

派生問題:第三項排除律

しかしオッズの計算には、主観確率や逐次合理性よりも深刻な問題が潜んでいる。オッズの計算は、二値論理で構造化されている。大統領選の結末をオッズで計算する観測者が、理由不十分の原則により、最初の事前確率を0.5として形式的に規定することができるのは、「勝利」と「敗北」の二値論理を仮定できるからこそである。

だが大統領選の結末が、「勝利」と「敗北」で区別できるとは限らない。まずこの区別は、与党と野党の差異のように、政治のドメインにおける意味論に準拠して導入されている。

だが大統領選の勝敗を決するのは、政治の意味論だけではない。経済政策や増税の度合いのように、経済の意味論も関連してくる。2020年の大統領選においては更に、新型コロナウイルスを主題とした医療や科学の意味論もまた焦点となるために、単純に政治の論理だけが勝敗を左右しているとはますます言い切れなくなっている。

そもそもにおいて、大統領選の勝敗が決するという想定すら、誤りとなる場合もある。開票結果で双方が僅差である場合、僅差で負けている側からの要求によって、再集計に持ち込まれる州も出てくるだろう。その間、両陣営はそれぞれで勝利を宣言し、一時的にせよ、勝者が確定しなくなる。

このように、「勝利」と「敗北」の区別に準拠したオッズの計算には、盲点が生じている。この区別が二値論理として構造化されるためには、第三項排除律が満たされていなければならない。だが、政治のみならず経済、医療、科学などのような社会の多文脈性や、勝敗が決定されない場合も含めれば、この第三項排除律は必ずしも満たされる訳ではない。

もし二値論理構造が瓦解しているのなら、オッズの計算においては、たとえ理由不十分の原則に準拠するにしても、最初の事前確率を$$勝ち:負け=0.5:0.5$$と仮定するのは誤りかもしれない。あるいは$$勝ち:負け:僅差=0.33:0.33:0.33$$の配分の方が合理的な設定かもしれない。無論ここでいう合理性とは、逐次合理性のことである。たとえ観測と推論の反復によって、逐次合理性に到達できるとしても、初めの事前確率を計算するための初めの区別の導入に失敗すれば、誤った推論の逐次合理性に到達してしまう。

参考文献

  • Bayes, Thomas, (or Noon, John). (1731) Divine benevolence, or an attempt to prove that the principal end of the divine providence and government is the happiness of his creatures, Printed by John Noon at the White Hart, Mercers Chapel in Cheapside.(Dr Williams’s Library, 14 Gordon Square, London, WCl).
  • Bayes, T., Price, R., & Canton, J. (1763). An essay towards solving a problem in the doctrine of chances.
  • Casscells, W., Schoenberger, A., & Graboys, T. B. (1978). Interpretation by physicians of clinical laboratory results. New England Journal of Medicine, 299(18), 999-1001., p999.
  • Cooper, Gregory F., Herskovits, Edward. (1992) A Bayesian Method for the Induction of Probabilistic Networks from Data, Machine Learning, 9, pp309-347.
  • Cowles, M., & Davis, C. (1982) On the origins of the .05 level of statistical significance. American Psychologist, Vol. 37, No. 5, pp553-558.
  • Kahneman, D., & Tversky, A. (1982). Evidential impact of base rates. Judgment under uncertainty: Heuristics and biases, 153-160.
  • Hoffrage, U., & Gigerenzer, G. (1996). The impact of information representation on Bayesian reasoning. In Proceedings of the eighteenth annual conference of the cognitive science society (pp. 126-130).
  • Silver, N. (2012). The signal and the noise: why so many predictions fail–but some don’t. Penguin.
  • Simon, Herbert Alexander. (1976) Administrative behavior: a study of decision-making processes in administrative organization, 3th Edition, Free Press.