問題設定:時系列データの予測問題の枠組み
適切な問題解決策は、適切な問題設定の下で可能になる。時系列データを分析する場合、その多くは「予測問題(prediction problem)」の枠組みの中で実施される。この予測問題は、しばしばその周辺に位置付けられている「フィルタリング問題(filtering problem)」や「スムーシング問題(smoothing problem)」から区別されることで特徴付けられている。以下では、時系列データの予測問題をより良く理解するために、予測問題とフィルタリング問題とスムーシング問題の差異を形式的に記述していこう。
時系列データの予測問題は、現在までに得られた情報に基づいて未来の値を推定する問題を意味する。時刻kの観測値を$$y_k$$とすれば、ここでいう時系列データとは、$$Y = \{y_1, y_2, …, y_n\}, k = 1, 2, …, n$$となる。予測問題のモデルは、単にデータを記述すれば良いという訳ではない。確かにパラメタを増やせば、より複合的なデータの学習が可能になる。しかしそうしたモデルは、予測に有用な情報のみならず、局所的で乱雑なデータも学習する。過学習も避けられなくなる。故に時系列データの予測問題の枠組みでは、複合的なデータに対して、まず<予測に有用な情報>と<それ以外の情報>の区別を導入しなければならない。
時系列データの観察は、過去から現在への系列と現在から未来への系列を前提としている。この系列を前提とすれば、現在の情報は、過去の情報に準拠している。だが過去の情報の全てが現在の情報に反映されている訳ではない。もしそうならば、我々は過去と現在の差異を認識することができなくなる。観察者は、観察対象の現在の情報を知ることで、間接的に過去の情報の一部を知ることが可能である。このことから現在の情報は、過去の情報の複合性の縮減によって得られた結果であると推論できる。
状態空間モデルでは、こうして得られた現在の情報を「状態(state)」という概念で記述する。時刻kの状態は、$$x_k$$と表せる。この状態は、時刻k-1までの情報の複合性の縮減によって得られた値である。モデル設計の参照問題となるのは、この状態xによって、過去から現在、現在から未来へと変異していく対象の観察が如何にして可能になるのかである。
問題再設定:状態空間モデルの設計
確定的な現象を観察する場合、その状態は一定の、副作用の無い関数で表現できる。ここでいう参照透過な関数をFとするなら、$$x_k = F(x_{k-1})$$となる。一方、不確定性に曝されている観察者を前提とするなら、現在時刻kで得られる観測結果は、関数Fとは別個の影響を被ることになると推論できる。状態空間モデルでは、こうした観測の不確定要因を「システムノイズ(System noise)」と呼び、$$v_k$$と表現する。この時、状態xは次のようになる。
$$x_k = F(x_{k-1}) + v_k \tag{1}$$
こうしたシステムノイズを考慮した状態の関数を特に「システムモデル(System Model)」と呼ぶ。多くの場合、このノイズは特定の確率密度関数に従うホワイトノイズ(White noise)として形成している。
一方、観測それ自体もノイズを伴わせる。このノイズもまた特定の確率密度関数に従うホワイトノイズとして形成している。これを「観測ノイズ(Observation noise)」と呼び、$$w_k$$と表現する。この時、ある状態xの観測値は次のようになる。
$$y_k = H_k(x_k) + w_k \tag{2}$$
状態空間モデルは、これら(1)と(2)を合成させたモデルを指す。
状態空間モデルの設計は、時系列データに応じて様々に拡張できる。例えば状態が一時刻前の状態からの線形変換を前提としており、各種のノイズが正規分布となる場合、その状態空間モデルは特に「線形ガウス状態空間モデル(Linear gaussian state space model)」と呼ばれる。また、この状態空間モデルに「自己回帰モデル(autoregressive model; AR model)」を導入すれば、$$y_k = \sum_{i}^m a_iy_{kーi} + v_k$$として、時系列Yを再記述できる。つまり時系列をその過去の値とノイズによって表現することで、パラメタを自己回帰係数と分散のみに限定することもできる。このモデルは特に時系列の定常性を想定できない場合の予測問題において、平均や分散の正規分布から予測分布を計算するユースケースとの関連から、実用上機能するモデルとして知られている。
問題再設定:状態推定問題の枠組み
時系列データと状態空間モデルから状態xを推定する問題は、状態推定問題と呼ばれる。この問題は、推定する状態の時刻kによって区別されている。推定する状態の時刻kが観測時刻nよりも大きい場合は、この問題は予測問題となる。逆の場合はスムーシング(Smoothing)問題となる。kとnが同値の場合は、フィルタリング問題となる。
状態推定問題の枠組みは、こうして三つに区別されるものの、状態空間モデルの設計に際しては共通の問題解決策を採用できる。言い換えれば、時系列データの分析において必要となる機能の大半がこの状態空間モデルの設計によって得られるということである。
問題解決策:分散または分散共分散行列
したがって、状態推定問題の問題解決策には共通部分が散見される。その一つが、ほぼ必須の手続きとなる分散または分散共分散行列の導入である。推定値の確実性はその分散または分散共分散行列に左右される。これは単なる統計量的な意味においての話ではない。と言うのも、上述した状態空間モデル(1)と(2)を前提とした場合、状態推定問題は条件付き分布$$p(x_k|y_k)$$を求める問題となるためである。導出過程は様々だが、基本的にフィルタリング問題の条件付き分布から確認していくのが効率的だ。
フィルタリング問題の条件付き分布
$$p(x_k|y_k) = \frac{p(y_k|x_k)p(x_k|y_{kー1})}{\int p(y_k|x_k)p(x_k|y_{kー1})dx_k}$$
ここで、$$p(y_k|x_k)$$は、観測モデルである$$y_k = H_k(x_k) + w_k$$によって計算できる。一方、$$p(x_k|y_{k-1})$$は次の予測問題の条件付き分布と同値となる。
予測問題の条件付き分布
$$p(x_k|y_{k-1}) = \int_{ー\infty}^{\infty}p(x_k|x_{kー1})p(x_{kー1}|y_{k-1})dx_{k-1}$$
ここで、$$p(x_k|x_{kー1})$$は、システムモデルである$$x_k = F(x_{k-1}) + v_k$$によって計算できる。一方、$$p(x_{kー1}|y_{k-1})$$は、上述したフィルタリング問題の条件付き分布と同値である。
したがって、予測問題の条件付き分布は、フィルタリング問題の条件付き分布と相互に依存している。双方は逐次的な時間更新によって計算される。
スムーシング問題の条件付き分布
$$p(x_k|y_k^-) = p(x_k|y_k)\int_{ー\infty}^{\infty}\frac{p(x_{k+1}|y_k^-)p(x_{k+1}|x_k)}{p(x_{k +1}|y_k)}dx_{k+1}$$
ここでは、「固定区間スムーシング(fixed-interval smoothing)」のアルゴリズム設計に倣い、時系列Yとは逆方向の逐次計算を$$k^-$$で表記している。これを前提に分布を確認して観ると、$$p(x_{k+1}|x_k)$$はやはりシステムモデルである。同様に$$p(x_k|y_k)$$はフィルタリング問題の条件付き分布となっており、$$p(x_{k+1}|y_k^-)$$と$$p(x_{k +1}|y_k)$$は予測問題の条件付き分布となっている。このアルゴリズムが意味するように、初めに未来や現在の予測問題やフィルタリング問題を解いておくと、過去に遡ることで、時系列とは逆向きにスムーシングを施すことが可能になる。
問題解決策:最尤推定
状態推定問題の枠組みにおける最尤推定は、上述した条件付き分布の機能的再利用によって可能になる。
$$Y_k = \{y_1, y_2, …, y_n\}, k = 1, 2, …, n$$の時系列データがパラメタθを持つとする。この時θの分布は$$\boldsymbol{\theta}=\{\theta_1,\dots,\theta_n\}$$となり、その尤度L(θ)は同時確率密度関数から$$L(\boldsymbol{\theta}) = f_k(Y_k|\theta_k) = f_{kー1}(Y_{kー1}|\theta_{kー1})p_k(y_k|Y_{kー1}, \theta_{kー1})$$
$$L(\boldsymbol{\theta}) = \int_{k=1}^np_k(y_k|Y_{k-1}, \theta_{k-1})$$
$$\log L(\boldsymbol{\theta}) = \sum_{k=1}^n \log p_k(y_k|Y_{kー1}, \theta_{kー1})$$
となる。この対数尤度の右辺は、予測問題の条件付き分布と等価となる。状態推定問題の枠組みでは、予測問題の条件付き分布とフィルタリング問題の条件付き分布の計算の派生として、対数尤度が得られる。
参考文献
- Ait-El-Fquih, B., & Desbouvries, F. (2008). On Bayesian fixed-interval smoothing algorithms. IEEE Transactions on Automatic Control, 53(10), 2437-2442.
- Carlin, B. P., Polson, N. G., & Stoffer, D. S. (1992). A Monte Carlo approach to nonnormal and nonlinear state-space modeling. Journal of the American Statistical Association, 87(418), 493-500.
- Doucet, A., & Johansen, A. M. (2009). A tutorial on particle filtering and smoothing: Fifteen years later. Handbook of nonlinear filtering, 12(656-704), 3.
- Särkkä, S. (2013). Bayesian filtering and smoothing (Vol. 3). Cambridge University Press.