映像データを対象とした異常検知問題における画像認識、動画認識、行動認識の機能

派生問題:映像データを対象とした異常検知問題の枠組み

分類モデルの応用によって異常検知モデルを組み立てる発想はありふれている。しかし、監視対象が時系列的な信号データや映像データである場合、分類モデルの設計者は次の三つの問題と向き合わなければならなくなる。

1. 教師データのアノテーションコストが高まる。分類モデルでは、最低限「正常」と「異常」を区別できる教師データのアノテーションを用意しなければならない。ビジネスニーズとして、「正常」と「異常」は更に細分化して分類することが期待される。

「異常性(Anomalies)もまた高度に文脈依存(highly contextual)である。例えば、レストランの中で走ることは異常(anomaly)である。だが公園で走るのは正常(normal)だ。加えて、異常の定義は曖昧で、しばしば漠然と定義される。地下鉄のプラットフォームの周りを歩くことは正常であると考えられているであろうが、一部の人々はそれが疑わしい可能性があるがために、異常フラグとして指定するべきであると考えるかもしれない。これらの課題によって、実世界のアプリケーションで異常を生成するビデオパターンを機械学習の方法で特定することは困難となっている。」

Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., 引用はpp.189-190より。

2. 「異常」データのサンプリングが間に合わない。必要十分なデータ量がよくわかっていないというリスクもある。学習・訓練データの分布とテスト用のデータが共に「真の分布」を近似し得るほどのデータ量に達しているか否かは判断し難い。典型的な異常検知問題においては、経験的に「異常」と見做されるデータサンプルは少ない。よって、サンプリングされたデータ量が適切であると楽観視することはできない。

「監視映像などのような長いビデオシーケンスにおける重要で意味のある出来事は、しばしば発生する確率が非常に低い。そのようなものとして、そうした事象または異常を手作業で検出しようとすることは、一般的に利用可能なものよりも多くの人手を必要としてしまう、非常に細かい仕事となる。これは、関心のある配列の自動検出やセグメンテーションの必要性を高めてきた。しかしながら、現代の技術では、ビデオ分析の過程を展開する前に、各ビデオストリームに膨大な設定作業が必要となる。こうした事象は、幾つかの事前に定義されたヒューリスティックに準拠している。それは、検知モデルを異なる監視シーンに一般化(generalize)させることを困難にしている。

Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., 引用はp.189より。

3. 時系列的なパターンを認識しなければならない。信号データや映像データの中には、周期性や系列の特徴が潜在化していることは間々ある。

「エンジン、自動車、航空機などのような典型的な機械的装置には、機械の振る舞いや健康状態を捉えるために多数のセンサーが搭載されている。だがそこにはしばしば、本質的に予測不可能(inherently unpredictable)な時系列に関連したセンサーによって捕捉されない外部要因あるいは変数が存在している。例えば、手動制御や監視されていない環境条件、あるいは負荷は、本質的に予測不可能な時系列に結び付く可能性がある。こうしたシナリオで異常を検知するには、定常性(stationarity)に依存する数学的なモデルに基づいた標本手法や、予測誤差を利用して異常を検知する予測モデルを利用することは難しくなる。」

Malhotra, P., Ramakrishnan, A., Anand, G., Vig, L., Agarwal, P., & Shroff, G. (2016). LSTM-based encoder-decoder for multi-sensor anomaly detection. arXiv preprint arXiv:1607.00148., 引用はp1.より。

EncDec-ADのパラダイムは信号処理との関連から提唱されている。そのためLSTM based Encoder-Decoderのモデルでは、画像認識の常套手段となる「畳み込み(Convolution)」の恩恵を得られなくなる。例えば「正常」データの画像と「異常」データの画像の背景部分が類似している場合、理論的に「正常」データのみを学習した再構成モデルとしてのLSTMで構築されたEncoder-Decoderの異常検知器には、この双方を十分に識別できないことは容易に推測できる。

畳み込みニューラルネットワーク(Convolutional Neural Network; CNN)もしくは畳み込み演算子(Convolution operator)との結合は、画像を信号として処理する場合のEncDec-ADの識別精度を向上させられると期待できる。したがってここでは、LSTM based Encoder-Decoderのモデルと畳み込みニューラルネットワークもしくは畳み込み演算子の結合が如何にして可能になるのかを検討していく。

問題解決策:Long-term Recurrent Convolutional Networks(LRCNs)

Long-term Recurrent Convolutional Networks(LRCNs)は、ビデオから生成された時系列的に配列された画像集合を対象とした行動認識(Activity recognition)、画像キャプション生成(Image Captioning)、そしてVideo Descriptionの問題設定から導入されている(Donahue, J., et al.2015)。問題設定次第でネットワークの構造は多少変異するが、基本的にLRCNsはCNNとLSTMの疎結合によって構成されている。

Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634)., p.2629より掲載。

Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634)., p.2629より掲載。

LSTMはEncoder-Decode schemeとして利用されている。この関連でのCNNの機能は、画像の3ランク(RGB)のピクセル値として生成されている特徴写像に対する線形変換による関数近似器としての機能となる。CNNとLSTMは疎結合されるために、オブジェクト指向分析における「責任」も容易に区別できる。実際Donahue, J., et al. (2015)では、「入力(Input)」、「視覚的特徴(Visual Features)」モジュール、「系列学習(Sequence Learning)」モジュール、そして「出力(Output)」の区別が導入されている。

Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634)., p.2625より掲載。

Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634)., p.2625より掲載。

CNNの特徴変換

LRCNsはまず、時系列的な画像から生成された特徴ベクトル $$x_t$$ を パラメタ群 $$V$$ による特徴変換関数 $$\phi_{V}(.)$$ に入力する。CNNはこの特徴変換関数として利用する。言い換えれば、視覚的特徴の特徴変換 $$\phi$$ は、CNNの活性度に照応する。

$$\phi_{V}(x_t)$$ の機能は、固定された長さの特徴表現に他ならない。この出力値が、「系列学習」モジュールとしてのLSTMに入力される。視覚的な特徴の特徴変換 $$\phi_{V}(.)$$ は、LSTMからは機能的に分離していることも相まって、時間に対して不変で各時間ステップに対して独立している。そのため畳み込みの学習は全時間ステップに対して並行して実行することができる。CNNの実装はLSTMのバッチプロセスからも独立させることができる。

CNNとLSTMの学習アルゴリズム

LSTMの入力ゲートと隠れ層の間に挿入されている重み行列を $$W$$ 、時間ステップ $$t = \{1, 2, … ,T\}$$ における出力の真値を $$y_t$$ 、入力される系列データを $$x_t$$ 、訓練データセットを $$\mathcal{D}$$ とするなら、次のようになる。

$$(x_t, y_t)_{t=1}^{T} \in \mathcal{D}$$

CNNとLSTMの学習は、log likelihood を最小化するようなパラメタ $$W$$ と $$V$$ を探索する最尤推定法で成り立つ。すなわち、尤度 $$\mathcal{L}$$ は次のように計算されなければならない。

$$\mathcal{L}(V, W, \mathcal{D}) = \frac{1}{|\mathcal{D}|}\sum_{(x_t, y_t)_{t=1}^{T} \in \mathcal{D}}\sum_{t=1}^{T} \log P(y_t|x_{1:t}, y_{1:t-1}, V, W)$$

ここで、$$P$$ はソフトマックス戦略による線形変換を表す。学習は確率的勾配降下法に準拠している。バッチサイズに応じて抽出したデータセットを $$\hat{\mathcal{D}} \in \mathcal{D}$$ とするなら、勾配として観測するのは、 $$\Delta _{V, W} \mathcal{L}(V, W, \hat{\mathcal{D}})$$ となる。

機能的等価物の探索:Convolutional LSTM Networks (ConvLSTM Networks)

LRCNsがEnd-to-Endの疎結合で構成されているのに対して、LSTMの内部に畳み込み演算子を組み込む方法もある。Convolutional LSTM Networks (ConvLSTM Networks)は、LSTMの入力ゲートから出力ゲートまでの想起と忘却の差異を司る計算グラフ上に畳み込み演算子を挿入した構造になっている(Xingjian, S. H. I., 2015)。LSTMの隠れ層に畳み込み演算子を組み込む場合、その構造は以下のようになる。

$$i_t = \sigma (W_{xi} \ast \mathcal{X}_t + W_{hi} \ast \mathcal{H}_{t-1} + W_{ci} \circ \mathcal{C}_{t-1} + b_i)$$

$$f_t = \sigma (W_{xf} \ast \mathcal{X}_t + W_{hf} \ast \mathcal{H}_{t-1} + W_{cf} \circ \mathcal{C}_{t-1} + b_f)$$

$$\mathcal{C}_t = f_t \circ \mathcal{C}_{t-1} + i_t \circ \tanh (W_{xc} \ast \mathcal{X}_t + W_{hc} \ast \mathcal{H}_{t-1} + b_c)$$

$$o_t = \sigma (W_{xo} \ast \mathcal{X}_t + W_{ho} \ast \mathcal{H}_{t-1} + W_{co} \circ \mathcal{C}_t + b_o)$$

$$\mathcal{H}_t = o_t \circ \tanh(\mathcal{C}_t)$$

ここで、$$\sigma$$ はロジスティクス関数を意味する。$$\ast$$は畳み込み演算子を意味する。$$\circ$$はアダマール積(Hadamard product)を意味する。

Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C. (2015). <a href=

Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems (pp. 802-810)., p.806より掲載。” width=”645″ height=”171″ /> Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C. (2015). Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems (pp. 802-810)., p.806より掲載。

各状態(states)が入力データと等価な列数および等価な行数を保持するためには、畳み込み演算子を挿入する前に、パディング(padding)が必要になる。

「ここで、境界線上のピクセル値における隠れ層の状態のパディングは、その計算において、外部世界の状態(the state of the outside world)を利用しているかのように見做すことができる。

Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C. (2015). Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems (pp. 802-810)., p.806より引用。

機能的等価物の探索:時系列自己符号化器

LRCNsやConvLSTMでは、EncDec-ADのパラダイムは踏襲できない。これらのモデルは分類や識別のために設計されている。EncDec-ADを実施するには、再構成誤差が必要になる。

時系列自己符号化(Spatio-temporal Auto-encoder)は、LRCNsやConvLSTMの構造をAuto-encoderへと拡張させたモデルとして提案されている。異常検知問題の枠組みでは、Chong, Y. S., & Tay, Y. H. (2017)によって、以下のような時系列自己符号化がモデル化されている。

Chong, Y. S., & <a href=

Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., p.195.” width=”472″ height=”309″ /> Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., p.195.

Encoder/Decoderとしては、二つのConvLSTMが搭載されている。

Chong, Y. S., & <a href=

Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., p.195.” width=”202″ height=”221″ /> Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., p.195.

再構成誤差の定式

EncDecADのパラダイムと同じように、時系列自己符号化を利用した異常検知モデルの場合も、再構成誤差から異常度を計算する。Chong, Y. S., & Tay, Y. H. (2017)によれば、ビデオシーケンスのフレーム $$t$$ における全てのピクセル値 $$I$$ の再構成誤差は、入力フレームと再構成フレームとの間のユークリッド距離として定式化できる。

$$e(t) = \mid \mid x(t) – f_W(x(t))\mid \mid_2$$

ここで、$$f_W$$ は時系列自己符号化によって学習された重みを意味する。この論文ではこの $$e(t)$$ に対するmin-maxによる正規化によって異常度 $$s_a(t)$$ が計算される。

$$s_a(t) = \frac{e(t) – e_{min}(t)}{e_{max}(t)}$$

この定式化に表れている通り、時系列自己符号化による異常検知モデルでも、異常検知はフレームごとに実行される。

Encoder/Decoderのモデル設計における偶発性

上述した時系列自己符号化にはEncoderとDecoderのそれぞれにConvLSTMが搭載されている。しかしメモリモジュール(Memory module)として見立てるなら、ConvLSTMは典型的なLSTMと機能的に等価となる。時系列自己符号化のEncoder/Decoder部分に求められるのは、系列情報の多様体の長期/短期記憶機能に限定される。

Patraucean, V., Handa, A., & Cipolla, R. (2015). Spatio-temporal video autoencoder with differentiable memory. arXiv preprint arXiv:1511.06309., p3.

Patraucean, V., Handa, A., & Cipolla, R. (2015). Spatio-temporal video autoencoder with differentiable memory. arXiv preprint arXiv:1511.06309., p3.

逆伝播のアルゴリズム設計における偶発性

<モデル設計>と<アルゴリズム設計>を区別するなら、モデル図を示せば設計したことになるという想定は吹けば飛ぶような錯覚であることがわかる。実際、このモデルを図示しただけでは、時系列自己符号化の逆伝播のシーケンスやフローが未確定に留まる。自己符号化の入れ子構造を前提とするなら、Deconvolution層から逆伝播されるデルタがEncoder/Decoderにも逆伝播させることに必然性は無い。

Encoder/DecoderはあくまでEncoder/Decoderへの入出力の誤差のみからデルタを計算しても学習は可能となる。この場合、Encoder/DecoderとConvolution/Deconvolutionはそれぞれ疎に学習を進めることができる。一方から他方へのデルタの逆伝播を省けるため、その際の行列のランクを意識せずに済む。

Baccouche, M., Mamalet, F., Wolf, C., Garcia, C., & Baskurt, A. (2012, September). Spatio-Temporal Convolutional Sparse Auto-<a href=

Encoder for Sequence Classification. In BMVC (pp. 1-12)., p3.” width=”756″ height=”140″ /> Baccouche, M., Mamalet, F., Wolf, C., Garcia, C., & Baskurt, A. (2012, September). Spatio-Temporal Convolutional Sparse Auto-Encoder for Sequence Classification. In BMVC (pp. 1-12)., p3.

参考文献

  • Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham.
  • Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634).
  • Malhotra, P., Ramakrishnan, A., Anand, G., Vig, L., Agarwal, P., & Shroff, G. (2016). LSTM-based encoder-decoder for multi-sensor anomaly detection. arXiv preprint arXiv:1607.00148.
  • Popoola, O. P., & Wang, K. (2012). Video-based abnormal human behavior recognition—A review. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 42(6), 865-878.
  • Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C. (2015). Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems (pp. 802-810).