問題設定:フレームごとの計算負荷対策

行動認識をはじめとした映像認識において、フレームごとの推論は大きな計算負荷を招く。1分間のビデオには数千のフレームが含まれている。そのため単一の画像を処理する場合に比べて、モデルの推論は遥かに遅くなる。ただし、一連の独立した画像とは異なり、ビデオクリップ内の連続するフレームとの間には、通常類似性が備わっている。人間の行動に関する映像ならば、特定のフレームとその数ミリ秒後のフレームとの間には、僅かな差分しかないはずだ。この類似性は、連続するフレームに対する深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks(Deep CNNs)の特徴写像についても同様に見受けられる。そこでPan, B., et al.(2018)は、直観的にフレーム間の類似性を活用した「再帰(回帰)的残差モジュール(Recurrent Residual Module)」を設計することで、フレームごとのビデオ推論の冗長な計算を減らす策を講じている。

問題解決策:再帰的残差モジュール

再帰(回帰)的残差モジュール(Recurrent Residual Module: RRM)は、ビデオクリップ内の連続するフレーム間の類似性を利用することで、モデルの推論を加速させることを可能にする。畳み込み層と全結合層を持つ畳み込みニューラルネットワークのうち、入力のテンソル集合、畳み込み層のフィルター、畳み込み演算子、全結合層の重み行列集合、そして非線形演算子をそれぞれ$$$$と置く。畳み込み層の場合、$$\mathcal{f}$$はReLu関数かプーリングとなる。一方全結合層の場合、代わりにショートカット関数が与えられる。

任意の系列長のt系列目の入力テンソルをl層目で処理する場合、その入力テンソルは$$I_{tl} \in \mathcal{L}$$と表す。l層目の全結合層の重み行列は$$W_l \in \mathcal{W}$$となり、l層目の畳み込み層のフィルターは$$F_l \in \mathcal{F}$$となる。

この時、l層目が畳み込み層の場合におけるt系列目の活性化は、次のようになる。

$$I_{t(l+1)} = f(F_l \ast I_{tl} + b_l) \tag{1}$$

一方、l層目が全結合層の場合におけるt系列目の活性化は、次のようになる。

$$I_{t(l+1)} = f(W_lI_{tl} + b_l) \tag{2}$$

RRMのモジュールには、上記の畳み込み層と全結合層の構成に加えて、投射層(projection layer)が導入されている。

投射が畳み込み演算によって実行される場合は次のようになる。

$$P_{t(l+1)} = F_l \ast I_{tl} + b_l \tag{3}$$

一方、投射が全結合によって実行される場合は、次のようになる。

$$P_{t(l+1)} = W_lI_{tl} + b_l \tag{4}$$

畳み込み演算と乗算演算の線形性を前提とすれば、畳み込み演算を実行した投射層の出力のフレーム間差分は次のように表現できる。

$$P_{tl} – P_{(t-1)l} = F_l \ast \Delta I_{tl} \tag{5}$$

全結合の投射の場合は次のようになる。

$$P_{tl} – P_{(t-1)l} = W_l \Delta I_{tl} \tag{6}$$

ここで、$$\Delta I_{tl} = I_{tl} – I_{(t-1)l} \tag{7}$$となる。

したがって、(1)と(2)より、畳み込み層における活性化と全結合層における活性化は、それぞれ次のようになる。

$$I_{t(l+1)} = f(P_{(t-1)l} + F_l \ast \Delta I_{tl}) \tag{8}$$

$$I_{t(l+1)} = f(P_{(t-1)l} + W_l \Delta I_{tl}) \tag{9}$$

$$P_{(t-1)l}$$は、最終フレームの推論段階で取得され、保持される。したがって、計算リソースは主に$$F_l \ast \Delta I_{tl}$$と$$W_l \Delta I_{tl}$$に割り当てることが可能になる。

更に、連続するフレーム間の類似性により、その差分画像の行列となる$$\Delta I_{tl}$$は通常高いスパース性を有することになる。結果的に、計算コストが高い元々の$$I_{tl}$$の代わりとして、モデルは$$\Delta I_{tl}$$というスパースな行列を前提とした計算に注力することで、最終的な出力を得られることになる。

参考文献

  • Pan, B., Lin, W., Fang, X., Huang, C., Zhou, B., & Lu, C. (2018). Recurrent residual module for fast inference in videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1536-1545).