2.研究期間内に何をどこまであきらかにしようとするのか

このような現状認識の下、本研究では、スパースモデリング等で用いられる大自由度統計モデルに対し、手元にあるデータのみを用いて、推定されたパラメータの信頼性を評価する数値的方法を開発・整備する。数値的信頼性評価の基本アイデアは、広く知られている交差検証法(cross validationやEfronらによって提案されているブートストラップ法などのリサンプリング法にしたがう。種々の仮定が必要なベイズ法や各種情報量基準による方法とは異なり、データのみから信頼性を評価するリサンプリング法は極めて汎用的な方法である。一方で、これらの方法は手元にあるデータセットから何度もデータを採取し直し(リサンプリング)、それらにもとづいて推定されるパラメータの統計的性質を数値的に評価するという手法であり、計算量的負荷が高い。本研究では統計力学の平均場近似およびレプリカ法を応用することで、リサンプリングすることなしに、半解析的かつ近似的に信頼性を評価する方法を開発する。このことにより、計算コストによるボトルネックを解消し、また、可解モデル、実データへの適用を通じて、手法の妥当性および有用性を吟味する。具体的には次の3つの手法を主な対象とする。

【課題1】交差検証法

交差検証法はハイパーパラメータ等によって特徴づけられるモデルが有する予測(汎化)能力を手元にあるデータセットのみから評価する方法である。広く用いられているK分割交差検証法(K-fold cross validation)では、手元にあるデータをK個のサブセットに分割し、K-1個のサブセット(トレーニングセット)にもとづき推定されたパラメータを用いて、残りのサブセット(テストセット)のデータを予測する。この作業をK通りのテストセットの選び方に対して繰り返し、テストセットに対するK通りの予測誤差の平均値を未知のデータに関する予測誤差の推定値とする(図1)。

図1:K(=4)分割交差検証法

【課題2】ブートスト)ラップ法

ブートストラップ法は推定量の従う分布を経験分布からリサンプリングによって評価する方法である(図2)。経験分布としては手元にあるデータ上の一様分布を用いることが標準的である。

図2:ブートストラップ法

【課題3】stability selection法

回帰問題における変数選択やネットワーク同定などの構造推定問題を考える。stability selection法とはn個のデータにもとづいて構造推定する際に【n/2】個のデータを用いた構造推定を何度も繰り返し、選択される頻度の高い上位の変数により最終的な構造を決定する手法である(図3)。変数選択問題に特化したブートストラップ法であるが、誤選択確率に関する理論保障が与えられたことから近年注目されている。

図3:stability selection法