1. 研究の学術的背景

データ駆動化学とスパースモデリング

統計的手法や機械学習によって大量・高次元データからその背後にある規則を効率的に抽出する「データ駆動科学」への期待が高まっている。古典力学の基礎となったケプラーの法則は惑星運動の観測データを分析することで発見された。このことが象徴するように、観測データの分析は昔から正統的かつ有用な科学的方法である。そのような昔からのデータ分析と今日のデータ駆動科学が大きく異なるのは、従来、ヒトによる思索に頼っていた仮設(モデル)の構築をも、計算機を利用した自動化に置き換えようとしている点にある。こうした自動的なモデル構築のための有力な手法として、多数のパラメータを含む冗長性の高いモデルを用意し、データへの適合とモデルの簡潔さの両方を課すことで有望なモデルを自動的に決定する「スパースモデリング」が、近年、国内外で特に注目されている。科研費においても新学術領域研究「スパースモデリングの深化と高次元データ科学の創成」(平成25年度〜29年度、領域代表:東大・岡田真人教授)が採択され、現在精力的に研究が進められている。

これまでの重要課題=アルゴリズム開発

高次元のデータから情報を抽出する技術は一般に「多変量解析」と称される。しかしながら、多変量解析の従来理論は高性能かつ低廉な計算機が普及する以前に形成されたため、現実的な計算時間での処理の要請から、例外的に解析的表現が得られる”多次元正規分布”を生成モデルとして仮定するものがほとんどである。一方、スパース性に基づく方法は一般に離散性、不連続性を伴うため多くの場合その実行は計算量的に困難であり、その解決が重要な課題となっている。申請者は上記新学術領域において、研究計画「大規模なスパースモデリングへの統計力学的アプローチ」の代表者として、統計力学の平均場近似の発想にもとづいて現実的時間でスパースモデリングの実行を可能にする近似アルゴリズムやその性質を解析する手法の開発・整備を進めてきた。

これからの重要課題=(汎用性の高い)信頼性評価法の開発

こうした活動の中、領域内の生命科学や地学・天文学の研究者らとの議論、共同研究を通して痛感したのは、得られた結果に関する信頼性評価の重要性である。たとえ何らかのアルゴリズムによりデータから有望なモデルが得られたとしても、それがどの程度の信頼性を有するのか評価できなければ説得力のある結論を導くことはできない。また、データ駆動科学で用いられる統計モデルでは、スパース度やノイズの大きさなどに関する情報が未知であることが多く、それらをハイパーパラメータとしてデータから決定することがしばしばである。こうした場合にも、ハイパーパラメータの決定基準として信頼性評価が必要になる。上記計画研究では、信頼性評価の方法としてベイズ法や赤池情報量基準(AIC)を拡張した方法の性質を調べている。しかしながら、こうした方法では漸近性や対象に関する仮定が必要であり、自然科学における実験・観測研究などでは利用できる状況に限界があることがわかってきた。