広く使えるベイズ情報量規準 (WBIC)






このページをご覧いただきありがとうございます。





1. ベイズ自由エネルギーとは

ベイズ自由エネルギー F は、与えられたデータに対して確率モデルと事前分布の組が どの程度に相応しいかを表しています。

ベイズ自由エネルギーはベイズ確率的複雑さと呼ばれることがあります。

またベイズ自由エネルギーの符号を反転したものは、ベイズ対数周辺尤度と呼ばれることが あります。

「ベイズ自由エネルギーが確率モデルと事前分布の適切さを与える」ということを 最初に提案したのは統計学者 I. J. Good 博士であると言われています(1965年ころ)。 その後、多くの研究者が同じ提案を行っています。現代では、この量が大切であることは 広く知られていると思われます。


(注)ときどき「ベイズ法では、学習モデルと事前分布が恣意的に定められるので主観的であり信用できない」 という意見がありますが、そうではありません。学習モデルと事前分布の適切さを定量的に 評価し客観的に比較することができます。

ベイズ自由エネルギー

さて、事後分布が正規分布で近似できる場合には、F の値はシュワルツの BIC で 近似することができます(1978年ころ)。

しかしながら、正規分布で近似できない場合に F の値を求めたい 場合には、区間[0,1] を細かく刻んだときの全ての温度について 事後分布を作って微小温度変化に対する自由エネルギーの微小増分の和を取る操作が必要となる (1990年ころ)ため、非常に大きな演算量が必要でした。




2. 新しい方法は WBIC

新しい研究により、 事後分布が正規分布で近似できない場合でも、事後分布を一回作るだけで ベイズ自由エネルギーの近似値を求める方法が得られたので紹介します。 これは、統計的正則モデルに対する BIC を真に含んでいる概念ですので Widely Applicable Bayesian Information Criterion (WBIC) と呼んでいます。


(注意)WBICを計算するときの逆温度は (1/log n) であり、事後分布を 計算するときの逆温度(1)とは異なります。


(注意)WBICによって、真の分布に対して統計モデルが正則でなくても, 真の分布を統計モデルが含んでいないなくても、ベイズ自由エネルギーの近似値を 従来よりも非常に少ない演算量で計算することができるようになりました。




WBIC




3. 具体的な方法

方法は極めて簡単です。

(1) 逆温度が (β=1/log n) であるときの事後分布を作る。

(2) その事後分布で対数尤度の平均を計算したものが WBIC です。

(3) 数値実験でとてもうまく動きますので、お試しください。




PDF で見る




本当にうまくいくのかどうか実際に使ってみる。 MATLAB file

プログラムを動かしてみたときの結果をみたい。 計算例

(注)正則でない一般のケースでベイズ自由エネルギーの漸近挙動を理論的に導出すると、 BICにおける「パラメータ数/2」の部分を 「実対数閾値」(Real Log Canonical Threshold) に置き換えたものになります。 縮小ランク回帰の場合の実対数閾値は全ての場合で 理論的に解明されています(数学者・青柳博士の研究(2005)です)ので、 理論値と実験値を比べることができます。実際にプログラムを 動かしてみて値がほぼ同じであることをご確認ください。 理論値と実験値を比較したとき、純粋数学と実世界という正反対のものの間に百年に一度(?)の 幻の架け橋が現れます。

(注(続)) 「実対数閾値」は代数幾何学における「乗数イデアル」(Multiplier ideal) に 対応して現れる双有理不変量です。代数解析学における「ベルンシュタイン・ 佐藤のb関数」(Bernstein-Sato b-function) の零点とも深い関係を 持っていることが知られています。




4. WBIC の数学的な性質は

なぜ、この方法で、どんな条件下でも 自由エネルギーの近似値が計算できるのでしょうか。 物理学の教えるところによれば、自由エネルギーのように深い意味を持つ量は、 そうやすやすとは計算できないはずです。

本当なのかどうか数学的に証明してみるためには下記をご覧ください。 WBICは簡単な式ですが証明は自明というわけには行きません。

S. Watanabe, ``A widely applicable Bayesian information criterion," , Journal of Machine Learning Research, Vol. 14, (Mar), pp.867-897, 2013.

(a) WBIC は n が十分大きい場合における自由エネルギーの挙動を表しています。

(b) WBIC は、事後分布が正規分布で近似できてもできなくても、情報源が 学習モデルで実現できてもできなくてもベイズ自由エネルギーと同じ漸近挙動を持ちます(主要となる2項について)。

(c) 事後分布が正規分布で近似できる場合には、n が無限に近づくとき WBIC と BIC の差は0に確率収束します。

(d) この方法を応用すると、代数幾何学における重要な 双有理不変量である実対数閾値を、真の分布が不明であるときでも、サンプルの情報だけから算出することもできます。

(e) また WBIC を用いてベイズ自由エネルギーを推定したときの 精度を定めている量として新しい双有理不変量「Parity」が 見つかりました。




(注) なぜベイズ自由エネルギーが与えられたデータに対する 確率モデルと事前分布の組の適切さを表しているかについては、 次の参考文献の9ページの式(1.19)をご覧ください。

(1) 渡辺澄夫, ベイズ統計の理論と方法, コロナ社, 2012




渡辺澄夫に戻る