WAIC と WBIC






このページをご覧いただき、ありがとうございます。





真のモデルを当てたいときは WBIC を使いましょう.

予測損失を知りたいときは WAIC を使いましょう.




ベイズ事後分布が作れるソフトウエアを持っていれば, WAIC と WBIC は容易に実装できます.





最近の研究から

WAICとWBICは,尤度関数がガウス関数で近似できない場合においても 使える規準として導出されました.

しかしながら,尤度関数がガウス関数で 近似できる場合でも従来の規準より精度がよいため,ベイズ法や階層ベイズ法における モデリングに使われ始めているようです.正規分布や線形回帰などの 基礎的な方法を組み合わせる場合などにおいても, 従来よりも正確に挙動を知ることができます.(注意6).

つまり, 尤度関数が正規分布で近似できる場合でも, 正規分布からのずれの影響を正確に見積もることができます


構造のモデリング

例えば,1000人の生徒がいる学校で英語のテストをしたとしましょう. 1クラス50人で20組のクラスがあるとします.また英語の先生は5人いて 4クラスずつ担当していたとします.データとしては,

1000人分の(点数,クラス,先生)

が得られるでしょう.このとき,テストの点数に対する 所属しているクラスの影響や教えていた先生の影響を調べるためには どのような統計モデルを作るべきでしょうか.

これと同種の問題は学校でのテストよりもむしろ実務におけるデータの解析に おいて広く現れるものと思います.そのとき得られるデータは上のように 3次元のものが1000個ではなく,より高次元のものが膨大に得られることが多いでしょう.

こうした問題のモデリングにおいてはベイズネットワークや 階層ベイズ法を用いることが自然であり、 また使いやすい解決法を与えることが知られるようになってきました.

さて,そのモデリングの妥当さやハイパーパラメータの適切性を知るためには どうしたらよいでしょうか.まずは得られた結果を様々な角度から 吟味することになると思います.すなわち,考察している問題に対して奇妙だと思われる結果を 与えていないかを確認することから出発すると思います. (値段を上げるほど商品が売れているように見えるときにはデータ解析が 間違っているのではと疑ってみるということなど).

その際には「従来は知られていなかったこと」が見つかったのではと思われるときもあり, それが真の発見なのかモデルの過剰適応による錯覚なのかという判断が必要になる ことも起こるでしょう.データを分析することの目的のひとつに 「従来は知られていなかった法則を大規模なデータから発見する」があるからです. 本当に新しい法則が見つかったとしたらそのデータ分析は大成功です.慎重な判断が必要になる瞬間です. 新しい発見をしたと思われるときほど,それが真の発見であるかどうかを正確に判定する必要があります.

こうした問題の考察において情報量規準が万能であることはないと思います.しかしながら, 予測対数尤度や周辺対数尤度の値が得られれば 人間による評価とは別の(主観でない)観点を与えるものとして 参考になるのではないかと思います.WAICとWBICは構造を持つモデルを対象とするとき 従来の情報量規準よりも正確な評価を与えると思います.ぜひ一度お試しになってください.












(注意1)『真のモデルを当てること』と『予測損失を知ること』とは,まったく別々のことです. 正則モデルの選択においても「真のモデルが候補に含まれているとき,AICで真のモデルが 選ばれる確率」は(n が無限大に近づく極限でも)1には近づきません. モデル族にも依存しますが、0.1 から 0.3 くらいの確率で真のモデルでないモデルが選ばれます. 一方,BIC を用いると n が増えれば真のモデルが選ばれる確率は1に近づきますが,しかしながら BIC は 予測損失を与えません.WAICとWBIC は AICとBICを一般化した概念ですので,同様の性質を有して います.WAICでは真のモデルが選ばれる確率は1には近づきません.WBICは予測損失を与えません.

(注意2)事後分布が正規分布に近くないときには, BIC も DIC も 正しくありません.もちろん,AIC も TIC も使えません. WAIC と WBIC は,どのような状況下でも使うことができます. WAIC と WBIC は,理論的な根拠を持っています. (前者は漸近的に予測対数尤度と同じ平均値と分散を持ち, クロスバリデーションと確率変数として同じです. 後者は対数周辺尤度と確率変数として漸近的に同じです)

(注意3)使用しているマルコフ連鎖モンテカルロ法(MCMC)によって事後分布が適切に近似できるかどうかを 確認したいときには,実対数閾値について『MCMC法による実験値』と『代数幾何学による理論値』と を比較してください.RLCT を実験的に知るためには二つの方法があります.

WAIC 論文 の定理2を使う.

WBIC 論文 の 877ページの式 (19) (20) を使う.

(注意4)一方, RLCT の理論値を知るためには,考えている統計モデルの特異点解消の写像を見つける という方法があります.これは決して容易ではないのですが,しかしながら,数学者の先生および 情報工学者の先生による多大な努力の結果,多くの統計モデルの実対数閾値が解明されつつ あります。現在も,どんどん新しい成果が発表されていますので,検索サイトで探してみてください。 キーワードとなる研究者名と統計モデル名をあげます。

K.Yamazaki, M.Aoyagi, D.Rusakov, D.Giger, P.Zwiernik

Three-layer perceptropn, Normal mixture, Boltzmann machine, Reduced rank regression, Bayesian network.


(注意5)『どの程度に理論値と実験値が合うのか』というのはもっともな質問です. 実験してみてください.想像しているよりも合います. 直感的な言いかたですが,双有理不変量は相当に根性があるので,多少 MCMC法が不正確でも,n がそれほど大きくなくても, 確率的な揺らぎがあっても,サンプリング・バイアスがあっても,それでも 姿を現わします.

代数幾何学の不変量という天空の世界の概念が, これほどに具体的な世界の奥底にも光となって現れることは, 数学の中でも初めてのことではないでしょうか.


(注意6)WAICとWBICは,その導出時には神経回路網や混合正規分布のようにたくさんの 厳しい特異点がある場合が想定されていたのですが、実用上は正規分布から少しだけ ずれた尤度関数の設計や事前分布の評価に使われ始めています.これはすなわち,

「極端なケースでも成り立つ一般理論を作って初めて微妙なケースを扱うことができる」

ということでしょうか.事後分布が正規分布からずれるとき、そのずれが予測誤差に 及ぼす影響を WAIC によって見積もることができます。 なお,WAICとWBICはシンプルな形をしておりますので 理論的背景を知らなくても使うことができます.(もちろん理論的背景を理解した上で お使いいただく方がより良いとは思いますが・・・。)


戻る