真の分布を知ることができる限界について





渡辺澄夫に戻る  

このページをお読みいただきありがとうございます。

汎化誤差 と WAIC の数学的関係に興味をお持ちいただき、本当にありがとうございます。

このページでは「汎化誤差を推定することの理論的な限界」について考えています。






議論をシンプルにするため、統計モデルが真の分布を実現できる場合を考えます。

Gn, Wn, S, Sn をそれぞれ、汎化損失、WAIC、真の分布のエントロピー、真の分布の経験エントロピーとします。 またλを対数閾値とします。このとき

     (Gn-S) + (Wn-Sn )= 2λ/n +op(1/n)     式(1)

が成り立ちます。Wn のかわりに一つ抜き交差検証誤差(LOOCV)を用いても同じ式が成り立ちます。 WAIC と LOOCV は漸近等価だからです。

(注)証明が必要なかたは恐縮ですが拙著「ベイズ統計の理論と方法、コロナ社,2012,p.119」をご覧ください。
(注)統計モデルが真の分布を実現できない場合でも同種の議論が可能ですが、ここでは考えません。

上の式(1) は二つの確率変数 (Gn-S) と (Wn-Sn) は逆相関の関係にあるということを言っています。 つまり Gn が大きいときは Wn が小さいということです。Wn は Gn を推定するために作られた確率変数ですから これは、とてもありがたくない、ということを意味しています。

真の分布が統計モデルで実現できてかつ統計モデルが正則なときには、Wn を AIC に 置き換えても成立します。そのとき λ=「パラメータ次元」/2 です。AICのこの性質がどのくらい ユーザーに知られているのかについては、よくわかりません。

(例) 混合正規分布で、真が3個の混合、モデルが5個の混合のときの (Gn-S) と (Wn-Sn) を プロットしました。(LOOCV-Sn)も描いています。 データの数は n=200 です。データから真の分布を完全に知る事はできないこと、 データが出るたびに予測分布が揺らぐこと、 および (Gn-S) と (Wn-Sn) が逆相関であることを確認してみてください。 なお事後分布の様子はプロットしていませんが、正規分布からは遠く離れたものになっています。

具体的な例 (mp4)






さて、統計的推測における基本的な問いかけに

☆「そもそも、データから真の分布に対する汎化誤差をどの程度まで知ることができるのだろうか。その限界は?」

というものがあるのですが、式(1) は、その限界を表しているように見えます。 逆相関であるということから、これ以上は工夫の余地がないように見えるからです。




このことから、次の数学的予想を立てることができます。

予想 : 【任意の真の分布に対して WAIC あるいは LOOCV よりも 汎化誤差を精度よく推定することができる確率変数】は存在しない。

この予想は、統計的推測というものを数学的対象としてみるとき、極めて重要な問いかけだと 思うのですが、まだ証明はされていないように思います。もしもこの予想が正しくなく WAIC や LOOCV よりも 精度のよい推定量が存在した場合には、それは統計学的に非常に重要なもの が発見されたことを意味すると思います。




(御参考)数学的に似ている問題としてクラメル・ラオの不等式というものがあります。 「真のパラメータの不偏推定量の分散はフィッシャー情報行列の逆行列/n よりも小さくはできない」 というものです。これはコーシー・シュワルツの不等式からすぐに導出できます。 考察している空間が有限次元のユークリッド空間だからです。




(注)思考実験として、二つの真の分布の候補がとても似ている場合を考えましょう。 データの数 n が多い場合であっても有限ですから、とても似ている分布のどちらが真であるかを 見分けることは難しいでしょう。二つの真の分布がどのくらい違っていたら、見分けができると 思いますか。もしも、二つの分布のKL情報量が (1/n) よりも大きなオーダーならはっきりと 区別できます。もしも (1/n) よりも小さなオーダーならまったく区別できません。(1/n)の オーダーのときは、区別できるようなできないような微妙な(デリケートな)状況になっています。 この微妙なオーダーこそ統計的検定や統計的モデル選択が行なわれる中心的な場所なのです。 データからの推論は、いくらでも精密に行なうことができるのではなく原理的な限界を有していて、 その限界を、ぎりぎりまで問い詰めるところに数学的な構造があります。




(注)このページをお読みになってくださったかたへのメッセージです。 上記の予想はとても重要だと思いますが、その証明は数学的に容易かどうかわかりません。 準備なしに登れる峰ではないように感じます。 十分な覚悟と装備をなさった上で挑戦してくださるようお願いいたします。 特に卒業ないし修了まで時間の少ない学生のかたは指導教員の先生に十分に ご相談なさった上で挑戦してください。