代数幾何とベイズ統計






代数幾何とベイズ統計の間の基本的な関係を解明しました。


【データから構造を知るための確率モデル】においてはフィッシャー情報行列が 正則ではありません。このため、統計学の基本的なもの全てを使うことができませんでした。 例えば


(1) クラメル・ラオの不等式は意味がありません。

(2) 最尤推定量の一致性は成立しません。

(3) 最尤推定量の漸近正規性は成立しません。

(4) ベイズ事後分布は正規分布に近づきません。

(5) 周辺尤度の計算にラプラス近似を使うことはできません。

(6) 対数尤度比検定量はカイ二乗分布に法則収束しません。

(7) AIC は汎化損失の推定量ではありません。

(8) BIC はベイズ自由エネルギーの漸近値ではありません。

(9) DIC は汎化損失の推定量ではありません。

(10) MDL はモデルとデータの符号長ではありません。


代数幾何学と経験過程論を基盤とする新しい統計学を建設することにより、 フィッシャー情報行列の正則性がなくても成り立つ統計学の普遍的な法則が導出されました。




なぜ代数幾何?

代数幾何と学習理論

ベイズ統計の理論と方法  



(1) 対数閾値(λ)は、代数幾何や代数解析で重要な双有理不変量です。統計学においても 重要な役割を果たしていることが発見されました。

(2) 特異揺らぎ(ν)は、統計学において新しく発見された双有理不変量です。代数多様体の確率的な 揺らぎを表す量です。

事後分布が正規分布で近似できるときには、 λ=ν=(パラメータ)/2 が成り立ちますが、一般にはそうではありません。

事後分布が正規分布で近似できる場合には、 λはBICの補正項に対応し νはAICの補正項に対応します

対数閾値λの代数幾何学における意義は広く知られています。νが代数幾何学でどのような 意義を持つのかはまだ解明されておりません。

与えられた統計モデルに対して双有理不変量を求めることは、現在、急速に発展しています。


印刷用PDFファイル



代数幾何とベイズ統計





☆ この定理は、事後分布が正規分布で近似できても近似できなくても、いつでも 成立します。すなわち、統計学における一般的な法則を表しています。そのように 一般的な法則においては、数学で重要な量が現れてきます。

☆ この定理は、代数幾何と統計学との関係が解明されてはじめて発見・証明されたものであり、 それまでは統計学においても数学においても知られていませんでした。

☆ この定理は実験とも非常によく一致します。

☆ 実対数閾値の値については、Yamazaki, Aoyagi, Rusakov, Lin, Zwiernik 博士に よって様々な複雑なモデルについても解明されるようになってきました。統計モデルの 構造と対応する重要な量です。

☆ 事後分布を作るときに使われるモンテカルロ法の挙動は特異点の性質によって 数理的に定まっていることが Nagata 博士の研究によって解明されています。

☆ 特異揺らぎは「汎化誤差と経験誤差の差」の平均値であり、正則・実現可能・最尤推測の 場合であれば、AICの補正項と一致します。この量は統計学的に極めて重要であると 思いますが、その値は、まだほとんどわかっていません。非正則なモデルで特異揺らぎが 計算できる概念として Yamada さんが提案した 擬正則モデル があります。 次の包含関係が成り立ちます。「正則モデル⊂擬正則モデル⊂一般モデル」。

☆ 代数幾何とベイズ統計の間の関係は、最近の10年間で大きく発展しました。 現在では世界中で研究が始まっています。


☆ 証明が必要なかたは下記をご覧ください。

[参考文献1] S. Watanabe, ``Algebraic analysis for nonidentifiable learning machines," Neural Computation, Vo.13, No.3, pp.899-933, 2001.

[参考文献2] S. Watanabe, "Algebraic Geometry and Statistical Learning Theory," Cambridge University Press, Cambridge, UK, 2009, September.

[参考文献3] S. Watanabe, "Equations of states in singular statistical estimation", Neural Networks, Vol.23, No.1, pp.20-34, 2010, January.