学習の状態方程式


Equation of State in Statistical Learning




もどる


1.概略

サンプルと学習モデルが与えられたとき、真の確率分布(サンプルを発生している分布)を推測する ことを統計的学習といいます。

推測された確率分布を用いて未知のデータを予言したときの 誤差が予測誤差であり、推測された確率分布を用いて既知のサンプルを予言したときの誤差が 学習誤差です。

予測誤差を小さくすることが学習の本当の目的ですが、予測誤差は真の確率分布がわからなければ 計算できません。学習誤差はサンプルだけから計算できますが、予測誤差とは一致しません。

もしも学習誤差から予測誤差を推測できれば、サンプルだけから未知のデータに対する予言の良さが わかるので、非常にありがたいということができます。しかしながら、予測誤差の平均値を知ることは、 統計的正則モデルでは実現されていましたが、統計的に正則ではないモデルでは 実現する方法がありませんでした。統計的に正則でないモデルはパラメータの確率分布が 正規分布に近づかないために、一般的な性質を調べることができなかったのです。

最近、我々は、統計的に正則ではないモデル、すなわち、神経回路網、混合正規分布、混合2項分布、 隠れマルコフモデル、文脈自由文法、ボルツマンマシン、縮小ランク回帰など、情報学で広く使われている モデルに対して、学習誤差から予測誤差を知る方法を発見しました。それは、次の画像のとおりです。

Equation of State in Learning



上記の画像が読みにくい場合、あるいは印刷する場合には次のものをお使いください。

学習の状態方程式

これは、統計学でも、学習理論でも、それ以外の分野でも、これまでは知られていなかった 新しい公式です。

ミクロなもの(パラメータ)が従う確率分布から、 マクロに計測できる量の関係が導出されたものなので、 この公式を「学習の状態方程式」と呼んでいます。学習の状態方程式は、 (真の分布、学習モデル、事前分布)の三組が、どんなものであっても 成り立ちます。もちろん、統計的に正則なモデルでも成り立ちますが、 統計的に正則でないモデルでも成り立ちます。

渡辺澄夫、``学習と予測における普遍性を表す関係式について," DEX-SMI研究成果 発表会予稿,2009年12月

数学を専攻されている先生は こちら(PDFファイル) をご覧ください。



もどる












































以下に述べることは、上記についての発展的な記述です。 関心のない方は、お読みになる必要はありません。途中で読むのをおやめに なられても大丈夫です。理解できないことが 含まれていても、気にされる必要は、まったくありません。




2.数学との関係について

(1) 学習の状態方程式は非常に簡単な式です。しかしながら、統計学・統計力学・情報理論の普通の本に 書かれている基礎的なことは、全て成り立たないケースを考えていますので、 証明のために必要な補題についても零から作る必要があります。統計学の本の始めの方に書いてある クラメル・ラオの補題でさえ、無意味になってしまうケースを考えています。情報学では、 その場合が最も大切だからです。


(2) 実は、(q(x),p(x|w),φ(w), β) から定まる定数 (S, λ、ν)が存在して


E[G] = S + [(λ−ν)/β+ν] ・(1/n) + o(1/n)

E[T] = S + [(λ−ν)/β−ν] ・(1/n) + o(1/n)

E[V] = 2ν/β +o(1)



が成り立つことを証明することができます(普通のベイズ推測ではβ=1の場合が 用いられます)。この三つの式から、(S, λ,ν) を消去すると、学習の状態方程式が導出できます。


S は、(q(x),p(x|w)) だけで定まります。

λは、(q(x),p(x|w),φ(w))から定まります。

νは、(q(x),p(x|w),φ(w),β)から定まります。


(3) 三つの定数 (S,λ,ν)は非常に重要な量です。この三つの量は全て双有理不変量です。 フィッシャー情報行列が正則でなくても定義できます。

(3.1) まず、定数 S は、 情報理論、統計学、学習理論を研究されているかたなら、どなたでもご存知のものです。 真の分布 q(x) に従うサンプル系列をモデル p(x|w) で符号化したときの平均符号長です。 (パラメータ w としては最適なものを用いた場合に相当します)。 学習モデルが真の分布を含んでいるときは、 S は真の分布のエントロピーと一致します。

(3.2) 次に、定数λは、代数幾何・代数解析・超関数論において、よく知られている双有理不変量です。 対数閾値と呼ばれています。この概念の数学における発見者は、おそらく Gel'fand なのではないかと 思います。代数幾何や代数解析において、しばしば登場する量です。微分方程式の基本解の存在の 証明のためにある超関数が解析接続できることの証明に現れます(M.F.Atiyah, Resolution of singularities and division of distributions, Comm. Pure. Appl. Math., 1970, 145-150). すなわち、Bernstein-Sato 多項式や井草ゼータ関数と密接な関連を持っています。 Bernstein-Sato 多項式を計算するアルゴリズムは、Oaku, Takayama, Noro 等によって、発見、証明、実現されて います。代数的局所コホモロジーから計算する方法は、Tajima 等によって構成されています。 また、対数閾値は高次元代数幾何学において重要な役割を果たすといわれています。 (J.Kollar,S.Mori, 双有理幾何学, 岩波書店, 1998)に「極小モデル理論において重要な位置を占めている」と 書かれています。M.Mustata はジェット・スキームから この値を計算するアルゴリズムやバウンドを与える不等式を研究しています。 S.Takagi-K.Watanabe は標数が0のときに 対数閾値に一致する F-閾値を代数的に定義し3次元の特異点解析に役立つことを示しています。 K.Watanabeは標数が有限である場合のb-関数の挙動から標数が0である場合のb関数の挙動を 導出する研究も行っています。振動積分の漸近展開に現れることを示したのは Varcenko です (金子晃,ニュートン図形・特異点・振動積分, 上智大学数学講究録,1981)。 情報理論・統計学・学習理論において、 この量が重要であることを発見したのは我々であると考えられます。 情報理論・統計学・学習理論においては、確率的に揺らいでいる関数を考える必要があるので、 数学的に自明な結果であるわけではありません。

S. Watanabe, ``Algebraic analysis for nonidentifiable learning machines," Neural Computation, Vo.13, No.4, pp.899-933, 2001.

一般に対数閾値は、代数多様体のペア(X,Y)に対して定まる双有理不変量です。 学習理論においては、 「パラメータの集合(=X)」と「真のパラメータの集合(=Y)」の相対的な関係により定まるわけですが、 その相対関係を数学的に表している量が対数閾値であり、その値によって 学習の早さが決定されます。学習理論のように具体的な問題において重要な量が 代数幾何学や代数解析学で昔から研究されていたことは驚嘆するに足りることであると思います。 定数λは統計的正則モデルであれば(パラメータ数/2)になることは容易にわかります。 特異モデルにおいては、ブローアップやトーリック改変を用いることにより、λを計算することができます。 具体的なモデルに対して計算することは、個々のモデルの性質を数学的に取り出すという重要な 課題です。縮小ランク回帰、混合正規分布、 神経回路網、ベイズネットワークなど重要なモデルにおいてλの値は解明されています。 (Aoyagi, Yamazaki, Rusakov, Geiger)。これらの結果は下記の本にも紹介されています。

M. Drton, B. Sturmfels, S.Sullivant, ``Lectures on Algebraic Statistics," BirkHauser, 2008.


(3.3) 最後に、定数νは、学習理論において発見された双有理不変量です。 一般にはνはβに依存します。この量は、学習モデルの特異点に おける揺らぎを表していると感じられるので、Singular Fluctuation と呼んでいます。 定数λは、サンプルの個数 n とともに事後分布が縮小していく速さを表していますが、 定数νは、その揺らぎが、どのような挙動を持つのかを表しています。定数νが 数学的に重要かどうか、どのような意味を持つか、などについては、 よくわかっておりません。しかしながら、確率過程 H(x) が特異的な場合の確率分布 exp(-βH(w)) の揺らぎを表しているのですから、数学的に重要でないということは ないのではないかと感じられます。 統計的正則モデルで、学習モデルが真の分布を含んでいるときには νはβに依存せず、 (パラメータ数/2) になることが容易にわかります。統計的正則モデルで、学習モデルが 真の分布を含んでいないときには、竹内情報量規準の 補正値の半分の値に一致します。特異モデルの場合、νがどんな値になるかは、今のところ、 まったくわかっていません。なお、統計的正則モデルで 学習モデルが真の分布を含んでいるときに、λ=νが成り立つのですが、 これが偶然なのか、理由があってのことかは、わかりません。





3.補足事項

次に、得られた方程式についての補足を述べます。

(1) 「理想気体の状態方程式」は、PV=nRT がどんな理想気体でも成り立つことを述べています。 理想気体において、P,V,T は、状況に応じて様々な値を取りえますが、どんな場合でも、 関係式は成り立っています。

「学習の状態方程式」は 予測誤差 G, 学習誤差 T, 汎関数分散 V の間に、 一般的な関係があることを述べています。 学習において、G,T,V は、状況に応じて様々な値をとりえますが、 どんな場合でも、この関係式は成り立っています。

(2) 学習の状態方程式は、真の分布が学習モデルの特異点であるかどうか、ということを 心配することなく用いることができます。また、真の分布が学習モデルに含まれているか どうかについても、心配することなく用いることができます。

(3) T と V は、任意の「学習モデル p(x|w) と事前分布 φ(w) 」のペアに対して、 計算することができます。従って、予測誤差 G を小さくしたい、という観点から、 学習モデルや事前分布を比較することが可能です。すなわち、最も予測誤差が小さく なるように、学習モデルや事前分布をコントロールすることができます。 逆温度βについても、同様のコントロールができます。ただし、極限「β→∞」と 「n→∞」は、一般には交換できません。つまり、状態方程式で βを∞にすることは一般にはできません。

以上のように、定理の意味を理解するだけなら、数学的な基礎は必要ありません。

以上で、学習の状態方程式に関する補足説明は終わりです。




4.その他のことなど

関連事項について紹介します。


(1) 詳しい記述を知りたいかたは、下記のものをご覧ください。参考文献[1]は分量が多いので、 証明のあらすじを知りたい方には [2] の方が良いかもしれません。

[1] S. Watanabe, Equations of states in singular statistical estimation, , arXiv:0912.0653, to appear in Neural Networks, 2009.

[2] S. Watanabe, "A formula of equations of states in statistical estimation," Proc. of WCCI, Honkong, 2008, June, 1-6.


(2) 特殊な場合として、平均対数尤度関数 L(w)=-∫q(x) log p(x|w) dx のヘッセ行列が 正定値である場合には、初等微積分と線形代数だけで証明できます。 これにより「学習の状態方程式」は、赤池情報量規準(AIC)や竹内情報量規準(TIC)を 含んでいることを確認することができます。AIC や TIC では、補正項の値が、 上記のヘッセ行列が固有値0を持つときには ill-defined ですが、 汎関数分散 V は、いつも well-defined です。このことから、 学習モデルとして AIC や TIC が適用できる場合であっても、サンプル数が、 それほど大きくない場合には、汎関数分散の方が安定である可能性があります。 統計学の立場からは、汎関数分散という概念が発見されたということが重要であると思います。 汎関数分散 V のゆらぎは、o(1/n) のオーダーであることも証明されます。

[3] S. Watanabe, Equations of States in Statistical Learning for a Nonparametrizable and Regular Case, arXiv:0906.0211.


(3) 確率論の立場からは、学習の状態方程式は、 あるタイプの極限定理であると考えることができます。独立な確率変数の 個数が無限大になっていくときの、対数尤度関数の特異点の近くの挙動が この定理によって解明されています。例えば、中心極限定理は、独立な 確率変数の和によって定義される確率変数の挙動は、漸近的には、 平均と分散だけで記述されるものになるということを主張しています。一方、 このページでは、独立な確率変数を用いて、対数尤度関数の 特異点の様子を調べると、漸近的には、λとνによって記述されるものに なるということを主張しています。つまり、λとνは、特異点を含む集合の上に 定義された関数の平均と分散のようなものであるということができるのではないかと 感じられます。

[4] S. Watanabe, A limit theorem in singular regression problem, arXiv:0901.2376v1, to appear in Advanced Studies of Pure Mathematics.




5.数学的構造

最後に、まだわかっていないことについて述べます。予想というより空想のようなものなので、 そうしたものとしてお読みください。


確率論の極限定理に幾何学的な不変量がしばしば現れることは、経験的に、よく 知られています。学習の状態方程式も、そのようなもののひとつであるかも 知れません。尊敬する数学の先生がたから頂いた御意見によれば、学習の状態方程式は、 もっと大きな普遍性を持つ数学的構造の「氷山の一角」として見えているものであるかも 知れず、仮に、そうであるとすれば、その「大きな普遍性を持つ数学的構造」を明らかに することができたとき、数学としてはまったく自然な帰結のひとつとして導出できるのかも知れません。 そうしたものとして、俯瞰的な視点から、もう一度、 学習の状態方程式 をご覧頂くと、 背後にある景色が見えるでしょうか。

(補足1)この御意見は、幾人かの数学の先生がたから、別々の機会に独立に頂いたものです。 「代数多様体の上の確率過程を考えたら特異点のどのような情報が得られますか」という ご質問も、しばしば、いただいています。 数学を専門とされている先生がたが、そのように思われるということから 推測すると、この予想は、かなり確度の高いものなのかもしれません。ただし、そうした 方向の研究をしている人は、今のところ、ひとりもおりません。何を考えたらよいかも、 よくわかっていないというのが現状です。まずはともかく確率過程論と特異点論が必要ですが、 あらゆる数学の概念が必要になる可能性があります。もしも、新しい数学を作る必要があるとすれば、 それは素晴らしいことであると思います。

(補足2)例えば、中心極限定理の証明を考えるとき、 「確率測度の法則収束」と「特性関数の各点収束」の同値性を示すことは、 中心極限定理よりも重要であることはよく知られています。 この同値性は無限次元の確率測度まで一般化することができます。学習の状態方程式においては、 階層が異なる2重の平均に関する極限を考える必要がありますが、 そのような問題において有効な「特性関数の役割を果たす概念」を見出して、 その数学的基礎を与えるということが強く望まれます。この問題はランダムハミルトニアンの 問題を通して数理物理学とも関連を有しているように思われます。

(補足3)ここで紹介した問題は、統計的推測という極めて具体的な問題の中から 現れたものであり、もしも、非常に深い数学的構造が洞察された場合、実世界においても 非常に役立つ概念が得られる可能性があると思います。数学を研究する場合、実世界との 関連の有無は、どちらでも良いことですが、この問題に限っては数学的構造と実世界とが 真の意味での数学的関係を持っているかもしれません。

なお、(補足2)に述べたことについての研究が重要であることは 間違いないと感じられますが、成果に到達することは非常に困難かもしれません。

(2009/Aug/10). 




(追記)2009年の秋に、ある研究会の講演で学習の状態方程式を説明させて 頂く機会があり、次のような説明を行いました。

「学習理論で現れるのは、有限次元の上のボルツマン分布であるが、ハミルトニアンは ランダムな関数で、その平均関数が特異点を持つため、オリジナルなパラメータ集合上では、 サンプル数が大きくなるときの繰り込み操作を行うことができない。しかし、 特異点解消定理を利用してハミルトニアンが正規交差になるパラメータ空間に移行すれば、 そこでは繰り込み操作を行うことができて観測量の漸近挙動を導出することができる。 学習の状態方程式は、その産物として自然に導出される。」

この講演を行った際に、尊敬する理論物理学の先生から「学習の状態方程式は、 それが成り立つ理由も含めて誠に明解なものである」というコメントを頂きました。 ありがとうございました。なお、学習の状態方程式は、下記の論文に掲載されます。

S. Watanabe, ``Equations of states in singular statistical estimation," Neural Networks, Vol.23, No.1, pp.20-34, 2010.

(2009年11月30日作成).

その後の発展については下記をご覧ください(2010年1月19日)。

``Asymptotic Learning Curve and Renormalizable Condition in Statistical Learning Theory," arXiv:1001.2957, 2010. (2010/Jan/18).