変分ベイズ学習の理論







このページを作成したのは2005年でした。このページを作成した後から 解明されたこともたくさんありますが、このページは、このまま掲示を 続けたいと思います。なお、論文情報については更新しました。(2010/May/11)





最近、研究室の人たちが、学習理論における平均場近似の 精度について理論的な研究をされているので、かんたんな解説を 書いてみました。


1.平均場近似

w=(w1,w2,..,wd) を d 次元ユークリッド空間の中のベクトルとします。 p(w) を d 次元ユークリッド空間の上の確率分布とします。 p(w) を作りたくても高次元上の確率分布はなかなか作れないという問題があります。 このとき、全ての変数 w1, w2, . . . , wd が独立である確率分布

q(w) = q_{1}(w1) q_{2}(w2) ・ ・ ・ q_{d}(wd)


を考えて、q(w) から p(w) までの相対エントロピー

D(q||p)=∫q(w)(log q(w)-log p(w))dw


を最小にする q(w) を求め、「q(w)をp(w)の近似と考えよう」とすることを 平均場近似といいます。確率分布 p(w) がある関数 H(w) を用いて

p(w)=exp(-H(w))/Z


という形で与えられているときには、D(q||p)を最小にする q は、汎関数

f(q)= ∫ q(w) (log q(w) + H(w) ) dw


を最小にする q と等しいことはすぐにわかります。もしも、ある q(w)が 存在して、q(w) = p(w) が成り立つときには

F = min_{q} f(q) = -log Z


になります。関数 H(w) がハミルトニアンであるとき、Z は分配関数であり、 F は自由エネルギーです。しかし、普通は、p(w) は変数毎に独立であるとは 限らないので q(w)=p(w)にはなりません。最小値である

F'=min_{q}f(q)


を平均場近似による自由エネルギーといいます。定義から F'≧ F であり、

F'-F


が平均場近似の良さを表す量になります。この差が小さければ小さいほど、 平均場近似の精度は良いと考えてよいでしょう。


(注意)ハミルトニアン H(w) が与えられたとき、Q を確率分布全ての集合とすると

-log∫exp(-H(w))dw = min_{q∈Q}∫q(w)(log q(w)+H(w))dw


が成り立つことは、 統計力学が成立したころから知られていたのではないかと思います・・・。 平均場近似では集合 Q を、変数毎に独立なものが作るものに限定しているので、 上記の式は一般には成り立ちません。


2.物理学科の3年生で習うこと

物理学科の3年生はみんな、次のことを学習します。 これは数学や情報学では、あまり習わないことなので、物理学科以外の人の 参考になるかも知れません。

(1) 平均場近似は、本当の分配関数 Z を知らなくても計算できますが、 その代わり、平均場近似では本当の Z を知ることはできません。 つまり平均場近似が計算できるということと、本当の現象を知るということは、 情報論的に独立な(?)仕事です。

(2) 1次元スピン系では、平均場近似も厳密解も計算できます。 1次元スピン系では、平均場近似は相転移を持ちますが、厳密解は相転移を持ちません。 ほとんどのモデルで平均場近似は計算できますが、たいていのモデルで厳密解は 計算できません。厳密解が計算できないケースにおいてもなお、真実は何であるのかを 求めようとするとき初めて現代数学の全ての分野との深い関係が現われてきます。

(3) 物理学科の先生は、生徒たちに次のように教えます。
「平均場近似は便利なものですが、誤った結論を導く場合も少なくないので、 使い方に注意しましょう(※)。物理学においては、解析や計算は、 ただそれを実行すればよいのではなく、その結果が、どんな意味を持つのかを 深く味わい感じてみるというバランス感覚が重要です。計算結果が出れば それで終了なのではなく、むしろ計算結果が出てからが本当の物理学の始まりです。 計算結果が考察している現象のどの部分を主に扱っていて、どの部分を無視しているか、 を常に見定めなくてはなりません。また、計算結果が、どのような状況で信頼できるか についても、正しい視点を持つ必要があります」

(関連事項)「使い方に注意しないと近似理論が誤った結論を導きうること」は、 驚くことではないと思う人も多いでしょう。どんな理論でも哲学でも技術でも、 どらえもんの道具でさえも、むやみに使うと破綻が生じることは明らかです。 しかしながら、例えば、選択公理を むやみに使うと人間の直観に反する結論がしばしば導かれうることから、 数学者からも「使用上の注意」を要すると感じられている公理が存在する というのは、ちょっと面白いことであると思います。(だからと言って 数学の証明が不確かなものであるということではありませんが)。


3.ベイズ法と平均場近似

さて、 ベイズ法は統計的推測に用いられるものですが、尤度関数をハミルトニアン H(w) とする ボルツマン分布、すなわち、事後分布を作る必要があります。 p(w) を事後分布とするとき、 f(q)を最小にする q(w) を変分法で求めることを変分ベイズ法といいます。これは 1990年〜2000年にかけて Hinton,Mackay らによって実験的に検討されました。 また、事後分布ではなく、事後分布と隠れ変数の同時分布を p(w)とすると、EMアルゴリズムと 良く似た学習アルゴリズムが導出されることは Attias 等によって提案されています。

f(q)を最小にする q(w)を explicit に求められない場合でも、q(w)が満たすべき条件を 導出することができることが多いことが知られています。変分ベイズ法は、 q(w)が満たすべき条件式を再帰的に代入することで目的のものを求めようとする 方法です。一般に繰り返し代入によって条件式を満たすものが求まる保証はありませんが、

変分ベイズ法においては、ATR の佐藤雅昭先生が、 「q(w) が満たす条件を繰り返し適用することは、f(q)に関する自然勾配法と 等価である」ことを示されています。皆さん、よくご存知の通り、 佐藤先生は素粒子理論の研究者でもあり、またオンライン学習についての専門家でもいらっしゃいます。
Sato, M. (2001). On-line model selection based on the variational Bayes. Neural Computation, 13(7), 1649-1681.
2005年5月17日のセミナーで樺島研究室D2の外崎さんが、この論文の講読をして くださることになりました。興味のある方はG5棟8階知能システム科学専攻会議室に お集まりください。学習理論に興味を持つ人ならどなたでも歓迎します。

変分ベイズ法は世界的に非常に多くの実問題に応用されています。 日本ではATRの銅谷先生、NTTの上田先生、奈良先端の石井先生の グループが運動科学・情報工学・脳科学・遺伝子解析への適用を研究されています。 東工大の佐藤泰介先生のグループは、確率的文脈自由文法への適用を研究されています。 このほかにも多くの実問題への応用があります。EMアルゴリズムとほとんど同等の演算量で、 EMアルゴリズムよりも良い 推測ができることが多いと感じますので、是非ためしてみてください。

(注意)混合正規分布のようなモデルでは、最尤推定量は存在しないので、もしも EMアルゴリズムが最尤推定量を本当に探していると発散します。実際は、EMアルゴリズムは、 尤度を局所的に大きくするパラメータを探すように調整しながら使われているはずなので、 局所最尤推定量を探すものになっている可能性が高いです。局所最尤推定量も汎化誤差の は変分ベイズ法より大きくなります。


4. 特異モデルと変分ベイズ

知能情報学で用いられる多くの学習モデルは特異モデルなので、 事後分布は正規分布では近似できません。また事後分布は、変数毎に 独立にはならないことがほとんどです。そのような場合に 変分ベイズを適用すると、どのようなことが起こるでしょうか。 変分ベイズの性質を理論的に解明することができるでしょうか。

(1) これは重要ではあるが、なかなかに難しい問題であると、2004年の春ころに思っていたのですが、 渡辺一帆さんが、混合正規分布の変分ベイズ法の自由エネルギーを解明されました。 変分ベイズでは、事前分布として共役なものを用いますが、事前分布を決めるハイパーパラメータに 応じて場合分けが生じることがわかります。この場合わけは、事後分布の主たるサポートがどの あたりになるかによって変わることに対応しています。 この方法は、任意の混合指数型分布に拡張することができます。
Kazuho Watanabe, Sumio Watanabe, "Stochastic complexities of gaussian mixtures in variational bayesian approximation," Journal of Machine Learning Research, Vol.7, pp.625-644, 2006.

(注意)変分ベイズ法を実際に用いるときには、事前分布のハイパーパラメータを決める必要が あります。混合正規分布の場合で説明します。 真の分布に対して学習モデルが冗長である場合に、混合比が零に近づくか、二つの コンポーネントが重なるか、のどちらが起こるかについては、 混合比に関する事前分布のハイパーパラメータによって変化します(相転移)。 データの次元を M として、 ディリクレ分布のハイパーパラメータをφとすると(M+1)/2 が相転移点になります。 これよりもφが小さいと混合比が零になり、これよりもφが大きいと二つの コンポーネントが重なります。なお、「実際の問題では真の分布が学習モデルよりも 小さいということは一般的なケースでは無視してよい」という考えが間違いであることは、 統計学や学習理論を習ったことがある人には明らかでしょう。 仮に真の分布が10個の正規分布の混合であって、学習モデルも 10個の正規分布からなる場合でも、全てのコンポーネントが ほぼ正しい推測をしているかどうかを、どうしたら判断できるか、という 問題を考えて見てください。(データしかない状態で、真の分布が9個でも 11個でもないことを確信することは非常に困難な課題です)。 サンプルの個数は、多いと言っても有限ですから、隠れている構造を知ろうとすれば、 そのオーダーを考える必要があるのです。この問題ではAIC,BIC,MDLのような 統計的正則モデルの議論は適用できません。事後分布が正規分布では近似できないからです。

(2) また、 星野力さん が隠れマルコフモデルの変分ベイズ法の自由エネルギーを解明されました。 「Left-to-right」では、変分ベイズとベイズは漸近的に一致します。 「文字列から、その文字列を発生している確率的な文法を推測するとき、 どのような学習曲線が得られるか」という問題は、今後、ますます重要度を増す ものではないかと思います。
星野力、渡辺一帆、渡辺澄夫、 "隠れマルコフモデルの変分ベイズ学習における確率的複雑さについて" 電子情報通信学会論文誌, Vol.J89-D-II,No.6, pp.1279-1287, 2006.

(3) 中島伸一さん は、縮小ランク回帰における変分ベイズ法は、縮小推定量に帰着することを示し、 自由エネルギーと汎化誤差を解明されています。中島さんは、経験ベイズにおいても良く似た結果が 得られることを示されています。 縮小ランク回帰については、ベイズの自由エネルギーの 厳密解は、上智大学の数学者・青柳先生によって求められていますので、 平均場近似の結果とベイズの厳密解とを比較することができます。 (ベイズの厳密解を知るには、ハミルトニアンの特異点を解消する必要があります)。 また、中島さんは次元 d が無限大になる 場合も計算されています。このとき、ウィグナーの半円則が出てきます。
S. Nakajima, S.Watanabe, ''Variational Bayes Solution of Linear Neural Networks and its Generalization Performance.''Neural Computation, vol.19, no.4, pp.1112-1153, 2007.

(5) また、最近では 中野修弘さん が階層神経回路網における自由エネルギーを解析されています。
電子情報通信学会信学技報NC研究会2005年3月号.

(6) 永田賢二さん は、 q(w) として全ての変数を独立とするよりも表現力のある 確率分布を用いる場合を解析されています。
永田賢二、渡辺澄夫、 "ベイズ事後分布の最適近似法の提案と有効性について"信学技報、NC2004-226、pp.195-200、2005.

(7) 高松慎吾さんは、 q(w)としてももっと簡単なものを選んでも、学習をすることができることを示されています。
高松慎吾,中島伸一,渡辺澄夫,"局所化ベイズ学習法" 電子情報通信学会論文誌, vol.J89-D-II, no.10, pp.2260-2268, 2006.


5.今後の課題

ベイズ法や変分ベイズ法において、自由エネルギーが解明されたということは、 学習モデルが情報学的に設計可能になったということを意味しています。 学習システムを本気で応用しようと望んでいる研究者なら、学習モデルが設計可能である、 ということがどれほど大切なことであるかは説明しなくても明らかでしょう。

ところで、自然科学においては平衡状態は自然が実現してくれています。 従って真の目標はあくまでも真の平衡状態であり、近似計算法は、 真の平衡状態を知るための手がかりという位置付けになります。

一方、 計算機科学においては確率分布をコンピュータで実現する必要がありますが、 ボルツマン分布を実現することが困難である場合には、近似計算法によって 情報システムを構築することも考えられます。その場合には、近似計算法が 近似システムを正しく予言することになります。この点、自然科学と計算機科学は 少しだけ違うかもしれません。もちろん、計算機において近似計算法が 正しく実現されているかというと、これもまた、必ずしも、そうとは限らないので、 問題は、よりいっそうに微妙なのですが・・・。

さらに新しいことがわかったら、ここに付け加えて行きたいと思います。


最後に、数理物理学の研究者の先生には、この解説文章は易しすぎるものです。 「易しすぎる」というご批判は誠にその通りであります。