事前分布について








渡辺ホームに戻る




私たちの研究室で行ってきた研究成果の中に ベイズ法や変分ベイズ法の数学的構造の解明があります.

その発表の際に事前分布あるいは事前確率について尋ねられることが多いので, まとめておくことにしました.




☆☆☆ 統計モデルおよび事前分布については,100年近く以前の誤った考えがあまりにも広まってしまっているので, 多くの人にとって,このページを読むためには先入観や「解説本の説明」をいったん忘れて, 自分自身で考えていただく必要があるかもしれません.




以下で説明することは現代の統計学者にとってはごく普通のことです. 普通すぎるので改めて言葉で語られることがないだけです.




(注1)【ベイズ法は主観的で・最尤法は客観的】という意見は100年くらい前の誤った考えです.

ベイズ法でも最尤法でも「統計モデルが主観的に定められている」という点は同じです(注3,注4)。 事前分布はモデリングされるものの一部分です. 主観的にモデリングされた統計モデルと事前分布を客観的に評価する方法を作る,という問題が現代の 統計学の重要な課題です.それは数学的に記述できる課題であり,哲学や心理学の課題ではありません.




(注2)【ベイズ法と最尤法は,確率について異なる哲学を基礎としている】という意見も100年くらい前の誤った考えです.

ベイズ法も最尤法も「サンプルから真の分布を推測する」という点でまったく同じであり,方法が異なるだけです. 方法の違いにより性質や精度がどのように異なるのかを解明することが現代の統計学の課題です. それは数学的に記述できる課題であり,哲学や心理学の課題ではありません.











1.研究成果


私たちの研究室で得られた成果は




定理 「(自然な条件を満たす)任意の統計モデルと任意の事前分布について,ベイズ推測の 汎化誤差と自由エネルギーはあるシンプルな数学的法則に従っている」




というものです.ベイズ推測には,人間の哲学や主義や主観に影響されない,常に成立している シンプルな数学的法則があるのです.これは極めて重要なことです.




(参考)この定理は,自然な条件を満たす 任意の 学習モデルと 任意の 事前分布について成り立ちます. 真の分布が統計モデルに含まれていてもいなくても, 事後分布が正規分布で近似できてもできなくても成り立ちます. 特異点があってもなくても 成立します.

定理の内容に関心があるかたは WAIC および WBIC をご覧ください.


(推奨)統計モデルや事前分布を設定するとき,ひとそれぞれの『考え方』や『主義』がありうるのかも 知れません.しかしながら,人がどんな哲学や思想に基づいて統計モデルや事前分布を定めたかに依存せず, 数学の法則は必ず成立しています.数学の定理は, 思想や哲学とは独立に存在していますので,これを知らずに統計的推測を 行うことは,まったく推奨できないと思います. 哲学や思想を考えるよりも前に,まずは数学の法則を知る勇気を持ちましょう.




(参考)最尤法の場合はどうでしょうか.真の分布が統計モデルに含まれていてもいなくても, 尤度関数がガウス関数で近似できてもできなくても,特異点があってもなくても,それでも, 最尤法の汎化誤差を推定できる公式が作れると良いのですが,それはまだ誰も成功しておりません. (数学的な意味で定理に到達していないということです).努力が足りないという厳しい批判もありますが難しいのです. 尤度関数が特異点を含むときには最尤法の汎化誤差が著しく大きくなることは知られています (漸近的には正規確率過程の最大値になります).従って, 汎化誤差を小さくしたい人にはベイズ法を用いることを推奨します.









2.事前分布の選びかた


上記の研究成果から次の応用が生まれます.

与えられた「統計モデル+事前分布」の良さ悪さは定量的に計算できる


ということです.

すなわち,この定理から次のことが可能になりました.

(1) 定理のユーザーは,自分が用いている学習モデルと事前分布について, その汎化誤差(予測精度)を知ることができます.

(2) 定理のユーザーは,自分が用いている学習モデルと事前分布について, その自由エネルギーを知ることができます.

(3) 定理のユーザーは,汎化誤差あるいは自由エネルギーが小さくなる ように,学習モデルと事前分布を決めることができます.


[例] ある人が「哲学的に最高の」事前分布を決めたとき,あるいは「主観に基づいて絶対の」事前分布を決めたとき, それが「良いか悪いか」を数量的に知ることができるわけです. 例え「個人の気持ちの上で深い確信に基づく」事前分布を使っている場合でも, 汎化誤差や自由エネルギーが大きな値になっているときには,予測は当たりませんし,推測は情報源からずれていますから, その事前分布を統計学的に推奨することはできにくいと思います.


[例] また,ハイパーパラメータのコントロールが統計的推測にどのような影響を 及ぼすかを予言することができるわけです.

(以下,やや専門的な例):
混合正規分布において,混合比の事前分布としてディリクレ分布を 用いたとき,ディリクレ分布の指数部を決めているハイパーパラメータが 学習結果にどのような影響を与えるかを知ることができます. ハイパーパラメータを変化させたとき,ある点を境界として学習結果が急激に 変ること(非自明な相転移点があること)もわかります. 相転移点は直感的にはわからない位置にあり,考察しているデータの 次元に応じて相転移点は異なります.この現象は渡辺一帆さんが変分ベイズの研究に おいて初めて発見されたものですが,変分ベイズ法だけでなくベイズ法でも 同様の現象があります.(相転移点は少しずれています). 相転移の存在や位置は理論を作って初めてわかることであり,主観や直感では わかりません.感覚的に事前分布を決めることの危うさを知ることができます. 梶大介さんは,この現象を二つのハイパーパラメータを持つ 混合ベルヌーイ分布の場合に一般化し,相転移現象をさらに深く解明されています. 理論によって,これまでは不明であった現象が解明されたのです. 混合ベルヌーイ分布を用いて統計的推測を行うとき,これらの結果を知らずに, 個人的な感覚で事前分布を決めることは推奨できません.




3. よくある説明について


統計学に関する「便利な How to」を紹介した本に,次のような 説明が書かれていることがあります.

意見 『主観的に事前分布を決めるから予測が当たる. ベイズは主観を活かせるからすばらしい』

こうした説明はベイズ法に関する誤解のもとになっています. 現在の統計学者,学習理論の研究者,また実務を行う人のほとんどは, 【統計モデルや事前分布が情報源に対して適切であるかどうか】を心配し, 【最良の予測を与えているかどうか】を考えるために, 【推測結果が主観や独善に陥らないように】十分に配慮しながら研究をしています. そのような人々は主観的であることを推奨しないと思います.


ベイズ法に対して次の意見もしばしば提出されます.

意見 『良い学習結果が得られるかどうかは,事前分布の 選び方という非理論的かつ恣意的なものによって定まっている. 従ってベイズ法は客観的でなく,統計的推測の方法として受容できない』

この意見もベイズ法についての理解が十分でないことが原因で 提出されるものです.上記で述べたように, 事前分布の選びかたが推測の結果に与える影響は汎化誤差あるいは 自由エネルギーの観点から数量的に調べることができます.


次の意見もよく聞かれるものです.

意見『最尤法を用いると事前分布の影響を受けないので 最良の推測ができる』

これも誤解です.最尤法は,成立しない等式

「パラメータが与えられたもとでのサンプルの確率」= 「サンプルが与えられたもとでのパラメータの確率」

を用いて推論する方法です.すなわち最尤法は「正しくないとわかっている 等式を,それでもあえて使うことにした」という方法です. 正しくない方法を使っても結果が OK であればよい,あるいは,予測が当たりさえすればよい, という考えかたもあるかもしれません. 最尤法は,尤度関数が正規分布で近似できる場合にはベイズ法と漸近的に同じ推測精度を 与えますが,そうでないときには汎化誤差が著しく大きくなることが証明されています. 従って,神経回路網,混合正規分布,ボルツマンマシン,隠れマルコフモデル, ベイズネットワークなどの階層構造や隠れ変数を持つモデルには最尤法は適して いません.これらのモデルで最尤法を用いることは極めて危険です. 一方,一個の正規分布や一個の二項分布の推測でサンプル数が多いときには, 最尤法を用いても大丈夫ですので,安心して使ってください.






(注3)繰り返しになりますが,ベイズ法も,最尤法も,どのような統計的推測も, 「統計モデルを用いる」という意味では主観が必要です.統計モデルは人間が定めるものだからです. サンプルは有限であり統計モデルは無限ですから,統計モデリングにはどうしても人間が必要です. 現代の統計学では,人間が主観により定めた統計モデルが適切かどうかを データをもとに数量的に評価するという考え方をします. その際に用いられる基本的な指標が汎化誤差と自由エネルギーです. 人間が定めた統計モデルを評価することにより, 推測の精度をできるだけ客観的に調べていく,そのための基礎となる方法を作る,というありかたが 現代の統計学の普通の考えかたであると思います.

(注4)人間が主観により定めた統計モデルを評価しないまま 使う場合もあります.その場合には, ベイズ法も,最尤法も,あらゆる統計的推測の方法が主観的なものであるということに なります.もちろん,評価せずに推測したから必ず予測が 外れるわけではありません.【結果オーライ】ということは十分ありえます. 統計モデルや事前分布を変えても精度があまり変わらない場合もありえますから,評価なんてメンドウなことを したくないという気持ちもよくわかります. しかしながら,その場合には「あなたの推測は,どのくらいの精度ですか?」という 質問には答えられないのです.

個人的な問題に使ってみるということであれば,評価なんて気にしなくても よいかもしれません.しかしながら, 職業として統計的推測をする人ならば,ユーザーから依頼された仕事に対して, 納品するものの精度も同時に報告できることが望ましいでしょう.









以下に,追加の注意を述べますが,以下で述べる問題を考えることにあまり意味があると思えませんので, 読む必要はありません.万が一,以下に述べることを読んで『意義深い!』と感じた場合には, 一晩,よく寝てから考え直してみてください.





(注5)事前分布を設定するとき「真のパラメータが不明なのだから全てのパラメータが 等しい確からしさの事前分布を用いなくてはならない」という意見がときどきありますが, この意見は正しくはありません. 統計的推測を行う際の最初の手順としてパラメータ集合全体に広がった事前分布を使って 予測精度を見てみるということは,ベイズ法のモデリングの手順としては悪くはありません. むしろ推奨します.予測精度も悪くはならないことが多いと思います. しかしながら,「・・・でなくてはならない」ということはありません. 全てのパラメータが等しい確からしさである事前分布を用いないと統計的推測ができないということは ありませんし,その事前分布が予測精度の点で最良であるわけでもありません.

そこから派生して「全てのパラメータが等しい確からしさであるような事前分布は何であるか」 という質問もしばしば行われますが,この質問もほとんど意味がありません. 「何を一様であると考えるかが問題だ.基礎とする測度に応じて無限に異なる一様があるからだ. 真に一様である事前分布がわからない限りベイズ推測を行うことはできない」 という意見も正しくありません. 「Jeffreys の事前分布は座標不変であるから,これを使うべきであり,その他の事前分布はどれも 使ってはならない」という意見も正しくありません. (そもそもベイズ法と最尤法はいつでも座標不変です.事後確率最大化法は座標不変ではありませんが, だからと言って事後確率最大化法がいつも適切でないということもありません).








「・・・でなくてはならない」ということはありません.統計モデルと事前分布は,統計モデリングにおいて 人間が試行錯誤を行い未知の分布に対して適切であるかどうかに十分に配慮しながら定めていくものだからです.

なお,実務のことですが, 神経回路網や混合正規分布や深層学習でJeffreys分布を使うと予測精度が非常に悪くなるのでご注意ください.











(注6)「統計物理学における【等重率の原理】から事前分布の設計法が導かれる」という 意見もときどきあるようです.しかしながら,事前分布の設計と等重率の原理の間には関係はありません.

物理学における等重率の原理は,実験によって確かめることができる熱力学の法則と 統計力学から導出される法則とが矛盾しないように要請され設定された自然科学の公理なのであって, それと統計的モデリングである事前分布の定め方とは関係はありません.




(注7)「パラメータが対称性を持つとき『ギブスのパラドックス』が生じるので、 N 個の対称なパラメータを持つ問題では周辺尤度(分配関数)を (N!) で割らなければならない」というような こともありません.

◎ 統計学の理論やアルゴリズムの考案において統計力学で作られた数学的方法が役立つことが多いのは事実です. 分配関数の計算のしかたや平均場近似は統計学でも役立つでしょう.マルコフ連鎖モンテカルロ法の優れた アルゴリズムの設計には,統計力学における数学的方法が非常に役立つことが知られています. しかしながら,それは数学的な等価性によるつながりが基礎にある場合であって, 原理や公理が同じということではありませんし,いずれか一方の原理や公理が他方の原理や公理である ということではありません.





(参照文献)なお,統計力学における『ギブスのパラドックス』については,次の本の解説が適切であると思います.

田崎晴明「統計力学I」培風館, 2008の138ページ.

今では,この本が存在するおかげで『ギブスのパラドックス』を誤解している人はいないと思いますが, それまでは誤解している人も多かったのではないでしょうか. 私はといえば「誤解する」という状況に至る前々段階であり,「ちょっとは考えたことがある」という所でさえ ありませんでした.






事前分布についての説明は以上です.

統計モデリングにおける事前分布についての考えかたは,以上に述べたことが 今日の統計学において普通であり標準的なものであると思います. 若い研究者のみなさまは,以上の説明が合理的であるかどうかを,ご自身で考えてみてください.