ベイズ統計の理論と方法









渡辺澄夫

ベイズ統計の理論と方法、コロナ社、2012 アマゾンのページ




ベイズ統計の理論と方法




この本ではベイズ統計の理論と方法を紹介しています。


ベイズ統計については良い本がたくさん出版されていますので、他の本と 合わせてお読み頂ければ幸いです。


初めてベイズ統計に出あった人はもちろん、これまでにベイズ統計について勉強を されていて、多くの疑問を持たれているかたに本書をお薦めします。


特に、ベイズ統計について『いろいろな本に○○○と書いてあるが、これは 本当のところ正しいのだろうか』と思われていることが沢山あるかたに本書を お勧めします。例えば、


Q1.なぜ事前分布を信じることができるのだろうか?

Q2.ベイズ法は数理や理論に支えられていないのだろうか?

『百人いれば百個の推論』でよいのだろうか?

Q3.私は BIC や DIC でモデルを設計して来たが、それで本当によかったのだろうか?




他の本には書かれていなくて、本書だけに書かれていることは次の3点です。


(1) ベイズ統計に初めて出会った人が持つことが多い疑問について言葉を 用いて答えています。 特に「なぜ確率モデルと事前分布を定めることができるのか」といった疑問について 述べています(1章および7章)。この答えは現代の統計学においては ごく標準的なものですが、ベイズ統計に初めて出会った人には説明がなされないことが 多いものです。

(2) ベイズ統計において一般的に成り立つ数学的法則があることを示しています。 この一般的法則はフィッシャーの漸近論が成り立たない場合でも成り立つものであり、 従来の統計学では扱えなかった問題を扱えるようにできるものです。特に 確率モデルと事前分布を客観的に評価できることを示しています。(2、3、4、6章)

(3) ベイズ統計におけるモデル選択や仮説検定について正しい理論を紹介しています。 自由エネルギーの近似値として、ベイズ情報量規準(BIC)は一般的には正しくありません。 また汎化誤差の推定値として、偏差情報量規準(DIC)も一般的には正しくありません。 それぞれの正しい値を与える公式と、その基礎となる理論を紹介しています。(4、6章)。




(NEW)  情報量規準 WAIC は、 今日、世界の統計学者の間で広く知られるようになりました。 WAIC のソフトウエア・インプリメントも既に実施され公表されています。 ベイズ法のソフトウエア実現の研究をされているかたはご注意ください。 また DIC がベイズ情報量規準として相応しくないことや、 WAIC がクロスバリデーションと漸近等価であることも広く知られるように なりました。海外で最もよく読まれているベイズ統計の教科書の新版にもWAICが 掲載されました。本書の読者は世界に先駆けて新しく正確な概念を得ることができたと 思います。

(NEW)  この本が出版された後に、ベイズ周辺尤度(ベイズ自由エネルギー)の 新しい計算法が開発されました。 WBIC 。 真の分布が不明でも、 真の分布が確率モデルで実現可能でなくても、真の分布が確率モデルに 対して正則な位置になくても、いつでもベイズ周辺尤度の漸近値が 計算できます。実現可能かつ正則な場合は WBIC は BIC と一致します。 また真の分布が不明でも、実対数閾値を求めることができます。 本書を書く前に WBIC を導出できていればよかったと思います。

(NEW)  WAIC も WBIC も本当に容易に実装できます。また、 統計モデルの評価に実際に役立ちますので、機会がありましたら、 ぜひ一度、お試しください。真のモデルを当てたい場合は WBIC を、 予測精度の微妙なレベルまでの調整なら WAIC をお奨めします。





全体の構成は次のようになります。


第1章。統計的推測においては、サンプルだけが与えられて、真の分布は不明です。 真の分布が不明なのですから、 確率モデルも事前分布も、それらが正しいという保証は一般には存在しません。 しかしながら、ベイズ統計においては(真の分布・確率モデル・事前分布)の 三つ組に依存しない普遍的な数学的法則が存在しますから、この法則を基盤として 確率モデルや事前分布の適切さを知ることができます(注意1)。ベイズ統計においては 自由エネルギー 汎化誤差という二つの観測量が重要な役割を 果たします。


第2章。真の分布と確率モデルの関係を記述するための用語を定義し、 ベイズ統計理論を構築するための方法を整理します。


第3章。事後分布が正規分布で近似できるときに成り立つベイズ統計の 法則を導出します。この近似理論は誰でもすぐに理解できる点が長所ですが、現実の 問題でこの理論が適用できるかどうかを、この理論の中だけでは 判定できないという短所を持っています。


第4章。事後分布が正規分布で近似できない場合でも成り立つベイズ統計の 法則を導出します。この厳密理論は数学的な導出を必要とすることが 短所ですが、あらゆる現実の問題で適用可能であるという長所を持っています。 また一般にベイズ事後分布が相転移を持つことを解説し、統計的推測に与える 影響について紹介します。


第5章。事後分布を計算機で実現する方法について、マルコフ連鎖モンテカルロ法と 平均場近似法を解説します。現代では多くの確率変数が複雑に関係する問題が様々な 研究分野で現れますから、これらの方法はますます重要性を増していくと 思われます。


第6章。回帰問題・モデル選択・交差確認法・統計的検定におけるベイズ統計の 問題を考察します。偏差情報量規準(DIC)は一般には汎化誤差の不偏推定量ではないことを 示します。ベイズ交差確認法の分散が汎化誤差の分散と等しいことを示します。 また、ベイズ検定における最強検定は二つの仮説の自由エネルギーの差で与えられます。


第7章。ベイズ統計について基礎的な事柄を解説します。 統計的推測すなわち「サンプルから確率分布を推測すること」は、 「不良設定であること」が自然の姿です。「不良設定の世界」では 「正当な方法」というものは存在できません。そこでは、統計的推測において 用いられた方法の適切さを、哲学・信念・主義・原理・直観によって評価することはできないと 思います(注意2)。 むしろ、そうしたものに依存せずに成り立つ数学的法則によって評価する方法が望まれます。 ベイズ統計は(真の分布・確率モデル・事前分布)が何であっても、 統計的推測の適切さを評価することができるという長所を持っています(注意3)。


第8章。本書で必要となる確率論の基礎についてまとめています。 本書はルベーグ測度論を仮定せず、自然科学・人文科学・社会科学の 研究をしている人を主な読者に想定しています。







(注意1)ベイズ推測においては、サンプルが自然界から得られる天然の素材であり、 確率モデルと事前分布が人間が準備する人工物です。確率モデルと事前分布を、 人間が何らかの方針に従って用意するとしても、それが天然の素材に対して適切かどうかは、 用意したというだけではわかりません。(真の分布・確率モデル・事前分布)の三つ組に依存しない 数学的法則が存在して初めて、人間が用意したものが天然の素材に対して適切であったかどうかを 知ることができるのです。




(注意2)哲学・信念・主義・原理・直観によって確率モデルや事前分布を定めたとしても、 それが適切であったかどうかは、自由エネルギーや汎化誤差によって評価したほうが良いのでは ないかと思われます。自由エネルギーや汎化誤差の観点から見て、明らかに適切で・ネい確率モデルと 事前分布は、それがどのような理由で定められていたとしても、 それは自由エネルギーや汎化誤差の観点から見て適切ではありません。特にパラメータ空間が 高次元になり事後分布が複雑になると確率モデルや事前分布の適切さを数理的な方法以外の方法で 決めることは困難になってきます。




(注意3)ベイズ推測においては、事後確率が正規分布で近似できないときにも、その適切さを調べる手段を作ることが できます。すなわち「真の分布に依存せずに確率モデルと事前分布の適切さを評価できる数学的法則が存在する」 という意味で、ベイズ法は客観的な方法であると言うことができます。このように「確率モデルと事前分布とを 客観的に評価する」という考え方は、現代の統計学ではごく自然で標準的なものです。








質問と回答


質問1.ベイズ推測では事前分布が用いられますが、なぜ事前分布を知ることができる のでしょうか。

回答1.問題の背後に自然法則などがあって正しい確率モデルと正しい事前分布を 定められる場合もあります。しかしながら、 統計的推測を行うほとんどの場合では真の分布は不明であり、サンプルだけが与えられるのですから、 確率モデルも事前分布もわからないのです。統計的推測において、多くの人が感じる 心配は「なぜ人間が定めた確率モデルや事前分布を正しいと信じることができるのだろう」 ということでしょう。この点については非常に多くの本が説明不足であり、それが誤解の原因に なっています。ベイズ推測に限らず、どのような統計的推測でも「ある確率モデルと事前分布が 正しい」と知ることはできません。しかしながら、ベイズ推測においては「ある確率モデルとある事前分布で 推測を行ったとき、その推測がどの程度良い推測であるか」について、自由エネルギーと 汎化誤差の観点から定量的に調べ比較することができます。もちろんサンプルが有限個である以上、 それに応じた精度までの比較ができるだけであり「絶対に正しい確率モデル」や「絶対に 正しい事前分布」はわかりませんが、自由エネルギーや汎化誤差が 従う数学的法則を基盤として、確率モデルと事前分布を客観的に評価できるのです。 このことは本書の1章と7章で説明しています。


質問2.事前分布を人間が定めてはいけないのでしょうか。

回答2.人間が定めた場合にも、自由エネルギーと汎化誤差を用いて評価することを 推奨します。特に、確率モデルが複雑であったり、パラメータの次元が多次元になると、 事前分布が統計的推測に与える影響を、哲学・信念・主義・原理・直観で知ることは 極めて困難です。つまり、事前分布を人間が定めた場合、その影響は人間が思う通りに なっていないことが多いのです。設計者が 「人間の知識を事前分布を通して統計的推論に反映させたい」と 考えて事前分布を定めたとしても、その通りの影響を推測結果に与えているとは限りません。 なぜなら、高次元空間の確率分布は人間の思惑ではなく数学的性質によってその挙動が定められているからです。 特に混合分布、神経回路網、ベイズネットワーク、縮小ランク回帰、 隠れマルコフモデルのように「構造を持つ確率モデル」は、事前分布の変化に対して事後分布が 相転移を持ちます。相転移の構造は理論的に調べないと解明できません。直感的には推測できません。 例えば、混合正規分布の混合比についての事前分布の影響は、考察しているデータの次元によって 異なる相転移を持ちます。相転移の構造を知らないで事前分布を人間が定めるのは 統計的推測において適切ではないように思われます。相転移については4章で説明しています。


質問3.最尤推測は、サンプルが現れる確率を最大化することに相当するのですから、 最尤推測が一番よい推測に違いありません。

回答3.尤度関数は「パラメータが与えられたときサンプルが現れる確率(密度)」を 表していますが「サンプルが与えられたときのパラメータの確からしさ」を 表していません。最尤推測は多くの統計的推測の方法の中のひとつであり、 ベイズ推測も多くの統計的推測の方法の中のひとつであり、「一番良い推測」というものはありません。 もちろん、一定の条件下で、推測法の精度を理論的に比較することができることはあります。 「構造を持つ確率モデル」においては最尤推定量は数学的に望ましくない性質(発散するか汎化誤差が大きい)を 持っていますので、最尤推測は「構造を持つ確率モデル」には適切な方法ではありません。これらについては 3章・4章でそれを述べています。


質問4.ベイズ統計学がどんなに優れた方法であったとしても事後分布を実現できなければ 『絵に描いた餅』ですね。

回答4.いかにして事後分布を実現するかはベイズ統計学の極めて重要な課題です。 一般に、エネルギー関数(ハミルトン関数)H(x) が与えられたとき、exp(-βH(x)) あるいは exp(it H(x)) に比例する確率分布を実現することは、統計力学や場の量子論において、 極めて重要な課題であり、多くの有効な方法が作られてきています。本書では5章において、 その中の標準的な方法である、メトロポリス法、ギブス法、ハミルト二アン法、ランジュバン方程式を 用いる方法、レプリカ交換法について説明しています。また事後分布を平均場近似する方法を 導出しています。これらの方法は、主として、 自然科学において「自然現象をコンピュータによって実現したい」という大きな情熱によって 作られてきました。こうした方法が、生物学・社会科学・脳神経科学・画像解析・ネットワーク解析など 様々な分野に波及している様子を見ると、自然科学の心、すなわち「自然を知りたい」という情熱が、 人類にとってどれほど大切であるのかの一端がうかがえるのではないかと思います。


質問5.本書の最初の方に「ベイズ統計学において(真の分布・確率モデル・事前分布)が何であっても 成立する数学的な法則がある」と書かれていますが、それは具体的にはどんな法則でしょうか。

回答5.定理10と定理14がそれに相当します。分子や原子の微視的な確率論的な規則(等重率の原理) から気体の状態方程式が導かれたように、統計的推測というものが持つ確率論的な規則から 自由エネルギーや汎化誤差が従う普遍的な法則を導出することができます。 この法則を用いて確率モデルや事前分布の適切さを知ることができます。この法則は、従来の 統計学でも知られていなかったものです。


質問6.本書では理論や数理についても書かれていますが、統計学は実践の学問であるのに、 理論や数理の研究をしても良いのでしょうか。

回答6.まさしく統計学の実践のために理論と数理が不可欠です。事後分布が正規分布で 近似できない場合に生じる現象は理論と数理なしに解明することはできません。この理論と 数理によって、真の分布を知ることはできない統計学的実践の場において本当に意味のある 方法を作り出すことができます。BICやDICなど理論なしで使われていた方法が実は正しくなかった ことが解明されます。事後分布の設計が推測結果に及ぼす影響を知ることができます。 マルコフ連鎖モンテカルロ法による事後分布の実現精度を調べるための理論値を導出することができます。 統計学において実践が大切なのはもちろんですが、本当の実践のためには理論が必要です。 統計学や機械学習の研究が「その場限りの工夫を繰り返して論文数のみ増大し実質的に同じ場所を回り続ける」という 状況を越えて、到達できた場所と未解決問題とを峻別することができる真の実践の学問となるためには、 理論と数理は不可欠です。真に客観的に自身の統計的推測を設計したい人ならば 「実データを扱ってさえいれば理論も数理も考えなくてもよい」という意見にはならないでしょう。


質問7.私はこれまで BIC や DIC を用いて確率モデルや事前分布の評価を行ってきたのですが、 これは正しくなかったのでしょうか。

回答7.BIC と DIC が自由エネルギーと汎化誤差に対応した値になるのは、 事後分布が正規分布で近似できる特殊な場合に限られます。そうでない場合には、 正しくありません。これについては、世界中の多くの 統計学者が気づいていなかった点であり(気づいていたとしても正しい理論 は発見されていませんでした)、ベイズ統計学やベイズ学習理論で 世界中で読まれている本にも間違ったまま記載されていました。この間違いについて 現在では徐々に知られるようになってきましたので、 今後は修正がなされていくものと思います。外国で作られたベイズ統計の ソフトウエアには,WAIC の標準装備が開始されています。 古い統計ソフトウエアを利用されているかたは十分にご注意ください。


質問8.表紙のデザインは本の内容を表しているのでしょうか。

回答8.出版社のかたから三種類の案を提示して頂きましたので、その中から 本書のイメージに一番近いものを選ばせて頂きました。デザインを描いて くださったかたのお気持ちはわかりませんが、この表紙は、まさしく 「構造を持つ確率モデルのパラメータ空間」そのものであって、ベイズ 事後分布はこのような空間の上に定義される確率分布です。




さらに質問 「ベイズ決定理論があれば、モデルも事前分布も決められる?」







ミスプリント

ご指摘をいただき、修正しております。

ご指摘くださったかた、誠にありがとうございました。

初版第一刷・ミスプリント一覧

第2刷・ミスプリント一覧

第3刷・ミスプリント一覧

第4刷・ミスプリント一覧

第5,6,7刷・ミスプリント追加

第5,6,7刷・ミスプリント追加

ミスプリント追加











本書で現れる問題に関連した事項を載せます。
目でみる尤度関数 ,  実験WAIC ,  代数幾何とベイズ統計 ,  なぜ代数幾何? ,  交換の確率 , 







大学・大学院で統計学の講義をされている先生がたに


御存じのように、今日では、社会・自然・環境・生命についての調査や研究において 【構造を持つ複雑な関係】を考察する必要性が高まっています。そこでは 【自然や社会の仕組みをデータから抽出すること】が重要な課題になっています。

しかしながら、現在の大学・大学院においては、学生の皆さんが学ばなくてはならない ことは、量においても種類においても非常に多く、そのため統計的推測について学ぶ時間が 十分には確保できなくなってきているように思います。

「統計学は大学で学ばなくても統計ソフトを利用できれば十分」という 考えたもあるかもしれません。しかしながら、例えば、ごく簡単な混合正規分布の推測でさえ フィッシャーの漸近論が成り立たたないため、そうした事情を知らずに統計ソフトを用いて モデル評価を行うと 社会・自然・環境・生命の問題において正しくない結果に到達してしまいかねないという 危険性について、何らかの機会に学生の皆さんに知ってもらう必要があるのではないかと 思います。統計ソフトが統計的に正しい操作をしているとは限らないことを学生の皆さんに 伝える必要があります。

混合正規分布のような【構造を推測する確率モデル】においては、一般に最尤 推定量は存在せず、存在したとしても適切な推測を与えません。AICでもBICでも モデル選択はできず、カイ二乗検定は正しい検定になりません。ベイズ推測の アドバンテージは、最尤推定量が存在しないあるいは適切でない場合で あっても適切な推測を与えること、および、フィッシャーの漸近論が成り立たない場合でも、 それでも成り立つ一般的な法則があるという点にあると思います。 もちろん、たとえベイズ推測を用いていても BIC あるいは DIC は【構造を推測する問題】では 正しい評価を与えないことを実問題を研究する人は知っていなくてはならないと思います。

ベイズ統計のこうした点については必ずしも広く理解されてはいないように思います。 大学・大学院での統計学の講義はその重要性に比して明らかに時間が少なすぎると思いますが、 【構造を推測する問題では最尤法よりもベイズ法の 方が適切であり、ベイズ法では普遍的に成り立つ数学的法則がある】ということを 学生の皆さまにお伝え頂ければ幸いです。