広く使える情報量規準(WAIC)の続き






このページでは WAIC の追加説明を行っています。

WAIC の基本事項の説明は WAIC をお読みください。




以下は、WAICについてより広く理解したいかたのための注意事項です。

以下で述べることをお読みにならなくても WAIC は誰でも利用することができます。




(注0)【値のスケーリング】

情報量規準の値を定義するとき、AIC や DIC のオリジナルに合わせて 汎化損失の 2n 倍を用いることがあります。 (たとえば 「Gelman他, Bayesian Data Analysis, CRC Press,2013」の記述では 2n倍の ものが用いられています)。それはすなわち


AIC=−2×対数尤度+2×パラメータ数


にスケールを合わせて比べることができるということです。 この意味でスケールを合わせたい場合には、上記の WAICの式を 2n 倍してください。

○ この「2n倍」を用いた定義ではサンプル数が増えるにつれて AIC、DIC, WAICの値はほぼ線形に増加(あるいは減少)していきます。 「2n倍」でない定義では、AIC, DIC, WAIC の値は、 サンプル数が増えるにつれてある定数値(平均汎化損失)に近づいていきます。











(注1)【モデル選択での一致性について】

階層構造を持つモデルにベイズ法を適用すると、真の分布に対して複雑すぎるモデルを 用いても汎化誤差はそれほど大きくなりません。 これはベイズ法の長所のひとつですが、汎化誤差があまり大きくならないため、 WAICもあまり大きくなりません。このため、WAICを最小にするモデルを選んでも 真の分布がぴったり当たるとは限りません。つまり、WAICは汎化誤差を知るためには適切ですが、 真の分布を当てる用途には適していません。真の分布を当てたい場合には、 WBIC を使って頂けると幸いです。 (統計的正則モデルで、真の分布がモデルで実現できるときには WAIC は AIC に、WBIC は BIC に、それぞれ漸近的に一致します。 従って AIC と BIC が持つ性質を WAIC と WBIC は、その自然な一般化として引き継いでいます)。

写像「パラメータ→確率モデル」が一対一でない場合は、現実の課題ではしばしば生じますが、 ベイズ法はそのような場合に最尤法よりも優れた予測精度を持っています。WAICは、そのような 場合でも予測損失を推測することができます。

注意:WAIC はベイズ推測(ベイズ予測分布を用いた推測のことでフルベイズと呼ばれることもあります) のための規準であり、最尤推測やMAP推測のための規準ではありません。 WAICで適切だと判断された統計モデルと事前分布であっても、 最尤推測やMAP推測では適切でないという可能性はあります。








(注2)【WAICの評価について】

現状での WAIC について評価の状況は次の通りです(2015/2/20)。

2013年にベイズ統計の教科書に掲載されました。また 大学での講義でも紹介され、その講義の様子が Youtube に掲載されています。 WAICを計算するサンプルプログラムも幾つか公表されています。 宇宙物理学、環境学、医学、疫学、心理学、体育学等の分野における実践的な論文も発表されるようになってきました。




WAIC について記載されている本の例

A. Gelman et. al., Bayesian Data Analysis, 3rd edition, (Chapman & Hall/CRC Texts in Statistical Science), 2013.

F. Korner-Nievergelt et. al., Bayesian Data Analysis in Ecology Using Linear Models with R, BUGS, and Stan, Academic Press, 2015.

Richard McElreath, Statistical Rethinking: A Bayesian Course with Examples in R and Stan, Chapman & Hall/CRC Texts in Statistical Science, 2015.




WAIC についての解説や紹介など

検索サイトにいって WAIC statistics で探してみてください。

日本語による紹介記事を書いてくださっているかたもいらっしゃいます。 ここよりもずっとわかりやすい解説をしてくださっているページも多数あります。




WAICのコードの例:GitHub にいって code の項目で WAIC criterion を検索するといくつか見つかります。








(注3)【誤った紹介論文について】

WAICは提案されてからまだ数年であるため、 誤解や又聞きに基づいた誤った紹介文献もありますのでご注意ください。 例えば環境学の人向けの解説論文

M.B.Hooten and N.T.Hobbs, A Guide to Bayesian Model Selection for Ecologies, Ecological Monographs 85, pp.3-28, 2015.

には多数の間違いが含まれています。WAICが提案されたのは2002年ではありません。2002年はDICが 提案された年です。WAICは事後分布が特異である場合にも使えるものであり、 そのような問題を考察した研究はありませんでした。WAICが提案されたのは 2009年および2010年です。 またWAICの論文は2013年ではありません。2013年の論文ではWBICが提案されています。 上記論文の著者の先生は、2013年の論文はWAICと関係ないにも関わらず、WAICの参考文献としてあげています。 この著者の先生は環境学の専門家でいらっしゃったとしても統計学あるいは学習理論の論文を ご自身で確認されていらっしゃらないため(論文の参照として)間違ったことが記載されています。

この論文に書かれていることをそのまま引用すると誤記述になりますので ご注意ください。誤りの伝播により、誤引用をされたかたもご自身で原論文を確認して いなかったことが判明します。原論文を確認していただけますようお願い申し上げます。





また、上記の論文に「WAIC が使えない場合もある」と書かれています。

WAIC の導出では、情報量規準やクロスバリデーションと同様に

     ☆☆☆「サンプルが確率分布から独立に発生していること」

を仮定しています。この条件が成り立たない場合には「予測誤差をどのように定義するか」 がそもそもよくわかりません。予測誤差を推測する方法である 情報量規準もクロスバリデーションでさえも数学的な基礎は(いまのところ)ありません。 WAICも数学的な基盤は(いまのところ)ありません。

サンプルが完全に独立でなくても相関が非常に弱くて大数の法則や 中心極限定理が使えるようであれば理論を作ることが可能な場合もありますが、 サンプルの相関が強い場合の理論を作ることは(今のところ)難しいのでは ないかと思います。

その意味で「WAIC が使えない場合もある」というのは正しい記述ですが、 「他の情報量規準やクロスバリデーションでもできない。できる方法はまだ存在しない」ということです。




(注)時系列 {X_t} や空間上の確率場 {X(x,y,z)} の推測では、通常の問題では t 方向や (x,y,z) 方向には独立性はありません。ただし、時系列や確率場の系列がたくさんある 場合、つまり系列の集合 { {X_t} } で各系列 {X_t} どうしは独立な場合には使用可能です。 この場合には新しい系列に対する予測が意味を持ちますのでクロスバリデーションも利用できます。







(注4)【WAICとクロスバリデーションの違いについて】

◎(この注は専門的なので関心がないかたはお読みになる必要はありません。)




クロスバリデーション(ひとつだけをテストに用いるもの,以下 LOOCVと書きます。 Leave-One-Out Cross Validation の略です)を計算するためには、 サンプル数と同じ回数だけ事後分布を作る必要があり相当に大きな演算量になります。 現在のコンピュータを使ってもクロスバリデーションを計算するのは非常にたいへんです。 また事後分布をMCMC法で作るとその揺らぎも含めて分散が大きくなります。

重点サンプリングクロスバリデーション(ISLOOCV, Gelfand, et.al.1992)を用いると WAICと同じ演算量でLOOCVの近似値が計算できます。これは事後分布を基礎分布として重点サンプリングを 行うことでLOOCVを計算する方法です。事後分布が正規分布で近似できなくても, 真の分布が統計モデルで実現できなくても WAIC, LOOCV, ISLOOCV は理論的には漸近等価です。 実際に計算してみると(シンプルな問題では)WAICとISLOOCV は近い値になることが多いです。 実験的には WAIC のほうが ISLOOCV よりも分散が少し小さいことが多いようです。 (数学的に証明されているわけではありませんが)。ただし、この分散の差は 考察している問題(実用規模の問題や機械学習への応用)では大きな違いになることがあります。


(基本的な注意) クロスバリデーションは学習データセットに依存して確率的に変動します。 「クロスバリデーションを計算すれば汎化誤差が最もよく推測できる」ということではありません。


なお,ISLOOCV は次のような欠点を持つことが知られています。ISLOOCV は 影響力の大きなサンプル(Leverage sample)があるときには重点荷重が発散し、 事後分布からのサンプリングが適切にできなくなり、事後平均あるいは事後分散が発散することがあります。 ( Epifani.et.al, paper および Vehtari-Ojanen paper, pp.189-190 を参考にしてください)。 ここで「影響力の大きなサンプル」とは、そのサンプルを含めるかどうかで統計的推測に大きな違いを与える サンプルのことです。outlier とは異なる概念ですが、 outlier は、しばしば「影響力の大きなサンプル」になりやすいものと思われます。 ニューラルネットやボルツマンマシンなどの構造を持つ学習モデルでは、 ほとんどのサンプルが「影響力の大きなサンプル」になるのではないかという 意見もあります。そのような場合には ISLOOCV と LOOCV はまったく違う値になりますので、 ISLOOCV は適切ではありません。一方、WAICにはそのような問題はありません。





パレート平滑化クロスバリデーション

###(以下の注は、こうした問題をもっと詳しく知りたい人のためのものです。 わかりにくいことが書かれていると思われた場合には読み飛ばしてください。)

Paper by Vehtari, Gelman, and Gabry (2015)では, Pareto Smoothed Importance Sampling に 基づくクロスバリデーション(PSISCV)をWAICよりも推奨しています。 とても高名で権威ある統計学の先生がたの論文です。 関心があるかたはぜひ PSISCV を使ってみてください。





*** 統計学において広く利用されている計算機言語「R」のサポートサイト「CRAN」があります。 「R」には標準ソフトウエアのほかに、新しく作られた多くのパッケージが登録されていますが、 その中に上記の先生が製作されたパッケージ「loo」があります。 これは PSISCV を計算するものですが、WAICの計算もできるようになっているとのことですので、 この問題に関心があるかたは上記パッケージを用いてご自身で実験をしてみることをお奨めします。

☆☆☆ コンピュータがあれば実験をすることができます。若者であるあなたは 自分自身で実験を行って真実がどうであるかを確かめてみましょう。





渡辺のコメントは以下の通りです。

(0) まず同じデータに対してマルコフ連鎖モンテカルロ法を何度も行ったときの 値の揺らぎを調べてみましょう.WAICの分散は ISCV および PSISCV の分散よりも 小さくなります。つまり、WAICはISCV およびPSISCVよりもマルコフ連鎖揺らぎに 対して強いということができます.

(1) 次に,上記の論文は, クロスバリデーション(CV) の数値近似法として PSISCV の方が WAICよりも良いといっています。WAICの厳密値はCVの厳密値とは異なりますので、 CV を精度よく計算できる方法を作れば, WAIC よりも CV の数値としての近似が良くなることは ありうることです。

(2) しかしながら,CVもWAICも汎化誤差を推定することが本来の目的です. CVとWAICの両方の厳密値が計算できたとして,(つまりMCMC法で無限にサンプルが取れたとき), どちらの方が汎化誤差の推定として優れているのでしょうか。CVもWAICも汎化誤差もサンプルに 依存する確率変数ですから, これらの比較にはバイアスとバリアンスの両面からの比較が必要です。CVとWAICの良し悪しは、 考察している課題にも依存すると思いますが「いつでもCVのほうがWAICよりも良い」と いうことはありません。従って、PSISCV がいつでもWAICよりも良いということもないのでは ないかと思います。我々の実験では,GE を汎化誤差とするとき,ほぼ,いつでも

E[|PSISCV-GE|] > E[|WAIC-GE|]

が成り立つのですが・・・。このページをご覧の皆様にはぜひ実験してみていただければと思います。 なお、E[ ] は学習用データのでかたについての平均を表しています。 上記の不等式は数学的に証明できているわけではないので、成り立つ条件などについても 今のところわかってはおりません。

CV と WAIC を参考にしてみてください(プログラム含む)。

PSISCV と WAIC を参考にしてみてください(プログラム含む)。

我々の実験では、影響力の大きなサンプルの標準偏差が、それ以外のサンプルの 標準偏差の100倍くらいになるまでは,WAIC のほうが PSISCV よりも汎化誤差の推定が 正確にできるのですが、それ以上になると PSISCV のほうが正確になるのかもしれません。 つまり「どちらのほうがよいか」という問題についての答えは「場合による」あるいは 「トレードオフがある」ではないかと思います。

以上は渡辺のコメントです。このページをご覧の皆様には自分自身で実験を行って真実を自分の目で 確かめてみましょう。







☆☆☆☆☆ 汎化誤差を計算するためには真の分布についての平均を求める必要があるため、 非常に多くのテスト用データが必要になります。ISCV,WAICなどよりずっと計算量がかかります。 (つまりテスト用のデータは学習用のデータよりも遥かにたくさん必要になります)。 テスト用のデータは学習用データの十倍から百倍くらいは必要ではないかと思います。


☆☆☆☆☆ ベイズ法(β=1)の場合、汎化誤差とクロスバリデーション、および、 汎化誤差とWAICは逆相関を持っていることを理論的に導出できます。 (渡辺澄夫「ベイズ統計の理論と方法」119ページ、定理15)ので、 |PSISCV-GE|と|WAIC-GE|の挙動を平均値として比較したい場合には、 データセットの出かたについてかなり多くの場合の平均を求めないと見たいものが見えてきません。 (つまり学習時に用いるデータセットの出方についての平均を計算します)。


☆☆☆☆☆ 真の分布がモデルで実現可能で尤度関数が正規分布で近似できる場合には、 汎化誤差とAIC(最尤推定量使用)も逆相関を持ちます (広く知られていることだと思いますが上記の本のp.80にも書いてあります)。 真の分布が実現可能でないときは汎化誤差とTICが逆相関を持っています。


☆☆☆☆☆☆☆ (この部分は難しいので気にしないで読んで下さい) 汎化誤差とWAICが逆相関を持つ数学的な理由は、経験過程の極限として得られる 正規確率過程についての汎化誤差の部分積分がWAICと一致するからです (上記の本の116ページ補題23の直接証明)。 汎化誤差と情報量規準は、数学的には部分積分で結ばれています。 平均値は同じになりますが逆相関を持っています。









(3) PSISCV の計算法については上記論文をご覧ください。次の手順で計算を行うと書かれていると 読めますが、原著論文を十分にご確認ください。

(Vehtari-Gelman-Gabry(2015)法)

(a) MCMC法で事後分布からのサンプリングを行ってパラメータの集合 {w_s|s=1,2,...,S} を得ます。 ISLOOCV の定義は

ISLOOCV = (1/n)Σ_i log{ (1/S)Σ_s 1/p(x_i|w_s) }

ですが、これを改良します。

(b) 次の手順(c)-(f)を各データ x_i それぞれについて、全て (i=1,2,...,n) に渡って行います。

(c) 重点荷重 { 1/p(x_i|w_s) | s=1,2,...,S} を計算して、大きいもの順に並べて 上位 20% のもの(つまり0.2S個)を取ってきます。

(d) その20% に対して一般化パレート分布を当てはめることで確率分布が得られるので、 その確率分布の累積分布関数を F とします。(MATLABなら便利な関数 gpfit があります)。

(e) とってきた 20% の重点荷重を F^{-1}( (z-0.5) / 0.2S) に置き換えます。 ここで z=1,2,...,0.2S です。

(f) こうして得られた重点荷重の全体の平均値を W とするとき、S^{3/4}W よりも大きい値の 重点荷重は S^{3/4}W に置き換えます。

(g) 以上で得られた新しい重点荷重を {r_{ij} } とするとき

PSISCV = -(1/n)Σ_i log{ (Σj r_{ij} p(x_i|w_j))/(Σj r_{ij})}

を求めます。この PSISCV は WAIC よりも CV の近似値として優れている というのが上記論文の主張です。(汎化誤差の推定で優れているとは主張されていないようです)。







☆☆☆ PSISCV よりも WAIC よりも、もっとよい方法を思いつかれた場合には、ぜひ論文を書いて発表してください。









クロスバリデーションと情報量規準をもう一度考えてみる


なお、現実の問題で ISLOOCV の値が不安定であったり、ISLOOCVとWAICの値が大きく異なっている場合には、 影響力の大きなサンプルが含まれている可能性が高いです。影響力の大きなサンプルがあるとき、それが 統計的推測に与える影響は良いこともあるし悪いときもあります(どんなデータが得られるかは運次第です)。 従って統計解析者は、影響力が大きなサンプルを含めて推論を行ってよいものかどうかを、その 問題ごとに考察してみる必要があります。

影響力の大きなデータがあるとき、予測誤差をどのように定義するべきしょうか?

影響力の大きなデータがあるとき、クロスバリデーションは何を表しているのでしょうか?

(例)「都市の人口 X からその都市にある小学校の数 Y をモデル『Y=aX+雑音』で推定する」 という問題を考えるとき、データ【東京】は極めて大きな影響力を持ちます。場合によっては 【東京】さえあれば、他のデータはあってもなくても結果が変わらなかったりします。 【東京】を含めて推論してもいいものでしょうか。LOOCV と WAIC がこの問題で大きく 異なっていたときには、【東京】を含めるかどうかを、この問題固有の観点から考察する 必要があります。【東京】の人口がそのほかのデータの人口よりも100倍以上のとき、 モデル『Y=aX+雑音』を用いて何をしたかったのかをもう一度考えてみる必要があるでしょう。




☆☆☆☆☆☆☆☆(追加の注)クロスバリデーションと情報量規準は(データが独立であるという 仮定のもとで)漸近等価であり、実際の問題でもほぼ同じ値になっていることが多いと思います。 もしも、それらの値がずれているときには、データが足りないとか巨大すぎるデータが含まれているとか の理由により、そもそも統計的推測が信頼できない状況なのかもしれません。 「どちらが良いか」ということより「推測結果の安心の度合いがわかる」ことの ほうが大切かもしれないですね。


☆☆☆☆☆☆☆☆(追加の注)クロスバリデーションと情報量規準の違いは、 応用上ではあまり気にしなくてもよいかもしれません。 しかしながら統計学的な観点からは異なる概念あるいは操作ですので本質的な違いがあります。 何かの機会がありましたら、これらの問題について分かっていることなどをまとめてみたいと思います。










パレート平滑化クロスバリデーションと WAIC の比較実験の例です。

興味がないかたはこの項は飛ばして読んで下さい。





PSISCVとWAIC:実験例 追加

簡単な回帰問題「Y = aX^2 + 雑音」でクロスバリデーションとWAICを 汎化誤差の推定の観点から比較して見ましょう。ただし X についての種類は 固定されていて学習時もテスト時も同じ種類である場合を考えます。 (学習用データは n=10 で、テスト用のデータは1000個)。

X∈{1/10, 2/10, 3/10, ..., 1}

「Y = aX^2 + 雑音」は雑音があって変動します。


詳しい実験条件を PDFファイル にまとめました。

ベイズ事後分布を生成できるソフトウエアを持っていれば簡単に実装できます。

関心があるかたは、ぜひ、ご自身で試してみてください。

(実はガンマ分布を使えばマルコフ連鎖がなくても事後分布が作れます)。


matlab program


下記のグラフは

|ISCV-GE|-|WAIC-GE|,

のヒストグラムです。ここで

|ISCV-GE| : クロスバリデーションと汎化誤差の差の絶対値

|WAIC-GE| : WAICと汎化誤差の差の絶対値

図の横軸は |ISCV-GE|-|WAIC-GE| で縦軸は10000回の独立な実験における頻度を表しています。


CV and WAIC


また下記のグラフは

|PSIS-GE|-|WAIC-GE|,

のヒストグラムです。ここで

|PSIS-GE| : パレート平滑化クロスバリデーションと汎化誤差の差の絶対値

図の横軸は |PSIS-GE|-|WAIC-GE| で縦軸は10000回の独立な実験における頻度を表しています。


CV and WAIC


10000回の独立な実験の結果は下記のようになりました。

WAIC(平均、標準偏差) = 0.098, 0.123
ISCV(平均、標準偏差) = 0.116, 0.131
PSIS(平均、標準偏差) = 0.112, 0.128
GEN (平均、標準偏差) = 0.097, 0.115
平均( |WAIC-GE| ) = 0.164
平均( |ISCV-GE| ) = 0.173
平均( |PSIS-GE| ) = 0.170


10000回の実験において |ISCV-GE|-|WAIC-GE|>0 |PSIS-GE|-|WAIC-GE|>0 が成り立つことが多く、 すくなくても X の種類が固定されているときには WAIC のほうがクロスバリデーション およびパレート平滑化クロスバリデーションよりも 汎化誤差の推定値として本当にわずかながら適切であることがわかりました。


(注意)10000回のところを100回にしても同様の傾向は見れますが、 得られる値は実験するたびに変動がありますのでご注意ください。








次に影響力の大きなデータがあるときを考えます。最後の X=1 を X=10 で置き換えた場合


X∈{1/10, 2/10, 3/10,..., 9/10, 10}


には下図のようになりました。|ISCV-GE|-|WAIC-GE|は下図の通りです。


CV and WAIC


|PSIS-GE|-|WAIC-GE|は下図の通りです。


CV and WAIC


10000回の独立な実験の結果は下記のようになりました。


WAIC(平均、標準偏差) = 0.075, 0.120
ISCV(平均、標準偏差) = 0.113, 0.130
PSIS(平均、標準偏差) = 0.102, 0.123
GEN (平均、標準偏差) = 0.082, 0.100
平均( |WAIC-GE| ) = 0.148
平均( |ISCV-GE| ) = 0.165
平均( |PSIS-GE| ) = 0.158


この場合 X=10 は明らかに影響力が大きすぎるデータであると思います。









パレート平滑化クロスバリデーションと WAIC の比較実験の別の例です。

興味がないかたはこの項は飛ばして読んで下さい。





PSISCVとWAIC:別の実験例

別の実験例をあげます.ありとあらゆる場合を実験することはできませんので,ある実験だけで 何かを結論することは難しいと思います.下記の例では ISCV と PSISCV は WAIC よりも 標準偏差が大きくなっています.




Widely Applicable Information Criterion






(注5)【実問題について】

統計学において「実問題と対峙すること」が重視されることは申し上げるまでも ありません。「実問題と対峙すること」を重視するのであれば DIC は適切ではありません。 簡単な正則モデルでも実験するとWAICの方がDICよりもベイズ汎化誤差の推定として 優れていることが確認できます。

統計モデルが真の分布を含み、かつ事後分布が厳密に正規分布であるときには DIC を用いることが できますが、それ以外の場合には DIC は適切ではありません。

「WAICは数学的に導出されているので実問題では役立たない」という先入観を捨てましょう。

実験してみましょう。計算をしてみましょう。実問題に使ってみましょう。







なお、事後分布からサンプルされたパラメータの集合があるときには、 AIC, DIC, WAIC, ISLOOCVは、どれも簡単に計算できますので、とりあえず全部計算してみるのが 良いのではないでしょうか。「いずれかの量を計算してはならない」ということはありません。 どれも同じ値だったら、それを使いましょう。値がずれているときには、その理由を考察すると モデリングに役立つかも知れません。












(注6)【モデリングの重要性】

当たり前のことかもしれませんが、WAIC は確率モデルと事前分布の評価を 行うことができますが、確率モデルと事前分布を創造することはできません。

「WAIC で何でもできる」のではありません。WAICはモデリングの評価が できるだけです。

つまり、モデリングされたものの評価はできますが、モデリングそのものを 行うことはできません。

考察している課題をどのようにモデリングするべきかという問題は、 統計学・機械学習・データサイエンスの中心的な仕事です。

(a) どんな階層構造を作るかという問題は、モデリングのひとつです。
(b) ハイパーパラメータの調節も、モデリングのひとつです。
(c) ノンパラベイズのハイパーパラメータの調節も、モデリングのひとつです。
(d) どの変数を使うべきかという問題も、モデリングのひとつです。

◎(・・・自動化できないからこそ・・・仕事があって・・・給料がもらえます・・・)






統計学や機械学習においてモデリングの仕事をされているかたは、様々な方法をお試しになられた後で、 ご自身のモデリングの方針が適切であるかどうかについて確認されたくなるときがあると思います。

階層ベイズ法や混合正規分布やノンパラベイズや深層学習を用いたモデリングの方針の 評価に WAIC が役立つのではないでしょうか。

「自分の用いた確率モデルや事前分布は本当にこれでよかったのだろうか?」⇒ WAIC, WBIC .

◎(・・・モデリングは「勇者」・・・情報量規準は「賢者の石」・・・)。

◎(・・・実は、いちばん大切なのは・・・「経験値」・・・ですか・・・)













(注7)【階層ベイズ法での利用について】

階層ベイズ法に WAIC を適用するという問題については、 階層ベイズ法とWAIC をご覧ください。












☆ WAICは簡単に計算できますので誰でも使うことができます。




☆ WAICは難しいものではありません。

『代数幾何学を理解できなければWAICを使うことはできない』ということはありません。

















ただ、次のことを多くのかたに知って頂きたいと思います。


○ 代数幾何・代数解析・多変数函数論・特異点論・超関数論・確率過程などの数学の基盤がなければ、 WAICを導出することはできませんでした。

○ 数学はとても大切な学問であり、美しく限りない天空の世界を描き出すことができるだけでなく、 きびしくてつらい現実の大地を生きていくためにも「確かに拠って立てる基盤」として必要です。








☆ 証明が必要なかたは下記をご覧ください。

S. Watanabe, "Algebraic Geometry and Statistical Learning Theory," Cambridge University Press, Cambridge, UK, 2009, September.

S. Watanabe, "Equations of states in singular statistical estimation", Neural Networks, Vol.23, No.1, pp.20-34, 2010, January.

S. Watanabe, ``Asymptotic Equivalence of Bayes Cross Validation and Widely Applicable Information Criterion in Singular Learning Theory," Journal of Machine Learning Research, Vol.11, (DEC), pp.3571-3591, 2010.

渡辺澄夫