最尤推定はいつなら大丈夫?







問い: 混合正規分布や神経回路網などの構造を持つ学習モデルでは 最尤推定は漸近的にも有効性を持たず、非常に大きな汎化誤差や 符号長を持つと聞いたのですが、最尤推定はいつなら大丈夫でしょうか。

答え: パラメータの集合と確率分布の集合が一対一に 対応していて、かつ、フィッシャー情報行列が逆行列を 持つ場合であれば、最尤推定は漸近正規性を持ち、 漸近有効です。このとき、非常に多くのサンプルがあれば、 具体的には、フィッシャー情報行列の最も 小さい固有値までが、はっきりと見えるくらい多くの 学習データがあれば、最尤推定量を使っても安全といえるでしょう。 尤度関数が正規分布で近似できるということが最尤推定量が安全に 使える条件です。次のことに十分に注意してください。「最尤推定が 安全に使えるかどうかは、最尤推定量を計算しただけではわからない」。 以上の条件を満たさない場合には 最尤推定量は統計的推測や情報源符号化には適していません。


問い: 具体的には、どのようなモデルなら最尤推定は 使っても大丈夫でしょうか。

答え: 一次元正規分布で平均を推測する問題、 2項分布、つまりコインを振って表と裏が出る確率を 推測する問題(ただし、どちらかが確率1で出る場合を除く)、 「Y=aX+正規雑音」で、二乗誤差を最小にするパラメータを求める問題、 これらの問題なら、非常に多くのサンプルがあれば、最尤推定を使っても 大丈夫です。このように、最尤推定を使っても大丈夫な状況は、 極めて限定された場合になります。


問い: 具体的には、どのようなモデルでは最尤推定は 適していないのでしょうか。

答え: 混合正規分布、混合2項分布、神経回路網、ベイズネットワーク、 隠れマルコフモデル、縮小ランク回帰、ボルツマンマシン、など 階層構造や隠れた部分、モジュール構造を持つモデルには 最尤推定は適していません。すなわち、サンプルから構造を推測する モデルにおいては適していません。また、フィッシャー情報行列の 固有値が全て正であったとしても、その中で一番小さな固有値が ゆれることなく見えるほど十分な個数のサンプルが用意できない場合には、 最尤推定は適していません。「尤度関数が最尤推定量の近傍でだけ 大きな値になる」という条件が最尤推定が安全に使えるための条件です。


問い: 上記の答えで「最尤推定量は適していない」というのは どのような意味を持つのでしょうか。

答え: 統計的推測の結果が真の確率分布から大きくずれます。 また与えられたデータを符号化したときの符号長が非常に長くなります。 検定を行ったとき、検出力が非常に弱くなります。これは、正しい検定を作って検定した場合です。 最尤推定量が適していない場合、対数尤度関数に最尤推定量をプラグインした値は 漸近的にもカイ二乗分布になりません。そこで カイ二乗検定は適用できないのですが、これを適用すると、対立仮説が 選ばれやすくなり非常に危険です。応用上で、誤った結論がしばしば導かれています。


問い: 最尤推定の挙動を研究することには意義がないのでしょうか。

答え: 非常に重要な意義があります。「観測から構造を知る」という問題に対して、 最尤推定は適していませんが、実用上で、そのような問題に対しても最尤推定が 利用されているケースは少なくありません。従って「観測から構造を知る」という 問題に対して最尤推定を行うことが危険であることを解明し、 最尤推定を使用しているソフトウエアに警鐘を鳴らすことは、 非常に重要な意義があります。最尤推定量が無限遠に 発散するケースを除外すれば、最尤推定の汎化誤差は、正規確率過程の最大値に なりますが、これは、AIC が予測する値よりも遥かに大きな値になります。 最尤推定量が発散しているケースでは、そもそも統計的推測ができません。 「観測から構造を知る」という問題は、情報学・医学・生物学などの多くの実問題で 現れますが、その際のモデルあるいは仮説の評価(選択・検定など)に最尤推定を 用いていると、対数尤度関数は漸近的にもカイ二乗分布に従いません。 誤ったモデルや仮説が支持されることがあります。 「観測から構造を知る」という問題では、AIC, BIC, MDL によるモデル選択や カイ二乗検定などを用いることは非常に危険です。


問い: 上記の答えで「最尤推定量は適していない」というのは 理論だけの話ではないでしょうか。

答え: 理論だけの話ではありません。むしろ、応用において、非常にしばしば 生じています。「理屈はとにかく実験でうまく 行くかどうかが問題である」という意見の人は、実験をしてみれば、 最尤推定量が適していないことは明らかなので実験してみてください。 なお、最尤推定量を探そうとして、最急降下法や EMアルゴリズムを用いている場合、応用上は、最尤推定ではないところで 適切に調節して止めていることが多いです。これは最尤推定とは 違ったパラメータになっているので、最尤推定でないからこそ、 応用上では悪くはなりません。がんばって最尤推定を探そうとすれば するほど予測が悪くなることは、実験したことがある人なら体験しているでしょう。 最急降下法を途中で止めたときや EMアルゴリズムを最尤推定量とは別のところに止まるように 調節したときに生じる現象については、まだ解明されておりません。なお、 この場合にも、統計的正則モデルの最尤推定の漸近理論が使えるわけではありません。

(注意)非線形問題では、最尤推定量を直接求めることはできないことが多いので、 何らかの繰り返し計算で、それを見つけようとしている人が多いと思います。 「もしも、最尤推定量がみつかれば、すばらしく 精度の良い予測ができる」と期待している人は、実際は、そうではないので、 十分に注意してください。


問い: 最尤推定が適さないモデルでは、 モデルの大きさを適切に設計しても、それでも最尤推定は適していないでしょうか。

答え: 適していません。モデルの選択では、 バイアス(情報源とモデルの距離)と、バリアンス(推測された結果のばらつき)の 和が小さくなるものが選ばれます。漸近正規性が成立しない場合には、 最尤推定は、バリアンスが非常に大きいので、バイアスを犠牲にしなくてはなりません。つまり、 統計的なゆらぎを小さくするために著しく小さなモデルを用いなくては なりません。このため、最尤推定を 使うという前提で正しい情報量規準が作れたとして、その規準で モデルを適切に選らんだとしても、バイアスとバリアンスの 和はある程度よりも小さくできません。もちろん、モデルを選ばないより、 選んだほうが遥かに結果は良くなります。しかしながら、統計的正則モデルの 規準である、AIC, BIC, TIC, MDL などを用いてモデルを選択することは できません。正則モデルの平均汎化誤差から導出される規準は、実際よりもバリアンスを 小さく見積もりすぎています。正則モデルの周辺対数尤度から導出される規準は、 最尤推定量とは離れた場所におけるモデルの適切さを測っています。 どちらも、モデルの選択には使えません。


問い: このページに書いてある内容は、フィッシャー先生や赤池先生が言われたことと矛盾して いるのではないでしょうか。

答え: 矛盾していません。フィッシャー先生は、「フィッシャー情報行列が正則ならば、 最尤推定は漸近正規性を持つ」ことを示されたのであって、このページに書いてあるのは、 フィッシャー情報行列が正則ではないモデルの性質だからです。 また赤池先生は、ご自身の研究の解説の中で「対数尤度関数が正定値2次式で近似できるならば、 AICは汎化誤差と同じ平均値を持つ」と述べられていますが、このページに書いてあるのは、 対数尤度関数が2次式で近似できない場合の性質だからです。 統計的推測というものの本質を見極めて、それを明確な形で定式化したのは、農業試験場で実験計画を 作られていたフィッシャー先生であり、その業績は極めて大きいと思います。 また、統計的推測における汎化誤差の重要性を見出し、その上でモデルの最適化の方法を作られたのは セメントキルン制御などの研究をされていた赤池先生であり、その業績は極めて大きいと思います。 このページに書いてあるのは、それらの研究がなされた頃には意識されていなかった問題であり、 矛盾することを述べているのではありません。このページでは、 「例題から構造を学習する」という問題においては、最尤推定は適していないということを述べています。 なお赤池先生は1980年代に対数周辺尤度最大化による確率モデルと事前分布の最適化の研究もされています。


問い: 最尤推定が適さない場合にも、最尤推定が漸近正規性を持つ、あるいは、漸近有効である、 と述べている本や論文が少なからずあるのですが、どう考えたらよいのでしょうか。

答え: 統計学の基礎理論として、最尤推定量の漸近正規性は最初に習うことなので、 上記のような間違いをしている論文や本がたくさんあることは、しかたないところです。 私自身も、若いころに初めて最尤推定について勉強したときは、フィッシャー情報行列が正則であるという 条件は、ほとんどの場合で成り立つだろうと思っていました。あるいは、成り立たなくても、 気にしなくてもよいのではないかと感じました。「フィッシャー情報行列が正則」というのは、 理論の勉強を始めたばかりの頃には、自然な仮定のように見えるのです。 モデルの集合の中で、サンプルから見て一番適切な点を選んでいるのですから、 その点の近傍では、2次式は正則であると考えて問題ないような気がするわけです。 「そんな小さなことを気にしてもしかたない」というわけです。しかしながら、 この仮定は実質的には成立せず、学習の結果に大きな影響を及ぼしています。 これは、現実の問題において、サンプル揺らぎのオーダーと、関数近似のオーダーの、どちらが、 どのように効いているかを感じ取るという、統計的推測における最も重要な観点を必要とする ところなので、 統計学や情報理論の本に、統計的正則モデルに限定するという仮定が明白に書かれないまま、 最尤推定量は漸近正規性を持つ、と書いてあるものがあったとしても、 それを必要以上に指摘してもしかたないでしょう。

しかしながら、 これから研究を始める若いみなさんは、「構造を推測する問題では 最尤推定ではうまくいかない」ということを十分に知っておかれるとよろしいでしょう。 最尤推定は、極めて限定されたモデルにおいてのみ良好に 動作する方法であり、最尤推定は、残念ながら、統計的推測あるいは 情報源符号化において、一般性を持つ方法ではないようです。 つまり、最尤推定は、未来の情報科学には、そのままでは適用できません。 数学的な観点から述べれば、「写像:パラメータ→対数尤度関数」が、 サンプル揺らぎに対して一様性を持つ場合であれば、最尤推定は悪くはない 推定を与えますが、一様性を持たないときには、とても悪い推定を与えます。

従来の方法ではうまくいかない重要な課題がある、という状況は、これから研究を 始める若い研究者にとっては、これほどすばらしい場所はありません。 過去の研究にとらわれることなく、自分自身が理論を作り、実験を行って、 真実がどうなっているかを発見し証明することができるからです。 「観測から構造を推測する」という問題では、従来からある最尤推定法では うまくいかないのです。どうしたらよいか、どのような理論を作ったら良いか、 どのように実験するか、について、若い研究者の人たちが創造していくべき課題が たくさんあります。


問い: なぜ、最尤推定では適切な推測ができないのでしょうか。

答え: それは尤度関数のうちの一部分の情報しか使っていないからです。 統計的正則モデルでサンプルが十分に多ければ、尤度関数は、最尤推定量を中心とした 正規分布に近づいて行きますので、最尤推定量が漸近的には全ての情報を持っていると 思ってもよいのですが、統計的正則モデルでなかったり、サンプルの個数が十分ではない 場合には、最尤推定量は、尤度関数の一部の情報しか持っていません。このため、 最尤推定では適切な推測ができないのです。

(注意)以下の注意は、読んでも意味がわからない人は、わからなくも気にする必要は ありません。対数尤度関数は、統計力学ではエネルギー関数に相当します。 最尤推定は、エネルギーだけを見てエントロピーを考慮しない方法です。 本当の平衡状態の性質を知るためには、エネルギーとエントロピーの調和を みなくてはなりません。すなわち、自由エネルギーを見なくてはなりません。 統計的推測は、「尤度関数を最大化する」という最適化問題と等価ではないことに 気づくことが大切です。


問い: 罰則つき最尤推定でも適切な推測ができないのでしょうか。

答え: 最尤推定が適さないモデルにおいては、最尤推定量のバリアンスは非常に 大きくなります。このため、対数尤度関数に罰則項をつけて調節するためには、 その罰則項は非常に大きな重みをつけて足さなくてはなりません。 サンプル数の増大に伴って大きくなるような重さで罰則項をつければ、真の情報源が 学習モデルの特異点である場合に汎化誤差を小さくすることはできますが、 そのように強い罰則項は、バイアスに対して望ましくない影響を与えます。 局在していない尤度関数の情報を一個のパラメータで代表させることには無理が あるように思われます。


問い: 最尤推定量は、事前分布を使わないので、不偏な推測ができるのでは ないでしょうか。

答え: 学習モデルの性質にもよりますが、一般には 最尤推定は極めて偏った推測を与えます。また最尤推定は モデルの持つ悪い傾向(無限遠点で解析性を持たないなど)を 必要以上に強調します。不偏であることと、良い推測を与えることとは 別の問題ですが、最尤推定は不偏性の観点からも優れているわけでは ありません。なお、フィッシャー情報行列が零固有値を持つ場合には、 クラメル・ラオの不等式から、推定量に不偏性を 課すことには意味がないことにも注意しましょう。最尤推定量は 一般には漸近的にも不偏性を持ちませんが、不偏でないこと自体は必ずしも悪い性質では ないものと思います。


問い: 極めて少ない場合しか安全でない最尤推定が、しかしながら、 最も基礎的な推測方式だと考えられて来たのは、なぜでしょうか。

答え: 今から100年くらい前には、計算機を用いて統計計算をすることは できませんでした。実測値を基にして、鉛筆で計算をする他なかったのです。 そこで、正規分布や2項分布のように、最尤推定量が簡単に計算できる 場合だけが研究されていました。正規分布や2項分布のような分布であれば、 最尤推定は悪くはない推定を与えますので、この性質が一般のモデルでも 成り立つのではないかと考えられたのが歴史的原因ではないかと思います。 今日では、計算機を使って非常に複雑な計算も実現することができますが、 そのとき初めて、例えば混合正規分布や混合2項分布では、最尤推定量が 安全でないことがわかったのです。


(以下続く)。