解説




English Version

Return to English page

Return to Japanese page





このページは作成時から8年ほど経過しています(2008年4月現在で)。 この解説のあとから解明されたことがたくさんありますが、 それは、また機会を改めて紹介させて頂くことにし、この解説は、 このまま掲示を続けたいと思います。

このページに書いてある内容を、ずっと基礎的な地点から解説したものに、 2006年に発行された本 「代数幾何と学習理論」 があります。この本は、 一般に市販されている本であるにも関わらず、一般的事項の 教育を目的とする本ではなく、著者の研究成果を公表したものです。 とは言っても、数学者ではない人でも 読める代数幾何や超関数や経験過程の本はあまり売られていないので、 その意味では基礎数学の基礎を学習する上で役立つと思います。 代数幾何や超関数や経験過程のように抽象度の高い数学は、数学者でない人に とっては、その本質的なところが 役立つ場面を見て初めて、定理の深い意味が感じ取れるということ もあるかも知れません(注)。

(注)中学生のころ、次のことを経験されたことがあると思います。 「未知なものを X とおいて、X が満たす方程式を立てることにより、 X が求められる」。数学者ではない我々は、 この方法で応用問題を解くことにより、 方程式というものの意義を体感し、方程式の基礎数学として何を 研究するべきかが感じとれるようになるという面があると思います。 また「数を未知数とする方程式」が現れる場面に出会うことによって、 「関数を未知数とする方程式」や「超関数を未知数とする方程式」なども、 どのような文脈に現れるかを想像できるようになります。数学者でない普通の人でも 「相対論的場の量子論はミンコフスキー空間の不変性を満たす超関数値の場が満たす 方程式によって記述される」ということが直観的に感じとれるようになるのです。

同じように、学習理論の解明は、対数尤度比関数の関数空間における 中心極限定理を示すことでなされ、その際に、特異点解消定理の代数的な 構造が本質的な役割を果たしているという事実、これは数学者でない我々でも 理解できる事実ですが、この事実に触れることで初めて、代数幾何学 というものの意義を体感し、代数幾何学の基礎数学として何を 研究するべきかが感じとれるということもあるのではないでしょうか。数学教室で学ばれている 学生の皆様も、代数幾何学の本質的構造が役立つのはどのような場面であるか ということを感じ取ることにより、純粋数学だけではない数学というものの 美しさや広がりに触れることができるのではないかと思います。

代数的構造は最初に存在していて、表現される場面が移り変ろうとも、 最後まで存在し続けており、考察している問題が真に解決されるかどうかは、 代数的構造を自然な姿で描き出せるかどうかにかかっています。






学習理論における代数幾何学的構造について




この解説は、初めて学習理論に出会う方のために書かれています。 数学や統計学に関する予備知識は必要ありません。 初めて読まれる方は「注意」の項を飛ばして読んでください。 ご意見、ご感想は下記までどうぞ。


よりやさしい説明

さらにやさしい説明

図解で見る

OHPの説明を見る


(1) 問題:

確率密度関数 p(x|w)で表現される学習モデルを考える。 ここで x はデータで、w はパラメータである。 学習モデル p(x|w) は、真の分布 q(x) から独立に取られた 学習例 {xi;i=1,2,3,...,n } に基づいて q(x) を推測する。 学習例 {xi} が与えられたという条件下での パラメータの確率密度を p( w | {xi} ) とする。

p( w| {xi} ) = (1/Z) \prod_{i=1}^{n} p(x_{i}|w) r(w)

ここで Z は規格化定数で、r(w) はパラメータ空間上の確率密度関数である。 r(w) は何でもよい。 真の分布 q(x) を推測する密度関数 p( x | {xi}) は パラメータ空間の平均で与える。

p( x | {xi} ) = \int p( x | w) p ( w | {xi} ) dw.

私達の目的は、学習モデルの推測結果である p( x | {xi} ) が真の密度関数 q(x) にどのような早さで 近づいていくのか、を明らかにし、 その早さを定めている数学的構造を解明することである。 確率密度関数どうしの距離を測るため、真の分布 q(x) から見た 推測確率 p( x | {xi} ) までのカルバック距離の平均を導入する。

K(n) = E { \int q(x) \log [ q(x) / p(x | {xi} ) ] dx },

ここで E はサンプル {xi} の出方に関する平均を表している。 $K(n)$ は学習曲線とも呼ばれ、学習モデルの性質を解明するという 科学的な基礎と学習モデルの最適設計という工学的な目的とを 結ぶ重要な役割をする。


注意(1):

(a) K(n)=0 は p(x | {xi} ) = q(x) と同値である。
(b) K(n) は学習理論では学習曲線と呼ばれ、情報工学では汎化誤差と呼ばれる。
(b1) 学習理論では「学習モデルの構造と学習曲線のふるまい」の関係を解明することが ひとつの目標である。 等質的で階層的な構造を持つモデルは、統計的正則モデルとは異なる学習曲線を持つ。
(b2) 情報工学や制御工学では、最も予測に優れる(汎化誤差が小さい)学習アルゴリズムや 学習モデルを設計することがひとつの目標である。階層的な構造を持つモデルは、 ベイズ推測によって統計的正則モデルよりも優れた予測を行うことができる。
(b3) 学習理論で用いられる言葉や方法は、数理統計学で用いられる定義や定理と 共通のものであり、同じものであると考えて良い。しかし、学習理論は、 数理統計学で既に知られている結果を、特別なモデルに適用・応用しているのではない。 学習理論の対象となるモデルの性質は、まだ数理統計学でも解明されていない。 統計学と学習理論とが協力して取り組むべき重要な課題である。
(c) 学習曲線の計算にランダム系の物理学で作られた計算方法が利用されることがある。 物理学では「物理現象」と「有効な計算手段」とが混在して語られる場合が多いが、 学習理論で用いられるのは「有効な計算手段」の方である。 物理現象を解析するために考案された計算方法が、目的とは直接関係ない場所でも 役立つことは決して珍しいことではない。
(c1) 物理学者ではない我々にとっては、「物理現象」よりも「物理学を離れても 普遍性を持つ数学的構造」の方が「実在していること」のように感じられる。 レプリカ法の背後には、豊かな数学的実在があるはずである。 数理物理学者たちによる構造と数理の厳密解明が待たれる。
(c2) 統計物理学では、上記で x の次元が無限大になるときの極限が しばしば取り扱われるが、 無限自由度を扱う物理学は必ずしも数学的に非厳密なものばかりではない。 厳密な証明を与えることを通して、それまでは不明であった 「数学と物理学の深い結びつき」の構造を見出した研究も多い。


(2) 学習曲線と確率的複雑さ:

学習モデルの確率的複雑さは、次の式で与えられる。

F(n) = - E { log \int exp( - H_{n}(w) ) r(w)dw },

ここで H_{n}(w) は経験カルバック距離である。

H_{n}(w)=\sum_{i=1}^{n} \log [ q(xi) / p(xi|w) ].

確率的複雑さは、情報理論、数理統計学において重要な 役割をする。Levin, Tishby, Solla, 甘利・村田, 山西は、確率的複雑さと学習曲線 との間に次の関係があることを指摘している[1] 。

K(n)=F(n+1)-F(n).

パラメータ w が与えられた時の平均カルバック距離を 次のように定義する。

H(w)= \int q(x) log [ q(x)/ p(x,w)] dx.

学習モデルが正則条件を満たすとき、すなわち、
   (a) パラメータ w から p(x|w) への写像が1対1であり
   (b) H(w) のヘッセ行列が常に正定値である
を満たすときには F(n)=(d/2)log n + O(1) であり、

正則モデル: K(n)=d/2n + o(1/n),

が成り立つ。ここで d はパラメータの個数である。 しかしながら、萩原は、ニューラルネット、混合正規分布 などの階層的な構造を持つ学習モデルは、 正則条件を満たさないことを指摘した。その結果、 その学習曲線は解明されていないこと、最適なモデル 設計を行なう合理的な方法が確立されていないことなども 認識されるようになった。これは、統計学者たちが 混合正規分布のモデルの大きさの検定に関連して未解決にしていた問題が、 神経回路網ではほとんどいつも生じているという認識を与えたものである。
なお、本解説はベイズ推測に関する結果を主に紹介しているが、 最尤推定については、問題の完全解決には至っていないにせよ、 少しずつ研究が進展している。萩原はデータ点が固定され ているときに、福水は中間ユニットが線形の時に、それぞれ 最尤推定による汎化誤差がパラメータ数よりも大きくなる ことを示している[3][4]。甘利・尾関はパラメータ空間が コーンになっているときの最尤推定の汎化誤差を計算し、 無理数になる場合があることを示している[2]。 また我々は、尤度関数がパラメータについて解析的であり、 かつパラメータ空間がコンパクトであるときには、 特定不能なモデルでも、最尤推定による汎化誤差が 「定数/サンプル数」以下であることの証明を得た[9]。 パラメータについての解析性が失われる場合には、特定可能なモデルでも 漸近効率が統計的正則モデルとは異なる場合が多い。一致性の次数の問題は、 赤平・竹内によって詳しく論じられている。 そのとき最尤推定量が漸近的に有効でないことも少なくない。 特定不能でかつ解析性が失われる場合にどうなるかは分かっていないことが多い。 Dacunha-Castelle 等が、Emprical Process に基づく解析を行っているが、 まだ十分に解明されたといえるには至っていないのではないだろうか。


注意(2):

(a) G(n)=F(n+1)-F(n) という関係式から、F(n) は \sum_{i} G(i) の 形で書けることが分かる。つまり、もし G(n) が漸近展開を持てば、 F(n) も漸近展開を持つのであるが、その逆は一般には成り立たない。
(b) 現実の問題への応用では、本当の確率密度関数はパラメトリック モデルに含まれないのであるから、特定不能なケースを研究しても意味がない、 という論法がしばしば聞かるが、そうではない。現実の問題では、 サンプル数が有限であり、その個数から見てわかる「解像度」で 相応しい大きさのモデルが利用されるのであるから、特定不能である と考える方がより事実を的確に把握していることが多い。
(b1) 人工的神経回路網が実問題に応用されている例は沢山あるが、 特定可能である、とみなす方が相応しいようなケースは稀である。
(b2) 階層型のモデル族は、超完全基底による関数展開を与えるのであるから どんなにサンプル数が多くなっていっても、展開係数のユニークネスはない。 この点は、完全系による関数展開と著しく異なる。
(b3) 情報科学や情報工学では、損失関数を2次展開して、それ以上の項は 小さいと言って無視する論法が有効なことも少なくないが、階層構造を持つ 学習モデルに限っては、その論法は有効ではない。高次の項こそが問題の 本質を担っているからであり、別の言い方をすれば線形近似が利用できない からである。


(3) 我々の結果:

確率モデル p(x|w) がパラメータについて解析的であるとき、 確率的複雑さは

F(n)= A log n - (B-1) log log n + const.,

の漸近展開を持つ。ここで A は正の有理数であり、 B は自然数であり、 0< A <= d/2, 1<=B<=d を満たす。 これより、K(n) が漸近展開できるものとすると

K(n)=A/n - (B-1)/ ( n log n ) .

という形でなければならないことがわかる。神経回路網などの 階層型モデルでは A はパラメータ数よりも遥かに小さい値になる。 このことは、特に学習モデルが複雑になればなるほど重要な意味を 持つ。実際、多くのパラメータを持つ系でも、そのモデルの 最も深い特異点を利用することによって優れた予測が実現される。 なお、以上のことから、特異点を持つ学習モデルの 統計的推測誤差は、推測されるパラメータの位置に強く依存し、 その結果、真の分布がモデルに含まない場合にも重要な影響を与える[10]。


(4) 数理的な構造:

上記の導出のためには、佐藤幹夫とベルンシュタインによって独立に 発見されたb関数の理論が中心的な役割を果たす[18,20]。それは 次の式を満たす1変数 z の多項式である。

P(z,w,dw)H(w)^{z+1}=b(z)H(w)^{z},

ここで P(z,w,dw) は多変数 w の微分作用素であり、z の関数としては 多項式である。b関数を計算するアルゴリズムは大阿久俊則が実現している[19,21]. また確率的複雑さの統計的ゆらぎを評価するためには、 収束冪級数環の増大するイデアルは有限で停止すること(ネーター環であること)[22] と 解析関数がイデアルの和で書けるとき、その係数がもとの解析関数に 依存しない定数でバウンドできること [23] が必要になる。

さて、定数 -A と B は、次の有理型関数の最も原点に近い極とその多重度に等しい。

J(z) = \int H(w)^{z} r(w)dw.

定数 A と B を計算するために、 広中の定理 を援用することができる[11,12,13,14,15,16,17,24]。 すなわち、実多様体 U と特異点を解消する解析関数 g: U -> W, とが 存在して、U の各点で局所座標を取ると

H(g(u))=a(u)u_{1}^{k1}u_{2}^{k2} *** u_{d}^{kd},

とすることができる。ここでa(u)>0, k1,k2,...,kd は非負の整数である。 このような関数 g は特異点集合に含まれる非特異集合のブローアップを 繰り返すことにより有限回の手続きで必ず見出すことができる。 とはいえ、高度に複雑なカルバック情報量について、具体的にどのように 特異点解消をするべきかは容易に分かることではないし、 またカルバック情報量がパラメータを 持つ場合(例えば学習モデルの中間ユニットが一般にNの場合など)には、 具体的な方策があるわけではなく、この問題は今後解明するべき 重要な課題のひとつである。


(5) 展望:

確率的複雑さの漸近展開という具体的な結果も大切であるが、 さらに重要なことは、階層的な学習モデルによる統計的推測という 実世界問題において代数幾何・代数解析・多変数関数論など の豊かな数学的構造が直接に関係していることが認識された ことである。

学習モデルがパラメータについての解析性を失う場合での 最尤推定を考えるには、これらの問題を無限自由度へ拡張しなければ ならない。予測モデルとしては有限次元の空間に 埋め込むことができないからである。この問題は、 「学習モデルの予測精度を解明せよ」という具体的・応用的かつ 実世界的な問題である一方、数学としては、その先に現れるものが 何であるのか、すでに準備されているのか建築する必要がある のかも不明な問題であり、数理科学の対象として良い問題である と思われる。研究するべきことが沢山あります。


関係する文献:

[1] Amari, S. and Murata, N., (1993) Statistical Theory of learning curves under entropic loss criterion. Neural Computation, 5, 140-153.

[2] Amari, S. and Ozeki, T, (2000) Differential and algebraic geometry of multilayer perceptrons. IEICE Transactions, Invited paper, to appear.

[3] Fukumizu, K., (1999) Generalization error of linear neural networks in unidentifiable cases. Lecture notes on computer sciences, 1720, 51-62.

[4] Hagiwara, K. Kuno, K, and Usui, S., (1998) Degenerate Fisher information matrix and average expectation error of neural networks, Symposium on statistical estimation and information theory, 95-102.。

[5] Watanabe, S., (1998) On the generalization error of layered statistical models with Bayesian estimation. IEICE Trans. J-81-A, 1442-1552. The English version is to appear in Electronics and Communications in Japan, John Wiley and Sons. 。

[6] Watanabe, S., (1999) Algebraic analysis for singular statistical estimation. Lecture Notes in Computer Sciences, Vol.1720, pp.39-50.

[7] Watanabe,S., (2000) Algebraic analysis for non-regular learning machines. Neural Information Processing Systems. Vol.12, pp.356-362, MIT Press.

Article, Postscript file, gzipped
Correction of mistake, Postscript file, gzipped

[8] Watanabe, S., (2000) Algebraic analysis for non-idetifiable learning machines. to appear in Neural Computation.
本解説に関する最初の論文。この論文が、communicated by Prof. David Mumford で 出版されたことは夢のような出来事でした。
Article, Postscript file, gzipped

[9] 渡辺澄夫、代数的な特異点を持つ学習モデルの学習誤差と予測誤差. 電子情報通信学会誌、to appear.

[10] S.Watanabe, (2001) "Algebraic information geometry for learning machines with singularities," Advances in NIPS, to appear.

Article, Postscript file, gzipped






[11] Hironaka, H., (1964) Resolution of singularities of an algebraic variety over a field of characteristic zero. Ann. of Math. 79, 109-326.

[12] 上野健爾、”代数幾何入門”、岩波書店, 1995.

[13] 川又雄二郎,"代数多様体論," 共立出版,1997 の第2章.

[14] 石井志保子," 特異点入門," スプリンガー,1997 の第3章.

[15] 石田正典、"トーりック多様入門体ー扇の代数幾何、" 朝倉書店,2000.

[16] 梶原健、"代数曲線入門ー初めての代数幾何," 2004,日本評論社.

[17] コックス、オシー、リトル、" グレブナ基底と代数多様体入門," スプリンガー東京,2000.

[18] Kashiwara, M., (1976) B-functions and holonomic systems. Inventions Math., 38, 33-53.

[19] Oaku, T., (1997) Algorithms for the b-function and D-modules associated with a polynomial. J. Pure and Appl. Alg., 117, 495-518.

[20] 柏原正樹、"代数解析概論、" 岩波講座 現代数学の展開, 2000

[21] 大阿久俊則、"D加群と計算数学、"朝倉書店、2002

[22] 樋口、瀧島、泉池、渡辺、”多変数複素解析”、培風館、1984.

[23] 西野利雄、”多変数函数論”、東京大学出版会, 1996.

[24] 吉永悦男、泉脩蔵, 福井敏純,"解析関数と特異点," 共立出版,2002.




なお、このページに書かれている内容の幾つかの部分については拙著を 御覧いただければ幸いです。

[25] 渡辺澄夫、"代数幾何と学習理論," 森北出版,2006