読者です 読者をやめる 読者になる 読者になる

Obey Your MATHEMATICS.

機械学習関連の純粋数学や実験など

何故DeepNeuralNetworkの学習は難しいのか:特異点と対称性の視点から: Chapter 1

こんにちは。

今回はInformation Geometryの話ではありません。笑





ネット上、そして市販されている書籍、どこを覗いても

Deep Neural Network (以下DNN)の学習やその各種パラメータ調節は難しい、

と言う事実は語っていても

どうして難しいのか

まで踏み込んで説明してる文章は少ないように思われます。

そしてとんでもなく

ヒューリスティックが多い。多い。うざいぐらい多い。




ですので今回のシリーズでは、

特異モデルと呼ばれる統計モデル視点と

特異点と群作用と言う幾何学的な視点から


どうしてDNNの学習が難しいのか

そして

どうしてDNNの理論的理解が乏しいのか


を説明したいと思います。


巷に転がっている文章の用に 


※※ふわっと解説はしませんので※※


少々数学的に高度な話になりますが、頑張って噛み砕いて書くので、ついてきてください。


いきなりDNNの話に入る前に、統計学の話から始めます。

§1 古典的統計学と正則性

いつものように、{ \displaystyle\Theta \subset \mathbb{R}^n}によりパラメータ付けられた確率分布の族

{ \displaystyle
S = \{ p_\xi=p(x;\xi) | \xi = (\xi_1,...,\xi_n) \in \Theta
\}
 }

を考えます。そしてパラメータ{ \displaystyle \xi \in \Theta}を動かして、

基本的には最尤推定をする事で、未知の確率分布やそれにもっとも近いモデルを構成する、

それが従来統計学でした。


しかし、そこでは次の正則性

(1) { \displaystyle \xi_1 \neq \xi_2 \Rightarrow p_{\xi_1} \neq p_{\xi_2}  }
(2)フィッシャー情報計量 { \displaystyle g^F  }はすべての点で正定値である

本質的に仮定されていました。このような統計モデルを正則モデルと言います。


(1)が意味しているのはパラメータとそれによって定まる確率分布が1対1の関係である事です。
つまり難しく言えば{ \displaystyle S}の座標系として{ \displaystyle \xi }を取ることが出来、多様体の構造を持つことを意味しています。
これを単射と呼ぶことにします。

(2)について、フィッシャー情報計量の定義については先日の記事

mathetake.hatenablog.com

を参照して下さい。

(1)、(2)を合わせると、情報幾何学の言葉で言えば、

 正則性  ⇔  統計モデルとフィッシャー情報計量の組がリーマン多様体の構造を持つ

と言うことになります。


ただし後述の特異点の観点から、実際は問題になってくるのは(1)のフィッシャー情報計量の正則性なので、
(1)の条件についてはあまり気にしない事にします。


この正則性の条件のなにが嬉しいのかと言うことですが、

それは統計学の漸近理論の話になります。




よく使われる最尤推定{ \displaystyle \xi_{m.l.e}}を考えましょう。古典的な(⇔正則モデルの)統計学において、

{ \displaystyle \xi_{m.l.e}}を採用すべき理由は主に次の2つの定理です;

1.一致性(Theorem 7.3 in [1])

2.漸近的有効性(Theorem 7.20 in [1])


これらのによって{ \displaystyle \xi_{m.l.e}}精度が保証されているわけです。

「感覚的には{ \displaystyle \xi_{m.l.e}}を使う理由は分かるけど、厳密な理由を知らなかったと」

言う人、多いと思います。

しかし、

漸近的有効性についてはその定理の中で

フィッシャー情報計量{ \displaystyle g^F}逆行列の存在が仮定されている事に注意します。



その他にもモデル選択において広く使われてきた、

AIC(赤池情報量基準)やBIC、そしてMDLなどは全て

正則性条件の下でその導出が行われている事に注意します。

§2 特異モデルと対称性

§1で述べた正則モデルに対して

(1)単射性と
(2)フィッシャー情報計量{ \displaystyle g^F}の正則性

が成り立たない、

つまり{ \displaystyle g^F}逆行列が存在しないようなモデル{ \displaystyle S}

特異モデルと呼びます。


確率分布の空間 { \displaystyle  \chi   }への写像

{ \displaystyle \phi : \Theta \rightarrow  \chi, \ \ \xi \mapsto p_\xi }

による像 、つまり空間{ \displaystyle S }はどのような形をしているでしょうか?

正則モデルであれば、 { \displaystyle S  }と全く同じ形、
つまり {  \mathbb{R}^n }の開集合や閉集合と全く同じ形の、非常に分かりやすい空間になっています。
この空間の中で従来の漸近理論は構成されていました。


しかし、特異モデルの場合、様子が違います。単射性が崩れるため

あるパラメータ{  \xi_1}{  \xi_2 }に対して

{  \phi(\xi_1) =\phi(\xi_2) }

となるため、{ \xi_1, \xi_2 \in \Theta}を一点に潰したような点を含むような空間になっているのがわかると思います。

このような条件を満たす時{ \xi_1 \sim \xi_2}と表記することにします。

もちろん、一般にこのような”潰れる点”は無数にありますので、

{  S}全体としては{ \Theta \subset \mathbb{R}^n }を全ての対称性(同値関係)で{ \sim }割った空間: { \Theta/\sim}に”同型”で、

無数に”潰れた点”を持つことになります。

(もし、正則モデルであれば{ \Theta/\sim  \cong \Theta}であり、{ S}そのものです。)

そして一般にはそのような点は滑らかでない(その周りに滑らかな多様体としての構造が入らない)

事が数学的に知られています。そのような点を特異点と呼びます。

ここに深入りすると闇へ闇へと入ってしまうので辞めておきますが、知りたい人は§Appendixへどうぞ。



つまり特異モデルは、


{ \xi_1 \sim \xi_2}のような余分な対称性を持つために


特異点が発生し、”多様体としての構造を持たない”事が分かります。

もうこの時点で、{ S}の空間の上をパラメータを動かして、最適化をしながら動いていくと言う事が複雑であるのが読み取れるかと思います。
(こういう学習の軌跡を調べることを、力学系を調べる、とよく言ったりします。)


これが特異モデルの解析の1つの難しさです。



一方で、特異モデルにおいては§1の{ \displaystyle \xi_{m.l.e}}や情報基準の"信憑性"が怪しくなってきます。

もちろん真のモデル{ \displaystyle \xi_0}がフィッシャー情報計量が正則な点に存在してくれれば、その周りでは正則モデルの構造を持つので、漸近的には一見問題ないように思われますが、

パラメータの学習においては空間全体を走るので、空間そのものの構造が問題になって来るため、特異モデルの場合の解析が難しいことがわかります。


ちなみによーーーーーーく考えると分かりますが、
フィッシャー情報計量が正則でない点は、特異点である、つまりその周りで多様体の構造を持たない事がわかります。





以上、正則モデルと特異モデル、そしてその特異点について述べてきました。

次回はこの話をDNNに持ち込んでもっと具体的にどうなっているのかを話したいと思います。

それでは。

§Appendix.1 対称性と群作用

先ほど”対称性”が空間 { S =  \Theta/\sim}特異点を生み出すと、述べましたが、
もう少し定式化して話をすると以下のようになります;

同値関係{ \sim }に対してその対称性を表す群{ G }が存在して、

それがパラメータの空間{ \Theta }作用をしていると言う状況に読み替え、

{ S =  \Theta/\sim = \Theta/ G}と考えることが出来、その空間に特異点が存在する、と言う主張になります。

この時どのような点を割った点が特異点になるのか、と言う話については極めて専門的になりますが、

{ G}の作用による固定点を割った点が特異点になることが数学的に知られています。

この辺の話は 「Group Action Orbit Space singularities」みたいな感じでググってみてください。


そんな読み替えが出来るのか?群が存在するのか?

と言われたら、一般には正しくありませんが、

DNNに関してはある条件の対称性{ \sim }に限定すれば群が存在することが知られています[3]。

それは次回述べたいと思います。



§ 参考文献

[1] Notes for a graduate-level course in asymptotics for statisticians
http://sites.stat.psu.edu/~dhunter/asymp/lectures/asymp.pdf

[2]Fukumizu, K., & Amari, S. (2000). Local minima and plateaus in hierarchical struc- tures of multilayer perceptrons. Neural Networks, 13, 317–327.

[3]A. M. Chen H.Lu, R.Hecht-Nielsen. On the geometry of feedforward neural network error surfaces. Neural Computation5:910-927, 1993

[4] S. Amari, H.Park and T. Ozeki, Singularities Affect Dynamics of Learning in Neuromanifolds, Neural Computation, 18, 1007-1065, 2006.

[5]Nitta T, Resolution of Singularities Introduced by Hierarchical Structure in Deep Neural Networks,
www.ncbi.nlm.nih.gov


[6]情報幾何学の新展開