Obey Your MATHEMATICS.

機械学習関連の純粋数学や実験など

何故DeepNeuralNetworkの学習は難しいのか:特異点と対称性の視点から: Chapter 2

こんにちは。


前回は

mathetake.hatenablog.com


統計学の視点から、正則モデルそして特異モデルの定義について述べ、

特異モデルの対称性と特異点、そして古典的漸近理論が通用しなくなると言う性質について述べました。



今回は、引き続いてDeep Neural Networkを特異モデルと言う視点から眺めてみましょう。

§1 小さな3層DNNの特異性

3層のDNNで、各層の次元は、1入力:1中間層素子:1出力、であるものを考えましょう。

f:id:mathetake:20161025162358p:plain

活性化関数を{ \phi }とし、バイアス項は無しとします。

重み{ v_1,v_2,w_1,w_2 }パラメータをすべてまとめて{ \xi }とした場合、

出力は { f(x,\xi):= v_1 \phi( w_1 x) + v_2 \phi(w_2x) }と書くことが出来、

これにガウスノイズを加えれば、このモデルによる入力信号{ x}に対する出力{ y }の条件付き確率は

{ p_{2}(y|x; \xi)= \exp\left[ -\dfrac{1}{2\sigma^2}(y-f(x;\xi) )^2 \right] }

となります。そして

{  S_2:= \{ p_{2}(y|x; \xi) \ | \ \xi  \in \mathbb{R}^4  \}  }

がこのニューラルネットワーク統計モデルとなります。{  S  }の添字の2は中間層の素子の数を表す事にします。

実は、{  S_2  }は特異モデルになっていて、非常に振る舞いが悪いです。

それを実際に見てみましょう。本来ならば{  S_2  }どれくらい特異なのか視覚的に確認したいのですが、

それは厳しいですね。我々は4次元世界の住人ではないので。


まず、

{ p_{2}(y|x; \xi_1)=p_{2}(y|x; \xi_2) \ \ \Leftrightarrow \ \ f(x,\xi_1) = f(x,\xi_2) }

である事に注意して、単射が崩れるパラメータはどのようなものか考えてみましょう。(定義はChapter 1.参照)

まず、{  v_i=0  }のときを考えてみましょう。この時ネットワークの定義からすぐに{  w_i }どのようなパラメータを取ったとしても出力関数は同じになる事が分かります。


それを視覚的にみてみると、おもしろい事が分かります;

f:id:mathetake:20161025165333p:plain

これは{  v_1=0  }の時は、その影響で中間層の1つ目の素子が機能しなくなるため、

{  w_1  }どんな値に取ったとしても、右側の同じ活性化関数をもつ、中間層が1つ少ないDNNによって表現されてしまう事を示しています。

つまりこの時のパラメータを{  \xi^*  }とした場合 { p_{2}(y|x; \xi^*)  \in S_1 \cap S_2  }を意味しています。

一般には

{  R:= \{ \xi \in \mathbb{R}^4 \ | \ v_1 v_2|w_1 - w_2| = 0  \}  }

がパラメータが一意に定まらない領域となることを示すことが出来ます。(演習問題(^o^))

これを特異領域と呼ぶことにします。

====数学に詳しい人向け====

Rが何らかの関数のゼロ点で表されていることから、実数体上の特異点論の話が関係してくるだろうなあ、と想像着くと思います。
ベイズの立場からこのような実数体上の解析空間や特異点論を用いて、統計的解析を行っているのが代数統計学です。
僕はあまり詳しくはありませんが、気になる人は次の本やその著者の先生のホームページなどを当たってみて下さい。

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

=================

先ほどの{  v_1=0  }の時と同様に、

これらの点が表す確率分布は全て{  S_1  }によって表される事が分かります(!)

さらに、{  R    }上の任意の点{  \xi_0    }において、フィッシャー情報計量{  g^F_{\xi_0}  }正則行列にならない事が分かります。

それは何故か、感覚的に述べると(この感覚は簡単な線形代数とベクトル場の定義から正しいと分かるのですが、)

上の{  v_1=0  }の場合から分かるように、パラメータを{  \Delta \xi   }だけ動かしても密度関数が変わらない方向;

{ p_{2}(y \ | \ x \ ; \ \xi + \Delta\xi  ) = p_{2}(y \ | \ x \ ; \ \xi  )   }

が存在するからです。

更に進んで、上の議論から特異領域において、誤差関数も変な挙動を示すことがすぐにわかります。

明らかに、

パラメータを動かしても密度関数が変わらない方向に沿っては誤差関数も変化しない事が分かると思います。

これがDNNの学習におけるPlateauの正体です;

f:id:mathetake:20161025172618p:plain
(p.1034 in [4]より)

§2 3層DNNの特異性と階層構造

§1.で説明したことは、


素子2個の3層DNNが表現する確率密度の一部が、素子1個の3層DNNので表現されてしまい、

そのような確率密度に対応するパラメータ全体が特異領域{  R    }と呼び、

そこでは{  R    }上ではフィッシャー情報計量が退化してしまう。


と言うものでした。

この発生原因は何か、、、、それは上の議論から分かるように本質的に

{ S_1 \subset S_2   }
と言う階層構造が存在するためです。

どんな{ S_1 }に含まれる確率密度も1つ素子を増やした{  S_2   }により表現出来る事は直感的にすぐわかると思います。

この関係は一般に次のような3層DNNの階層構造

{ S_1 \subset S_2 \subset S_3 \subset S_4  \subset ... }

に拡張できることも理解しやすいでしょう。


それを踏まえて§1.の議論は次のように一般的な場合に拡張されています;

Theorem ( in [6])
任意の中間素子の数{  n }を持つ3層DNNの表現する確率密度空間{  S_n   }の点{  \xi   }において
フィッシャー情報計量{  g^F_{\xi}  }が特異であることと、対応する3層DNNがより中間素子の数が少ないものによって表現される事は同値である。


まとめると

3層DNNの階層構造

{ S_1 \subset S_2 \subset S_3 \subset S_4  \subset ... }

により特異領域(特異点)が生まれ、そこでは従来の統計学が単純には適応できない、と言うことになります。

§3 より一般のDNNの特異構造

§1,2と3層の現在では応用上はあまり使われていないであろうDNNの特異構造について述べました。

一般のDNNつまり層の数を増やすことにより、

素子の数だけでなく、層の数に関する階層構造も持つため、より解析が難しい事が想像に難くないと思います。


実際に§.2のような定理は(私が知る限りは)一般のDNNに対しては証明されていません。

ただ、上で述べた(層,素子)の二重の階層構造が、誤差関数の極値に対応することが

最近証明されたみたいです[5]。(まだしっかり読んでないので注意して下さい。)

※追記(2016/10/26):[5]で証明されていたのは、
「下の階層のDNNにおける誤差関数の極値は、それを上の階層に埋め込んだ時にも誤差関数の極値になる」
と言うものでした。全ての極値を網羅できたわけではないみたいです。([5]のDiscussion参照)



このようにまだまだ理論的理解が追いついてないDNNですが、

これから先もっと理解が進んで、今まで蓄積されてきた経験上の学習ベスト・プラクティスに対して

数学的解釈や裏付けが与えられたら、こんな素晴らしい世の中はないのではないかと考えています。

個人的に論文[5]はそのような道の足掛かりになるような気がしていて、とてもワクワクしています。笑

時間が出来たら[5]の解説記事でも書けたらなと考えています。


そんなこんなでこのシリーズはしばらくお休みです。

それでは。

§ 参考文献

[1] Notes for a graduate-level course in asymptotics for statisticians
http://sites.stat.psu.edu/~dhunter/asymp/lectures/asymp.pdf

[2]Fukumizu, K., & Amari, S. (2000). Local minima and plateaus in hierarchical struc- tures of multilayer perceptrons. Neural Networks, 13, 317–327.

[3]A. M. Chen H.Lu, R.Hecht-Nielsen. On the geometry of feedforward neural network error surfaces. Neural Computation5:910-927, 1993

[4] S. Amari, H.Park and T. Ozeki, Singularities Affect Dynamics of Learning in Neuromanifolds, Neural Computation, 18, 1007-1065, 2006.

[5]Nitta T., Resolution of Singularities Introduced by Hierarchical Structure in Deep Neural Networks, (2016)
www.ncbi.nlm.nih.gov

[6]Fukumizu K.,A regularity condition of the information matrix of a multilayer perceptron network. Neural Networks, 9(5), 871-879, 1996

[7]情報幾何学の新展開