Obey Your MATHEMATICS.

機械学習関連の純粋数学や実験など

Deep Learningの理論的論文リスト

§1はじめに

Deep Learningってどのくらい理論的に解明されているのか?ってやっぱり気になりますよね。

それに関して、次のQuoraのスレッドに非常に有益なコメントがあります。

When will we see a theoretical background and mathematical foundation for deep learning? - Quora

How far along are we in the understanding of why deep learning works? - Quora

深層学習界の大御所であるYoshua BengioYann LeCunの二人が

実際ディープラーニングの理論的理解ってどうなのよ??

って質問に直々にコメントしています。

LeCunのコメントの冒頭を少し引用しますと;

That’s a very active topic of research at the moment. I’m delighted to see high-caliber mathematicians and theoretical physicists getting interested in the theory behind deep learning.

と言った感じです。





さて、純粋数学出身の人がディープラーニングの世界にやってきて最初に気になるのは

今の所理論的にどのくらい分かってるの??どんな話題があるの??

でしょう。自分がそうだったので。


ってなわけでそんな皆様の手助けとなるように、僕の論文収集フォルダに入っていてかつ最低でもイントロには目を通した

Deep LearningまたはArtificial Neural Networkの理論的側面に関する論文

に少しコメントを付けて列挙します。*1

内容の善し悪しは保証できませんが、少なくとも理論的側面に関する論文であることは保証します。


§2 数学的論文リスト

2-1.フィッシャー情報計量の特異点とパラメータの一意性に関する論文

(2-1-1) http://www.sciencedirect.com/science/article/pii/0893608095001190

3層ニューラルネットワークで、複素平面上に解析接続した時に孤立特異点を持つような活性化関数を使った場合に、フィッシャー情報計量が特異になる点を全て分類した、と言う論文。その特異点ニューラルネットの階層構造により引き起こされる事が分かった。*2

(2-1-2-1)Recovering a Feed-Forward Net From Its Output
(2-1-2-2)EUDML  |  Reconstructing a neural net from its output.
フィールズ賞受賞者であるFeffermanのサーベイ(1つ目)と論文(2つ目)。活性化関数がtanhの場合に、パラメータやネットワークの構造は出力関数から自明な同型を除いて一意的に決まるという論文。詳細はこっちの記事に書きました→”ANNの内部状態はその出力関数から一意的に決まるのか”と言う問題の驚くべき解答 - From Pure Math to Applied Math

(2-1-3)Functionally equivalent feedforward neural networks
出力関数が同じになるような2つのネットワークは、ニューロンの入れ替えなどの階層構造からくる自由度から来ている事を3層ネットワークに関して示した。(2-1-1)や(2-1-3)のような話は学習理論上非常に重要なはずですが、一般の多層ネットワークに関しては未解決だと思います。

(2-1-4)How to modify a neural network gradually without changing its input-output functionality. - PubMed - NCBI
いかにして出力関数を不変にしてパラメータを動かすのか、と言う論文。数学的なものではないですが念のため。生物学的な視点から書いているみたいです。

(2-1-5)https://www.researchgate.net/publication/2760809_Identifying_Linear_Combinations_of_Ridge_Functions
直接ニューラルネットとは関係ないが、各レイヤーから次のレイヤーの素子への関数の一般系であるRidge関数と言うクラスに関する論文。

(2-1-6)On the Geometry of Feedforward Neural Network Error Surfaces | MIT CogNet
とある同値関係で同値になるニューラルネットワークの組は、特定の自然なパラメータの置換により同値になると言う論文。とあるWeyl群が自然にパラメータの空間に作用してることが分かります。

(2-1-7)The Metric Structure of Weight Space | SpringerLink
パラメータ空間に自然な計量入れちゃいましょう、って論文、正直良くわからん。

(2-1-8)http://www.sciencedirect.com/science/article/pii/S0893608005800371
Feffermanの論文と少し違うが、その先駆けとなった論文。3層ネットワークの場合、出力関数から自明な同型を除いて一意的にパラメータを決定できる、と言うもの。



2-2.評価関数のプラトーや極小値問題/学習力学に関する論文

(2-2-1)Deep Neural Networksの力学的解析
ニューロンの発火の時間発展だと考えて、学習の力学を数値的に解析した論文。

(2-2-2)Dynamics of learning near singularities in layered networks. - PubMed - NCBI
3層ネットワークにおいて、パラメータが特異点に近づいた時に学習力学がどうなるのか解析した論文。

(2-2-3)[1312.6120] Exact solutions to the nonlinear dynamics of learning in deep linear neural networks
同じく学習力学系を解析したよって論文。線形ネットワークしか詳しく解析してないので、あんまり。。。と言う印象。ディープなやつの力学系の一般論を作るの、相当無理がありそう。未解決。

(2-2-4)http://www.sciencedirect.com/science/article/pii/S0893608000000095
3層ニューラルネットのローカルミニマやプラトーは階層構造により引き起こされるよ〜その時どうなるの〜って論文。

(2-2-5)Singularities affect dynamics of learning in neuromanifolds. - PubMed - NCBI
これも似たような論文。他の特異モデルに関してもトイモデルとして調べられています。

(2-2-6)Natural gradient works efficiently in learning
単純な評価関数の勾配じゃなくて、自然勾配と呼ばれるモデルの幾何構造を意識した勾配法が上手く行くよ〜って論文。でもその手法は計算量が大変。そして特異点のせいでフィッシャー情報計量の逆行列発散するし、個人的にはなんだかなあって感じ。

(2-2-7)[cond-mat/0212006] On-Line Learning Theory of Soft Committee Machines with Correlated Hidden Units - Steepest Gradient Descent and Natural Gradient Descent -
自然勾配法に関する論文。あまり覚えてない。。。

(2-2-8)Resolution of Singularities Introduced by Hierarchical Structure in Deep Neural Networks. - PubMed - NCBI
ディープな場合でも、階層構造から評価関数のプラトーや鞍点などが誘導されちゃうよ、それを回避するような学習アルゴリズム提案しましたって論文。比較的新しいです。結構好き。また、階層構造以外から誘導される極値はどんなものがあるのか、みたいな話はこれから先調べられるべき問題、です。(この論文の中にも書かれています。)

(2-2-9)[1605.07110] Deep Learning without Poor Local Minima
NIPS採択論文。複数の仮定があるものの、その条件下で二乗損失関数の(1)極小値は全て大域最小値になっている事 (2)全ての大域最小値でない極値は全て鞍点である と言う事を証明したと主張する論文。Feffermanの結果とならんでこのリストの中でかなり驚いた論文です。※この論文についての記事を書きました。⇒
損失関数はそれほど複雑な関数ではないのかも?と言う話 - From Pure Math to Applied Math



2-3.畳み込みニューラルネットワークに関する論文

(2-3-1)[1512.06293] A Mathematical Theory of Deep Convolutional Neural Networks for Feature Extraction
畳み込みネットワークが、ある特定のパターンを持った入力に対して優れた認識性能をはっきすることを、かなり数学的に厳密に証明/解析した論文。

(2-3-2)[1603.07285] A guide to convolution arithmetic for deep learning
これはちょっと番外的ですが、CNNのinput shape, kernel shape, zero padding, strides and output shapeに関する代数的な(算数的な?)計算をひたすらしたものです。ある意味で理論?

(2-3-3)[1601.04920] Understanding Deep Convolutional Networks
(2-3-1)とは別の視点から、数学的にCNNの高次元データの低次元多様体への縮小、そして分離性質を解析した論文。@_kohtaさんから。

2-4.普遍性定理/近似理論に関する論文

(2-4-0)Universal Approximation Theoremと深層学習の有効さ - From Pure Math to Applied Math
前に書いた普遍性定理に関する記事です。

(2-4-1)[1603.00988] Learning Functions: When Is Deep Better Than Shallow
(2-4-2)[1608.03287] Deep vs. shallow networks : An approximation theory perspective
著者は数学者。厳密な近似理論を使って、特定のクラスの関数をモデリングするのに”深い”方が”浅い”ものより優れていることを証明した。

(2-4-3)[1610.01145] Error bounds for approximations with deep ReLU networks
上と著者は違うけど似たような論文。近似理論的な話2016になってからたくさん出てきた感じでしょうか?

(2-4-4)[1505.03654] Neural Network with Unbounded Activation Functions is Universal Approximator
有界な活性化関数を使ったネットワークの普遍性定理についての論文。@nopu_dansantさんより。

2-5.幾何的論文

(2-5-1)On the Complexity of Neural Network Classifiers: A Comparison Between Shallow and Deep Architectures - IEEE Xplore Document
個人的にかなり好きな論文。(確率分布をモデリングする場合において)、「ネットワークの表現力の豊かさ」=「出力関数の値が0以上になる点の集合の幾何学的複雑さ」=「その集合のBetti数の大きさ」と考えてその上限と下限が層の深さ、素子の数に対してどのくらいのオーダーなのか評価した論文。カッコ良い。

(2-5-2)[1606.05340] Exponential expressivity in deep neural networks through transient chaos
リーマン幾何の観点から、ディープなネットワークの表現力を解析した論文。


2-6.群論的論文

(2-6-1)[1602.07576] Group Equivariant Convolutional Networks
CNNの特徴量の平行移動普遍性を一般化して考え、より複雑な対称性(回転対称性やReflection)を考慮したネットワークGroup Equivariant Convolutional Networksを提案。@_kohtaさんから。

(2-6-2)[1412.6621] Why does Deep Learning work? - A perspective from Group Theory
群作用の観点から、制限付きボルツマシンの学習を使った事前学習(貪欲学習)の有効さを説明した論文。結構数学的にきっちりしてる印象。

2-7.その他

(2-7-1)[1605.02832] Decoding Stacked Denoising Autoencoders
@nopu_dansantさんより。Stacked denoising autoencoderの中身を輸送現象として解明した論文。




§3 物理系論文リスト

(3-1)[1410.3831] An exact mapping between the Variational Renormalization Group and Deep Learning
繰り込み群を使って制限付きボルツマンマシンを使った事前学習の有効さを解明したと言う論文。後に(3-3)によって間違いを指摘されている。

(3-2)[1503.02406] Deep Learning and the Information Bottleneck Principle
(3-1)に基いて、Information Bottleneckと言うモノを用いて汎化性能の上限とかを色々と評価しているらしい。

(3-3)[1608.08225] Why does deep and cheap learning work so well?
著名なMITとHarvardの物理学者が物理学的視点から明快に、DNNが何故上手くいくのか説明している。またその中で(3-1)の間違いを指摘して、論争になっている(らしい)。それを抜きにしてもかなりおすすめです。

(3-4)[1503.03585] Deep Unsupervised Learning using Nonequilibrium Thermodynamics
非平衡熱力学のアイディアを使って学習させましたと言う論文。@_kohtaさんから。

(3-5)[1412.0233] The Loss Surfaces of Multilayer Networks
スピングラスモデルとDNNの学習との関連性を指摘して、解析した論文。設定があまりにSimplifiedされているし、個人的にはうーん、、、って感じ。