読者です 読者をやめる 読者になる 読者になる

From Pure Math to Applied Math

Stat/ML from a pure mathematical perspective.

つくってあそぼう!ヒッグス粒子発見器 -データ前処理編-

データ解析 実験 機械学習

こんにちは。

皆さん、ヒッグス粒子をご存知でしょうか。


ヒッグス粒子 - Wikipedia


2013年に、スイスにあるCERN加速器実験で発見した、と発表されたばかりの新しい粒子です。*1

なんでも、”質量はどこから生まれるのか”みたいな問いに答えを与えるような粒子だそうで、なにやら凄いみたいです。*2



この記事のシリーズではUCI Machine Learning Repositoryにある、Higgs粒子発見器を作るためのデータセット


UCI Machine Learning Repository: HIGGS Data Set


を用いて、Higgs粒子発見器(!)を作って行こうと思います。


第一回目の今回は、前処理に重点を置いていきます。

*1:正確には実験結果がヒッグス粒子である事を強く示唆していると発表した

*2:僕は物理畑の人間ではないので、詳しくは知りません。

続きを読む

【TFLearn】非線形ネットワーク VS 線形ネットワーク【データ解析入門】

データ解析 実験 Python Deep Learning

明けましておめでとうございます。今年もなんちゃらです。



今年はこのブログでも理論だけではなくて実験に関することもやっていけたらなあ、と思っている次第であります。

その実験第一弾にふさわしい、素晴らしい記事、と行きたいところですが凄くショボい内容ですのでご容赦ください。


テーマはタイトルにある通り


非線形ニューラルネットワーク VS 線形ニューラルネットワーク


です。


本当にその問題に非線形ネットワークが必要ですか??????


と言う問いかけです。TFLearnで実装していきます。*1

せっかくなのでデータ解析初心者の方の参考になるかもしれない*2ので、前処理からのpythonのコードも一緒に貼り付けて行きたいと思います。

*1: ニューラルネットワークうんぬんの前に、線形回帰やらSVCやらやれよ!と思った方、御尤もでございます。

*2:クソコードなのは仕様です。

続きを読む

Reproducing Kernel Hilbert Spaceの数理とMercerの定理

こんにちは。


この記事は、皆さんサポートベクトルマシン(SVM)でお馴染みであろう

Reproducing Kernel Hilbert Space (再生核ヒルベルト空間) : (以下RKHS)

に関するただの個人的なメモです。


動機は、非常に重用なMercerの定理の証明がウェブ上で簡単に見つからなかったために色々調べてたものを整理する事です。

個人的に、RKHS周りの数理を整理しておきたかった、と言うのもあります。

※一応、ヒルベルト空間とその有界作用素の定義ぐらい知っていれば読めるようにリファレンスはなるべく付けてありますが、どう考えてもself-containedな記事ではありません。

続きを読む

ガウス過程の定義と存在を測度論の言葉を使って、出て来る言葉の定義を全て与えて、ごまかさないで、しっかりと、数学的に説明してみようと思ったけど、ただの機械学習のための測度論的確率論超絶速習コースになってしまいました。

数学 機械学習

こんにちは。


今回は、このブログを読んでいる機械学習界隈の人なら必ず一度は聞いたことがあるであろう


ガウス過程(Gaussian Process)

についてです。かの有名な悪名高いPRMLにも頻繁に登場しますし、機械学習の本や論文にはしょっちゅう出て来る存在だと思います。僕の大好きなベイズ最適化

mathetake.hatenablog.com

においても非常に重要な数学的概念です。


ガウス過程の説明でよくあるあるのは、


「確率変数の集まりであって、有限個取った場合にその同時分布はガウシアンである」


と言うものですが、、、。 肝心なのは、皆さん、

・確率変数って何か分かってますか?
・確率分布ってなにか分かってますか?
・そもそも確率って何か分かっていますか?

と言う話なのです。曖昧な土台の上で議論や話を進めるの、もうやめにしませんか?気持ち悪くありませんか?


そして重要なのは、ガウス過程とは数学的には

関数が成すベクトル空間に値を取る確率変数

であり、このような捉え方が極めて重要なのですが、殆どの方はこの言葉を正確に説明出来ないでしょう。




と言うことで今回は、ガウス過程とは数学的に何者であるかを、

代数学の言葉

ほぼ全てに*1

一から定義を与え

て存在証明をしてみたいと思います。


この記事にある内容をすんなりと理解出来るぐらいになっていれば、機械学習または統計理論で確率論を使う上での土台は十分だと思います。

*1:集合とはなにか、写像・関数とはなにか、は省いてます…

続きを読む

「量子コンピュータが人工知能を加速する」とそれに関連するメモ.

量子コンピュータ 機械学習

こんにちは。珍しく今回は数式は出てきません。


この記事は自分用のクリスマスプレゼントとして買った、

量子コンピュータが人工知能を加速する

量子コンピュータが人工知能を加速する


量子コンピュータ人工知能を加速する」についてです。



かの有名な量子アニーリング(Quantum Annealing)の作動原理を考案した西森先生とその研究室で学び、量子アニーリング機械学習分野への応用の研究をされている大関先生の二人が筆を執った、ある意味(数式を使わないと言う意味)でライトノベルな一般人向けの書籍です。


量子アニーリング(Quantum Annealing)についての(数理的な側面を説明するという意味で)しっかりとした記事は今年中に書こうと思ってますので、今回は"各章に関連するメモ"と言う形のまとまりのない記事になってます。ご容赦ください。


量子コンピューター、ないしは量子アニーリングの周りの世界がどうなっているのかしっかりと概観したい方はこの本を購入するか、または次の4つの記事を併せて読むと良いかと思います。

AI開発に実用される量子コンピュータ--人工知能研究を加速 - ZDNet Japan

量子アニーリング(西森秀稔)

NASA、Googleが注目する「D-Wave」は、本当に量子コンピューターなのか?|WIRED.jp

「1億倍速いコンピュータ」に利用--量子アニーリング理論の可能性(1) - ZDNet Japan

第1章. 「1億倍速い」コンピュータ

2015年12月8日、NASAのエイムズ研究センターで歴史的な記者会見が開かれ、カナダのD-WAVE社が開発した量子コンピュータに対する性能テストの結果発表が行われた。その結果は「従来コンピュータの1億倍高速である」と言うものだった。(p.12辺り)

量子コンピュータは主に2種類あり、

「量子ゲート方式」

と呼ばれ、古くから研究されてきたものと

量子アニーリング方式」

と呼ばれる、1998年に2人の日本人Nishimori-Kadowaki(Quantum annealing in the transverse Ising model)により考案された方式がある。

今唯一商用販売されているD-wave社の量子コンピュータは後者の量子アニーリング方式を採用している。両者の詳しい違いについては、西森先生のホームページが詳しいので参照されたい。

ただ、ここで重要なのは、従来型のコンピュータが(ワープロからインターネットブラウザなど多種多様な用途に使えると言う意味で)汎用的であるのに対して、量子アニーリング方式の量子コンピュータ組合せ最適化問題*1に特化したコンピュータである。その視点で行くと、単に更に一億倍速くなったと言うわけではなく、特定の問題に対して1億倍速く解く事ができた、と言うところです。

第2章. 量子アニーリングマシンの誕生

量子アニーリング方式の量子コンピュータを製造販売する、D-waveはブリティッシュコロンビア大学大学院で物理学を学んでいたローズ氏らにより立ち上げられた。当時唯一の方式だった「量子ゲート方式」の量子コンピュータの実現には、大きな壁が立ちはだかっていた。"D-wave"と言う社名は、彼らが初めて取り組んだ量子ビットが「d波超電導体」を使用していたことにちなんでいる。(p43~44辺り)

世界で唯一量子コンピュータを販売する会社を立ち上げたのは、容易に想像がつくように大学院で物理学を学んだ人です。当初採用していた古典的な量子ゲート方式に行き詰った後に、切り替えて量子アニーリング方式を採用できたのも彼の物理学のバックグラウンドあったためであると考えるのは自然でしょう。

量子アニーリング方式の悪い所として「汎用的でない」と言うのは前述のとおりですが、逆に良いところとして「量子ゲート方式に比べて(物理的に)安定的」であると点があります。外界の影響を受けにくいそうです:

量子回路モデルと比べると,量子アニーリングは安定な基底状態(エネルギーが最も低い状態)をたどるよう設計されているため,デコヒーレンスの影響を受けにくい。(西森先生のホームページより)


一方、他のテクノロジーの巨人たちがD-waveの独壇場をじっと見ているだけなわけもなく、

例えばGoogle量子アニーリング方式のコンピュータを開発しており、

シリコンバレーNextレポート - Googleが3種類目の量子コンピュータ開発へ、量子アニーリング方式:ITpro

さらにはIBM量子コンピュータクラウドを公開しています:

IBMが量子コンピューティングを誰もが実験できるクラウドサービスとして提供 | TechCrunch Japan


このような北米活況の中、日本はどう打って出るべきか少し本書に書かれていますが、ご自身で読んで見てください。*2

第3章. 組み合わせ最適化問題の解き方と人工知能への応用

アニーリング(Annealing)とは日本語で焼きなましの事である。

量子アニーリングの「量子」は、「量子力学の性質を利用する」と言う意味。「アニーリング」とは「焼きなまし」と言う意味で、ゆっくりと冷やし、内部のひずみを取り除き均質化させるための処理のことである。それを数学的なモデルに適用しようというものである。(p70辺り)

量子力学とはなんぞや?みたいな理系の方は次のホームページをオススメします;

EMANの量子力学

また、その数学的モデルと言うのが、良く知られたイジング模型になります。



量子アニーリングで問題を解く手順は



組み合わせ最適化問題(0または1のビットで表現、そしてその相互作用決めた上で評価関数を最小化する問題)

を、

イジング模型(電子スピンとその相互作用)

で表現し、

横磁場を掛けてどの量子ビットも重なり合った状態からはじめ、徐々に磁場を弱め(重ね合わせを少なくなるようにしていき)安定した所させ

そこが解となるように、(量子アニーリングマシンの中で)物理実験をする事で解くわけです。


古くからあった熱力学的方法のSimulated Annealingとの決定的な違いは、量子トンネル効果により局所解から抜け出すことが容易な点です:

f:id:mathetake:20161225162845j:plain
(Quantum annealing - Wikipediaより。)




多くの人が気になる機械学習への応用についてですが、本書では次の3つのケースについて言及(p87~)されています。

(1)クラスタリングへの応用
(2)教師ありの回帰への応用
(3)ボルツマンマシンの学習への応用


(2)については教師データがあるのでそれを導くような相互作用を求めるような問題に帰着される。
(3)については次のような論文があります⇒[1510.06356] Application of Quantum Annealing to Training of Deep Neural Networks

第4章. 量子コンピュータが作る未来

量子コンピュータはD-WAVEやIBMGoogleなどが開発を進めるニッチな存在ではなく

米国政府によるプロジェクトが発足し、そこでの研究成果は全てオープンになり物凄いインパクトを持つことが予測されている。

AIへの応用と言う点については、GoogleNASAが共同で「量子人工知能研究所」を設立している。

次の動画はその研究所のPV(?)のようなものですが、おもしろいです。

www.youtube.com




残りは量子力学についての話(5章)と、日本が世界をリードする日は来るのかと言う話(6章)が残っていますが、ただ引用するだけで終わってしまいそうなのでこのあたりで筆をおいておきます。


非常に平易な言葉でかかれていますし、人工知能機械学習についてもゼロから分かりやすく説明している非常に素晴らしい本だと思いました。考案者が日本人であるおかげで母国語でこのような本が読める事を非常に幸せに感じます。”量子コンピュータ”と言う言葉に少しでもビビッと来る方全てにオススメします。

*1:巡回セールスマン問題などがよく例として挙げられる.

*2:重要な内容や本質的な箇所を引用するのは著作権法違反みたいですので…。

損失関数はそれほど複雑な関数ではないのかも?と言う話

Deep Learning 機械学習

前回の記事

mathetake.hatenablog.com


にある論文(2-2-9)[1605.07110] Deep Learning without Poor Local Minimaについてのお話です*1


Abstractを読んだ瞬間に、こんな重要な論文をどうして今まで知らなかったのかと言うぐらい興奮しました。

少し長いですが引用しますと

In this paper, we prove a conjecture published in 1989 and also partially address an open problem announced at the Conference on Learning Theory (COLT) 2015. With no unrealistic assumption, we first prove the following statements for the squared loss function of deep linear neural networks with any depth and any widths: 1) the function is non-convex and non-concave, 2) every local minimum is a global minimum, 3) every critical point that is not a global minimum is a saddle point, and 4) there exist "bad" saddle points (where the Hessian has no negative eigenvalue) for the deeper networks (with more than three layers), whereas there is no bad saddle point for the shallow networks (with three layers). Moreover, for deep nonlinear neural networks, we prove the same four statements via a reduction to a deep linear model under the independence assumption adopted from recent work.*2

と言った具合です。

要するに誤解を恐れず言えばある種の仮定の下、モデルの構成(ハイパーパラメータ)に依らず

−線形ニューラルネットワーク極値を全て分類しました。極小値は全部大域最小値です。

非線形(ActivationがReLU関数の場合)のニューラルネットワーク極値を全て分類しました。極小値は全部大域最小値です。


と言うものです。仮定はともあれ、この主張ヤバすぎませんか?かなり強い主張です。


証明に使われている仮定が、実際の現場で使われるセッティングに対してPlausibleであるならば、現時点でこれ以上に分かりやすく「Deep Learningの学習が何故上手くいくのか」を簡単に説明するものはないように思われます。

と言う事で、簡単にこの論文のMain TheoremのStatementとSettingそしてそのPlausibilityについて考えてみたいと思います。

§1. Notationの準備

定理について述べる前にNotationを準備します。*3


{ H }隠れ層の数
{ (d_x,d_1,...,d_H,d_y) }(入力層,第一隠れ層,第二隠れ層,...,第{ H }隠れ層,出力層)の次元
{ p:= \min (d_1,\dots,d_H) }
{ m }トレーニングセットの総数
{ (X,Y) \in \mathbb{R}^{d_x \times m} \times  \mathbb{R}^{d_y \times m}}トレーニングセット
{ W_{1} \in \mathbb{R}^{d_1 \times d_x} }, { W_{2}\in \mathbb{R}^{d_2 \times d_1} },....,{ W_{H} \in \mathbb{R}^{d_H \times d_{H-1}} }, { W_{H+1}\in  \mathbb{R}^{d_y \times d_H} }:各Weight Matrix

と言う記号を準備します。

線形ネットワークのアウトプット

{ Y_{linear}(W,X) :=W_{H+1}\circ W_H\circ \cdots W_1(X)  \in \mathbb{R}^{d_y \times m}}

として表記します。そして損失関数*4

{ \mathcal{L}_{linear}(W) := \|Y_{linear}(W,X) - Y \|^2_{Frobenius} }

と定めます。ここで{ \| \cdot \|_{Frobenius} }は行列のFrobeniusノルムです。*5

§2. 線形ネットワークの場合

準備ができたので、線形ネットワークに関してのStatement を述べたいと思います。

Theorem 2.3 in [1])
{ XX^T,XY^T }full rankの行列であると仮定(※)する。この時線形ネットワークの損失関数{ \mathcal{L}_{linear}(W )}について次の主張が成立する。
(1) { \mathcal{L}_{linear}(W )}はnon-convexかつnon-concaveである。
(2) { \mathcal{L}_{linear}(W )}の全ての極小値は大域最小値。
(3){ \mathcal{L}_{linear}(W )}の全ての極小でない極値は鞍点である。
(4)もし{ p=rank(W_H\cdots W_2)}ならば{ \mathcal{L}_{linear}(W )}極値におけるHessianは必ず負の固有値を持つ。□

と言うものです。歴史的な背景として1989年にBaldi & Hornik [2]が、”{H=1 }かつ次元に対するある条件”といったかなり限定的な場合に証明を与えていて、その論文の中で””同様の主張が任意の深さについて成り立つ””と言う予想を述べていたらしいです。*6

仮定(※)の妥当性については[2]にある次のコメントのように実用的にもPlausibleです;

To assume that they are all strictly positive is equivalent to assuming that both  { \Sigma_{XX}} and  {\Sigma_{YX} } are of full rank. Full rank matrices are dense and in a realistic environment with noise and finite precision, we can always slightly perturb the conditions so as to make I invertible and eigenvalues.*7

要するにこの仮定を満たす行列は、行列の成すベクトル空間の中で稠密*8なので、ちょっとの摂動でこの仮定は満たされるので問題ないと言うことです。

これはもう文句なし、と言う感じで言葉が出ないくらい凄い結果だと思います。約25年の未解決問題を解決したわけですから。

凄い!*9

§3. 非線形ネットワークの場合

非線形の場合についても、同様の仮定の下で同様の主張が成り立ってくれたら嬉しいのですが…そう簡単にもいかないみたいです。

[1]はスピングラスモデルのアナロジーで損失関数を解析した論文[3]のアイディアを拡張し、Roughly Speakingで以下のような主張を証明しました。

まず線形の場合と同様に

{ Y_{nonlinear}(W,X) :=W_{H+1}\circ \sigma \circ W_H\circ \cdots \circ \sigma \circ W_1(X)  \in \mathbb{R}^{d_y \times m}}
{ \mathcal{L}_{nonlinear}(W) := \|Y_{nonlinear}(W,X) - Y \|^2_{Frobenius} }

非線形ネットワークのアウトプットと損失関数とします。

ここで重要な仮定(※※)として、

ReLU関数{ \sigma }によるActivationはベルヌーイ分布に従って起こるものとし、その分布は【素子の位置】【Weight】【入力】に対して独立である

と仮定します。

Corollary3.2 in [1]
仮定(※)&(※※)が成立している時、{ \mathcal{L}_{nonlinear}(W) }{ \sigma }に関する期待値を取った関数に対してTheorem2.3と同様の性質が成り立つ。□


と言うものです。証明は結局期待値取ると線形な損失関数の定数倍になるので、Theorem2.3より従います。

やはり線形の場合のようにすんなりと証明は出来ないみたいです、が、これはこれで…!


非線形の場合の損失関数の挙動はもっと良く調べられるべき課題ですが、全容解明の日も近いかも…?

*1:著者はMITにいる日本人PhD学生!凄い!

*2:[1605.07110] Deep Learning without Poor Local Minima

*3:[1]§2.1 参照。ほんの少しだけ記号変えてます。

*4:通常算術平均を取って誤差二乗平均にしますが、定数倍で極値の挙動は不変なので問題ありません。

*5:elementごとに内積入れたやつです。

*6:[1] §2.2参照

*7:[2] p 56.上の方

*8: 位相空間の中にある集合の閉包がその空間全体に一致する時、その集合は稠密であると言います。{\mathbb{R} }の中の有理数全体{ \mathbb{Q} }なんかが代表例です。

*9:証明は、ひたすら計算と言う感じでした。読むには相当根気が入りそうです…。

Deep Learningの理論的論文リスト

Deep Learning 機械学習

§1はじめに

Deep Learningってどのくらい理論的に解明されているのか?ってやっぱり気になりますよね。

それに関して、次のQuoraのスレッドに非常に有益なコメントがあります。

When will we see a theoretical background and mathematical foundation for deep learning? - Quora

How far along are we in the understanding of why deep learning works? - Quora

深層学習界の大御所であるYoshua BengioYann LeCunの二人が

実際ディープラーニングの理論的理解ってどうなのよ??

って質問に直々にコメントしています。

LeCunのコメントの冒頭を少し引用しますと;

That’s a very active topic of research at the moment. I’m delighted to see high-caliber mathematicians and theoretical physicists getting interested in the theory behind deep learning.

と言った感じです。





さて、純粋数学出身の人がディープラーニングの世界にやってきて最初に気になるのは

今の所理論的にどのくらい分かってるの??どんな話題があるの??

でしょう。自分がそうだったので。


ってなわけでそんな皆様の手助けとなるように、僕の論文収集フォルダに入っていてかつ最低でもイントロには目を通した

Deep LearningまたはArtificial Neural Networkの理論的側面に関する論文

に少しコメントを付けて列挙します。*1

内容の善し悪しは保証できませんが、少なくとも理論的側面に関する論文であることは保証します。


§2 数学的論文リスト

2-1.フィッシャー情報計量の特異点とパラメータの一意性に関する論文

(2-1-1) http://www.sciencedirect.com/science/article/pii/0893608095001190

3層ニューラルネットワークで、複素平面上に解析接続した時に孤立特異点を持つような活性化関数を使った場合に、フィッシャー情報計量が特異になる点を全て分類した、と言う論文。その特異点ニューラルネットの階層構造により引き起こされる事が分かった。*2

(2-1-2-1)Recovering a Feed-Forward Net From Its Output
(2-1-2-2)EUDML  |  Reconstructing a neural net from its output.
フィールズ賞受賞者であるFeffermanのサーベイ(1つ目)と論文(2つ目)。活性化関数がtanhの場合に、パラメータやネットワークの構造は出力関数から自明な同型を除いて一意的に決まるという論文。詳細はこっちの記事に書きました→”ANNの内部状態はその出力関数から一意的に決まるのか”と言う問題の驚くべき解答 - From Pure Math to Applied Math

(2-1-3)Functionally equivalent feedforward neural networks
出力関数が同じになるような2つのネットワークは、ニューロンの入れ替えなどの階層構造からくる自由度から来ている事を3層ネットワークに関して示した。(2-1-1)や(2-1-3)のような話は学習理論上非常に重要なはずですが、一般の多層ネットワークに関しては未解決だと思います。

(2-1-4)How to modify a neural network gradually without changing its input-output functionality. - PubMed - NCBI
いかにして出力関数を不変にしてパラメータを動かすのか、と言う論文。数学的なものではないですが念のため。生物学的な視点から書いているみたいです。

(2-1-5)https://www.researchgate.net/publication/2760809_Identifying_Linear_Combinations_of_Ridge_Functions
直接ニューラルネットとは関係ないが、各レイヤーから次のレイヤーの素子への関数の一般系であるRidge関数と言うクラスに関する論文。

(2-1-6)On the Geometry of Feedforward Neural Network Error Surfaces | MIT CogNet
とある同値関係で同値になるニューラルネットワークの組は、特定の自然なパラメータの置換により同値になると言う論文。とあるWeyl群が自然にパラメータの空間に作用してることが分かります。

(2-1-7)The Metric Structure of Weight Space | SpringerLink
パラメータ空間に自然な計量入れちゃいましょう、って論文、正直良くわからん。

(2-1-8)http://www.sciencedirect.com/science/article/pii/S0893608005800371
Feffermanの論文と少し違うが、その先駆けとなった論文。3層ネットワークの場合、出力関数から自明な同型を除いて一意的にパラメータを決定できる、と言うもの。



2-2.評価関数のプラトーや極小値問題/学習力学に関する論文

(2-2-1)Deep Neural Networksの力学的解析
ニューロンの発火の時間発展だと考えて、学習の力学を数値的に解析した論文。

(2-2-2)Dynamics of learning near singularities in layered networks. - PubMed - NCBI
3層ネットワークにおいて、パラメータが特異点に近づいた時に学習力学がどうなるのか解析した論文。

(2-2-3)[1312.6120] Exact solutions to the nonlinear dynamics of learning in deep linear neural networks
同じく学習力学系を解析したよって論文。線形ネットワークしか詳しく解析してないので、あんまり。。。と言う印象。ディープなやつの力学系の一般論を作るの、相当無理がありそう。未解決。

(2-2-4)http://www.sciencedirect.com/science/article/pii/S0893608000000095
3層ニューラルネットのローカルミニマやプラトーは階層構造により引き起こされるよ〜その時どうなるの〜って論文。

(2-2-5)Singularities affect dynamics of learning in neuromanifolds. - PubMed - NCBI
これも似たような論文。他の特異モデルに関してもトイモデルとして調べられています。

(2-2-6)Natural gradient works efficiently in learning
単純な評価関数の勾配じゃなくて、自然勾配と呼ばれるモデルの幾何構造を意識した勾配法が上手く行くよ〜って論文。でもその手法は計算量が大変。そして特異点のせいでフィッシャー情報計量の逆行列発散するし、個人的にはなんだかなあって感じ。

(2-2-7)[cond-mat/0212006] On-Line Learning Theory of Soft Committee Machines with Correlated Hidden Units - Steepest Gradient Descent and Natural Gradient Descent -
自然勾配法に関する論文。あまり覚えてない。。。

(2-2-8)Resolution of Singularities Introduced by Hierarchical Structure in Deep Neural Networks. - PubMed - NCBI
ディープな場合でも、階層構造から評価関数のプラトーや鞍点などが誘導されちゃうよ、それを回避するような学習アルゴリズム提案しましたって論文。比較的新しいです。結構好き。また、階層構造以外から誘導される極値はどんなものがあるのか、みたいな話はこれから先調べられるべき問題、です。(この論文の中にも書かれています。)

(2-2-9)[1605.07110] Deep Learning without Poor Local Minima
NIPS採択論文。複数の仮定があるものの、その条件下で二乗損失関数の(1)極小値は全て大域最小値になっている事 (2)全ての大域最小値でない極値は全て鞍点である と言う事を証明したと主張する論文。Feffermanの結果とならんでこのリストの中でかなり驚いた論文です。※この論文についての記事を書きました。⇒
損失関数はそれほど複雑な関数ではないのかも?と言う話 - From Pure Math to Applied Math



2-3.畳み込みニューラルネットワークに関する論文

(2-3-1)[1512.06293] A Mathematical Theory of Deep Convolutional Neural Networks for Feature Extraction
畳み込みネットワークが、ある特定のパターンを持った入力に対して優れた認識性能をはっきすることを、かなり数学的に厳密に証明/解析した論文。

(2-3-2)[1603.07285] A guide to convolution arithmetic for deep learning
これはちょっと番外的ですが、CNNのinput shape, kernel shape, zero padding, strides and output shapeに関する代数的な(算数的な?)計算をひたすらしたものです。ある意味で理論?

(2-3-3)[1601.04920] Understanding Deep Convolutional Networks
(2-3-1)とは別の視点から、数学的にCNNの高次元データの低次元多様体への縮小、そして分離性質を解析した論文。@_kohtaさんから。

2-4.普遍性定理/近似理論に関する論文

(2-4-0)Universal Approximation Theoremと深層学習の有効さ - From Pure Math to Applied Math
前に書いた普遍性定理に関する記事です。

(2-4-1)[1603.00988] Learning Functions: When Is Deep Better Than Shallow
(2-4-2)[1608.03287] Deep vs. shallow networks : An approximation theory perspective
著者は数学者。厳密な近似理論を使って、特定のクラスの関数をモデリングするのに”深い”方が”浅い”ものより優れていることを証明した。

(2-4-3)[1610.01145] Error bounds for approximations with deep ReLU networks
上と著者は違うけど似たような論文。近似理論的な話2016になってからたくさん出てきた感じでしょうか?

(2-4-4)[1505.03654] Neural Network with Unbounded Activation Functions is Universal Approximator
有界な活性化関数を使ったネットワークの普遍性定理についての論文。@nopu_dansantさんより。

2-5.幾何的論文

(2-5-1)On the Complexity of Neural Network Classifiers: A Comparison Between Shallow and Deep Architectures - IEEE Xplore Document
個人的にかなり好きな論文。(確率分布をモデリングする場合において)、「ネットワークの表現力の豊かさ」=「出力関数の値が0以上になる点の集合の幾何学的複雑さ」=「その集合のBetti数の大きさ」と考えてその上限と下限が層の深さ、素子の数に対してどのくらいのオーダーなのか評価した論文。カッコ良い。

(2-5-2)[1606.05340] Exponential expressivity in deep neural networks through transient chaos
リーマン幾何の観点から、ディープなネットワークの表現力を解析した論文。


2-6.群論的論文

(2-6-1)[1602.07576] Group Equivariant Convolutional Networks
CNNの特徴量の平行移動普遍性を一般化して考え、より複雑な対称性(回転対称性やReflection)を考慮したネットワークGroup Equivariant Convolutional Networksを提案。@_kohtaさんから。

(2-6-2)[1412.6621] Why does Deep Learning work? - A perspective from Group Theory
群作用の観点から、制限付きボルツマシンの学習を使った事前学習(貪欲学習)の有効さを説明した論文。結構数学的にきっちりしてる印象。

2-7.その他

(2-7-1)[1605.02832] Decoding Stacked Denoising Autoencoders
@nopu_dansantさんより。Stacked denoising autoencoderの中身を輸送現象として解明した論文。




§3 物理系論文リスト

(3-1)[1410.3831] An exact mapping between the Variational Renormalization Group and Deep Learning
繰り込み群を使って制限付きボルツマンマシンを使った事前学習の有効さを解明したと言う論文。後に(3-3)によって間違いを指摘されている。

(3-2)[1503.02406] Deep Learning and the Information Bottleneck Principle
(3-1)に基いて、Information Bottleneckと言うモノを用いて汎化性能の上限とかを色々と評価しているらしい。

(3-3)[1608.08225] Why does deep and cheap learning work so well?
著名なMITとHarvardの物理学者が物理学的視点から明快に、DNNが何故上手くいくのか説明している。またその中で(3-1)の間違いを指摘して、論争になっている(らしい)。それを抜きにしてもかなりおすすめです。

(3-4)[1503.03585] Deep Unsupervised Learning using Nonequilibrium Thermodynamics
非平衡熱力学のアイディアを使って学習させましたと言う論文。@_kohtaさんから。

(3-5)[1412.0233] The Loss Surfaces of Multilayer Networks
スピングラスモデルとDNNの学習との関連性を指摘して、解析した論文。設定があまりにSimplifiedされているし、個人的にはうーん、、、って感じ。