読者です 読者をやめる 読者になる 読者になる

From Pure Math to Applied Math

Stat/ML from a pure mathematical perspective.

”ANNの内部状態はその出力関数から一意的に決まるのか”と言う問題の驚くべき解答

Deep Learning 機械学習 情報幾何学

こんにちは。

タイトルの意味ですが、


人工ニューラルネットワーク


1. 隠れ層の数

2.各層のニューロンの数

3.重み

4.バイアス

この4つは出力関数だけを見れば決まるのか?

と言うものです。

実はこの問題、特異点の解消の観点から、非常に重要(少なくとも従来の統計理論上)な問題なんですが、

現在一般的に使われるような何十にもなる多層ネットワークに関しては全くの手付かずの状態でした。

どんだけ調べても3層のネットワークの場合しか調べられていない。

そんなモチベーションがあって

ここ一週間僕がずっと過去の結果[1,2,3]を拡張しようとしていたわけですが。。。

(部分的には拡張出来ましたが、壁にぶち当たっていました。)




ですが実は今日、それに関連する(個人的に)驚くべき結果を見つけたため、共有します。

その論文は

C. Fefferman ,Reconstructing a neural net from its output
https://eudml.org/doc/39464

これです。


彼が言っているのは、活性化関数がtanh(x/2)の場合、ある弱い条件下で

出力関数を見れば同じ層のニューロンの入れ替えの自明な対称性を除けば(up to trivial symmetries)

一意にそのパラメータが決まる

と言う驚くべき主張です。彼の言葉を引用しますと、


""Suppose an unknown neural network is placed in a black box.

You aren't allowed to look in the box, but you are allowed to observe the outputs produced by the network for arbitrary inputs.

Then, in principle, you have enough information to determine the network architecture

(number of layers and number of nodes in each layer) and the unique values for the weights.""


です。カッコ良い。


証明のアイディアは、定義域を複素領域に拡張すると出力関数がMeromorphic関数になるわけですが、

その極の状態を見てやれば重みのパラメータが一意(up to trivial symmetries)に決まってしまうと言うものです。

中身は非常に数学的に複雑ですが、決して高度な事をやってるわけではないです。



この結果、学習アルゴリズムの開発においても非常に有効なはず(、と少なくとも僕は信じていますが、)なのですが、、、

あんまり引用されていないんですよね、、、。難しすぎるんでしょうか?


悲しい。

§ Reference


[1]A. M. Chen H.Lu, R.Hecht-Nielsen. On the geometry of feedforward neural network error surfaces. Neural Computation5:910-927, 1993

[2]Fukumizu K.,A regularity condition of the information matrix of a multilayer perceptron network. Neural Networks, 9(5), 871-879, 1996

[3]Sussmann, H. J. (1992). Uniqueness of the weights for minimal feedforward nets with a given input-output map. Neural Networks. 5, 589–593.

[4]Fefferman, C. (1994). Reconstructing a neural net from its output. Revista Mathematica Iberoamerica, 10(3), 507–555.