Obey Your MATHEMATICS.

機械学習関連の純粋数学や実験など

Information Geometry 〜その1〜

こんにちは。久しぶりの投稿です。

最近は、DNNや機械学習のモデル選択や、その学習プロセスに対して

あまりに理論的理解が乏しい事を痛感し、そこに一歩踏み出そうと思って試行錯誤してたわけですが、、。


例えば先日紹介した、EBGANについてですが、あれは

データ多様体(例えば、人間の顔写真のなす多様体ピクセル×RGBの空間に埋め込んだもの)を表現するような

エネルギー関数を学習させようとしているのですが、そのデータ多様体の余次元がもし2以上あれば、

非効率な学習であったり、表現力が乏しいモデルであることは部分多様体の性質からすぐにわかります。

(そこまで深く考えてないので野暮なツッコミはやめてください笑)



そんな感じで一個一個のモデルに””文句””を付けることは恐らく簡単なのですが、あまりに効率が悪い、、、。


と言うわけで


Information Geometry(情報幾何学)


を使って統一的に統計モデル選別や学習モデルの合理性などを眺めたいなあと考えて勉強し始めました。(完全に理論寄りですね。)


と言うのも僕のバックグラウンドが広く言えば微分幾何学なので、多様体とか曲率とか接続などと毎日のように遊んで来たので取り掛かりやすいなあと考えたからです。


Information Geometryとは、、、、、、と始めたらキリがないのでGoogle先生に聞いて下さい。

簡単に言えば、

微分幾何学の視点から密度推定を理解して応用しましょう

と言う枠組みで、機械学習から神経科学まで幅広く応用されつつあります(絶賛進行形)。

ただ、情報幾何学そのものは昔からあるものですが、まだその数学的な厳密さから(?)応用する立場の人々には浸透してはいないようです。



前置きが長くなりましたが、

・どうして密度推定に””微分幾何学””が出てくるのか

・Information Geometryの枠組みの美しさ(DivergenceとMutually Dual Connections)

この2点を解説したいと思います。恐らく微分幾何学にある程度馴染みがないと理解出来ないです。すいません。

どうして密度推定に””微分幾何学””が出てくるのか

まずはじめに{ \displaystyle(\chi,\mathcal{B},dx)}を測度空間とします。
ここで{ \displaystyle\chi}は標本空間、{ \displaystyle \mathcal{B}}は事象、{ \displaystyle dx}は一般の測度です。
{ \displaystyle\Theta \subset \mathbb{R}^n}によりパラメータ付けられたこの測度空間上の確率分布の族

{ \displaystyle
S = \{ p_\xi=p(x;\xi) | \xi = (\xi_1,...,\xi_n) \in \Theta
\}
 }
これを統計モデル、とかパラメータモデル、統計多様体とか呼びます。これが所謂密度推定するときの数学的な定式化です。
微分幾何学的な視点からは、Sは{ \displaystyle\mathbb{R}^n}の部分多様体(一般には境界があったり特異点が出てきたりする)とみなすことが出来るので

これに対して合理的な””計量””や””曲率””を入れて、微分幾何学的に密度推定を考えることができないか、

また、理論的に裏付けを与える事が出来るのではないかと考えたのが始まりだと思います。

Example 1.(正規分布のなす多様体)

{ \displaystyle \chi=\mathbb{R}, n=2, \Theta = \{(\mu,\sigma) | -\infty<\mu < \infty, \ 0<\sigma<\infty \} }
{ \displaystyle p(x;\xi)= \dfrac{1}{\sqrt{2\pi} \sigma} \exp\left( -\dfrac{(x-\mu)^2}{2\sigma^2} \right)  }

これは(平均,標準偏差)を座標だと考えた正規分布のなす多様体です。

このほかにもいわゆるよく使われる分布は多様体だと考えることが出来、その中でも情報幾何学的にも良い性質を持つ(指数型分布族)事が多いです。


さて、密度推定が多様体の枠組みで議論できる事がわかった所で、先ほど述べた”合理的な計量”、”合理的共変微分(接続)"はどのようなものでしょうか?

Definition.2(Fisher情報計量)
{ \displaystyle\Theta \subset \mathbb{R}^n}によりパラメータ付けられた統計モデル{ \displaystyle S}を考えます。
Fisher情報計量{ \displaystyle g^F = (g_{ij}^F)}とは次により定められる半正定値行列の族の事である;

{ \displaystyle  g_{ij}^F := \int_\chi \partial_i log( p(x;\xi))\partial_j log( p(x;\xi))p(x;\xi)dx }.

これは情報理論で良く知られたFisher情報計量の事です。これは一般には正定値でないので、その条件を課すことで、
{ \displaystyle S}上のリーマン計量と考えることができます。微分幾何学っぽくなってきました。

次に計量が与えられたならば、計量に対してなんらかの意味がある共変微分(または接続と呼ぶ)を考えたくなりますが、

それに対応するのが次のモノです:
Definition.3 ({ \displaystyle \alpha}-connection)
任意の{ \displaystyle \alpha \in \mathbb{R}}に対して次で与えられる接続係数により定まる、
偏微分{ \displaystyle \nabla^{(\alpha)}}{ \displaystyle \alpha}-接続と呼ぶ;

{ \displaystyle \Gamma^{\alpha}_{ij,k} = E_{x \sim p_\xi} \left[ \left( \partial_i \partial_j (log( p(x;\xi)) + \dfrac{1-\alpha}{2}\partial_i (log( p(x;\xi)) \partial_j (log( p(x;\xi)) \right) \partial_k (log( p(x;\xi)) \right]  }
.

なんだこの複雑な定義は、と思うかもしれませんがあとで述べるように自然な導出があります。
特に、少し考えればすぐわかりますが、{ \displaystyle \nabla^{(0)}}{ \displaystyle g^F}に対応するリーマン接続に対応しています。

次のLemmaは密度推定の際にDivergenceを考える根拠を与える足がかりとなります

Lemma.4
任意の{ \displaystyle \alpha}-接続{ \displaystyle \nabla^{(\alpha)}}{ \displaystyle S}上のベクトル場{ \displaystyle X,Y,Z }に対して次の関係式が成立する;

{ \displaystyle Xg^F(Y,Z) = g^F(\nabla_X^{(\alpha)}Y,Z) + g^F(Y,\nabla_X^{(-\alpha)}Z)}
.

この関係式は{ \displaystyle \nabla^{(\alpha)}}{ \displaystyle \nabla^{(-\alpha)}}がFisher情報計量に対して、

互いに双対な共偏微分であることを表しています(定義は後ほど)。

ここまで来た所で、

1.どうしてこの関係式からDivergenceを考えることに繋がるのか
2.良く知られたKullback–Leibler divergenceとFisher情報計量の密接な関係


を説明しようと思いますが、疲れたので次回にします。 

参考文献

Methods of Information Geometry (Tanslations of Mathematical Monographs)

Methods of Information Geometry (Tanslations of Mathematical Monographs)