読者です 読者をやめる 読者になる 読者になる

Obey Your MATHEMATICS.

機械学習関連の純粋数学や実験など

Information Geometry 〜その2〜

前回の記事で

mathetake.hatenablog.com


どうして密度推定で””微分幾何学””を考えるのか

を解説しました。そこで、統計多様体上ではフィッシャー情報計量が自然にリーマン計量とみなすことが出来ることを述べました。

一方で、α-接続{ \displaystyle \nabla^{(\alpha)} }と言う共変微分{ \displaystyle S }上に定義され、

{ \displaystyle \nabla^{(\alpha)} }{ \displaystyle \nabla^{(-\alpha)} }がフィッシャー情報計量{ \displaystyle g^F}に対して特別な関係式(Lemma.4参照)を満たすことが分かりました。

その関係式は以下で述べる、

Divergenceと呼ばれる{ \displaystyle S \times S }上の関数の特別なモノ

・3つの組({ \displaystyle g^F },{ \displaystyle \nabla^{(\alpha)}},{ \displaystyle \nabla^{(-\alpha)}})

とが密接に関係している事を示しています。

その説明に入る前に、まず一般の多様体の上での話をします;

§1. Mutually Dual Connections on Riemann manifold

{ \displaystyle(S,g) }をリーマン多様体とします。
Definition.5 (Mutually Dual Connection)
2つの接続{ \displaystyle \nabla,\nabla^*}がリーマン計量{ \displaystyle g}に対して互いに双対であるとは次の関係式を満たすことである;

{ \displaystyle Xg(Y,Z) = g(\nabla_X Y,Z) + g(Y,\nabla_X^* Z)}.

この時、3つ組{ \displaystyle (g,\nabla,\nabla^*)}をMutually Dualistic Structureと呼びます。

性質としては、

{ \displaystyle \nabla }の曲率=0 ⇔ { \displaystyle \nabla^* }の曲率=0

などがあります。

さらに{ \displaystyle \nabla ,\nabla^* }がどちらもTorsion Freeである時、Torsion-Free Mutually Dualistic Structureと呼びます。以下ではこれをTFMDSと略すことにします。

Sが統計多様体であるとき、
微分の可換性から{ \displaystyle \nabla^{(\alpha)},\nabla^{(-\alpha)} }は明らかにTorsion-Freeでああり
Lemma.4を考えれば、{ \displaystyle (g^F,\nabla^{(\alpha)},\nabla^{(-\alpha)}) }はTFMDSである事が分かります。

§2. Divergence on manifold

この節では{ \displaystyle S}を一般の(滑らかな)多様体とします。
Definition.6 (Divergence)
関数 { \displaystyle D : S \times S \rightarrow \mathbb{R} }Divergenceであるとは次の3つの条件をみたす時;

(1){ \displaystyle D(p,q) \geq 0}
(2){ \displaystyle D(p,q)=0 \leftrightarrow p=q}
(3){ \displaystyle (g_{ij})_q:= (\partial_i)_p (\partial_j)_p D(p,q)|_{p=q} がリーマン計量(g_{ij})を定める。}

(3)の式の意味ですが、各固定された{ \displaystyle q}に対して、{ \displaystyle D(p,q) }{ \displaystyle p}に関して{ \displaystyle (\partial_i)(\partial_j)}微分して、{ \displaystyle p=q}で代入する操作になります。

Theorem.7 (Divergenceに誘導されるTFMDS)

任意のDivergence{ \displaystyle D}に対してTFMDS{ \displaystyle (g^{(D)},\nabla^{(D)},\nabla^{D^*})}一意的に存在する。さらにそれらの接続{ \displaystyle \nabla^{(D)},\nabla^{(D^*)} }はTorsion Freeである。すなわち

{ \displaystyle \exists \phi:(Divergence全体) \rightarrow (TFMDS全体), \ D \mapsto (g^{(D)},\nabla^{(D)},\nabla^{(D^*)}):surjective }.

証明の流れは、局所的に{ \displaystyle D}をテーラー展開して、2次の項の係数として{ \displaystyle g^{(D)}}が定まり、3次の項の係数を使って{ \displaystyle \nabla^{(D)}}が定まり、また一方で{ \displaystyle D^*(p,q):=D(q,p)}もDivergenceになるので、これに対して同様に{ \displaystyle (g^{(D^*)},\nabla^{(D^*)}) }を定めると{ \displaystyle g^{(D)} =g^{(D^*)}}を満たすので、well-definedであることが分かります。

この証明を考えることで分かりますが、4次以降の項を無視しているので明らかに単射ではない事がわかります。
つまり、任意のTFMDS{ \displaystyle (g,\nabla,\nabla^*)}に対応するDivergenceは唯一には決まらないと言う事です。実際には無限次元の自由度があります。
よって自然に浮かんで来る疑問としては

与えられたTFMDS{ \displaystyle (g,\nabla,\nabla^*)}に対応する、最も自然なDivergenceはなんだろう?

と言うものですが、一般にこれに対する回答はありません(恐らく未解決問題)が、
ある条件下では最も自然なDivergenceが唯一存在することが知られていますが、それは後日解説します。

§3. { \displaystyle (g^F,\nabla^{(\alpha)},\nabla^{(-\alpha)}) }に対応するDivergence

今まで一般の多様体上の話をしてきましたが、ここでは{ \displaystyle S }を統計多様体として、
TFMDS{ \displaystyle (g^F,\nabla^{(\alpha)},\nabla^{(-\alpha)}) }に対応するDivergenceを見てみましょう。
まず始めに各{ \displaystyle \alpha \in \mathbb{R} }に対して次で与えられる狭義凸関数{ \displaystyle f^{(\alpha)}}を考えます;

{ \displaystyle f^{(\alpha)}(u):=
  \begin{cases}
    \frac{4}{1-\alpha^2}(1-u^{(1+\alpha)/2}) \ \ \  (\alpha \neq \pm 1)\\
    u\log u \ \ \  (\alpha = 1) \\
    -\log u  \ \ \  (\alpha = -1)
  \end{cases}
  }.

そして天下り的ですが、Divergence { \displaystyle D^{(\alpha)} }

{ \displaystyle D^{(\alpha)}(p,q):= \int_\chi p(x)f(\dfrac{q(x)}{p(x)})dx }

により定めます。{ \displaystyle D^{(\alpha)} }{ \displaystyle \alpha }-Divergenceと呼んだりします。

注意深く観察すると { \displaystyle D^{(\alpha)} }{ \displaystyle (g^F,\nabla^{(\alpha)},\nabla^{(-\alpha)}) }に対応するDivergenceであることがわかります!

特に{ \displaystyle \alpha := \pm 1 }に対しては

{ \displaystyle D^{(-1)}(p,q) = D^{(1)}(q,p)= \int_\chi p(x) \log \left( \dfrac{q(x)}{p(x)} \right) dx }.

で与えられ、良く知られたK-L Divergenceの定義そのものであることが分かります!凄い!


つまり、、

2つの確率分布の””距離””を図るK-L Divergenceによって誘導されるリーマン計量が

Fisher情報計量

であり、K-L Divergenceは一般に非対称なのでその非対称性を測るものが

{ \displaystyle (\nabla^{(1)},\nabla^{(-1)})}

であることが分かりました!!美しい!!


こんな感じで確率分布の””近さ””とか””距離の概念””を、””リーマン計量と接続””によって分析することが可能になる、

それがInformation Geometryの強さと言うか、旨味であると考えています。


次回は、2節の最後に述べた、与えられたTFMDS{ \displaystyle (g,\nabla,\nabla^*)}に対応する、最も自然なDivergenceについての疑問を掘り下げたいなあって思ってます。

それでは。

参考文献

Methods of Information Geometry (Tanslations of Mathematical Monographs)

Methods of Information Geometry (Tanslations of Mathematical Monographs)