読者です 読者をやめる 読者になる 読者になる

Obey Your MATHEMATICS.

機械学習関連の純粋数学や実験など

Information Geometry 〜その3〜

前回は、

mathetake.hatenablog.com


・Divergenceと呼ばれる特別な性質を持つ関数

・Torsion-Free Mutually Dualistic Structure(TFMDS)

との密接な関係を説明しました。

それは各Divergence { \displaystyle D }に対して、TFMDS { \displaystyle (g^{(D)},\nabla^{(D)},\nabla^{(D^*)})}が一意に誘導されると言うものでした。


さて、そこで浮かんでくる疑問として、

「与えられたTFMDS{ \displaystyle (g,\nabla,\nabla^*)}に対応する、最も自然なDivergenceはなんだろう?」


と言うものですが、これに対する”部分解”を今日は紹介したいと思います。

つまり、TFMDSの中でもある特別なクラスに対して

最も自然な(数学の人はこういう時、”Canonicalな”とか表現しますが、)Divergenceが唯一存在する事と、その極めて重要な幾何学的性質を説明したいと思います。

その後、そのクラスに含まれる指数型分布族と呼ばれる統計多様体に対して、
そのDivergenceがなにに対応するのか述べます。

§1. Dually Flat Spaces

Definition 8. (Dually Flat Structure)
{ 
\displaystyle S
}を滑らかな多様体とします。{ 
\displaystyle S
}上のTFMDS{ \displaystyle (g,\nabla,\nabla^*)}Dually Flat Structureであるとは

{ \displaystyle \nabla}の曲率=0
である事。これは
{ \displaystyle \nabla^*}の曲率=0
と同値であることは、前回の記事の1節で述べました。

また、この時4つ組{ \displaystyle (S,g,\nabla,\nabla^*)}Dually Flat Spaceと呼びます。


以下、Dually Flat Space{ \displaystyle (S,g,\nabla,\nabla^*)}を1つ固定します。
2つの接続はFlatであるので、局所的にAffine座標系を取ることが出来るわけですが、
その幾何学的構造に関して非常に重要な結果が次の2つの定理です;
Theorem 9. (The Existence of dual coordinate system)
{ [ \theta_i ]  }{ \nabla  }に関するAffine局所座標系とします。
この時{ \nabla^* }に関するAffine座標系{ [ \eta_i ]  }で、次の条件を満たすものが存在する;

{ g\left(\dfrac{\partial}{\partial\theta_i},\dfrac{\partial}{\partial\eta_j} \right) = \delta_{ij}  }.
この時、座標系{ [ \eta_i ]  }{ [ \theta_i ]  }双対座標系と呼びます。

Theorem 10. (Legendre Transformation)
{ [ \eta_i ]  }{ [ \theta_i ]  }をTheorem9.により与えられるものとします。
この時、次の性質を持つ、座標近傍上の2つの関数{ \phi, \psi  }が存在する;

{ \dfrac{\partial}{\partial \theta_i} \psi = \eta_i , \ \  \dfrac{\partial^2}{\partial \theta_i \partial \theta_j} \psi = g_{ij} , }
{ \dfrac{\partial}{\partial \eta_i} \phi = \theta_i, \ \ \dfrac{\partial^2}{\partial \eta_i \partial \eta_j} \phi = g^{ij} }.

この時、これらの微分方程式から座標変換{ [ \eta_i ] \leftrightarrow  [ \theta_i ]  }{ \phi, \psi  }により一意的に定まりますが、
{ \phi, \psi  }をポテンシャル関数と呼び、この座標変換を、

ポテンシャル関数{ \phi, \psi  }を使ったLegendre変換

と呼びます。


ここで述べたLegendre変換は、解析力学でお馴染みのそれを一般化したものです。
ポテンシャル関数がハミルトニアンラグランジアンに対応します。

§2. Canonical Divergence on Dually Flat Spaces

Dually Flat Space{ \displaystyle (S,g,\nabla,\nabla^*)}を1つ固定します。
Definition. 11 (Canonical Divergence)
Dually Flat Structure{ \displaystyle g,\nabla,\nabla^*)}に対して局所的にTheorem 9,10で与えられる座標系{ [ \theta_i ],  [ \eta_i ]}とポテンシャル関数 {\phi, \psi  }を用いて次の式で与えられるDivergence { \displaystyle D}{ \displaystyle g,\nabla,\nabla^*)}に対するCanonical Divergenceと呼ぶ;

{ D(p,q):=\psi(p) + \phi(q) - \theta_i(p) \eta_i(q) }.

これは座標の取り方(⇔ポテンシャル関数の自由度)に依らず、一意的に決まることが知られています。

Canonical Divergence { \displaystyle D}に対して、応用上、特に統計的推論において重要な幾何学的性質は次の2つの定理で与えられます;

Theorem 11. (ピタゴラスの定理 in Dually Flat Space)
{ p,q,r }{S}上の任意の点とします。{ \gamma_1 ,\gamma_2 }をそれぞれ{ q }から{ p }への{ \nabla }-測地線、{ q }から{ r }への{ \nabla^* }-測地線とし、点{ q }で直交するとします。この時{ \displaystyle D}に対してピタゴラスの定理:

{ D(p,r)= D(p,q)+ D(q,r) }.

が成立する。

Theorem 12. ({ \nabla }-projection)
{ p \in S }を1つ固定します。{ M }{ \nabla^* }について自己平行(⇔{ \nabla^* }に関する平行移動で不変)な部分多様体とします。この時{M }上の点{ q }に関して、次の条件は同値である;
(1) { D(p,q) = min_{r \in M}D(p,r) }
(2) { p ,q }を結ぶ{ \nabla }-測地線は{ q \in M }{ M}と直行する。

この時{ q \in M }{ p \in S }{ M }への{ \nabla }-projectionと呼ばれます。


逆にTheorem 11.を満たすようなDivergence はCanonical Divergenceであることが知られており、それにより
Canonical DivergenceはDually Flat Structureに対して唯一決まる自然なDivergenceであることが分かります。

§3. Canonical Divergence on Exponential Families

さて、今までは一般の多様体の上の話をしてきましたが、

統計的にある種の普遍性を持つ(これは後述)統計多様体である、指数型分布族の話に移りましょう。

Definition 13. (指数型分布族)
n次元統計多様体{ S }指数型分布族であるとは、
n+2個の関数{ C(x),(F_i(x)),\psi(\theta) }とグローバルな座標系{ [ \theta_i ] }が存在して、

{ p(x;\theta) = \exp \left[ C(x) + \sum_i \theta_i F_i(x) + \psi(\theta) \right] }

と表示できる時の事である。

{ S }を指数型分布族とした時、{ (g^F ,\nabla^{(1)}, \nabla^{(-1)}) }はDually Flat Structureである事が知られており、
双対座標系は { \eta_i(p(x;\theta)) = \int_\chi F_i(x)p(x;\theta)dx  }により定まります。

そのため、2節で紹介したCanonical Divergence { \displaystyle D}が存在します。より具体的には、

{ \displaystyle D(p_{\theta_1}, p_{\theta_2}) = \int_\chi  p_{\theta_2}  log \left( \dfrac{p_{\theta_2}}{p_{\theta_1}} \right)dx }

で与えられ、KL-Divergenceに一致することが分かります(!)

つまりKL-Divergenceは、統計的に指数型分布族と(フィッシャー情報計量,1-接続, (-1)-接続)に対して
最も自然に定まるDivergenceであることで特徴づけられる事が分かりました(!)

§Appendix. 指数型分布族の統計的性質

以上その1〜その3まで3回に渡って、

情報幾何学の枠組みで見るKL-DivergenceとFisher情報計量の関係の美しさ

を紹介することが出来ました。

ここでは最後に出てきた指数型分布族の統計的推論におけるある種の普遍性について軽く紹介したいと思います。


それは、、、

有効推定量
推定量 - Wikipedia

の存在と、

その統計的モデルが上述の指数型分布族の自然な双対座標{ [ \eta_i ] }で表されている事

が同値である事に起因します。


一方で指数型分布族に関して、漸近理論における

・漸近的Cramèr-Rao 不等式
最尤推定の漸近的有効性

などが2節で紹介した定理などを用いて極めて幾何学に証明することが出来ます。
(情報幾何学凄い!)

更には、推定がConsistencyであるための必要十分条件部分多様体の性質として記述することが出来ます


そんなこんなで情報幾何学の枠組みを超えて重要であった指数型分布族ですが、

この枠組においても非常に綺麗で美しい性質を持つことが分かります(!)




3回に渡って送ってきたInformation Gometryシリーズもここで筆を置こうと思います。

また今度、この視点から機械学習を眺めたシリーズ物を書きます。

ありがとうございました。

§参考文献

Methods of Information Geometry (Tanslations of Mathematical Monographs)

Methods of Information Geometry (Tanslations of Mathematical Monographs)