Obey Your MATHEMATICS.

機械学習関連の純粋数学や実験など

ベイズ統計の数理について−WAICとその数学−

お久しぶりの投稿です。

最近修論やらなにやらで機械学習も統計もあまりモチベーションがなかったんですが、復活してきたので書きます。書きます。


今回の記事は、Sumio Watanabe大先生が確立した

特異モデルまでをも包括した*1 歴史上唯一ベイズ統計の理論と、そこから導出されるWAICやその裏側にある数学についてのメモを残したいと思います。

これからWatanabe先生の理論を勉強しようと思ってる人や、その概略だけでも知りたい人向けの記事です、が、あくまでメモです(disclaimer)。

この理論は多様体やら代数幾何やら特異点解消やら、なんだか難しい数学の概念がたくさん出てくると言うタレコミがあるため避けている人が大多数だと思いますが、それらの代数幾何学を理解する事は決してPractitionerが理解したいと思う範囲で本質的ではなく、結局は測度論(ルベーグ積分論)・関数解析・確率解析を理解しているかどうかなのでは、と数学専攻で複素幾何学微分幾何学が専門な大学院生が勉強した中での率直な印象です。

WAICやWBICの導出まで勉強したいと言うモチベーションがある人であれば、測度論や関数解析ぐらいは勉強してないと困る状況にあると思いますので、この理論を勉強するのを良い機会だと考えてそれらの勉強も並行して行うことをおすすめします。

と言うか、少なくとも多様体代数幾何の知識がなくてもそれらの知識がしっかりしてれば、ある程度納得するまで理論の理解が出来ると考えています。

裏を返せば、分かった気になるには測度論・関数解析は必須、と言うのが僕が勉強した肌感です。

この記事では具体的に

・理論の概要と構造
・何故特異モデルまでをも包括した理論が必要なのか*2
・何故代数幾何特異点解消と言った概念が必要なのか
・とは言うものの代数幾何多様体論はそんなに知らなくても良いと言う話
・WAICの導出に至るまで

と言った内容について書いていきます。

ちなみにですが以下の記事

statmodeling.hatenablog.com

が非常に良くまとまっていて参考になると思います。
和書の方の参考文献にあるWatanabe先生の重要なコメントについても書いてあるので一読をおすすめします。

§1. ベイズ統計の理論の枠組み

ある真の確率分布{ q }から生成されるn個のサンプル{ X^n :=(X_1 \dots  X_n)  } (確率変数と考えましょう)と逆温度と呼ばれる定数{ 0<\beta < \infty}を考えます。そして{ w \in W \subset \mathbb{R}^d  }によりパラメータ付けされた確率モデル{ p(X|w) }を持ってきます。{ W }はコンパクトであるとします(実用上問題ない仮定、だと思います。)

これに対して事後分布

{ p(w | X^n )= \dfrac{1}{Z_n(\beta)}\phi(w) \prod_{i=1}^n p(X_i |w)^\beta   }

と定めます。ここで

{ Z_n(\beta) = \int_W \phi(w) \prod_{i=1}^n p(X_i |w)^\beta dw }

分配関数と呼び、また{ \phi(w) }事前分布です。この事後分布を用いて、予測分布

{ p^*(x|X^n) = \int_w p(x|w)p(w | X^n ) dw}

と定義します。{X^n}が確率変数であることを意識して{ p^*(x|X^n)}と書きましたが、以下では{ p^*(x)}と略記します。

ここで以下に重要な注意を引用しておきます*3

..一般の{ \beta   }を用いて事後分布を定義する。ベイズ統計学においては、{ \beta =1 }の場合が特別に重要であり、通常の本や論文で「事後分布」あるいは「ベイズ推測」と言う言葉が用いられる場合は{ \beta   =1}の場合だけを意味していることが多い。.....しかしながら一般の{ \beta  \neq 1 }の場合に生じる現象もベイズ統計の理論と方法を考える上で大切であるので...

さて、統計的推論をする上で知りたいのは、

サンプルを無数に取っていった時に予測分布がどのくらいの精度を出せるのか

であり、それはつまり

{ n \rightarrow \infty }の時、{  p^*(x) }精度の{  n }に関するオーダーはどの程度なのか。その漸近挙動を調べたい。

と言う事になります。そのための数学的な基盤、そしてそれを有限個のデータからどの程度定量的に評価できるのか、その理論を組み立てる事が目標となります。

§2. 精度評価のために考察される量とWAIC/WBIC

予測分布{  p^*(x) }の精度を評価するための種々の量を導入しましょう。

まず汎化損失

{ G_n :=- \int q(x) \log p^*(x) dx = - \mathbb{E}_{X \sim q(x)}  \left[ \log( \mathbb{E}_{w \sim p(w|X_n)} [p(X|w)]  )  \right]  }

と定義します。簡単な計算によって

{ G_n = S + K(q ,p^*)  }

と言う関係があることが分かります。ここで{ S }は真の分布{q }エントロピー{  K(q ,p^*)  }{ q  }{ p^*  }のKL-divergenceです。従って、{ G_n }が小さいほど、これら2つの確率分布は近い、即ち予測の精度が高い事を意味します。

しかし現実の問題において真の分布は不明なことがほとんどなため、{ G_n }を直接計算することは不可能です。よってなんらかの計算可能な量で近似する必要があります。その量として次の経験損失

{ T_n =-\frac{1}{n}\sum_{i=1}^n  \log p^*(X_i) }

を定義します。{ G_n   }{ T_n   }によってうまく計算できればそんな嬉しいことはありませんが、そのためにこの理論とWAICがあるわけです。


一方、{ G_n   }とは違った尺度から精度をはかる量、自由エネルギーを定義次のように定義します

{ F_n(\beta) =-\frac{1}{\beta}  \log Z_n(\beta) }

{ \beta=1  }の時、両辺{ \mathbb{E}_{X \sim q}  }について期待値をとって整理すると

{ \mathbb{E}_{X \sim q} [F_n(1) ] = nS + K\left(q(X^n), p^*(X^n) \right) }

となり、自由エネルギーが小さいほど、汎化損失関数の時と同様に、真の分布に近いほど分かります。

しかし{ \mathbb{E}_{X \sim q} [F_n(1) ] }はもちろん真の分布がわからないときは計算できないので、{ F_n(1) }を用いて近似するわけですがその精度はどうなのか、それについての理論も組み立てる必要があり、そこでWBICが出て来るわけです。

以上が予測モデル{ p^*(x) }を評価するための量です。



次に、それらと関連する各{ w \in W }に対する確率モデル{ p(x|w) }の精度評価の量を導入しましょう。

{ w \in W }に関する関数、平均対数損失関数

{ L(w) =-\int q(x) \log p(x|w)dx = - \mathbb{E}_{X \sim q} [\log p(X|w)] }

で定義します。これも同様に真の分布のエントロピーとKL-divergenceの和で書けるため、この量が小さいほど{ w }が定める確率モデルの精度が高いことが分かります。

これに対応する”計算可能な量”として経験対数損失関数

{ L_n(w) =-\dfrac{1}{n} \sum_{i=1}^n \log p(X_i|w)  }

と定義します。

さて、{ W_0 \subset W }{ L(w) }が最小値を取るような集合とします。定義から空集合ではありません。そのようなパラメータの集合が考えている統計モデルの中では””最適な分布””であるため、その周りでの学習の挙動を調べることが精度評価のために非常に重要になります。しかし数学的には{ W_0 \subset W }と言う漠然とした集合では扱いづらいので、なんらかの関数のゼロ点で表現出来ることを以下で見ます。

まず{ w_0 \in W_0 }が定める確率モデルは実質的には一意であると仮定して*4 { w_0 \in W }を1つ固定しておきます。
そこで対数尤度比関数

{ f(x,w)  =  \log \dfrac{p(x|w_0)}{p(x|w)}  }

と定めればwell-definedとなります。

今までたくさんの量を定義して混乱してるかと思いますが、最後に平均誤差関数

{ K(w)  = \mathbb{E}_{X \sim q} [f(x,w)]  }

と定め、経験誤差関数

{ K_n(w)  =\frac{1}{n} \sum_{i=1}^n  f(X_i,w)  }

として定めれば

{ L(w) = L(w_0) + K(w) ,  \ \ \ \ L_n(w)  = L_n(w_0) + K_n(w) }

{ K(w)=0 \Longleftrightarrow w \in W_0}

と言う関係式が成り立つことが分かり、したがって{ K(w)  = 0  }が成り立つパラメータ領域の周りでの学習の挙動を調べることが重要であることが分かります。

§3. ベイズ統計理論の構造

準備が整ったので、ベイズの統計理論の構造とその戦略についてまとめたいと思います。まず理論を構築するための土台となる仮定を最初に述べておきます。


仮定1. 対数尤度比関数は相対的に有限な分散を持つ。つまり

{ \sup_{w \notin W_0} \left(  \dfrac{\mathbb{E}_{X \sim q} \left[ f(X,w)^2 \right] }{\mathbb{E}_{X \sim q} \left[ f(X,w) \right] }  \right) < \infty }
が成立する。□

仮定2. 平均誤差関数{ K(w) }{ w  \in W}について実解析的な関数である。 □


仮定1.の妥当性については次の渡辺先生のコメントを引用しておきます*5

....もしも、対数尤度比関数が想定的に有限な分散を持たないとすると、{ K_n}の分散が{ K_n}の平均でバウンドできなくなり、サンプルの現れ方に依存して事後分布の形状の変化が極端に大きくなり、自由エネルギーや汎化誤差のnに対する挙動が大きく変化してしまうからである。通常の統計的推測においてこのようなケースは起こりにくいと思われるが、事後分布がサンプルに応じて大きく変動する場合には、対数尤度比関数が相対的に有限な分散をもつかどうかを考察する必要が生じるかもしれない。

仮定2.の妥当性についてはコメントが見つかりませんでしたが、僕の肌感ではよほど変な統計モデルを使わなければ大体のケースでこの仮定は満たされるように思われます。よほど変な、と言うのは例えばDNNであればReLU関数とか使っちゃうと非常にまずい気がします。

これらの必要性について、仮定1.は非常に技術的なのでここでは説明しません。証明を読めば分かると思います。
しかし、仮定2.は代数幾何学が絡んでくる根源であり、それは次の§で説明します。



さて、仮定を整えたのでどのように学習の漸近挙動を解析していくのかの大まかな指針を述べたいと思います。

(1)分配関数{ Z_n(\beta)},経験誤差関数{ K_n}{ n \rightarrow \infty }の漸近挙動を調べる。これにより自由エネルギー{ F_n}の挙動が分かる。

(2)スケーリング関係と呼ばれる関係式やキュムラント母関数と呼ばれる関数について調べ、経験損失{ T_n}や汎化損失{ G_n}を計算するための普遍的な関係式を導出。

(3)1と2の結果を合わせて経験損失と汎化損失の漸近挙動を導出。(⇒WAICの導出へ)

と言った感じになります。

この中で随所に使われるのが確率過程やその極限を取る操作であったり、様々な確率密度(測度)で積分する操作であったりするわけで、そんなわけで測度論や関数解析の知識が必須だと考えているわけです。

§4. 何故代数幾何が必要なのか/古典論の過ち

理論の構造までわかった所で、何故代数幾何が必要になってくるのかと言う点について述べたいと思います。

本質的には分配関数{ Z_n(\beta)}の解析をする段階で必要になってきます。
Watanabe氏のロジックにおいて、{ Z_n(\beta)}積分を次のように分けて解析します

{ \displaystyle Z_n(\beta) = \int_{K(w)<1/n^{1/4}} + \int_{K(w) \geq 1/n^{1/4}}   \phi(w) \prod_{i=1}^n p(X_i |w)^\beta dw  }

前半の積分を主要項{ Z_n^1(\beta) }、後半の積分を非主要項{ Z_n^2(\beta) }と呼ばれています。

{ Z_n^2(\beta)}については{ o_p(exp(-\sqrt{n})) }のオーダーで確率的に0に収束するので無視して問題ないでしょう。*6

問題なのは主要項{ Z_n^1(\beta) }の解析です。


従来の古典論では

{ K(w)=0 }となる集合は一点である

と言う仮定が設定されていたために{ Z_n^1(\beta) }積分領域の極限は1点となり非常に解析がしやすい状態になっていました。

が、しかし、このような仮定はあまり現実的ではなく、今現在使われている多くの統計モデルはこの仮定を満たさないことが分かっています。*7

そのため古典論の仮定を落とさなければならないのですが、そうすると大域的に広がりを持った(一点とは限らない)領域{ K(w)=0 }上での積分を考えなければならない事になります。


ここが代数幾何学が関わってくるポイント、そして仮定2.が必要となるポイントです。


一般の関数{ K(w)}に対して、領域{ K(w)=0 }とその周りでの{ K(w) }{ K_n(w)}の様子を調べる(これは{ Z_n }の様子を調べるのに必要)のは容易ではありません、と言うか不可能です。そのため、なんらかの数学的に良い性質を{ K(w)=0 }課して、数学的に扱いやすくする必要があります。


そこで出てくるのが仮定2.であり、そしてその仮定を用いて領域{ K(w)=0 }特異点解消*8をすることで{ K_n}を扱いやすい標準形*9と言われる形に書き直すことが出来る事を数学的に保証出来る訳です。

§5. 代数幾何多様体論はそんなに知らなくても良いと言う話

代数幾何が使われるのは前§で述べた

{ K(w)=0 }特異点解消をすることで{ K_n}を扱いやすい標準形と言われる形に書き直すため

のみが理由です。それを現実の解析の問題に落とすために困難なのは

特異点解消した空間上の局所的な{ K_n}の標準形を
どのようにして特異点解消する前の大域的な積分の量{ Z_n(\beta)}と結びつけるのか

と言う点です。*10


ここで特異点解消した多様体上での積分を考えなければならず、そこで必要になるのが一の分割*11と呼ばれる多様体上の積分を定義する上で重要な概念であり、その肝は

多様体上の積分とは、局所的なユークリッド空間上の積分を矛盾なく貼り合わせたものである

と言うものです。

結局、Watanabe氏の理論を理解するために必要な代数幾何多様体の概念はこれだけなんです。全部ユークリッド空間上でごにょごにょ確率解析しているんだ、と考えたらなにか気が楽になってきませんか????????(煽り)


何度も言いますが、重要なのはルベーグ積分論であり、測度論であり、関数解析であり、確率解析です。

§6. WAICの導出

最後の§としてWAICの導出(と言うか定義)をまとめたいと思います、が、雑です。すみません。


WAICを導出するためには、次のベイズ統計学状態方程式*12を導出する必要があります。

{ \mathbb{E}_{X \sim q}[G_n ] = \mathbb{E}_{X \sim q} \left[ T_n + \dfrac{\beta V_n}{n} \right] +o\left( \frac{1}{n} \right)  }.

ここで{ V_n}汎関数分散と呼ばれ

{ V_n = \sum_{i=1}^n \left\{ \mathbb{E}_{w \sim p(w|X^n)} \left[ (\log p(X_i|w) )^2 \right] -  \mathbb{E}_{w \sim p(w|X^n)} \left[ \log p(X_i|w)  \right]^2 \right\} }.

で定義されます。この方程式を得るために、§3. で述べた指針に従って計算しまくるって訳です。

一度状態方程式が得られてしまえばWidely Applicable Information Criteria(WAIC)と呼ばれる確率変数{ W_n }

{ W_n := T_n + \dfrac{\beta V_n}{n} }.

として定めることで、この値を実際に計算すれば(確率的にもちろん揺らぐものではあるが)その確率モデルの汎化損失を評価出来る事になります。スゴイ!!


ちなみに状態方程式を導出するための次の2つの方程式

{ \mathbb{E}_{X \sim q}[G_n ] = L(w_0) + \dfrac{1}{n}\left(  \dfrac{\lambda - \nu}{\beta} + \nu \right) + o\left( \dfrac{1}{n} \right)  }.

{  \mathbb{E}_{X \sim q}[T_n ] = L(w_0) + \dfrac{1}{n}\left(  \dfrac{\lambda - \nu}{\beta} - \nu \right)+ o\left( \dfrac{1}{n} \right)  }.

ここに出てくる{ \lambda, \nu  }は双有理不変量と呼ばれ、数学的に物凄く重要な性質を持つ量として知られています*13。それが統計学に現れるなんて、なにかこう、数学の凄さというか、普遍的な真理みたいなものを感じます。ヤバイ




今回の記事は以上です。さらに興味がある人は参考文献を当たってもらえたらと思います。

和書の方は全ベイジアン必見です。高度な数学を極力避けて証明の概要を与えていますし、多くの有益なWatanabe先生のコメントが見つかります。

洋書の方は和書の完全版みたいな感じです。必要な数学が全て載っています。

また時間があればこの理論で使われている数学についてまとめた記事を書こうと思ってますが、特異点解消についてはhttps://arxiv.org/pdf/math/0508332.pdfや洋書の参考文献を見てもらえたらと思うので、確率解析や超関数論についての解説記事を書きたいなあ。

最後にWatanabe先生のありがたいお言葉*14を引用して〆たいと思います。

WAICは難しいものではありません。 『代数幾何学を理解できなければWAICを使うことはできない』ということはありません。 ただ、次のことを多くのかたに知って頂きたいと思います。 代数幾何・代数解析・多変数函数論・特異点論・超関数論・確率過程などの数学の基盤がなければ、 WAICを導出することはできませんでした。 数学はとても大切な学問であり、美しく限りない天空の世界を描き出すことができるだけでなく、 きびしくてつらい現実の大地を生きていくためにも「確かに拠って立てる基盤」として必要です。

それでは。

§ 参考文献

ベイズ統計の理論と方法

ベイズ統計の理論と方法

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

*1:これが最も重要な点です。如何にいままで現場で用いられてきた統計学の基盤が脆いものであったか思い知らされます。

*2:特異モデルとはフィッシャー情報計量が特異になるようなモデルや最適な確率分布が一意に定まらないようなモデルの事です。§4やhttp://mathetake.hatenablog.com/entry/2016/10/24/004720この記事も参考にしてください。

*3:和書のp4参照

*4:この仮定は、§3の仮定1.により満たされます。そのため問題ありません。

*5:和書のp36参照

*6:和書のp.61 補題12参照。

*7: http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/waic2011.html

*8:一般の複素数体上の解析的集合の特異点解消定理を使います。証明は https://arxiv.org/pdf/math/0508332.pdfとかにあります。Ideal Sheafと呼ばれる層の特異点解消をします。

*9:和書p.99 定理7参照

*10:繰り込まれた事後分布と言う特異点解消した空間上での確率分布を考えることになります。和書p.113参照。

*11:和書p96. 定義15参照

*12:和書p.118参照

*13: (blow-upによる)特異点解消の取り方に依らな不変量の事です。

*14:http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/waic2011cont.html