ベイズ統計の数理④watanabe-...復習 自由エネルギーの漸近挙動...
Transcript of ベイズ統計の数理④watanabe-...復習 自由エネルギーの漸近挙動...
復習 ベイズ統計の自由エネルギー
K(q(xn)||p*(xn)) = Fn – nSn = - log ∫ φ(w) Π p(Xi|w) dwn
i=1
自由エネルギー Fn がどんな確率変数かを知りたい。
K(w)≧0
0 ∞
w = g(u)プロパー
K(g(u))= u12k1 u2
2k2 ・・ud2kd
特異点解消定理 (広中の定理,1964)
多様体W⊂Rd
|g(u)’| = b(u)| u1h1 u2
h2 ・・udhd |
6
復習 対数閾値と多重度の定義
特異点解消定理から、ある解析関数 w=g(u) が存在して、各局所座標で、次のようにできる。
K(g(u)) = u2k
|g(u)’|φ(g(u)) = b(u) | uh | (b(u)>0)
λ = min min (hj+1)/(2kj)対数閾値局所座標 j=1,2,…,d
多重度 m = 上記のminを与えるjの個数の最大値
復習 自由エネルギーの漸近挙動
定理.K(w)は解析関数で φ(w) は無限回微分
可能なコンパクトサポートを持つ関数とする。このとき
E[ Fn ] – nS≦ λ log n –(m-1) log log n + 定数
自由エネルギーの揺らぎは?
完備可分な距離空間
関数 f(x,w) は RN×W ( W=[0,1]d ⊂Rd )から実数への写像であり次の条件を満たすと仮定する。
L∞
(W) は W 上の連続有界な関数の作る関数空間。sup ノルムで完備可分な距離空間である。
W と F = { f( , w) ; w∈W} を同一視すると L∞
(W) = L∞
(F) 。
11
経験過程の定義
W 上の確率過程( L∞
(W) = L∞
(F) に値をとる確率変数)
ψn(w) = (1/n1/2)Σ { f(Xi,w) – EX[f(X,w)] }
のことを経験過程という。 この確率変数の確率分布は完備可分な距離空間L
∞(W) = L
∞(F)上の確率測度。
n
i=1
{X1,X2,…,Xn} : RNに値をとる n 個の確率変数で独立にX と同じ確率分布に従うものとする。
経験過程の法則収束
次の仮定をおく。
(1) 任意の w ∈W について E[f(X,w)] が有限
(2) 任意の a,b ∈W について E[f(X,a)f(X,b)] が有限
このとき 各 w∈W 毎に ψn(w) は中心極限定理を満たす。
任意の有限個の(w1,w2,…,wk) 組ごとに中心極限定理を
満たす。
問。 どんな条件下で ψn は L∞
(W) において法則収束す
るか。
13
L∞
(W)で分布収束すると何がうれしいのか
確率変数 Xn が X に分布収束し、 f が連続関数ならf(Xn) は f(X) に分布収束する。
従って、 ψn (w) →ψ(w) がL∞
(W)で分布収束すると分布収束 sup |ψn (w)|→sup |ψ(w)| が成り立つ。また 一般に
| log ∫exp(f(x))dx - log∫exp(g(x)) dx | < sup|f(x)-g(x)|
であるから次の分布収束も成り立つ。
-log ∫exp(ψn (w))dw → -log ∫exp(ψ(w))dw
14
収束先はユニーク
正規確率過程 ψ を次の条件を満たすものとして定義する。
任意の正の整数 n について (ψ(w1),ψ(w2),…,ψ(wn)) は平均0の n 次元正規分布でその分散共分散行列がE[f(X,wi)f(X,wj)]-E[f(X,wi)]E[f(X,wj)]
この条件を満たす正規確率過程はユニークに存在する。(コルモゴロフの拡張定理)。
任意の有限個の(w1,w2,…,wk) 組ごとに ψn → ψ (分布収束)であるが、ψ(w) ∈L
∞(W) だろうか。またこの収束はL
∞(W) で
成り立つか。
15
プロホロフの定理
定理.(プロホロフの定理)完備可分な距離空間のタイトな確率変数列 {ψn} からは分布収束する部分列を取り出すことができる。分布収束する部分列の収束先がひとつψであるなら確率変数列{ψn}はψに分布収束する。
定義.完備可分な距離空間に値をとる確率変数の集合 {ψn} がタイトであるとは、任意のε>0 に対してあるコンパクト集合 K が存在して 任意の n に対して P(ψn ∈K)>1-ε.
16
ドンスカークラス
定義。X の確率分布が P であるとき、関数の集合F={ f( , w) ; w∈W} から作られる経験過程が
タイトであって、したがって中心極限定理を満たすとき F をP-ドンスカークラスであるという。
例. F が [0,1]N上の関数からなる集合であり、x についてΑ階連続微分可能であるとする。Α>N/2 ならば F は任意
の P に対してP-ドンスカー。
(注意)ある関数の集合 F がP-ドンスカーであるための十分条件について
様々なものが調べられている。
17
ドンスカークラスのための十分条件の例
RN 上のL2(P) ノルムを || || と書く。ある a>0 に対して
||f1-f2||≦a を満たす f1,f2 により定まる関数の集合
{ f ; f1≦ f≦f2} を集めてF を覆うことを考える。
最も少ない個数の覆い方のときの個数を N(a) とする。
(ブラケットカバリングナンバーという)。このとき
∫0 ∞
(log N(a) )1/2
da <∞であれば、 F は P-ドンスカー。
(注意)この積分の∞側は実は有限までなので発散の心配をする必要は
なく、心配するのは a→0 での収束である。
18
わかったこと
ψn (w) が P-ドンスカーな関数族から作られる経験過程であるとき
分布収束 sup |ψn (w)|→sup |ψ(w)|
分布収束 -log ∫exp(ψn (w))dw → -log ∫exp(ψ(w))dw
19
平均値の収束
分布収束する確率変数について、平均値の収束
E[ sup |ψn (w)| ] →E[ sup |ψ(w)| ]
が成り立つためには、 Xn=sup |ψn (w)| が一様可積分であること、すなわち任意のε>0 に対してある M が存在してE[|Xn|] |Xn|>M <εがなりたつことが必要十分である。
(注意) 例えばあるδ>0について E[|Xn|1+δ] <∞ であれば
一様可積分である。
20
注意
例えば 関数 f(x,a) として 階段関数Θを用いて
f(a) = (1/n1/2) Σi Θ(Xi-a)
を考えると、この関数は有界連続関数ではない。応用上、このケースの分
布収束は統計学で重要であり、課題であった。分布収束の定義を外測度
を用いたものに拡張することで、その困難は克服された。
Aad W. van der Vaart and Jon A. Wellner: Weak Convergence and
Empirical Processes: With Applications to Statistics, Springer,1996
21
例 計算機で作れる
X1,X2,…,Xn 独立に[0,1]上の一様分布に従う。
Y1,Y2,…,Yn 独立に平均0分散1の正規分布に従う。
0≦a≦1 の具体的な関数を
ψn(a) = (1/n1/2)Σ Yi tanh(100(Xi –a))
と定義する。関数 ψn(a) は a の関数ですが X1,X2,…,Xn と Y1,Y2,…,Yn がでるたびに確率的に変動する確率過程です。
(注)上記の関数 ψn(a) は計算機で簡単に作れます。サイコロが具体的なものだと感じられるのと同じ程度に具体的なものだという感覚が得られるまでなんどでもこの確率過程を振ってみましょう。
n
i=1
復習 周辺尤度を分配関数とも呼ぶ
Z (Xn) = ∫ φ(w) Π p(Xi|w) dwn
i=1目標とする確率変数
Z (Xn) = exp(-nSn) ∫ exp( - n Kn(w) ) φ(w) dw
Sn = - (1/n) Σi log q(Xi)
Kn (w) = (1/n) Σi f(Xi,w)
f(x,w)= log(q(x)/p(x|w))
標記
対数密度比関数
対数尤度比関数
経験エントロピー
この部分が問題。Z0(Xn) と置く。
K(w)≧0
0 ∞
w = g(u)プロパー
K(g(u))= u12k1 u2
2k2 ・・ud2kd
特異点解消定理 (広中の定理,1964)
多様体W⊂Rd
|g(u)’| = b(u)| u1h1 u2
h2 ・・udhd |
27
超関数の収束
δ( t- nu2k ) uhb(u) → tλ-1D(u)
補題. ある 超関数 D(u) が存在して
nλ
(log n)m-1
ここで D(u)の台は g-1(W0)に含まれる。
☆ 上記の式は「左辺も右辺も超関数であり、n→∞のとき、超関数の空間で収束する」ということを意味しています。
n に依存する超関数 → n に依存しない超関数
28
超関数の収束の具体例
[0,1]3 上の超関数について次が成立します。
nλ
(log n)m-1 δ( t- nx4y6z8 ) x1y2z6 → tλ-1 δ(x)δ(y)z2124
ここで λ = min{ (1+1)/4, (2+1)/6, (6+1)/8 } =1/2m = 2
☆ 超関数 δ( t- nx4y6z8 ) x1y2z6 は 集合 {(x,y,z); xyz=0} に含まれるサポートを持つ超関数に収束することがわかりました。収束先の超関数のサポートは {(x,y,z);x=y=0} なので、集合 {(x,y,z); xyz=0} に含まれますが等しくはないことに注意してください。
上記は次のことと同じことを言っています: 任意の関数 ψ(x,y,z) について
nλ
(log n)m-1 ∫ ψ(x,y,z) δ( t- nx4y6z8 ) x1y2z6 dxdydz → tλ-1 ∫ ψ(0,0,z) z2 dz124[0,1]3
29
対数密度比関数 f(x,w) の定義
記号 f(x,w) = log(q(x)/p(x|w)) を用いる。
[定義] ある定数 ε>0 が存在して
(∀w) Ex[ f(X,w) ] ≧ ε Ex[ f(X,w)2 ],
が成り立つとき、 f(X,w) は相対的に有限な分散を持つという。
このとき定義から p(x|w) = q(x) exp(-f(x,w)) である。
W がコンパクトなのでこの条件は K(w)=0 の近傍に
関する条件である。
30
例
モデル p(x,y|a,b)=N(x,a,1) N(x,b,1)真 p(x,y|0,0)
このとき f(x,y,a,b)=(1/2)(a2+b2) – (ax +by) だから
E[f(x,y,a,b)]=(1/2)(a2+b2) E[f(x,y,a,b)2]=(a2+b2) + (1/4)(a2+b2)2
確率変数 g=(Σxi)/n1/2, h=(Σyi)/n1/2を定義すると
nKn(w) = (n/2)(a2+b2) – n1/2(ga +hb)
31
平均関数と揺らぎ関数に分ける
n Kn(w) = nK(w) - Σ { K(w) - f(Xi,w) } n
i=1
平均の関数 揺らぎの関数
事後分布の挙動を調べるために次の二つを考えます。
(1) n →∞ のときの exp( -n K(w) ) の挙動(2) n→∞ ののときの揺らぎ関数の挙動
事後分布は exp(-nKn(w)) という形をしていますが分けます。
相対的に有限な分散を持つ ⇒ 揺らぎが平均でバウンドできる
32
準備3: 揺らぎ関数の分解
仮定「相対的に有限な分散」 より
K(w) = Ex[ f(X,w) ] ≧ ε Ex[ f(X,w)2 ]
K(g(u))=u2k から、 ある a(x,u) が存在して
f(x,g(u)) = a(x,u) uk
☆ 一変数の場合、因数定理 「f(x) が f(a)=0 を満たせば f(x) は (x-a) で割り切れる」がなりたちます。しかし多変数では 「f(x,y) が f(a,b)=0を満たせば f(x,y)は (x-a)(y-b)で割り切れる」は成り立ちません。 一方、K(g(u))=u2k は各変数 u1, u2, …,ud ごとに一変数の因数定理を適用できる形をしているので、上記のような割り算ができます。もとのパラメータ w のままで考えると上記のような変形はできないことに注意してください。
33
= nu2k - n1/2uk n-1/2Σ { uk - a(Xi,u) } nKn(g(u)) = Σ uk a(Xi,u)
≡ 経験過程 ξn(u)
nKn(g(u)) = nu2k - n1/2 uk ξn(u) ②経験対数尤度比の基本形
☆ 関数 nKn(w) を n→∞で零に近づく項 uk と、確率的に収束する項 ξn に分けて表すことができました。このことを用いて学習理論を作ることができます。
経験対数尤度比関数の分解
どんな経験対数尤度比関数も w=g(u) をうまく選ぶことにより
が関数 { a(x,u) ; u ∈g-1(W)} が q-ドンスカーであり
ξn(u) が正規確率過程に分布収束する場合を考える。
経験過程と法則収束
ξn(u)= n-1/2 Σ { uk - a(Xi,u) } n
i=1経験過程
35
exp(-nKn(w)) ϕ(w) dw
= exp( - nu2k + n1/2ukξn(u) ) ϕ(g(u))|g’(u)| du
= ∫ dt δ(t-nu2k) uh b(u) exp( - t + t1/2ξn(u) ) du
→ ∫ dt tλ-1 exp( - t + t1/2ξ(u) ) D(u) du(log n)m-1
nλ
事後分布の漸近挙動
以上で述べてきたことを統合することにより、事後分布の漸近挙動を次のように導出することができます。
☆ 特異点解消定理を用いてパラメータの空間を w から u に移行することにより超関数と経験過程の漸近挙動を、どちらも数学的に扱うことが可能になりました。
☆ パラメータ空間を複数の座標に分割したとき、各座標ごとに上記の漸近挙動が得られます。λが一番小さく、m が一番大きい座標が事後分布の主要項を与えます。
exp(-nKn(w)) ϕ(w) dw
= ∫ dt tλ-1 exp( - t + t1/2ξn (u) ) D(u)du(log n)m-1
nλ
事後分布が定義する測度
事後分布を二つに分けることができた
n →∞で零になる速さ 確率的に揺らいでいる部分
37
自由エネルギーの漸近挙動の導出
Fn = nSn -log exp( - nKn(w) ) ϕ(w) dw
自由エネルギー
exp(-nKn(w)) ϕ(w) dw
= ∫ dt tλ-1 exp( - t + t1/2ξn (u) ) D(u)du(log n)m-1
nλ
に事後分布の漸近挙動
を代入すればよい。∫ は局所座標の和の積分で書けるが、一番大きなオーダーのところだけ残る。次の定理が得られた。
38
定理. f(X,w) が相対的に有限な分散を持つとする。
Fn = n Sn + λ log n –(m-1) loglog n + Op(1).
自由エネルギーの漸近挙動は
自由エネルギーの漸近挙動
40
積分値 ∫ exp( - nKn(w)) φ(w) dw を計算することは
平均値
自由エネルギーの数値計算法
自由エネルギーを数値的に計算したいが
∫ f(w) exp( - nKn(w)) φ(w) dw
∫ exp( - nKn(w)) φ(w) dw
を計算するよりも困難である。平均値はマルコフ連鎖
1回で計算できるが、積分値は計算できない。
41
F(β) = -log ∫ exp( - β nLn(w)) φ(w) dw
自由エネルギーの数値計算法
自由エネルギーを数値的に計算したい
nLn(w) = - Σi log p(Xi |w)
F(1) を求めればよい。
42
自由エネルギーの数値計算法
F(1) を求めることが目標。F(0)=0 なので
F(1) = ∫ (dF/dβ) dβ
(dF/dβ)=
1
0
nLn(w) exp( - β nLn(w)) φ(w) dw
exp( - β nLn(w)) ϕ(w) dw
そこで βを細かく刻んで、各βごとに事後分布をつくり、 (dF/dβ)を求めてから総和をとる。計算量がとても大きいが、自由エネルギーの計算の基本的な方法である。
43
中間値の定理
F(1) = ∫ (dF/dβ)(β) dβ1
0
自由エネルギー F(1) は (dF/dβ) の積分で表される
ので、積分の中間値の定理からある β* が存在して
F(1) =nLn(w) exp( - β* nLn(w)) φ(w) dw
exp( - β* nLn(w)) ϕ(w) dw
正則であってもなくても β* = 1/log n + o(1/log n) であることが示せる。
44
WBIC= Ew1/log n[ - Σ log p(Xi|w) ] とおくと
Ew1/log n[ ] =
( ) Π p(Xi|w)1/logn ϕ(w) dw
Π p(Xi|w)1/log n ϕ(w) dw
WBIC = n Ln + λ log n + Op((log n)1/2).
WBICと自由エネルギー
真の分布がわからない場合に自由エネルギーの近似値を求める方法として次の方法もある。
45
β = 1/ log n とする。Ln(w) = Σi log p(Xi|w) とおく。
WBICの漸近挙動
∫ φ(w) Πi p(Xi|w)β dw
∫ { Ln (w) } φ(w) Πi p(Xi|w)β dw
WBIC =
exp(-nβKn(w)) ϕ(w) dw
→ (nの関数)× ∫ dt tλ-1 exp( - βt + βt1/2ξn (u) ) D(u)du
Ln(w) → nSn + t+t1/2ξ (u)
46
WBICの漸近挙動
dt du D(u) (t- t1/2ξ (u)) tλ-1exp( -βt+βt1/2ξ (u))
dt duD(u) tλ-1exp( -βt+βt1/2ξ(u))
WBIC = nSn+
= nSn+
dt du D(u) (tλ- tλ-1/2ξ (u)) exp( -βt+βt1/2ξ (u))
dt duD(u) tλ-1exp( -βt+βt1/2ξ(u))
47
WBICの漸近挙動
dt du D(u) (tλ /β - tλ-1/2/β1/2 ξ (u)) exp( -t+(βt)1/2ξ (u))
dt duD(u) tλ-1exp( -t+(βt)1/2ξ(u))
= nSn+
= nSn+ λ log n + Op((log n)1/2)
48
自由エネルギーの漸近挙動の例
統計モデル p(y|x,a,b) = (1/2π)1/2 exp(-(1/2)(y-a tanh(bx))2)事前分布 φ(a,b)∝ 1真の分布 q(y|x)=p(y|x,0,0), X の分布は[-2,2]上の一様分布
Fn – nSn
WBIC – nSn
BIC – nSn
Theory – nSn
この場合 λ=1, m=2.
n =20, …, 450 まで
BIC WBIC FTheory
を比較した
49
sBIC = n Ln(w*) + λ log n
sBIC (singular BIC)
Drton-Plummer (2017) は複数のモデル族に対して
実対数閾値を当てはめることにより、自由エネルギーを
推測する方法を提案した。
実対数閾値の理論研究の成果を活用できるため、揺らぎ
が小さいという利点がある。