Model Perturb-and-MAP - ii.pwr.edu.pltomczak/PDF/[Tomczak]PerturbAndMAP.pdf · Istnieje dokładny...

28
Model Perturb-and-MAP Uczenie rozkladów Gibbsa Jakub M. Tomczak Instytut Informatyki Politechnika Wroclawska [email protected] 27 VI 2014

Transcript of Model Perturb-and-MAP - ii.pwr.edu.pltomczak/PDF/[Tomczak]PerturbAndMAP.pdf · Istnieje dokładny...

Model Perturb-and-MAPUczenie rozkładów Gibbsa

Jakub M. Tomczak

Instytut InformatykiPolitechnika Wrocławska

[email protected]

27 VI 2014

Wstęp

Papandreou G., Perturb-and-MAP Random Fields, NIPS 2012 Workshop: Perturbations, Optimization, and Statistics

1/27

WstępModele z użyciem energii (ang. energy-based models)

Dla x ∈ X , wektora cech φ(·) oraz wektora parametrów θ ∈ RMdefiniujemy energię:

E(x|θ) = 〈θ,φ(x)〉

=∑j

θjφj(x)

Rozkład Gibbsa (ang. Gibbs distribution)Dla x ∈ X , wektora cech φ(·), wektora parametrów θ oraz energiiE(x|θ) rozkład Gibbsa definiujemy w następujący sposób:

p(x|θ) =1

Z(θ)exp(−E(x|θ))

gdzie Z(θ) =∑x exp(−E(x|θ)) – suma statystyczna (ang. partition

function).2/27

Wstęp

Modele z użyciem energiiZnalezienie najlepszej konfiguracji x wiąże się z minimalizacją energii(znalezienie najbardziej prawdopodobnej konfiguracji – MAP):

x = arg minxE(x|θ)

Rozwiązanie tego zadania jest zazwyczaj szybkie dla pewnej klasyenergii.∗ Uczenie parametrów odbywa się zazwyczaj poprzez stosowaniemetod typu large margin.

Rozkład GibbsaKażdej konfiguracji x przyporządkowane jest prawdopodobieństwo:

x ∼ p(x|θ)

Uczenie parametrów odbywa się poprzez ML (z regularyzacją) lub MAP.

∗Kolmogorov, V., Zabih, R. (2004). What energy functions can be minimized via graph cuts?. PAMI. 26(2), 147-159.

3/27

Wstęp

Modele z użyciem energii są skuteczne w wielu zastosowaniach. Natomiast modele probabilistyczne są bardzo elastyczne, ale

procedura uczenia jest skomplikowana. Pojawia się więc pytanie, czy można by połączyć te dwa podejścia? Czy istnieje technika, która pozwalałaby na uczenie modeli

probabilistycznych z użyciem efektywnych technik optymalizacji?Papandreou G., Yuille A. Perturb-and-MAP Random Fields: Reducing Random Sampling to Optimization, with Applications in ComputerVision. in: Advanced Structured Prediction. (eds.) S. Nowozin, P.V. Gehler, J. Jancsary, C.H. Lampert. MIT Press

4/27

Perturb-and-MAP (PM)

Rysunek: (a) Procedura, (b) konfiguracja MAP, (c) Konfiguracja PM.Stosując Perturb-and-MAP (PM) otrzymujemy próbki z rozkładu Gibbsap(x|θ).

Rysunek: (a) MAP, (b) MCMC, (c) Variational Bayes, (d) PM

Papandreou G., Yuille A. Perturb-and-MAP Random Fields: Reducing Random Sampling to Optimization, with Applications in ComputerVision. in: Advanced Structured Prediction. (eds.) S. Nowozin, P.V. Gehler, J. Jancsary, C.H. Lampert. MIT Press

5/27

PM dla gaussowskich pól losowych(ang. Gaussian Markov Random Field)

Gaussowskie pole losowe (GMRF)Energia GMRF:

E(x|θ) =12

(Fx− µ0)>Σ−10 (Fx− µ0)

=12x>Jx− k>x + const.

gdzie J = F>Σ0F, k = F>Σ−10 µ0

Energię można wyrazić jak wcześniej definiując:

θ =(k, vec(J)

),φ(x) =

(− x,

12

vec(xx>))

Zatem rozkład Gibbsa dla GMRF jest rozkładem normalnym:

N (J−1k,J−1) = N (µ,Σ)

6/27

PM dla gaussowskich pól losowych(ang. Gaussian Markov Random Field)

Rozwiązanie MAPRozwiązanie MAP:

x = arg minx

12x>Jx− k>x

De facto szukamy średniej, µ = J−1k, czyli problem ten jest równoważnyrozwiązaniu układu równań Jµ = k. Złożoność (dekompozycjaCholesky’ego): O(N2).

Dokładne próbkowanie z użyciem PMWylosujmy µ0 ∼ N (µ0,Σ0) oraz znajdźmy rozwiązanie MAPx = F>Σ0µ0. Wówczas x jest dokładną próbką z oryginalnego GMRF.

DowódZauważmy, że E[x] = µ oraz E[(x− µ)(x− µ)>] = J−1F>Σ0FJ−1 == J−1 = Σ. Czyli x ∼ N (µ,Σ). 2

7/27

Uczenie markowskich pól losowych

Uczenie MRFDla danych D = {xn}Nn=1 uczenie przeprowadzone jest poprzezmaksymalizację logarytmu wiarygodności (często z regularyzacją):

L(θ) = − logZ(θ)− 1N

N∑n=1

E(xn|θ)

Licząc gradient ( ∂∂θjL(θ) = ∆θj):

∆θj = Ex[φj(x)]− ED[φj(x)]

gdzie Ex[φj(x)] = − ∂∂θj

logZ(θ) – trudne do policzenia,

ED[φj(x)] = 1N

∑Nn=1 φj(x) – łatwe do policzenia.

ML dla rozkładu Gibbsa może być postrzegane jako dopasowaniemomentów (ang. moment matching), tj. w granicyEx[φj(x)] = ED[φj(x)].

8/27

PM dla dyskretnych markowskich pól losowych x przyjmuje wartości z dyskretnego zbioru XD, energia:E(x|θ) = 〈θ,φ(x)〉.

Próbka PM (ε ∈ R – zaburzenie (ang. perturbation)):x = arg minxE(x|θ + ε).

x minimalizuje energię ⇔ ∀q ∈ XD E(x|θ) ¬ E(q|θ).

Takich nierówności jest |XD| i tworzą one wielościan:Px = {θ ∈ RM : 〈θ,φ(x)− φ(q)〉 ¬ 0,∀q ∈ XD}

Wielościany Px dzielą przestrzeń wag na obszary wpływuposzczególnych konfiguracji x.

x zostanie wybrany, jeżeli θ + ε ∈ Px lub równoważnieε ∈ Px − θ = {ε ∈ RM : θ + ε ∈ Px}.

Rozkład na zmienną x dla modelu PM:

fPM (x|θ) =∫Px−θ

f(ε)dε

9/27

PM dla dyskretnych markowskich pól losowych

Problemy: Policzenie objętości wielościanu (tj. fPM (x|θ)) jest NP-trudne. W jaki sposób skonstruować zaburzenia odpowiednie dla rozkładu

Gibbsa? To jest takie, że będziemy mogli wyznaczyć parametry dlaGibbsa korzystając z fPM .

10/27

Uczenie z użyciem PMWiarygodność

Logarytm wiarygodności: LPM (θ) =1N

N∑n=1

log fPM (xn|θ).

LPM(θ) jest wklęsłyJeżeli zaburzenia ε są losowane z rozkładu logarytmicznie wklęsłego f(ε),to LPM (θ) jest wklęsły.

UczeniePodobnie jak w przypadku rozkładu Gibbsa, licząc gradient po LPM (θ):

∆θj = EPM [φj(x)]− ED[φj(x)]

gdzie EPM [φj(x)] =∑x fPM (x|θ)φj(x)

Uczenie – zbieżnośćJeśli θ′ i θ różnią się wyłącznie na j-tym elemencie i θ′j > θj , to

Eθ′PM [φj(x)] ¬ EθPM [φj(x)].

11/27

Uczenie z użyciem PMRozkład Gumbela

Jakie wybrać zaburzenia dla dyskretnego pola losowego?!

Rozkład Gumbela (ang. Gumbel distribution)Rozkład Gumbela ciągłej zmiennej losowej z (o parametrze µ):(pdf) g(z|µ) = exp((z − µ)− exp(z − µ)),(cdf) G(z|µ) = 1− exp(−exp(z − µ)).

Jest rozkładem logarytmicznie wklęsłym.

Łatwo generować: u ∼ Uni[0, 1], z = µ+ log(− log(u)).

Różnica dwóch zmiennych GumbelaNiech y i z są zmiennymi Gumbela o średniej µ = 0. Wówczas różnicatych zmiennych, y − z, jest realizacją z rozkładu logistycznegoLogistic(0, 1) = 1

4 sech2(x).

12/27

Uczenie z użyciem PMWłasności zaburzeń Gumbela

Lemat 1aNiech (θ1, . . . , θM ), θm ∈ R, m = 1, . . . ,M . Zaburzamy addytywnieθm = θm + εm, gdzie εm są IID realizacjami rozkładu Gumbela (µ = 0).Wówczas minimum z zaburzonych zmiennych

θmin = minm=1:M

{θm},

jest z rozkładu Gumbela z modą θ0, gdzie e−θ0 =∑Mm=1 e

−θm .

Lemat 1bPrzy założeniach jak w lemacie 1a.Wówczas prawdopodobieństwo, że θm jest wartością minimalną wynosi

Pr{arg min(θ1, . . . , θM ) = m} =e−θm

e−θ0.

Wniosek: zaburzanie Gumbela prowadzi do rozkładu Gibbsa!

13/27

Uczenie z użyciem PMZaburzenia Gumbela dla rozkładu Gibbsa

Dla xi ∈ X , i = 1, . . . , D, rozkład Gibbsa jest rozkładem na |X |Dmożliwych konfiguracji.

Przedstawmy energię w maksymalnej możliwej parametryzacji, tj.wypisujemy wszystkie konfiguracje {xj , j = 1, . . . , J = |X |D}.

Pełna (ang. fully-expanded) tablica energiiWówczas mamy energię:

E(x|θ) = 〈θ, φ(x)〉

gdzie θj = E(xj |θ) = 〈θ,φ(xj)〉, j = 1, . . . , J , jest pełną tablicąpotencjałów (energii), oraz φ(xj) jest indykatorem.

Rozkład PM i Gibbsa są równoważneJeżeli zaburzymy każdy element pełnej tablicy potencjałów IIDzaburzeniami Gumbela εj , j = 1, . . . , J , to wówczas rozkład PM irozkład Gibbsa pokrywają się, tj. f(ε) = exp(−E(x|θ))

Z(θ) .

14/27

Uczenie z użyciem PMZaburzenia Gumbela dla rozkładu Gibbsa

Stosowanie zaburzeń Gumbela do pełnej tablicy potencjałów (tzw.zaburzenia pełnego rzędu) jest niepraktyczne (wykładniczazłożoność). Okazuje się, że wystarczy stosować prostsze zaburzenia.

Zaburzenia 1-go rzęduZaburzenia dodajemy wyłącznie do wyrażeń unarnych.Musimy generować D|X | próbek Gumbela.

Zaburzenia 2-go rzęduZaburzenia dodajemy do podzbioru par (niepokrywających się węzłów)oraz do pozostałych (niepokrytych) wyrażeń unarnych.Trzeba wygenerować co najwyżej D2 |X |

2 próbek Gumbela.

15/27

Uczenie z użyciem PMZaburzenia Gumbela dla rozkładu Gibbsa

Pojawia się pytanie, czy dla zaburzeń niższego rzędu każdy stan jestosiągalny (ang. reachable)?

Wszystkie stany dla zaburzenia 1-go rzędu są osiągalneDodanie zaburzeń wyrażeń unarnych prowadzi do modelu PM, któryprzypisuje niezerowe prawdopobieństwo każdemu stanowi wówczas, gdyrozkład zaburzenia jest nieograniczony. Jest to prawdą dla zaburzeniaGumbela.

Wszystkie stany dla zaburzeń wyższego rzędu są osiągalneZaburzenia 2-go i wyższego rzędu prowadzą do bardziej ekspresyjnegomodelu niż dla zaburzeń 1-go rzędu, więc tym bardziej każdy stan jestosiągalny.

Papandreou, G., Yuille, A. L., Perturb-and-map random fields: Using discrete optimization to learn and sample from energy models.Supplementary Material, ICCV 2011, pp. 193-200

16/27

Ograniczona maszyna Boltzmanna (RBM)

Wyszczególniamy zmienne obserwowalnev ∈ {0, 1}D oraz nieobserwowalne h ∈ {0, 1}M .

Definiujemy funkcję energii dla konfiguracjix = (v,h):

E(v,h|θ) = −b>v − c>h− v>Wh

gdzie: θ = {b, c,W}.

Rozkład prawdopodobieństwa Gibbsa:

p(v,h|θ) =1

Z(θ)exp {−E(v,h|θ)}

gdzie: Z(θ) =∑v∑h exp {−E(v,h|θ)} jest to

tzw. suma statystyczna (ang. partition function).

x

h

17/27

Uczenie PM dla RBM

Interesuje nas zadanie arg minx = −E(x|θ) + ε(x).

Zaburzenia 1-go rzęduW przypadku RBM:

bi = bi + ε(vi = 1)− ε(vi = 0)

cj = cj + ε(hj = 1)− ε(hj = 0)

Zaburzenia 2-go rzęduW przypadku RBM (wcześniej musimy rozwiązać problem skojarzenia wgrafie dwudzielnym, ang. matching problem, np. algorytmem węgierskim):

Wij = Wij + ε(0, 1)− ε(0, 1)− ε(1, 0) + ε(0, 0)

bi = bi + ε(0, 1)− ε(0, 0)

ci = ci + ε(1, 0)− ε(0, 0)

18/27

Algorytm uczenia PM dla RBM1. Pobierz obserwację vt := vn.

2. Dla vt wyznacz ht = p(h|vt,θt) oraz utwórz próbkę ht napodstawie ht.

3. (Perturb-) Zaburz parametry.

4. (-MAP) Rozwiąż problem minimalizacji energii z użyciem metodycoordinate descent (dla k kroków):

vt ← b + Wh > 0

ht ← c + W>v > 0

5. Uaktualnij:

W := W + η(htv>t − htv>t

)b := b + η

(xt − xt

)c := c + η

(ht − ht

)19/27

Eksperyment – MNIST (Gumbel 1-go rzędu)

20/27

Eksperyment – Caltech101 (Gumbel 1-go rzędu)

21/27

Eksperyment – znajdowanie skojarzeń

Istnieje dokładny algorytm znajdowania skojarzeń w grafiedwudzielnym – algorytm węgierski (ang. Hungarian algorithm).

Istnieją również heurystyki, m.in. algorytm zachłanny.

Zastosowanie wprost algorytmu znajdowania skojarzeń dla zaburzeńGumbela do RBM – wolne!

Przeprowadzono wstępną analizę działania dla syntetycznychmacierzy generowanych z Wij ∼ N (0, 4).

Rozpatrywano |W|.

Działanie algorytmów porównano ze względu na: czas działania,różnicę funkcji celu (suma wag), różnica skojarzeń.

22/27

Eksperyment – znajdowanie skojarzeń (czas działania)

23/27

Eksperyment – znajdowanie skojarzeń (różnica sumy wag)

24/27

Eksperyment – znajdowanie skojarzeń (różnica skojarzeń)

25/27

Podsumowanie

Model PM jest również stosowany do:

oszacowania logZ(θ) (Hazan & Jaakkola, 2012);

nieobciążonego próbkowania (Hazan, Maji & Jaakkola, 2013);

anotacji obrazów (Maji, Hazan & Jaakkola, 2014).

Działanie PM dla uczenia RBM – bardzo ciekawe!

Należy zaimplementować zaburzenia 2-go rzędu dla uczenia RBM.

Model PM został zaproponowany w 2011, więc pozostaje otwartympolem do badań.

26/27

Dziękuję za uwagę!

27/27