Metody Deep Learning - Wykład 5

Post on 10-Aug-2015

83 views 3 download

Transcript of Metody Deep Learning - Wykład 5

Metody Deep LearningWykład 5

http://arxiv.org/pdf/1502.01852.pdf

Zaczynamy

Plan z tablicy

● przypomnienie RBMówo P(v, h), P(v|h), P(h|v)o uczenie - GDo CD-k

● teoria z Hugo● sparse● denoising● contractive● przykład: denoising + rekonstrukcja cyferek

● nieskierowany model probabilistyczny● dwie grupy binarnych zmiennych losowych

Restricted Boltzmann Machine

szmienne ukryte (hidden)

szmienne widoczne (visible)

RBM - joint probability● model z energią (model Boltzmanna)● zmienne o wartościach binarnych

Conditional independence - reminder

CI in RBM

inference

inference c.d

RBM learning- zaobserowany zbiór

danych

szukamy parametrów modelu tak aby było jak największe:

RBM learning c.d

- zaobserowany zbiór danych

W RBM każdy zaobserwowany wektor odpowiada zmiennym widocznym

do obliczenia nie bardzo

Wpierw łatwiejsza część gradientu

Contrastive Divergence

-Teoretycznie możemy rozważyć każde możliwe v

-Ilość możliwości jest rzędu

Contrastive Divergence c.d

jak wyznaczyć

- Ponieważ gradient będziemy liczyć wielokrotnie zamiast za każdym razem obliczać wartość przeciętną możemy wylosować v zaszyte w RBM’ie

Samplowanie Gibbsa

- Postępując tak wielokrotnie będziemy przybliżać się do minimalizacji

- Obserwację losową RBM’a nazywamy fantazją sieci

Cel - wylosować próbkę z rozkładu wielowymiarowego P(x, y)Sposób - generujemy x z rozkładu P(x | y) i y z rozkładu P(y | x)Algorytm:

Samplowanie Gibbsa

Kontynuuj aż rozkłady prawdopodobieństw będą stacjonarne

Samplowanie Gibbsa w RBM’ie

- Zacznij próbkowanie od przykładu treningowego

- wykonaj jedynie kilkanaście kroków- pomimo poważnej korelacji pomiędzy tak

otrzymaną fantazją a przykładem uczącym otrzymujemy zaskakująco dobry gradient

- Czasami wystarcza 1 krok!

Propozycja Hintona

Model uczymy metodąstochastycznego spadku gradientu

Uczenie