Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci...

28
Analiza zawarto ´ sci dokumentów za pomoc ˛ a probabilistycznych modeli graficznych Probabilistic Topic Models Jakub M. TOMCZAK Politechnika Wroclawska, Instytut Informatyki 30.03.2011, Wroclaw

Transcript of Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci...

Page 1: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Analiza zawartosci dokumentów zapomoca probabilistycznych modeli

graficznych

Probabilistic Topic Models

Jakub M. TOMCZAKPolitechnika Wrocławska, Instytut Informatyki

30.03.2011, Wrocław

Page 2: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

2/22

Page 3: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

2/22

Page 4: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

2/22

Page 5: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

2/22

Page 6: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

2/22

Page 7: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

WstepZarys problemu

Cele analizy dokumentów i słów:I otrzymywanie informacji

semantycznej słów na podstawiedokumentów;

I modelowanie dokumentów mniejszaliczba parametrów (redukcja długosciopisu problemu);

I automatyczne rozumienie słów(polisemia – wiele znaczen jednegosłowa);

I mozliwosc porównywania dokumentów isłów;

SIEĆ KOMPUTER

RYBA INFORMATYKA

RYBOŁÓSTWO

3/22

Page 8: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

WstepMetody

I tf-idf (ang. term frequency – inverse document frequency) – dlawybranego zbioru termów i kazdego dokumentu liczony jestwspółczynnik tf-idf

I LSI (ang. Latent Semantic Indexing) – wykorzystanie dekompozycjiSVD do wykrycia podprzestrzeni cech tf-idf

I Modele probabilistyczne:I unigramy (ang. unigrams)

I mieszanina unigramów (ang. mixture of unigrams)

I probabilistyczna analiza ukrytej semantyki (ang. Probabilistic LatentSemantic Analysis, PLSA)

I alokacja ukrytej zmiennej Dirichleta (ang. Latent Dirichlet Allocation)

I hierarchiczny proces Dirichleta (ang. Hierarchical Dirichlet Process)

4/22

Page 9: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

5/22

Page 10: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

5/22

Page 11: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneUnigramy

wN

M

Zakładamy, ze słowa dla kazdego dokumentu, m = 1, 2, . . . ,M, losowanesa niezaleznie z rozkładu wielomianowego:

p(wm) =N∏

n=1

p(wnm)

gdzie N – liczba słów w dokumencie, M – liczba dokumentów, wnm – słowo.

6/22

Page 12: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneMieszanina unigramów

wN

M

z

Zakładamy, ze jednemu dokumentowi odpowiada dokładnie jeden temat.Wówczas słowa losowane sa z rozkładu:

p(wm) =∑

z

p(zm)N∏

n=1

p(wnm|zm)

gdzie p(zm) – rozkład a priori tematów, p(wnm|zm) – prawd. słowa dla

zadanego tematu.

7/22

Page 13: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneProbabilistic Latent Semantic Analysis

wN

M

zd

Dla wybranego dokumentu d słowo jest zalezne od róznych tematów:

p(dm,wm) = p(dm)N∏

n=1

∑zn

m

p(wnm|zn

m)p(znm|dm)

gdzie p(dm) – rozkład a priori dokumentów, p(wnm)|zn

m) – prawd. słowa dlazadanego tematu, p(zn

m|dm) – prawd. zawierania kilku tematów przezdokument.

8/22

Page 14: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneProbabilistic Latent Semantic Analysis – wady i zalety

Zalety:

I dokument moze dotyczyc wielutematów;

Wady:

I liczba parametrów rosnie liniowowraz ze wzrostem liczbydokumentów M;

I nie jest to poprawniesformułowany model generujacy,nie mozna przyporzadkowacprawdopodobienstw dowczesniej niezaobserwowanychdokumentów;

9/22

Page 15: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneModel generujacy i wnioskowanie z niego

10/22

Page 16: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneLatent Dirichlet Allocation

wN

M

z

K

p(wm|α, η) =∫

p(θm|α)[ K∏

k=1

p(βk |η)N∏

n=1

(∑zn

m

p(wnm|zn

m, βk )p(znm|θm)

)]dθm

gdzie β – zm. losowa o rozkładzie Dirichleta okreslajaca słowa z zadanegosłownika w temacie, θ – zm. losowa okreslajaca tematy dokumentu

11/22

Page 17: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneLatent Dirichlet Allocation – proces generowania dokumentu

1. Wybierz słowa w tematach z symetrycznego rozkładu Dirichleta,βk ∼ Dir(η), k = 1, 2, . . . ,K .

2. Dla kazdego dokumentu m wybierz proporcje z symetrycznegorozkładu Dirichleta, θm ∼ Dir(α), m = 1, 2, . . . ,M.

3. Dla kazdego n-tego słowa w kazdym m-tym dokumencie:

I Wybierz przydzielenie tematu z rozkładu wielomianowego,zn

m|θm ∼ Multi(θm).

I Wybierz słowa z zadanego tematu, wnm|zn

m, β1:K ∼ Multi(βznm).

12/22

Page 18: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneRozkład Dirichleta

x – empiryczne obserwacje dokumentów w PLSA, linia ciagła – gładki rozkład prawd. w LDA

13/22

Page 19: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneHierarchical Dirichlet Process

n

mw N

M

nmG

0G

H

DP(·, ·) – proces Dirichleta, G0 – rozkład podstawowy tematów, H –symetryczny rozkład Dirichleta nad simpleksem słów, α > 0, γ > 0

Zastosowanie procesu Dirichleta powoduje, ze nie ma potrzeby okreslanialiczby tematów a priori, gdyz wynikaja one z danych (nieparametrycznepodejscie bayesowskie).

14/22

Page 20: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneHierarchical Dirichlet Process – proces generowania dokumentu

1. Wybierz rozkład podstawowy tematów G0 ∼ DP(γ,H).

2. Dla kazdego dokumentu m wybierz wstepny rozkład tematówGm ∼ DP(α,G0).

3. Dla kazdego n-tego słowa w kazdym m-tym dokumencie:

I Wybierz temat dla słowa βnm ∼ Gm.

I Wybierz słowo wnm ∼ Multi(βn

m).

15/22

Page 21: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Modele probabilistyczneProblemy i rozwiniecia

I Problemy:I niemoznosc wyznaczenia wyrazen na rozkład p(wm|α, η);

I potrzeba stosowania procedur na wyrazenia przyblizone, np.procedura próbkowania Gibbsa, metody wariacyjne, próbkowanie zuzyciem łancucha Markowa

I Rozwiniecia:I Dynamiczne modelowanie tematów (ang. Dynamic Topic Modeling,

DTM) – połaczenie LDA, gdy β tworza sekwencje.

I Dynamiczne hierarchiczne procesy Dirichleta (ang. Dynamic HDP) –rozkłady tematów G tworza sekwencje.

16/22

Page 22: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

17/22

Page 23: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

17/22

Page 24: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Przykład zastosowaniaDokumenty

18/22

Page 25: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Przykład zastosowaniaPolisemia

19/22

Page 26: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Przykład zastosowaniaObrazki

20/22

Page 27: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Literatura

I Model PLSA: T. Hofmann, Probabilistic latent semantic analysis, in Proc. Uncertainty inArtificial Intelligence, 1999

I Model LDA i prostsze: D. Blei, A. Ng, M. I. Jordan, Latent Dirichlet allocation, J. Mach.Learn. Res., Vol. 3, pp. 993–1022, Mar. 2003

I Model LDA z algorytmem Gibbsa: M. Steyvers, T. Griffiths, Probabilistic topic models,in: Latent Semantic Analysis: A Road to Meaning, Eds.: T. Landauer, D. McNamara, S.Dennis, oraz W. Kintsch, Lawrence Erlbaum, 2006

I Zaawansowane modele graficzne dla analizy tematów:D. Blei, L. Carin. D. Dunson, Probabilistic Topic Models, IEEE Signal ProcessingMagazine Vol. 55, NOVEMBER 2010

Y.W. Teh, M.I. Jordan, M.J. Beal, D.M. Blei, Hierarchical Dirichlet Processes, Journal ofthe American Statistical Association, 101(476), 2006

D.M. Blei, J.D. Lafferty, Dynamic topic models, Proceeding ICML ’06 Proceedings of the23rd international conference on Machine learning

21/22

Page 28: Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29  · Analiza zawartosci dokumentów za´ pomoca˛ probabilistycznych modeli graficznych Probabilistic Topic

Dziekuje za uwage!

Pytania?

22/22