Wprowadzenie do budowy usług informacyjnych

22
Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 4. Model probabilistyczny wyszukiwania informacji Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu „Information Retrieval and Web Search”, prowadzonego na Stanford University przez Christophera Manninga i Prabhakara Raghavana.

description

Uniwersytet Łódzki Katedra Informatyki. W. Bartkiewicz. Wprowadzenie do budowy usług informacyjnych. Wykład 4. Model probabilistyczny wyszukiwania informacji. Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu - PowerPoint PPT Presentation

Transcript of Wprowadzenie do budowy usług informacyjnych

Wprowadzenie do budowy usług informacyjnych

W. Bartkiewicz

Wykład 4. Model probabilistyczny wyszukiwania informacji

Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu „Information Retrieval and Web Search”, prowadzonego na Stanford Universityprzez Christophera Manninga i Prabhakara Raghavana.

Założenia modelu probabilistycznego

• Model wektorowy opierał się na algebrze liniowej. W przeciwieństwie do niego model probabilistyczny bazuje statystyce Bayesowskiej.– W praktyce, jak zobaczymy, oba te modele w znacznym stopniu się

pokrywają.

• Ogólna zasada tworzenia rankingu:– Mamy kolekcję dokumentów.

– Użytkownik wykonuje zapytanie.

– Zwracana jest lista dokumentów, uporządkowanych odpowiednio dla potrzeb informacyjnych użytkownika.

• W modelu probabilistycznym dokumenty rankingowane są według prawdopodobieństwa relewantności dla potrzeb informacyjnych użytkownika:

P(relewantny | dokument, zapytanie)

Krótka powtórka z podstaw rachunku prawdopodobieństwa

• Niezależność zdarzeń– Niech a, b będą dwoma zdarzeniami z prawdopodobieństwami P(a) i P(b).

– Zdarzenia a i b są niezależne wtedy i tylko wtedy gdy:

P(a b) = P(a)P(b)

– W ogólności a1, a2, ... , an są niezależne wtedy i tylko wtedy gdy:

P(a1 a2 ... an) = P(a1)P(a2)...P(an)

• Warunkowe prawdopodobieństwo zdarzeń:– P(a | b) jest prawdopodobieństwem a pod warunkiem b, nazywanym także

prawdopodobieństwem warunkowym a przy danym b.

P(a | b) = P(a b) / P(b)

• Niezależność warunkowa zdarzeń:– Zdarzenia a1, ..., an są warunkowo niezależne wtedy i tylko wtedy gdy:

P(ai | aj) = P(ai) dla wszystkich i oraz j.

Krótka powtórka z podstaw rachunku prawdopodobieństwa

• Zdarzenia niezależne – przykład:a i b są wynikiem rzutu dwoma kostkami

P(a=5 | b=3) = P(a=5) = 1/6

• Zdarzenia zależne – przykład:a i b są wynikiem rzutu dwoma kostkami

t jest sumą dwu rzutów

t = a + b

P(t=8 | a=2) = 1/6 P(t=8 | a=1) = 0

Krótka powtórka z podstaw rachunku prawdopodobieństwa

P(a) = x + y

P(b) = w + x

P(a | b) = x / (w + x) = P(a b) / P(b)

P(a | b) P(b) = P(a b) = P(b | a) P(a)

a

b

w

z

y

xa

b

gdzie a jest zdarzeniem nie a

Prawdopodobieństwo warunkowe

Krótka powtórka z podstaw rachunku prawdopodobieństwa

Twierdzenie Bayesa

aaxxPxbP

aPabP

bP

aPabPbaP

aPabPbPbaP

aPabPbpbaPbaPbaP

,)()|(

)()|(

)(

)()|()|(

)()|()()|(

)()|()()|()(),(

a posteriori

a priori

Krótka powtórka z podstaw rachunku prawdopodobieństwa

Twierdzenie BayesaPrzykład

a Waga ponad 80 kg.

b Wzrost ponad 180 cm.

Ponad 80 kg

Ponad 180 cm

w

z

y

x

P(a | b) = x / (w+x) = x / P(b)

P(b | a) = x / (x+y) = x / P(a)

x = P(a b)

Krótka powtórka z podstaw rachunku prawdopodobieństwa

Szansa

)(1

)(

)(

)()(

aP

aP

aP

aPaS

Zasada rankingowania probabilistycznego

• Podstawą teoretyczną wszystkich modeli probabilistycznych wyszukiwania informacji jest tzw. zasada rankingowania probabilistycznego (Probability Ranking Pronciple).

• Zgodnie z nią optymalne działanie systemu wyszukiwawczego może zostać osiągnięte poprzez rankingowanie dokumentów zgodnie z prawdopodobieństwem ich oceny jako relewantnych dla zapytania.– Prawdopodobieństwa te powinny zostać oszacowane tak dokładnie, jak to

jest możliwe na podstawie dostępnych do tego celu danych.

Zasada rankingowania probabilistycznego

• Dla danego dokumentu d w kolekcji oznaczmy przez: – R – zdarzenie polegające na tym, że dokument jest relewantny– NR – zdarzenie polegające na tym, że jest on nierelewantny.

• Dla danego zapytania q i dokumentu d w kolekcji szacujemy prawdopodobieństwo, że użytkownik uzna d za relewantny P(R|d), a następnie sortujemy dokumenty zgodnie z wyznaczonymi prawdopodobieństwami.– Zazwyczaj dokumenty ocenia się nie korzystając bezpośrednio z P(R|d), ale

z szansy S(R|d) = P(R|d) / P(NR|d).– Ponieważ interesuje nas ranking (porównanie względne) dokumentów, na

ogół nie korzystamy nawet z szansy, ale tzw. RSV (Retrieval Status Value) – miary proporcjonalnej do prawdopodobieństwa relewancji (RSV ~ P(R|d)).

• Założenia (dyskusyjne):– Relewantność każdego z dokumentów jest niezależna od relewantności

innych dokumentów (tzn. każdy dokument może być rozważany w izolacji od innych).

– Boolowski model relewancji, tzn. dokument jest albo relewantny, albo nie.

Relewancja i twierdzenie Bayesa – podstawowe definicje

)(

)()|()|( ,

)(

)()|()|(

dP

NRPNRdPdNRP

dP

RPRdPdRP

1)|()|( dNRPdRP

• P(R|d), P(NR|d) – prawdopodobieństwo, że dokument d jest relewantny (nierelewantny).

• P(R), P(NR) – prawdopodobieństwo a priori wyszukania relewantnego (nierelewantnego) dokumentu.

• P(d|R), P(d|NR) – prawdopodobieństwo wystąpienia dokumentu d w zbiorze dokumentów relewantnych (nierelewantnych).

• P(d) – prawdopodobieństwo wystąpienia dokumentu d w kolekcji.

Model BIR

• Model BIR (Binary Independence Retrieval) jest najczęściej stosowanym (i najprostszym) modelem probabilistycznym.– Binary - dokumenty oraz zapytania reprezentowane są przez binarne

wektory występowania termów – 1 jeśli dany term występuje w dokumencie (zapytaniu), 0 jeśli nie.

– Independence – termy występujące w opisie dokumentu są niezależne. Najbardziej problematyczne założenie. W zasadzie nigdy nie jest spełnione.

• BIR opiera się więc na naiwnym probabilistycznym modelu Bayesowskim.

Model BIR

• Przyjmijmy, że dokumenty reprezentowane są przez binarne wektory występowania termów x = (x1, ..., xn), przy czym xi = 1, jeśli term i występuje w opisie dokumentu i, xi = 0, gdy nie.

– Podobnie zapytania reprezentowane są przez binarne wektory q = (q1, ..., qn).

• Dla danego zapytania q i dla każdego dokumentu wyznaczamy miarę RSV(q, x) ~ P(R | q, x), która posłuży nam następnie do sporządzenia rankingu dokumentów.

• Do stworzenia miary RSV wykorzystamy szansę oraz twierdzenie Bayesa:

)|(),|()|(

)|(),|()|(

),|(

),|(),|(

qxPqNRxPqNRP

qxPqRxPqRP

xqNRP

xqRPxqRS

Model BIR

• Korzystamy z założenia niezależności

),|(

),|(

)|(

)|(

),|(

),|(),|(

qNRxP

qRxP

qNRP

qRP

xqNRP

xqRPxqRS

Stałe dla danego zapytania

Wymaga oszacowania

n

i i

i

qNRxP

qRxP

qNRxP

qRxP

1 ),|(

),|(

),|(

),|(

n

i i

i

qNRxP

qRxPqRSdqRS

1 ),|(

),|()|(),|(

Model BIR

• Ponieważ xi jest równe albo 0 albo 1:

n

i i

i

qNRxP

qRxPqRSdqRS

1 ),|(

),|()|(),|(

01 ),|0(

),|0(

),|1(

),|1()|(),|(

ii x i

i

x i

i

qNRxP

qRxP

qNRxP

qRxPqRSdqRS

);,|1( qRxPp ii

);,|1( qNRxPr ii

• Oznaczmy przez:

• Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri.

01 1

1)|(),|(

ii x i

i

x i

i

r

p

r

pqRSdqRS

Model BIR

• Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri.

• Wówczas dla wszystkich termów nie występujących w zapytaniu (qi = 0) pi / ri = 1.

101

01

1

1)|(

1

1)|(),|(

i

iii

ii

qx i

i

qx i

i

x i

i

x i

i

r

p

r

pqRS

r

p

r

pqRSdqRS

Model BIR

Wszystkie termy dopasowane Nie dopasowane

termy zapytania

Wszystkie termy dopasowane

Wszystkie termy zapytania

11

1101

101

1

1

)1(

)1()|(

1

1

1

1

1

1)|(

1

1)|(),|(

iii

ii

i

iii

i

iii

q i

i

qx ii

ii

qx i

i

i

i

qx i

i

qx i

i

qx i

i

qx i

i

r

p

pr

rpqRS

r

p

p

r

r

p

r

pqRS

r

p

r

pqRSxqRS

Model BIR

Stałe dla zapytania

Jedyny element, który musi być obliczony do rankingu

11 1

1

)1(

)1()|(),|(

iii q i

i

qx ii

ii

r

p

pr

rpqRSxqRS

• Retrieval Status Value:

11 )1(

)1(log

)1(

)1(log

iiii qx ii

ii

qx ii

ii

pr

rp

pr

rpRSV

Model BIR

• Pomimo, że formuła wyszukiwania probabilistycznego wygląda w sposób złożony, widzimy, że jest to w zasadzie wariant modelu wektorowego, wykorzystujący nieco inną formułę obliczania wag termów niż tf*idf.

• Problemem podstawowym oczywiście jest oszacowanie współczynników ci, niezbędnych do wyznaczenia RSV dokumentu.

ii

iii

ii

qx ii

ii qxpr

rp

pr

rpRSV

ii

)1(

)1(log

)1(

)1(log

1

)1(

)1(log ,

ii

iii

iiii pr

rpcqxcRSV

Model BIR• Załóżmy, że mamy pewien zbiór treningowy zapytań z informacją o

relewancji dokumentów, które powinny zostać wyszukane w odpowiedzi na te zapytania.

• W takiej sytuacji możemy wyznaczyć współczynniki ci, z następującej tabeli, sporządzanej dla każdego termu i (Robertson i Sparck Jones).

Documens Relevant Non-Relevant Total

Xi=1 s n-s n

Xi=0 S-s N-n-S+s N-n

Total S N-S N

)()(

)(log

)1(

)1(log

)1(

)1(log

sSnNsn

sSs

Ss

SNsn

SNsn

Ss

pr

rpc

ii

iii

S

spi

)(

)(

SN

snri

• Oszacowania:

Model BIR• Niestety, w praktyce rzadko dysponujemy danymi dotyczącymi

relewancji.– Wyjątkiem jest interaktywna metoda modyfikacji zapytania, z

wykorzystaniem tzw. sprzężenia relewancji. O sprzężeniu relewancji mówić będziemy na jednym z kolejnych wykładów.

• Współczynniki ci oszacowane muszą być wówczas wyłącznie na podstawie statystyk występowania termów w kolekcji dokumentów.

• Zazwyczaj liczba dokumentów nierelewantnych w kolekcji jest dużo większa niż relewantnych. – Dla dużych wartości N, prawdopodobieństwo wystąpienia termu w

dokumentach nierelewantnych może więc być szacowane przez n/N. (czyli przy założeniu, że wszystkie dokumenty są nierelewantne).

– Wówczas mamy: log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF!

• Musimy więc obliczyć wyłącznie prawdopodobieństwo wystąpienia termu w dokumentach relewantnych pi.

• Klasyczna metoda polega na użyciu iteracyjnej formuły, wyznaczającej wartość pi rekurencyjnie.

Model BIR1. Wstępnie inicjujemy pi jako stałe dla każdego xi w zapytaniu.

– Ponieważ nie mamy żadnych informacji wstępnych, przyjmujemy wszystkie pi = 0.5. Jak już wcześniej wspomnieliśmy przyjmujemy również ri = n/N.

2. Określamy przybliżenie zbioru dokumentów relewantnych.– Wybieramy |V| dokumentów o najwyższym RSV wyznaczonym dla

danych pi i ri.

– Niech Vi będzie wśród nich zbiorem dokumentów zawierających term xi.

3. Obliczamy kolejne przybliżenia pi i ri.

– pi = | Xi | / |V|.

– ri = (n - |Vi |) / (N-|V|)

4. Punkty 2 i 3 powtarzamy, aż do osiągnięcia zbieżności.