Wprowadzenie do budowy usług informacyjnych
-
Upload
heremon-ivers -
Category
Documents
-
view
31 -
download
0
description
Transcript of Wprowadzenie do budowy usług informacyjnych
Wprowadzenie do budowy usług informacyjnych
W. Bartkiewicz
Wykład 4. Model probabilistyczny wyszukiwania informacji
Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu „Information Retrieval and Web Search”, prowadzonego na Stanford Universityprzez Christophera Manninga i Prabhakara Raghavana.
Założenia modelu probabilistycznego
• Model wektorowy opierał się na algebrze liniowej. W przeciwieństwie do niego model probabilistyczny bazuje statystyce Bayesowskiej.– W praktyce, jak zobaczymy, oba te modele w znacznym stopniu się
pokrywają.
• Ogólna zasada tworzenia rankingu:– Mamy kolekcję dokumentów.
– Użytkownik wykonuje zapytanie.
– Zwracana jest lista dokumentów, uporządkowanych odpowiednio dla potrzeb informacyjnych użytkownika.
• W modelu probabilistycznym dokumenty rankingowane są według prawdopodobieństwa relewantności dla potrzeb informacyjnych użytkownika:
P(relewantny | dokument, zapytanie)
Krótka powtórka z podstaw rachunku prawdopodobieństwa
• Niezależność zdarzeń– Niech a, b będą dwoma zdarzeniami z prawdopodobieństwami P(a) i P(b).
– Zdarzenia a i b są niezależne wtedy i tylko wtedy gdy:
P(a b) = P(a)P(b)
– W ogólności a1, a2, ... , an są niezależne wtedy i tylko wtedy gdy:
P(a1 a2 ... an) = P(a1)P(a2)...P(an)
• Warunkowe prawdopodobieństwo zdarzeń:– P(a | b) jest prawdopodobieństwem a pod warunkiem b, nazywanym także
prawdopodobieństwem warunkowym a przy danym b.
P(a | b) = P(a b) / P(b)
• Niezależność warunkowa zdarzeń:– Zdarzenia a1, ..., an są warunkowo niezależne wtedy i tylko wtedy gdy:
P(ai | aj) = P(ai) dla wszystkich i oraz j.
Krótka powtórka z podstaw rachunku prawdopodobieństwa
• Zdarzenia niezależne – przykład:a i b są wynikiem rzutu dwoma kostkami
P(a=5 | b=3) = P(a=5) = 1/6
• Zdarzenia zależne – przykład:a i b są wynikiem rzutu dwoma kostkami
t jest sumą dwu rzutów
t = a + b
P(t=8 | a=2) = 1/6 P(t=8 | a=1) = 0
Krótka powtórka z podstaw rachunku prawdopodobieństwa
P(a) = x + y
P(b) = w + x
P(a | b) = x / (w + x) = P(a b) / P(b)
P(a | b) P(b) = P(a b) = P(b | a) P(a)
a
b
w
z
y
xa
b
gdzie a jest zdarzeniem nie a
Prawdopodobieństwo warunkowe
Krótka powtórka z podstaw rachunku prawdopodobieństwa
Twierdzenie Bayesa
aaxxPxbP
aPabP
bP
aPabPbaP
aPabPbPbaP
aPabPbpbaPbaPbaP
,)()|(
)()|(
)(
)()|()|(
)()|()()|(
)()|()()|()(),(
a posteriori
a priori
Krótka powtórka z podstaw rachunku prawdopodobieństwa
Twierdzenie BayesaPrzykład
a Waga ponad 80 kg.
b Wzrost ponad 180 cm.
Ponad 80 kg
Ponad 180 cm
w
z
y
x
P(a | b) = x / (w+x) = x / P(b)
P(b | a) = x / (x+y) = x / P(a)
x = P(a b)
Zasada rankingowania probabilistycznego
• Podstawą teoretyczną wszystkich modeli probabilistycznych wyszukiwania informacji jest tzw. zasada rankingowania probabilistycznego (Probability Ranking Pronciple).
• Zgodnie z nią optymalne działanie systemu wyszukiwawczego może zostać osiągnięte poprzez rankingowanie dokumentów zgodnie z prawdopodobieństwem ich oceny jako relewantnych dla zapytania.– Prawdopodobieństwa te powinny zostać oszacowane tak dokładnie, jak to
jest możliwe na podstawie dostępnych do tego celu danych.
Zasada rankingowania probabilistycznego
• Dla danego dokumentu d w kolekcji oznaczmy przez: – R – zdarzenie polegające na tym, że dokument jest relewantny– NR – zdarzenie polegające na tym, że jest on nierelewantny.
• Dla danego zapytania q i dokumentu d w kolekcji szacujemy prawdopodobieństwo, że użytkownik uzna d za relewantny P(R|d), a następnie sortujemy dokumenty zgodnie z wyznaczonymi prawdopodobieństwami.– Zazwyczaj dokumenty ocenia się nie korzystając bezpośrednio z P(R|d), ale
z szansy S(R|d) = P(R|d) / P(NR|d).– Ponieważ interesuje nas ranking (porównanie względne) dokumentów, na
ogół nie korzystamy nawet z szansy, ale tzw. RSV (Retrieval Status Value) – miary proporcjonalnej do prawdopodobieństwa relewancji (RSV ~ P(R|d)).
• Założenia (dyskusyjne):– Relewantność każdego z dokumentów jest niezależna od relewantności
innych dokumentów (tzn. każdy dokument może być rozważany w izolacji od innych).
– Boolowski model relewancji, tzn. dokument jest albo relewantny, albo nie.
Relewancja i twierdzenie Bayesa – podstawowe definicje
)(
)()|()|( ,
)(
)()|()|(
dP
NRPNRdPdNRP
dP
RPRdPdRP
1)|()|( dNRPdRP
• P(R|d), P(NR|d) – prawdopodobieństwo, że dokument d jest relewantny (nierelewantny).
• P(R), P(NR) – prawdopodobieństwo a priori wyszukania relewantnego (nierelewantnego) dokumentu.
• P(d|R), P(d|NR) – prawdopodobieństwo wystąpienia dokumentu d w zbiorze dokumentów relewantnych (nierelewantnych).
• P(d) – prawdopodobieństwo wystąpienia dokumentu d w kolekcji.
Model BIR
• Model BIR (Binary Independence Retrieval) jest najczęściej stosowanym (i najprostszym) modelem probabilistycznym.– Binary - dokumenty oraz zapytania reprezentowane są przez binarne
wektory występowania termów – 1 jeśli dany term występuje w dokumencie (zapytaniu), 0 jeśli nie.
– Independence – termy występujące w opisie dokumentu są niezależne. Najbardziej problematyczne założenie. W zasadzie nigdy nie jest spełnione.
• BIR opiera się więc na naiwnym probabilistycznym modelu Bayesowskim.
Model BIR
• Przyjmijmy, że dokumenty reprezentowane są przez binarne wektory występowania termów x = (x1, ..., xn), przy czym xi = 1, jeśli term i występuje w opisie dokumentu i, xi = 0, gdy nie.
– Podobnie zapytania reprezentowane są przez binarne wektory q = (q1, ..., qn).
• Dla danego zapytania q i dla każdego dokumentu wyznaczamy miarę RSV(q, x) ~ P(R | q, x), która posłuży nam następnie do sporządzenia rankingu dokumentów.
• Do stworzenia miary RSV wykorzystamy szansę oraz twierdzenie Bayesa:
)|(),|()|(
)|(),|()|(
),|(
),|(),|(
qxPqNRxPqNRP
qxPqRxPqRP
xqNRP
xqRPxqRS
Model BIR
• Korzystamy z założenia niezależności
),|(
),|(
)|(
)|(
),|(
),|(),|(
qNRxP
qRxP
qNRP
qRP
xqNRP
xqRPxqRS
Stałe dla danego zapytania
Wymaga oszacowania
n
i i
i
qNRxP
qRxP
qNRxP
qRxP
1 ),|(
),|(
),|(
),|(
n
i i
i
qNRxP
qRxPqRSdqRS
1 ),|(
),|()|(),|(
Model BIR
• Ponieważ xi jest równe albo 0 albo 1:
n
i i
i
qNRxP
qRxPqRSdqRS
1 ),|(
),|()|(),|(
01 ),|0(
),|0(
),|1(
),|1()|(),|(
ii x i
i
x i
i
qNRxP
qRxP
qNRxP
qRxPqRSdqRS
);,|1( qRxPp ii
);,|1( qNRxPr ii
• Oznaczmy przez:
• Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri.
01 1
1)|(),|(
ii x i
i
x i
i
r
p
r
pqRSdqRS
Model BIR
• Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri.
• Wówczas dla wszystkich termów nie występujących w zapytaniu (qi = 0) pi / ri = 1.
101
01
1
1)|(
1
1)|(),|(
i
iii
ii
qx i
i
qx i
i
x i
i
x i
i
r
p
r
pqRS
r
p
r
pqRSdqRS
Model BIR
Wszystkie termy dopasowane Nie dopasowane
termy zapytania
Wszystkie termy dopasowane
Wszystkie termy zapytania
11
1101
101
1
1
)1(
)1()|(
1
1
1
1
1
1)|(
1
1)|(),|(
iii
ii
i
iii
i
iii
q i
i
qx ii
ii
qx i
i
i
i
qx i
i
qx i
i
qx i
i
qx i
i
r
p
pr
rpqRS
r
p
p
r
r
p
r
pqRS
r
p
r
pqRSxqRS
Model BIR
Stałe dla zapytania
Jedyny element, który musi być obliczony do rankingu
11 1
1
)1(
)1()|(),|(
iii q i
i
qx ii
ii
r
p
pr
rpqRSxqRS
• Retrieval Status Value:
11 )1(
)1(log
)1(
)1(log
iiii qx ii
ii
qx ii
ii
pr
rp
pr
rpRSV
Model BIR
• Pomimo, że formuła wyszukiwania probabilistycznego wygląda w sposób złożony, widzimy, że jest to w zasadzie wariant modelu wektorowego, wykorzystujący nieco inną formułę obliczania wag termów niż tf*idf.
• Problemem podstawowym oczywiście jest oszacowanie współczynników ci, niezbędnych do wyznaczenia RSV dokumentu.
ii
iii
ii
qx ii
ii qxpr
rp
pr
rpRSV
ii
)1(
)1(log
)1(
)1(log
1
)1(
)1(log ,
ii
iii
iiii pr
rpcqxcRSV
Model BIR• Załóżmy, że mamy pewien zbiór treningowy zapytań z informacją o
relewancji dokumentów, które powinny zostać wyszukane w odpowiedzi na te zapytania.
• W takiej sytuacji możemy wyznaczyć współczynniki ci, z następującej tabeli, sporządzanej dla każdego termu i (Robertson i Sparck Jones).
Documens Relevant Non-Relevant Total
Xi=1 s n-s n
Xi=0 S-s N-n-S+s N-n
Total S N-S N
)()(
)(log
)1(
)1(log
)1(
)1(log
sSnNsn
sSs
Ss
SNsn
SNsn
Ss
pr
rpc
ii
iii
S
spi
)(
)(
SN
snri
• Oszacowania:
Model BIR• Niestety, w praktyce rzadko dysponujemy danymi dotyczącymi
relewancji.– Wyjątkiem jest interaktywna metoda modyfikacji zapytania, z
wykorzystaniem tzw. sprzężenia relewancji. O sprzężeniu relewancji mówić będziemy na jednym z kolejnych wykładów.
• Współczynniki ci oszacowane muszą być wówczas wyłącznie na podstawie statystyk występowania termów w kolekcji dokumentów.
• Zazwyczaj liczba dokumentów nierelewantnych w kolekcji jest dużo większa niż relewantnych. – Dla dużych wartości N, prawdopodobieństwo wystąpienia termu w
dokumentach nierelewantnych może więc być szacowane przez n/N. (czyli przy założeniu, że wszystkie dokumenty są nierelewantne).
– Wówczas mamy: log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF!
• Musimy więc obliczyć wyłącznie prawdopodobieństwo wystąpienia termu w dokumentach relewantnych pi.
• Klasyczna metoda polega na użyciu iteracyjnej formuły, wyznaczającej wartość pi rekurencyjnie.
Model BIR1. Wstępnie inicjujemy pi jako stałe dla każdego xi w zapytaniu.
– Ponieważ nie mamy żadnych informacji wstępnych, przyjmujemy wszystkie pi = 0.5. Jak już wcześniej wspomnieliśmy przyjmujemy również ri = n/N.
2. Określamy przybliżenie zbioru dokumentów relewantnych.– Wybieramy |V| dokumentów o najwyższym RSV wyznaczonym dla
danych pi i ri.
– Niech Vi będzie wśród nich zbiorem dokumentów zawierających term xi.
3. Obliczamy kolejne przybliżenia pi i ri.
– pi = | Xi | / |V|.
– ri = (n - |Vi |) / (N-|V|)
4. Punkty 2 i 3 powtarzamy, aż do osiągnięcia zbieżności.