WEDT Klasyfikacja dokumentów
description
Transcript of WEDT Klasyfikacja dokumentów
WUTTWG
2005
Grupowanie (clustering)
WUTTWG
2005
Klasa A
Klasa B
Klasa C
Klasyfikacja (categorization)
WUTTWG
2005
DB
dr
dsdr – dokumenty relewantneds – dokumenty uznane przez system za relewantne
DB – baza dokumentów
ds
drdsPR
dr
drdsR
DB
drdsDBdrdsA
drDB
drdsFO
Ocena efektywności algorytmów kategoryzacji
PR – precision, R – recall, A – accuracy, FO – fallout
kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR)
WUTTWG
2005
1),(0;),(
gfPRbaba
agfPR1),(0;),(
gfRca
ca
agfR
dcba
dagfA
),(1),(0;),(
gfFOdbdb
bgfFO
RPR
F1
)1(1
1
Kategoryzacja binarna
•Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. •Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym.•Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. •Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.
WUTTWG
2005
l
PRgfPR
l
ii
ma
1),(
Rozszerzenie dla wielu klas
Mk
M={M1, M2,...,Ml}
Makro-uśrednianie Mikro-uśrednianie
PR={PR1, PR2, ..., PRl}
WUTTWG
2005Przykład oceny
Wyniki działania czterech systemów kategoryzacji:
Ocena systemów według przedstawionych wskaźników:
WUTTWG
2005
Zliczanie słów
Zliczanie sekwencji słów
Rozkłady prawdopodobieństwa wyst. słów
Reprezentacje dokumentów
• reprezentacje unigramowe (bag-of-words)• binarne• częstościowe
•reprezentacja n-gramowe• reprezentacje mieszane (Katz backoff style)
•reprezentacje pozycyjne
w istocie są niemal tożsame z modelami języka
WUTTWG
2005
.0
,;1
wpw
VvvwjgdyR iij
i
Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:
n
j
iiji wpw
VvvwgdyR
1 .0
,1
Reprezentacje unigramowe
Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że:
WUTTWG
2005
• n-gramowe• mieszane
no
j
ynjxnjjjyx wpw
vwrwwwgdyM
1
11, .0
),...,,(1
Reprezentacje bazujące na modelu Markowa
„I would like to make phone...”
Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wo, zm). Reprezentacją n-gramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V3) elementy macierzy przyjmują wartości:
WUTTWG
2005
Budowanie reprezentacji n-gramowej
Przykład – bigram dla tekstu:
Twas brillig, and the slithy tovesDid gyre and gimble in the wabe
WUTTWG
2005
0
5000
10000
15000
20000
25000
30000
35000
0 10 20 30 40 50 60
Posit
ion
Occurence
AnyDumpty
Reprezentacja pozycyjna
WUTTWG
2005
i
rk
rkj
iij
v
wpw
Vvvwgdy
kfi
.0
,1
)(
11
n
vif
2r
Wystąpienia słów
f(k)=2 (przed norm.)k
Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach:1) dziedziną funkcji fVi jest zbiór {1...n}2) wartości funkcji fVi określone są następująco:
Budowanie reprezentacji pozycyjnej
WUTTWG
2005
0
5e-005
0.0001
0.00015
0.0002
0.00025
f any
any
r=500r=5000
0
5e-005
0.0001
0.00015
0.0002
0.00025
0.0003
0.00035
0.0004
f d
um
pty
dumpty
r=500r=5000
Prz
ykła
dy f
un
kcji g
ęsto
ści
WUTTWG
2005
• Powiększanie rozmiaru reprezentacji
• Różne metody wygładzania
• Ograniczanie rozmiaru reprezentacji
• Funkcje istotności atrybutów
• Wybór atrybutów
• Przekształcanie przestrzeni atrybutów
Przetwarzanie reprezentacji dokumentów
WUTTWG
2005
1
10
100
1000
10000
0 500 1000 1500 2000 2500 3000 3500
Fre
quency
Word ID
Prawo Zipfa
Po co ograniczać rozmiar reprezentacji?
„Hapax legomena”
WUTTWG
2005
Attribute selection
WUTDMGNOV 2001
Statistical tests can be also applied to check if a feature – class correlation exists
AA A C
C A
B C B
C B
Class 1 and A – significantClass 2 and B – significant
C – not important for class separation problem
WUTTWG
2005
)log()log(1),(i
ijjilln df
Ntfdw
00)log(1)log()log(1),( ijijjilln tfN
Ntfdw
)log()log()log()log(1),( ijijjilln tfNNtfdw
Ograniczanie wielkości reprezentacji„Uniwersalne” funkcje istotności atrybutów
Funkcje istotności atrybutów – rodzina TF/IDF
term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie djdocument frequency dfi – określa liczbę dokumentów w których występuje atrybut wiN – określa liczbę wszystkich dokumentów w systemie
Atrybut w jednym dokumencie
Atrybut we wszystkich dokumentach
Funkcje istotności atrybutów - analiza funkcji gęstości
Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.
WUTTWG
2005
Korelacja atrybut-klasaTesty statystyczne mogą być zastosowane
AA A C
C A
B C B
C B
Klasa 1 i A – istotnyKlasa 2 i B – istotny
C – nieistotny dla separacji klas
WUTTWG
2005
)|(log)|()(
)|(log)|()()(log)()(
1
11
ij
l
j iji
ij
l
j iji
l
j jji
wkPwkPwP
wkPwkPwPkPkPwIG
Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego
Funkcje istotności atrybutów – Information Gain
WUTTWG
2005
Grupowanie atrybutów
Przekształcanie przestrzeni atrybutów
Grupowanie wg zależności atrybut-klasa
Grupowanie semantyczne
Bezpośrednia analiza macierzy reprezentacji
(SVD)
Grupowanie wg podobieństwa
funkcji gęstości
Przekształcanie przestrzeni atrybutów
WUTTWG
2005
XEROX Web Categorisation• topologia• metadane• podobieństwo tekstów
(klasyczny model dokumentów)• częstość odwiedzin
Przykład:
Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów
Kategoryzacja dokumentów o bogatej strukturze
Tekst Elementy medialne
(obraz, dźwięk itp.)
Osadzone aplikacje
Kroje pisma
Hiperpołączenia z innymi dokumentami
Układ stron i paginacja
Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index - + 0.67Source Index - + + 0.53Reference + - - - 0.64Destination + - - - - 0.53Head + + + + 0.70Org. Home Page + + + + 0.30Personal Home >1k&<3k - - 0.51Content + - - 0.99
WUTTWG
2005Kategoryzacja oparta o formatowanie dokumentów
WUTTWG
2005
Klasyfikacja - przykład
Słownik bunga-unga• bunga• unga
bungaungaBunga bunga bungaUnga unga ungaBunga unga bunga
11
UngaBunga
Binary unigram
12
UngaBunga
Multivariate unigram
WUTTWG
2005
Przestrzeń
Unga
Bunga
0 1 2
0
1
2
Bunga unga bunga
WUTTWG
2005
Drzewo decycyjne - uczenie
Unga
Bunga
0 1 2
0
1
2
Unga > 0Unga 0
Bunga < 2 Bunga 2
Bunga 0
Bunga > 0
Unga 1 Unga > 1
WUTTWG
2005Kategoryzacja nowego dokumentu
Unga > 0Unga 0
Bunga < 2 Bunga 2
Bunga 0
Bunga > 0
Unga 1 Unga > 1
Bunga unga bunga
Bunga unga bunga
WUTTWG
2005
Zastosowania
• Klasyczne
• Analiza wiadomości email (spam, routing etc.)
• Event tracking
• Internet related
• Web Content Mining, Web Farming
• Focused crawling, assisted browsing itd.
WUTDMGNOV 2001