WEDT Klasyfikacja dokumentów

WUTTWG

Klasyfikacja dokumentów

Wykład 8

Piotr Gawrysiakpgawrysiak@supermedia.pl

WUTTWG

Grupowanie (clustering)

WUTTWG

Klasa A

Klasa B

Klasa C

Klasyfikacja (categorization)

WUTTWG

dsdr – dokumenty relewantneds – dokumenty uznane przez system za relewantne

DB – baza dokumentów

drdsPR

drdsDBdrdsA

drdsFO

Ocena efektywności algorytmów kategoryzacji

PR – precision, R – recall, A – accuracy, FO – fallout

kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR)

WUTTWG

1),(0;),(

gfPRbaba

agfPR1),(0;),(

),(1),(0;),(

gfFOdbdb

Kategoryzacja binarna

•Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. •Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym.•Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. •Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.

WUTTWG

PRgfPR

Rozszerzenie dla wielu klas

M={M1, M2,...,Ml}

Makro-uśrednianie Mikro-uśrednianie

PR={PR1, PR2, ..., PRl}

WUTTWG

2005Przykład oceny

Wyniki działania czterech systemów kategoryzacji:

Ocena systemów według przedstawionych wskaźników:

WUTTWG

Zliczanie słów

Zliczanie sekwencji słów

Rozkłady prawdopodobieństwa wyst. słów

Reprezentacje dokumentów

• reprezentacje unigramowe (bag-of-words)• binarne• częstościowe

•reprezentacja n-gramowe• reprezentacje mieszane (Katz backoff style)

•reprezentacje pozycyjne

w istocie są niemal tożsame z modelami języka

WUTTWG

VvvwjgdyR iij

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:

iiji wpw

VvvwgdyR

Reprezentacje unigramowe

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że:

WUTTWG

• n-gramowe• mieszane

ynjxnjjjyx wpw

vwrwwwgdyM

11, .0

),...,,(1

Reprezentacje bazujące na modelu Markowa

„I would like to make phone...”

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wo, zm). Reprezentacją n-gramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V3) elementy macierzy przyjmują wartości:

WUTTWG

Budowanie reprezentacji n-gramowej

Przykład – bigram dla tekstu:

Twas brillig, and the slithy tovesDid gyre and gimble in the wabe

WUTTWG

0 10 20 30 40 50 60

Occurence

AnyDumpty

Reprezentacja pozycyjna

WUTTWG

Vvvwgdy

Wystąpienia słów

f(k)=2 (przed norm.)k

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach:1) dziedziną funkcji fVi jest zbiór {1...n}2) wartości funkcji fVi określone są następująco:

Budowanie reprezentacji pozycyjnej

WUTTWG

5e-005

0.0001

0.00015

0.0002

0.00025

r=500r=5000

5e-005

0.0001

0.00015

0.0002

0.00025

0.0003

0.00035

0.0004

dumpty

r=500r=5000

kcji g

WUTTWG

• Powiększanie rozmiaru reprezentacji

• Różne metody wygładzania

• Ograniczanie rozmiaru reprezentacji

• Funkcje istotności atrybutów

• Wybór atrybutów

• Przekształcanie przestrzeni atrybutów

Przetwarzanie reprezentacji dokumentów

WUTTWG

0 500 1000 1500 2000 2500 3000 3500

quency

Word ID

Prawo Zipfa

Po co ograniczać rozmiar reprezentacji?

„Hapax legomena”

WUTTWG

Attribute selection

WUTDMGNOV 2001

Statistical tests can be also applied to check if a feature – class correlation exists

AA A C

Class 1 and A – significantClass 2 and B – significant

C – not important for class separation problem

WUTTWG

)log()log(1),(i

ijjilln df

00)log(1)log()log(1),( ijijjilln tfN

)log()log()log()log(1),( ijijjilln tfNNtfdw

Ograniczanie wielkości reprezentacji„Uniwersalne” funkcje istotności atrybutów

Funkcje istotności atrybutów – rodzina TF/IDF

term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie djdocument frequency dfi – określa liczbę dokumentów w których występuje atrybut wiN – określa liczbę wszystkich dokumentów w systemie

Atrybut w jednym dokumencie

Atrybut we wszystkich dokumentach

Funkcje istotności atrybutów - analiza funkcji gęstości

Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.

WUTTWG

Korelacja atrybut-klasaTesty statystyczne mogą być zastosowane

AA A C

Klasa 1 i A – istotnyKlasa 2 i B – istotny

C – nieistotny dla separacji klas

WUTTWG

)|(log)|()(

)|(log)|()()(log)()(

wkPwkPwP

wkPwkPwPkPkPwIG

Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego

Funkcje istotności atrybutów – Information Gain

WUTTWG

Grupowanie atrybutów

Przekształcanie przestrzeni atrybutów

Grupowanie wg zależności atrybut-klasa

Grupowanie semantyczne

Bezpośrednia analiza macierzy reprezentacji

Grupowanie wg podobieństwa

funkcji gęstości

Przekształcanie przestrzeni atrybutów

WUTTWG

XEROX Web Categorisation• topologia• metadane• podobieństwo tekstów

(klasyczny model dokumentów)• częstość odwiedzin

Przykład:

Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów

Kategoryzacja dokumentów o bogatej strukturze

Tekst Elementy medialne

(obraz, dźwięk itp.)

Osadzone aplikacje

Kroje pisma

Hiperpołączenia z innymi dokumentami

Układ stron i paginacja

Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index - + 0.67Source Index - + + 0.53Reference + - - - 0.64Destination + - - - - 0.53Head + + + + 0.70Org. Home Page + + + + 0.30Personal Home >1k&<3k - - 0.51Content + - - 0.99

WUTTWG

2005Kategoryzacja oparta o formatowanie dokumentów

WUTTWG

Klasyfikacja - przykład

Słownik bunga-unga• bunga• unga

bungaungaBunga bunga bungaUnga unga ungaBunga unga bunga

UngaBunga

Binary unigram

UngaBunga

Multivariate unigram

WUTTWG

Przestrzeń

Bunga unga bunga

WUTTWG

Drzewo decycyjne - uczenie

Unga > 0Unga 0

Bunga < 2 Bunga 2

Bunga 0

Bunga > 0

Unga 1 Unga > 1

WUTTWG

2005Kategoryzacja nowego dokumentu

Unga > 0Unga 0

Bunga < 2 Bunga 2

Bunga 0

Bunga > 0

Unga 1 Unga > 1

Bunga unga bunga

WUTTWG

Zastosowania

• Klasyczne

• Analiza wiadomości email (spam, routing etc.)

• Event tracking

• Internet related

• Web Content Mining, Web Farming

• Focused crawling, assisted browsing itd.

WUTDMGNOV 2001

WEDT Klasyfikacja dokumentów

Documents

Transcript of WEDT Klasyfikacja dokumentów

Klasyfikacja czworokątów

POWIĄZANIA DOKUMENTÓW

Klasyfikacja gleboznawcza

Podręcznik użytkownika Obieg dokumentów · 2017. 12. 12. · System elektronicznego obiegu dokumentów ChiliWorkflow udostępnia moduł Obieg dokumentów wykorzystywany do: wykonywania

Klasyfikacja Generalna Podkarpackiej Ligi …mosir.dukla.pl/wp-content/uploads/Klasyfikacja-punktowa...Klasyfikacja Generalna Podkarpackiej Ligi Rowerowej 2019 Dziewczynki 1-6 lat

KLASYFIKACJA ZWIAZK.W NIEORGANICZNYCH

Klasyfikacja systemów

KLASYFIKACJA ŚRÓDROCZNA LO

Klasyfikacja procesów

ARCHIWIZACJA DOKUMENTÓW · 2020. 3. 21. · Część z nich ma znaczenie archiwalne, np. ... Rozdział 2 Organizacja i zadania archiwum zakładowego ... o klasyfikacja - podział

Potwierdzenie przekazania dokumentów

Klasyfikacja upośledzenia umysłowego

Klasyfikacja dochodów,wydatków,przychodów i rozchodó · 1 Klasyfikacja dochodów,wydatków,przychodów i rozchodów oraz środków pochodzących ze źródeł zagranicznych1 KLASYFIKACJA

WEDT Lingwistyka

System obiegu dokumentów

Klasyfikacja PKWiU 2004

Klasyfikacja związków nieorganicznych

Definiowanie typów dokumentów

MIĘDZYNARODOWA KLASYFIKACJA PATENTOWA

Klasyfikacja Generalna Podkarpackiej Ligi Rowerowejmosir.dukla.pl/wp-content/uploads/Klasyfikacja-punktowa...Klasyfikacja Generalna Podkarpackiej Ligi Rowerowej Dziewczynki 1-6 lat