Wiktor Dernowicz Uniwersytet Jagielloński Kraków

15
Wiktor Dernowicz Uniwersytet Jagielloński Kraków Automatyczne pozyskiwanie relacji semantycznych z tekstu

description

Automatyczne pozyskiwanie relacji semantycznych z tekstu. Wiktor Dernowicz Uniwersytet Jagielloński Kraków. Motywacje. PJN to w dużej mierze przetwarzanie znaczeń Obecnie nie istnieje jeszcze słownik semantyczny języka polskiego, który by to umożliwiał - PowerPoint PPT Presentation

Transcript of Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Page 1: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Wiktor Dernowicz

Uniwersytet Jagielloński

Kraków

Automatyczne pozyskiwanie relacji semantycznych z tekstu

Page 2: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Motywacje

PJN to w dużej mierze przetwarzanie znaczeń Obecnie nie istnieje jeszcze słownik

semantyczny języka polskiego, który by to umożliwiał

Stąd duża potrzeba stworzenia takie słownika Tworzenie takiego słownika jest czasochłonne

i drogie Częściowa automatyzacja tego procesu jest

kluczowa

Page 3: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Przedstawię próbę rozwiązanie tego problemu

Page 4: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Czym jest słownik semantyczny

Słownik semantyczny definiuje znaczenia poprzez relacje semantyczne takie jak: synonimity, similarity, is a kind of itd. Poniżej jest częściowy opis pojęcia pies:

SYNONIMY: Canis familiaris

SIMILAR TO: wilk

IS A KIND OF: ssak

CONSISTS OF: ogon, pazur, sierść

Page 5: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Pytanie na które szukam odpowiedzi Czy możliwe jest automatyczne

pozyskiwanie relacji semantycznych z korpusu tekstów

Jeśli „tak”, jakiej jakości wyników powinienem oczekiwać

Czy może mieć to znaczący wkład w proces tworzenia słownika semantycznego

Page 6: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Eksperyment

Zbudowałem pewien system, dałem mu do poczytania trochę książek oraz gazet i jeszcze pozwoliłem trochę poserfować po internecie

Następnie zadałem mu pytanie dotyczące relacji semantyczne część-całość: „Jakie są części ciała kota, pataka, słonia, krowy, jeża itd.?”

I zobaczyłem jaki był rezultat.

Page 7: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Metoda podstawowa

Wejście: Informacja o świecie – korpus tekstów Przykład czego ja szukam – cztery

predefiniowane nazwy zwierząt: pies, koń, ryba i pająk oraz listy części ich części ciała. To jest podane jako wzór

Nazwy innych zwierząt, dla któych chcę, aby system znalazł nazwych ich części ciała – kot, ptak, słoń, krowa, jeż

Dwie wartości liczbowe (progi)

Page 8: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Metoda podstawowaWyjście:

kot oko OK.kot ogon OK.kot ucho OK.jeż kolec OK.ptak gniazdokot pazur OK.słoń noga OK.krowa róg OK.ptak dziób OK.ptak skrzydło OK.kot głowa OK.kot domkot problem

Page 9: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Jak ten system działa?

pies – oko ta para jest wzięta z wzorca danego na wejściu

Gdzie ten pies ma oczy? – znalezione zdanie

X ma Y – wyodrębniona fraza

pies – ogon Pies powitał go machnięciem ogona. X powitał go machnięciem Y

Page 10: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Ocena fraz Mój pies ma problem. pies – problem takiej pary nie ma we wzorcu, stąd minus (-)

Taki koń ma skórę różowawą. koń – skóra taka para faktycznie znajduje się we wzorcu, stąd plus

(+)

Ta fraza otrzymała: 30 plusów 164 minusy

Czyli jest 15,4% plusów – a to jest więcej niż pierwszy próg (5%) Jest 16 różnych plusów, 16 różnych par takich jak koń-skóra, a to jest

więcej niż drugi próg (2 dwie różne poprawne pary) Stąd fraza ta jest zaakceptowana

Page 11: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Ocena fraz

X przywitał go machnięciem Y Powyższa fraza otrzymała 1 plus i 0

minusów. Jest 100% plusów, ale tylko 1 różny plus

– a to jest poniżej drugiego progu (2), dlatego system „mówi”, że ta fraza nie jest dobra i pomija ją.

Page 12: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Cześć zaakceptowanych fraz

Fraza Minusy Plusy Różne plusy

X z Y 449 40 15

Y u X 104 27 18

X po Y 103 34 14

X ma Y 164 30 16

Y tych X 166 14 9

Y ma X 53 11 5

X bez Y 72 17 5

X za Y 97 14 7

Page 13: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Uzyskane rezultaty

ZwierzęOdnaleziona część ciała

Odnaleziona przez N

różnych frazkot oko 6 OK.kot ogon 5 OK.kot ucho 5 OK.jeż kolec 4 OK.ptak gniazdo 4kot pazur 4 OK.słoń noga 3 OK.krowa róg 3 OK.ptak dziób 3 OK.ptak skrzydło 3 OK.kot głowa 3 OK.kot dom 3kot problem 3

Page 14: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Teraz i w przyszłości

Odnalazłem system WEKA z nowej Zelandii, który implementuje wiele algorytmów „Machine Learning”, jest on dostępny, darmowy i działa. Chciałbym zastosować część z tych algorytmów.

Chciałbym się dowiedzieć jakie są obecne osiągnięcia „Machine Learning” i być może zastosować dostępne rozwiązania.

Mam także swoje własne pomysły na to by usprawnić ten podstawowy algorytm.

Page 15: Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Dziękuję bardzo za państwa uwagę!

Będę zobowiązany za wszelkie uwagi.