Wiktor Dernowicz Uniwersytet Jagielloński Kraków
description
Transcript of Wiktor Dernowicz Uniwersytet Jagielloński Kraków
Wiktor Dernowicz
Uniwersytet Jagielloński
Kraków
Automatyczne pozyskiwanie relacji semantycznych z tekstu
Motywacje
PJN to w dużej mierze przetwarzanie znaczeń Obecnie nie istnieje jeszcze słownik
semantyczny języka polskiego, który by to umożliwiał
Stąd duża potrzeba stworzenia takie słownika Tworzenie takiego słownika jest czasochłonne
i drogie Częściowa automatyzacja tego procesu jest
kluczowa
Przedstawię próbę rozwiązanie tego problemu
Czym jest słownik semantyczny
Słownik semantyczny definiuje znaczenia poprzez relacje semantyczne takie jak: synonimity, similarity, is a kind of itd. Poniżej jest częściowy opis pojęcia pies:
SYNONIMY: Canis familiaris
SIMILAR TO: wilk
IS A KIND OF: ssak
CONSISTS OF: ogon, pazur, sierść
Pytanie na które szukam odpowiedzi Czy możliwe jest automatyczne
pozyskiwanie relacji semantycznych z korpusu tekstów
Jeśli „tak”, jakiej jakości wyników powinienem oczekiwać
Czy może mieć to znaczący wkład w proces tworzenia słownika semantycznego
Eksperyment
Zbudowałem pewien system, dałem mu do poczytania trochę książek oraz gazet i jeszcze pozwoliłem trochę poserfować po internecie
Następnie zadałem mu pytanie dotyczące relacji semantyczne część-całość: „Jakie są części ciała kota, pataka, słonia, krowy, jeża itd.?”
I zobaczyłem jaki był rezultat.
Metoda podstawowa
Wejście: Informacja o świecie – korpus tekstów Przykład czego ja szukam – cztery
predefiniowane nazwy zwierząt: pies, koń, ryba i pająk oraz listy części ich części ciała. To jest podane jako wzór
Nazwy innych zwierząt, dla któych chcę, aby system znalazł nazwych ich części ciała – kot, ptak, słoń, krowa, jeż
Dwie wartości liczbowe (progi)
Metoda podstawowaWyjście:
kot oko OK.kot ogon OK.kot ucho OK.jeż kolec OK.ptak gniazdokot pazur OK.słoń noga OK.krowa róg OK.ptak dziób OK.ptak skrzydło OK.kot głowa OK.kot domkot problem
Jak ten system działa?
pies – oko ta para jest wzięta z wzorca danego na wejściu
Gdzie ten pies ma oczy? – znalezione zdanie
X ma Y – wyodrębniona fraza
pies – ogon Pies powitał go machnięciem ogona. X powitał go machnięciem Y
Ocena fraz Mój pies ma problem. pies – problem takiej pary nie ma we wzorcu, stąd minus (-)
Taki koń ma skórę różowawą. koń – skóra taka para faktycznie znajduje się we wzorcu, stąd plus
(+)
Ta fraza otrzymała: 30 plusów 164 minusy
Czyli jest 15,4% plusów – a to jest więcej niż pierwszy próg (5%) Jest 16 różnych plusów, 16 różnych par takich jak koń-skóra, a to jest
więcej niż drugi próg (2 dwie różne poprawne pary) Stąd fraza ta jest zaakceptowana
Ocena fraz
X przywitał go machnięciem Y Powyższa fraza otrzymała 1 plus i 0
minusów. Jest 100% plusów, ale tylko 1 różny plus
– a to jest poniżej drugiego progu (2), dlatego system „mówi”, że ta fraza nie jest dobra i pomija ją.
Cześć zaakceptowanych fraz
Fraza Minusy Plusy Różne plusy
X z Y 449 40 15
Y u X 104 27 18
X po Y 103 34 14
X ma Y 164 30 16
Y tych X 166 14 9
Y ma X 53 11 5
X bez Y 72 17 5
X za Y 97 14 7
Uzyskane rezultaty
ZwierzęOdnaleziona część ciała
Odnaleziona przez N
różnych frazkot oko 6 OK.kot ogon 5 OK.kot ucho 5 OK.jeż kolec 4 OK.ptak gniazdo 4kot pazur 4 OK.słoń noga 3 OK.krowa róg 3 OK.ptak dziób 3 OK.ptak skrzydło 3 OK.kot głowa 3 OK.kot dom 3kot problem 3
Teraz i w przyszłości
Odnalazłem system WEKA z nowej Zelandii, który implementuje wiele algorytmów „Machine Learning”, jest on dostępny, darmowy i działa. Chciałbym zastosować część z tych algorytmów.
Chciałbym się dowiedzieć jakie są obecne osiągnięcia „Machine Learning” i być może zastosować dostępne rozwiązania.
Mam także swoje własne pomysły na to by usprawnić ten podstawowy algorytm.
Dziękuję bardzo za państwa uwagę!
Będę zobowiązany za wszelkie uwagi.