Narzędzia do ekstrakcji informacji z tekstu - Clarin...
Transcript of Narzędzia do ekstrakcji informacji z tekstu - Clarin...
CLARIN-PL
Narzędzia do ekstrakcj i informacji z tekstu
Michał MarcińczukJan Kocoń
Poli technika WrocławskaKatedra Intel igencj i Obl iczeniowej
Grupa Naukowa G4.19michal [email protected]
[email protected] i technika Wrocławska, 2016-04-26
2
Agenda
Część I
Rozpoznawanie wyrażeń przestrzennych
(Spatia lPL)
Część I I
Wykrywanie czasowników z podmiotem domyślnym
(Minos)
Część II I
Rozpoznawaniewyznaczników sytuacj i
(EventsPL)
3
Agenda
Część I
Rozpoznawanie wyrażeń przestrzennych
(Spatia lPL)
Część I I
Wykrywanie czasowników z podmiotem domyślnym
(Minos)
Część II I
Rozpoznawaniewyznaczników sytuacj i
(EventsPL)
4
I . SpatialPL » Czym są wyrażenia przestrzenne?
Wyrażenie przestrzenne – wyrażenie językowe, które opisuje względne położenie dwóch obiektów fizycznych względem siebie, np. „książka na stole" – obiekt książka znajduje się na powierzchni obiektu stół.
Przykłady z korpusu KPWr:
● kompleks handlowo-kulturowy w mieście Toronto● 6 odpoczywających krów z brązu na którym (koreferencja do „dziedziniec”)● wielkie krzesło pomiędzy budynkami
5
I . SpatialPL » Wytyczne
● Wytyczne zostały opracowane w oparciu o Spatial Role Labeling (SemEval-2013 Task 3) https://www.cs.york.ac.uk/semeval-2013/task3/
● Wytyczne dla j. angielskiego wyróżniają następujące elementy:• Trajector (TR) – obiekt lokalizowany• Landmark (LM) – lokalizator• Spatial Indicator (SI) – przyimek lokatywny• Region (RE) – obszar/fragment lokalizatora• Motion Indicator• Path• Direction• Distance
CLARIN-PL
planowane wCLARIN-PL 2
[Restauracja]TR
[na]SI [końcu]
RE [ul. Wita Stwosza]
LM
6
I . SpatialPL » Realizacja
Tekst
Przetwarzaniewstępne
Generowaniekandydatów
Filtrowaniesemantyczne
WCRFT Liner2 Spejd Iobber MaltParser
Zbiór wyrażeńprzestrzennych
Schematysemantyczne
Słowosieć SUMOSerdel
mapowanie s łów na ontologię SUMO
Mapowanie kategorii jednostek
na Słowosieć i SUMO
Wzorce
WoSeDon
Podejście regułowe wykorzystujące różne źródła wiedzy
7
I . SpatialPL » Wzorce i schematy
Wzorce sekwencyjne i zależnościowe:● wewnątrz pojedynczej frazy rzeczownikowej (NP)
● NG + Prep + NG NG + …. + Prep + NG● NG + Ppas + Prep + NG NG + Pact + Prep + NG
● ścieżka w drzewie zależnościowym● NG -(obj) Verbfin (comp)- Prep (comp)- NG→ ← ←
Schematy semantyczne (121 schematów)Przyimek Na #1
Przypadek LM
miejscownik
OpisTR znajduje się na zewnątrz LM, zazwyczaj styka się z zewnętrzną granicą LM, wywierając nacisk swym ciężarem, LM znajduje się dalej od bieguna dodatniego osi wertykalnej niż TR
Przykład książka na stole
Klasa TR (SUMO)
Artifact, ContentBearingObject, Device, Animal, Plant, Pottery, Meat, PreparedFood, Chain
Klasa LM(SUMO)
Artifact, LandTransitway, BoardOrBlock, Boatdeck, Shipdeck, StationaryArtifact
8
I . SpatialPL » Korpus wzorcowy
Kategoria Uczący Pomocniczy Testowy Razem~50% ~25% ~25% 100%
KPWrDokumenty 768 384 384 1 526
Wyrażenia 1 033 608 527 2 168*
Zbiór dokumentów z KPWr oznaczony wyrażeniami przestrzennymi został podzielony na trzy części : Część ucząca (ok 50%) - analiza danych, definiowanie wzorców,
dostrajanie schematów semantycznych, Część pomocnicza (ok 25%) - dostrajanie parametrów, Część testowa (ok 25%) - ocena ostatecznego modelu.
* rzeczywista liczba wyrażeń jest wyższa, na tym etapie pomijamy wyrażenia, w których TR lub LM nie jest frazą nominalną (np. przyimki, podmiot zerowy).
Korpus 50 tekstów geograficznych z Wikipedi i (WGT) zawierający 484 wyrażenia przestrzenne (duże zagęszczenie wyrażeń - prawie 10 wyrażeń na dokument w porównaniu do 1,5 wyrażeń/dokument w KPWr) – użyty w początkowych pracach.
9
I . SpatialPL » Skuteczność działania
Filtrowanie Precyzja Kompletność Miara F
Nie 11,12% 44,58% 17,80%
Tak 66,67% 29,81% 41,20%
Skuteczność rozpoznawania wyrażeń przestrzennych na części testowej korpusu KPWr przed i po filtrowaniu semantycznym.
Dlaczego precyzja nie osiągnęła 100%?● propagacja błędów ze wstępnego przetwarzania (ok. 46% błędów),● brak uwzględnienia znaczenia czasowników podczas filtrowania (ok. 17%),● zbyt ogólne klasy SUMO w schematach semantycznych (ok. 13%),● wyrażenia dynamiczne (motion) (ok. 8%).
10
I . SpatialPL » Przykłady z książek T. Pratchetta
„[Na]SI
[końcu]RE
[Żadnejtakiej]LM
stała [szubienica]TR
, gdzie złoczyńców – a
przynajmniej ludzi uznanych za winnych czynienia zła – wieszano.”
„Będę na ciebie czekał w [komnacie]TR#1
[pod]SI#1
[dzwonnicą]LM#1,TR#2
[na]SI#2
[rogu]RE#2
[Alei Audytu]LM#2
”
„[Maleńkie państewka]TR
[w]SI
[tej części]RE
[Ramtopów]LM
były normalne.”
„(...) widywała [Hodgesaargha]TR
[na]SI
[skraju]RE
[lasu]LM
i na wrzosowiskach”
11
I . SpatialPL » IEViewer
http://inforex.clarin-pl.eu/ieviewer
12
Agenda
Część I
Rozpoznawanie wyrażeń przestrzennych
(Spatia lPL)
Część I I
Wykrywanie czasowników z podmiotem domyślnym
(Minos)
Część II I
Rozpoznawaniewyznaczników sytuacj i
(EventsPL)
13
I I . MINOS » Czasowniki z podmiotem domyślnym
Wykrycie czasowników z podmiotem domyślnym jest istotne w zadaniu rozwiązywania koreferencji – standardowo koreferencja rozwiązywana jest pomiędzy odniesieniami do obiektów, którego nie ma jawnie w tekście dla podmiotu zerowego.
● Jan Nowak mieszka we Wrocławiu. Jest on studentem PWr.● Jan Nowak mieszka we Wrocławiu. Od dwóch lat ∅ studiuje na PWr.
Przykłady z korpusu KPWr:
14
I I . MINOS » Metoda
MINOS - Mention IdentificatioN for Omitted Subjects (Kaczmarek i Marcińczuk, 2015)
Metoda regułowa łącząca następujące heurystyki:● filtrowanie czasowników:
● l ista czasowników bez podmiotu – na podstawie słownika ram walencyjnych (Hajnicz i inni),
● reguły, np. czasowniki w pierwszej i drugiej osobie niepoprzedzone zaimkiem osobowym
● sprawdzenie obecności podmiotu dla czasownika:● parser zależnościowy (MaltParser) (Wróblewska i Woliński, 2012)● relacje między frazami składniowymi (ChunkRel) (Radziszewski i Pawlaczek, 2012)● kontekstowe wyszukiwanie podmiotu
● weryfikacja podmiotu – sprawdzenie uzgodnienia między czasownikiem, a możliwym podmiotem wskazanym przez parser zależnościowy
15
I I . MINOS » Wyniki
Skuteczność rozpoznawania czasowników z podmiotem domyślnym:● PCC (Polish Coreference Corpus) (Ogrodniczuk i inni, 2013),● KPWr (Korpus Politechniki Wrocławskiej)● MentionDetector (Kopeć, 2014)
Czasowniki Narzędzie PCC (test) KPWr
Precyzja Kompletność Miara F Precyzja Kompletność Miara F
1,2,3 os. Minos 72,33% 84,69% 78,02% 82,25% 69,55% 75,48%
MentionDetector 71,79% 67,39% 69,60% 88,74% 53,77% 66,97%
3 os. Minos 55,47% 69,49% 61,69% 70,32% 50,87% 59,03%
MentionDetector 62,56% 33,62% 43,74% 78,51% 27,42% 40,65%
16
I I . MINOS » Wpływ na wyniki dla koreferencj i
Jakość rozpoznawania koreferencji między czasownikiem z podmiotem domyślnym a nazwami własnymi na korpusie KPWr dla narzędzia IKAR* (Broda, Burdka i Maziarz, 2012) przy użyciu metryki BLANC.
Precyzja Kompletność Miara F
Wszystkie czasowniki 11,93% 43,52% 18,72%
MINOS 61,37% 50,16% 55,20%
Wzorcowe 61,17% 59,29% 60,22%
* Oryginalna wersja narzędzia IKAR została rozszerzona o rozpoznawanie koreferencji dla czasowników z podmiotem domyślnym.
17
I I . MINOS » Demo
http://tools.clar in-pl.eu/inforex/index.php?page=ner
18
Agenda
Część I
Rozpoznawanie wyrażeń przestrzennych
(Spatia lPL)
Część I I
Wykrywanie czasowników z podmiotem domyślnym
(Minos)
Część II I
Rozpoznawaniewyznaczników sytuacj i
(EventsPL)
19
I . EventsPL » Czym są wyznaczniki sytuacj i?
Sytuacja – odzwierciedla zmianę stanu w rzeczywistości i w którą zaangażowane są określone byty. Przykładowo zdanie: „Jan Kowalski urodził się 3 czerwca 1947 roku w Krakowie” zawiera opis sytuacji przyjścia na świat osoby w określonym miejscu i czasie. (Marcińczuk i inni, 2015)
Wyznacznik sytuacji – inaczej opis sytuacj i lub językowy wykładnik sytuacji, formalna reprezentacja sytuacji, do której można odnieść się w tekście, fragment tekstu denotujący pewną sytuację.
Przykłady z korpusu KPWr:
20
I . EventsPL » Wytyczne
● Wytyczne zostały opracowane w oparciu o Temporal Annotation (SemEval-2013 Task 1) https://www.cs.york.ac.uk/semeval-2013/task1/
● Wytyczne wyróżniają następujące elementy:• Raportowanie – mówić, raportować, opowiadać, wyjaśniać, …• Percepcja – zobaczyć, patrzeć, spoglądać, słyszeć, ...• Aspektowość – rozpocząć, zaczynać, inicjować, …• Akcja intensjonalna – próbować, kazać, prosić, …• Stan intensjonalny – wierzyć, lękać (się), potrzebować, ...• Stan – spać, stać, istnieć, ...• Akcja – budować, tańczyć, skakać, biegać, …• Pomocniczy – przeprowadzić, dokonać, powodować, …• Relacje między jednostkami temporalnymi
O 9:00 Marysia wróciła do domu i zdjęła buty.
CLARIN-PL
planowane wCLARIN-PL 2
zawieranie następstwo
21
I . EventsPL » Anotacja – anal iza zgodności
Dwóch ekspertów (A,B), 100 losowych dokumentów z KPWr, miara pozytywnej specyficznej zgodności (PSA)
22
I . EventsPL » Przygotowanie modelu
● 540 anotowanych dokumentów dwukrotnie podzielony na zbiory:● pierwszy: uczący (50%), testowy (25%), pomocniczy (25%)● drugi: uczący1 (40%) uczący2 (40%), testowy2 (20%)
● Pierwszy podział: selekcja cech z pełnego zbioru cech dostępnych dla narzędzia Liner2 w celu uzyskania zestawu bazowego cech i ocena
● Drugi podział: tworzenie dziedzinowych cech słownikowych w oparciu o Słowosieć i ocena
● Hipoteza: Uogólnienie pewnych wyrazów (w tym przypadku opisów sytuacji) w podzbiorze dokumentów z korpusu umożliwia zlokalizowanie tych synsetów w Słowosieci, dla których możliwe jest odtworzenie słowników opisujących obserwowane zjawisko i ułatwia rozróżnienie pomiędzy kategoriami semantycznymi wyrazów (w naszym przypadku – kategoriami opisów sytuacji) dla innej części tego podzbioru.
23
I . EventsPL » Wyniki 1
Porównanie wyników (miara F) otrzymanych na dwóch częściach zbioru uczącego: cz1 oraz cz2. Te podzbiory były różnymi źródłami dla cech słownikowych, które razem z cechami bazowymi tworzą zestaw cech bazowe+słowniki . Wyniki są porównywane z otrzymanymi dla zestawu bazowego. Przeprowadzono dwa typy oceny: CV10 (10-krotna walidacja krzyżowa na części zbioru uczącego) oraz testowy2 (model uczony na części zbioru uczącego i testowany na zbiorze testowym2):
24
I . EventsPL » Wyniki 2
Miary P, R, F. Suma przykładów TP, FP i FN dla 10-krotnej walidacji krzyżowej na zbiorze uczący1 oraz uczący2. Ostatnia kolumna zawiera wartość zgodności PSA.
CLARIN-PL
Dziękuję bardzo za uwagę
26
Bibliografia
Broda, B., Burdka, L., Maziarz, M.: IKAR: An improved kit for anaphora resolution for Polish. In: Proceedings of COLING 2012: Demonstration Papers, Mumbai, India, The COLING 2012 Organizing Committee (December 2012) 25–32
Kaczmarek, A. & Marcińczuk, M (2015). Heuristic algorithm for zero subject detection in Polish. In Král, P. & Matoušek, V. (editors), Text, Speech, and Dialogue, 18th International Conference, TSD 2015, Pilsen,Czech Republic, September 14-17, 2015, Proceedings, pages 378-386. Springer International Publishing.
Kopeć, M.: Zero subject detection for Polish. In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, volume 2: Short Papers, Gothenburg, Sweden, Association for Computational Linguistics (2014) 221–225
Marcińczuk, M., Oleksy, M., Bernaś, T., Kocoń, J. & Wolski, M. (2015). Towards an event annotated corpus of Polish. Cognitive Studies | Études cognitives, (15), 253-267.
Ogrodniczuk, M., Głowińska, K., Kopeć, M., Savary, A., Zawisławska, M.: Polish Coreference Corpus. W: Proceedings of the 6th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics. 494–498
Wróblewska A., Woliński M. (2012). Preliminary Experiments in Polish Dependency Parsing, w: Bouvry P. et al. (Eds.): Security and Intelligent Information Systems International Joint Conferences, SIIS 2011, Warsaw, Poland, June 13-14, 2011, Revised Selected Papers, Lecture Notes in Computer Science, Vol. 7053, 2012, Springer, pp. 279-292