Narzędzia do ekstrakcji informacji z tekstu - Clarin...

CLARIN-PL

Narzędzia do ekstrakcj i informacji z tekstu

Michał MarcińczukJan Kocoń

Poli technika WrocławskaKatedra Intel igencj i Obl iczeniowej

Grupa Naukowa G4.19michal [email protected]

[email protected] i technika Wrocławska, 2016-04-26

2

Agenda

Część I

Rozpoznawanie wyrażeń przestrzennych

(Spatia lPL)

Część I I

Wykrywanie czasowników z podmiotem domyślnym

(Minos)

Część II I

Rozpoznawaniewyznaczników sytuacj i

(EventsPL)

3

Agenda

Część I


(Spatia lPL)

Część I I


(Minos)

Część II I


(EventsPL)

4

I . SpatialPL » Czym są wyrażenia przestrzenne?

Wyrażenie przestrzenne – wyrażenie językowe, które opisuje względne położenie dwóch obiektów fizycznych względem siebie, np. „książka na stole" – obiekt książka znajduje się na powierzchni obiektu stół.

Przykłady z korpusu KPWr:

● kompleks handlowo-kulturowy w mieście Toronto● 6 odpoczywających krów z brązu na którym (koreferencja do „dziedziniec”)● wielkie krzesło pomiędzy budynkami

5

I . SpatialPL » Wytyczne

● Wytyczne zostały opracowane w oparciu o Spatial Role Labeling (SemEval-2013 Task 3) https://www.cs.york.ac.uk/semeval-2013/task3/

● Wytyczne dla j. angielskiego wyróżniają następujące elementy:• Trajector (TR) – obiekt lokalizowany• Landmark (LM) – lokalizator• Spatial Indicator (SI) – przyimek lokatywny• Region (RE) – obszar/fragment lokalizatora• Motion Indicator• Path• Direction• Distance

CLARIN-PL

planowane wCLARIN-PL 2

[Restauracja]TR

[na]SI [końcu]

RE [ul. Wita Stwosza]

LM

https://www.cs.york.ac.uk/semeval-2013/task3/

6

I . SpatialPL » Realizacja

Tekst

Przetwarzaniewstępne

Generowaniekandydatów

Filtrowaniesemantyczne

WCRFT Liner2 Spejd Iobber MaltParser

Zbiór wyrażeńprzestrzennych

Schematysemantyczne

Słowosieć SUMOSerdel

mapowanie s łów na ontologię SUMO

Mapowanie kategorii jednostek

na Słowosieć i SUMO

Wzorce

WoSeDon

Podejście regułowe wykorzystujące różne źródła wiedzy

7

I . SpatialPL » Wzorce i schematy

Wzorce sekwencyjne i zależnościowe:● wewnątrz pojedynczej frazy rzeczownikowej (NP)

● NG + Prep + NG NG + …. + Prep + NG● NG + Ppas + Prep + NG NG + Pact + Prep + NG

● ścieżka w drzewie zależnościowym● NG -(obj) Verbfin (comp)- Prep (comp)- NG→ ← ←

Schematy semantyczne (121 schematów)Przyimek Na #1

Przypadek LM

miejscownik

OpisTR znajduje się na zewnątrz LM, zazwyczaj styka się z zewnętrzną granicą LM, wywierając nacisk swym ciężarem, LM znajduje się dalej od bieguna dodatniego osi wertykalnej niż TR

Przykład książka na stole

Klasa TR (SUMO)

Artifact, ContentBearingObject, Device, Animal, Plant, Pottery, Meat, PreparedFood, Chain

Klasa LM(SUMO)

Artifact, LandTransitway, BoardOrBlock, Boatdeck, Shipdeck, StationaryArtifact

8

I . SpatialPL » Korpus wzorcowy

Kategoria Uczący Pomocniczy Testowy Razem~50% ~25% ~25% 100%

KPWrDokumenty 768 384 384 1 526

Wyrażenia 1 033 608 527 2 168*

Zbiór dokumentów z KPWr oznaczony wyrażeniami przestrzennymi został podzielony na trzy części : Część ucząca (ok 50%) - analiza danych, definiowanie wzorców,

dostrajanie schematów semantycznych, Część pomocnicza (ok 25%) - dostrajanie parametrów, Część testowa (ok 25%) - ocena ostatecznego modelu.

* rzeczywista liczba wyrażeń jest wyższa, na tym etapie pomijamy wyrażenia, w których TR lub LM nie jest frazą nominalną (np. przyimki, podmiot zerowy).

Korpus 50 tekstów geograficznych z Wikipedi i (WGT) zawierający 484 wyrażenia przestrzenne (duże zagęszczenie wyrażeń - prawie 10 wyrażeń na dokument w porównaniu do 1,5 wyrażeń/dokument w KPWr) – użyty w początkowych pracach.

9

I . SpatialPL » Skuteczność działania

Filtrowanie Precyzja Kompletność Miara F

Nie 11,12% 44,58% 17,80%

Tak 66,67% 29,81% 41,20%

Skuteczność rozpoznawania wyrażeń przestrzennych na części testowej korpusu KPWr przed i po filtrowaniu semantycznym.

Dlaczego precyzja nie osiągnęła 100%?● propagacja błędów ze wstępnego przetwarzania (ok. 46% błędów),● brak uwzględnienia znaczenia czasowników podczas filtrowania (ok. 17%),● zbyt ogólne klasy SUMO w schematach semantycznych (ok. 13%),● wyrażenia dynamiczne (motion) (ok. 8%).

10

I . SpatialPL » Przykłady z książek T. Pratchetta

„[Na]SI

[końcu]RE

[Żadnejtakiej]LM

stała [szubienica]TR

, gdzie złoczyńców – a

przynajmniej ludzi uznanych za winnych czynienia zła – wieszano.”

„Będę na ciebie czekał w [komnacie]TR#1

[pod]SI#1

[dzwonnicą]LM#1,TR#2

[na]SI#2

[rogu]RE#2

[Alei Audytu]LM#2

”

„[Maleńkie państewka]TR

[w]SI

[tej części]RE

[Ramtopów]LM

były normalne.”

„(...) widywała [Hodgesaargha]TR

[na]SI

[skraju]RE

[lasu]LM

i na wrzosowiskach”

11

I . SpatialPL » IEViewer

http://inforex.clarin-pl.eu/ieviewer

http://inforex.clarin-pl.eu/ieviewer

12

Agenda

Część I


(Spatia lPL)

Część I I


(Minos)

Część II I


(EventsPL)

13

I I . MINOS » Czasowniki z podmiotem domyślnym

Wykrycie czasowników z podmiotem domyślnym jest istotne w zadaniu rozwiązywania koreferencji – standardowo koreferencja rozwiązywana jest pomiędzy odniesieniami do obiektów, którego nie ma jawnie w tekście dla podmiotu zerowego.

● Jan Nowak mieszka we Wrocławiu. Jest on studentem PWr.● Jan Nowak mieszka we Wrocławiu. Od dwóch lat ∅ studiuje na PWr.


14

I I . MINOS » Metoda

MINOS - Mention IdentificatioN for Omitted Subjects (Kaczmarek i Marcińczuk, 2015)

Metoda regułowa łącząca następujące heurystyki:● filtrowanie czasowników:

● l ista czasowników bez podmiotu – na podstawie słownika ram walencyjnych (Hajnicz i inni),

● reguły, np. czasowniki w pierwszej i drugiej osobie niepoprzedzone zaimkiem osobowym

● sprawdzenie obecności podmiotu dla czasownika:● parser zależnościowy (MaltParser) (Wróblewska i Woliński, 2012)● relacje między frazami składniowymi (ChunkRel) (Radziszewski i Pawlaczek, 2012)● kontekstowe wyszukiwanie podmiotu

● weryfikacja podmiotu – sprawdzenie uzgodnienia między czasownikiem, a możliwym podmiotem wskazanym przez parser zależnościowy

15

I I . MINOS » Wyniki

Skuteczność rozpoznawania czasowników z podmiotem domyślnym:● PCC (Polish Coreference Corpus) (Ogrodniczuk i inni, 2013),● KPWr (Korpus Politechniki Wrocławskiej)● MentionDetector (Kopeć, 2014)

Czasowniki Narzędzie PCC (test) KPWr

Precyzja Kompletność Miara F Precyzja Kompletność Miara F

1,2,3 os. Minos 72,33% 84,69% 78,02% 82,25% 69,55% 75,48%

MentionDetector 71,79% 67,39% 69,60% 88,74% 53,77% 66,97%

3 os. Minos 55,47% 69,49% 61,69% 70,32% 50,87% 59,03%

MentionDetector 62,56% 33,62% 43,74% 78,51% 27,42% 40,65%

16

I I . MINOS » Wpływ na wyniki dla koreferencj i

Jakość rozpoznawania koreferencji między czasownikiem z podmiotem domyślnym a nazwami własnymi na korpusie KPWr dla narzędzia IKAR* (Broda, Burdka i Maziarz, 2012) przy użyciu metryki BLANC.

Precyzja Kompletność Miara F

Wszystkie czasowniki 11,93% 43,52% 18,72%

MINOS 61,37% 50,16% 55,20%

Wzorcowe 61,17% 59,29% 60,22%

* Oryginalna wersja narzędzia IKAR została rozszerzona o rozpoznawanie koreferencji dla czasowników z podmiotem domyślnym.

17

I I . MINOS » Demo

http://tools.clar in-pl.eu/inforex/index.php?page=ner

http://tools.clarin-pl.eu/inforex/index.php?page=ner

18

Agenda

Część I


(Spatia lPL)

Część I I


(Minos)

Część II I


(EventsPL)

19

I . EventsPL » Czym są wyznaczniki sytuacj i?

Sytuacja – odzwierciedla zmianę stanu w rzeczywistości i w którą zaangażowane są określone byty. Przykładowo zdanie: „Jan Kowalski urodził się 3 czerwca 1947 roku w Krakowie” zawiera opis sytuacji przyjścia na świat osoby w określonym miejscu i czasie. (Marcińczuk i inni, 2015)

Wyznacznik sytuacji – inaczej opis sytuacj i lub językowy wykładnik sytuacji, formalna reprezentacja sytuacji, do której można odnieść się w tekście, fragment tekstu denotujący pewną sytuację.


20

I . EventsPL » Wytyczne

● Wytyczne zostały opracowane w oparciu o Temporal Annotation (SemEval-2013 Task 1) https://www.cs.york.ac.uk/semeval-2013/task1/

● Wytyczne wyróżniają następujące elementy:• Raportowanie – mówić, raportować, opowiadać, wyjaśniać, …• Percepcja – zobaczyć, patrzeć, spoglądać, słyszeć, ...• Aspektowość – rozpocząć, zaczynać, inicjować, …• Akcja intensjonalna – próbować, kazać, prosić, …• Stan intensjonalny – wierzyć, lękać (się), potrzebować, ...• Stan – spać, stać, istnieć, ...• Akcja – budować, tańczyć, skakać, biegać, …• Pomocniczy – przeprowadzić, dokonać, powodować, …• Relacje między jednostkami temporalnymi

O 9:00 Marysia wróciła do domu i zdjęła buty.

CLARIN-PL

planowane wCLARIN-PL 2

zawieranie następstwo

21

I . EventsPL » Anotacja – anal iza zgodności

Dwóch ekspertów (A,B), 100 losowych dokumentów z KPWr, miara pozytywnej specyficznej zgodności (PSA)

22

I . EventsPL » Przygotowanie modelu

● 540 anotowanych dokumentów dwukrotnie podzielony na zbiory:● pierwszy: uczący (50%), testowy (25%), pomocniczy (25%)● drugi: uczący1 (40%) uczący2 (40%), testowy2 (20%)

● Pierwszy podział: selekcja cech z pełnego zbioru cech dostępnych dla narzędzia Liner2 w celu uzyskania zestawu bazowego cech i ocena

● Drugi podział: tworzenie dziedzinowych cech słownikowych w oparciu o Słowosieć i ocena

● Hipoteza: Uogólnienie pewnych wyrazów (w tym przypadku opisów sytuacji) w podzbiorze dokumentów z korpusu umożliwia zlokalizowanie tych synsetów w Słowosieci, dla których możliwe jest odtworzenie słowników opisujących obserwowane zjawisko i ułatwia rozróżnienie pomiędzy kategoriami semantycznymi wyrazów (w naszym przypadku – kategoriami opisów sytuacji) dla innej części tego podzbioru.

23

I . EventsPL » Wyniki 1

Porównanie wyników (miara F) otrzymanych na dwóch częściach zbioru uczącego: cz1 oraz cz2. Te podzbiory były różnymi źródłami dla cech słownikowych, które razem z cechami bazowymi tworzą zestaw cech bazowe+słowniki . Wyniki są porównywane z otrzymanymi dla zestawu bazowego. Przeprowadzono dwa typy oceny: CV10 (10-krotna walidacja krzyżowa na części zbioru uczącego) oraz testowy2 (model uczony na części zbioru uczącego i testowany na zbiorze testowym2):

24

I . EventsPL » Wyniki 2

Miary P, R, F. Suma przykładów TP, FP i FN dla 10-krotnej walidacji krzyżowej na zbiorze uczący1 oraz uczący2. Ostatnia kolumna zawiera wartość zgodności PSA.

CLARIN-PL

Dziękuję bardzo za uwagę

26

Bibliografia

Broda, B., Burdka, L., Maziarz, M.: IKAR: An improved kit for anaphora resolution for Polish. In: Proceedings of COLING 2012: Demonstration Papers, Mumbai, India, The COLING 2012 Organizing Committee (December 2012) 25–32

Kaczmarek, A. & Marcińczuk, M (2015). Heuristic algorithm for zero subject detection in Polish. In Král, P. & Matoušek, V. (editors), Text, Speech, and Dialogue, 18th International Conference, TSD 2015, Pilsen,Czech Republic, September 14-17, 2015, Proceedings, pages 378-386. Springer International Publishing.

Kopeć, M.: Zero subject detection for Polish. In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, volume 2: Short Papers, Gothenburg, Sweden, Association for Computational Linguistics (2014) 221–225

Marcińczuk, M., Oleksy, M., Bernaś, T., Kocoń, J. & Wolski, M. (2015). Towards an event annotated corpus of Polish. Cognitive Studies | Études cognitives, (15), 253-267.

Ogrodniczuk, M., Głowińska, K., Kopeć, M., Savary, A., Zawisławska, M.: Polish Coreference Corpus. W: Proceedings of the 6th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics. 494–498

Wróblewska A., Woliński M. (2012). Preliminary Experiments in Polish Dependency Parsing, w: Bouvry P. et al. (Eds.): Security and Intelligent Information Systems International Joint Conferences, SIIS 2011, Warsaw, Poland, June 13-14, 2011, Revised Selected Papers, Lecture Notes in Computer Science, Vol. 7053, 2012, Springer, pp. 279-292

Narzędzia do ekstrakcji informacji z tekstu - Clarin...

Documents

Transcript of Narzędzia do ekstrakcji informacji z tekstu - Clarin...