Narzędzia do ekstrakcji informacji z tekstu - Clarin...

26
CLARIN-PL Narzędzia do ekstrakcji informacji z tekstu Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 [email protected] [email protected] Politechnika Wrocławska, 2016-04-26

Transcript of Narzędzia do ekstrakcji informacji z tekstu - Clarin...

Page 1: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

CLARIN-PL

Narzędzia do ekstrakcj i informacji z tekstu

Michał MarcińczukJan Kocoń

Poli technika WrocławskaKatedra Intel igencj i Obl iczeniowej

Grupa Naukowa G4.19michal [email protected]

[email protected] i technika Wrocławska, 2016-04-26

Page 2: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

2

Agenda

Część I

Rozpoznawanie wyrażeń przestrzennych

(Spatia lPL)

Część I I

Wykrywanie czasowników z podmiotem domyślnym

(Minos)

Część II I

Rozpoznawaniewyznaczników sytuacj i

(EventsPL)

Page 3: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

3

Agenda

Część I

Rozpoznawanie wyrażeń przestrzennych

(Spatia lPL)

Część I I

Wykrywanie czasowników z podmiotem domyślnym

(Minos)

Część II I

Rozpoznawaniewyznaczników sytuacj i

(EventsPL)

Page 4: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

4

I . SpatialPL » Czym są wyrażenia przestrzenne?

Wyrażenie przestrzenne – wyrażenie językowe, które opisuje względne położenie dwóch obiektów fizycznych względem siebie, np. „książka na stole" – obiekt książka znajduje się na powierzchni obiektu stół.

Przykłady z korpusu KPWr:

● kompleks handlowo-kulturowy w mieście Toronto● 6 odpoczywających krów z brązu na którym (koreferencja do „dziedziniec”)● wielkie krzesło pomiędzy budynkami

Page 5: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

5

I . SpatialPL » Wytyczne

● Wytyczne zostały opracowane w oparciu o Spatial Role Labeling (SemEval-2013 Task 3) https://www.cs.york.ac.uk/semeval-2013/task3/

● Wytyczne dla j. angielskiego wyróżniają następujące elementy:• Trajector (TR) – obiekt lokalizowany• Landmark (LM) – lokalizator• Spatial Indicator (SI) – przyimek lokatywny• Region (RE) – obszar/fragment lokalizatora• Motion Indicator• Path• Direction• Distance

CLARIN-PL

planowane wCLARIN-PL 2

[Restauracja]TR

[na]SI [końcu]

RE [ul. Wita Stwosza]

LM

Page 6: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

6

I . SpatialPL » Realizacja

Tekst

Przetwarzaniewstępne

Generowaniekandydatów

Filtrowaniesemantyczne

WCRFT Liner2 Spejd Iobber MaltParser

Zbiór wyrażeńprzestrzennych

Schematysemantyczne

Słowosieć SUMOSerdel

mapowanie s łów na ontologię SUMO

Mapowanie kategorii jednostek

na Słowosieć i SUMO

Wzorce

WoSeDon

Podejście regułowe wykorzystujące różne źródła wiedzy

Page 7: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

7

I . SpatialPL » Wzorce i schematy

Wzorce sekwencyjne i zależnościowe:● wewnątrz pojedynczej frazy rzeczownikowej (NP)

● NG + Prep + NG NG + …. + Prep + NG● NG + Ppas + Prep + NG NG + Pact + Prep + NG

● ścieżka w drzewie zależnościowym● NG -(obj) Verbfin (comp)- Prep (comp)- NG→ ← ←

Schematy semantyczne (121 schematów)Przyimek Na #1

Przypadek LM

miejscownik

OpisTR znajduje się na zewnątrz LM, zazwyczaj styka się z zewnętrzną granicą LM, wywierając nacisk swym ciężarem, LM znajduje się dalej od bieguna dodatniego osi wertykalnej niż TR

Przykład książka na stole

Klasa TR (SUMO)

Artifact, ContentBearingObject, Device, Animal, Plant, Pottery, Meat, PreparedFood, Chain

Klasa LM(SUMO)

Artifact, LandTransitway, BoardOrBlock, Boatdeck, Shipdeck, StationaryArtifact

Page 8: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

8

I . SpatialPL » Korpus wzorcowy

Kategoria Uczący Pomocniczy Testowy Razem~50% ~25% ~25% 100%

KPWrDokumenty 768 384 384 1 526 

Wyrażenia 1 033 608  527 2 168*

Zbiór dokumentów z KPWr oznaczony wyrażeniami przestrzennymi został podzielony na trzy części : Część ucząca (ok 50%) - analiza danych, definiowanie wzorców,

dostrajanie schematów semantycznych, Część pomocnicza (ok 25%) - dostrajanie parametrów, Część testowa (ok 25%) - ocena ostatecznego modelu.

* rzeczywista liczba wyrażeń jest wyższa, na tym etapie pomijamy wyrażenia, w których TR lub LM nie jest frazą nominalną (np. przyimki, podmiot zerowy).

Korpus 50 tekstów geograficznych z Wikipedi i (WGT) zawierający 484 wyrażenia przestrzenne (duże zagęszczenie wyrażeń - prawie 10 wyrażeń na dokument w porównaniu do 1,5 wyrażeń/dokument w KPWr) – użyty w początkowych pracach.

Page 9: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

9

I . SpatialPL » Skuteczność działania

Filtrowanie Precyzja Kompletność Miara F

Nie 11,12% 44,58% 17,80%

Tak 66,67% 29,81% 41,20%

Skuteczność rozpoznawania wyrażeń przestrzennych na części testowej korpusu KPWr przed i po filtrowaniu semantycznym.

Dlaczego precyzja nie osiągnęła 100%?● propagacja błędów ze wstępnego przetwarzania (ok. 46% błędów),● brak uwzględnienia znaczenia czasowników podczas filtrowania (ok. 17%),● zbyt ogólne klasy SUMO w schematach semantycznych (ok. 13%),● wyrażenia dynamiczne (motion) (ok. 8%).

Page 10: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

10

I . SpatialPL » Przykłady z książek T. Pratchetta

„[Na]SI

[końcu]RE

[Żadnejtakiej]LM

stała [szubienica]TR

, gdzie złoczyńców – a

przynajmniej ludzi uznanych za winnych czynienia zła – wieszano.”

„Będę na ciebie czekał w [komnacie]TR#1

[pod]SI#1

[dzwonnicą]LM#1,TR#2

[na]SI#2

[rogu]RE#2

[Alei Audytu]LM#2

„[Maleńkie państewka]TR

[w]SI

[tej części]RE

[Ramtopów]LM

były normalne.”

„(...) widywała [Hodgesaargha]TR

[na]SI

[skraju]RE

[lasu]LM

i na wrzosowiskach”

Page 11: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

11

I . SpatialPL » IEViewer

http://inforex.clarin-pl.eu/ieviewer

Page 12: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

12

Agenda

Część I

Rozpoznawanie wyrażeń przestrzennych

(Spatia lPL)

Część I I

Wykrywanie czasowników z podmiotem domyślnym

(Minos)

Część II I

Rozpoznawaniewyznaczników sytuacj i

(EventsPL)

Page 13: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

13

I I . MINOS » Czasowniki z podmiotem domyślnym

Wykrycie czasowników z podmiotem domyślnym jest istotne w zadaniu rozwiązywania koreferencji – standardowo koreferencja rozwiązywana jest pomiędzy odniesieniami do obiektów, którego nie ma jawnie w tekście dla podmiotu zerowego.

● Jan Nowak mieszka we Wrocławiu. Jest on studentem PWr.● Jan Nowak mieszka we Wrocławiu. Od dwóch lat ∅ studiuje na PWr.

Przykłady z korpusu KPWr:

Page 14: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

14

I I . MINOS » Metoda

MINOS - Mention IdentificatioN for Omitted Subjects (Kaczmarek i Marcińczuk, 2015)

Metoda regułowa łącząca następujące heurystyki:● filtrowanie czasowników:

● l ista czasowników bez podmiotu – na podstawie słownika ram walencyjnych (Hajnicz i inni),

● reguły, np. czasowniki w pierwszej i drugiej osobie niepoprzedzone zaimkiem osobowym

● sprawdzenie obecności podmiotu dla czasownika:● parser zależnościowy (MaltParser) (Wróblewska i Woliński, 2012)● relacje między frazami składniowymi (ChunkRel) (Radziszewski i Pawlaczek, 2012)● kontekstowe wyszukiwanie podmiotu

● weryfikacja podmiotu – sprawdzenie uzgodnienia między czasownikiem, a możliwym podmiotem wskazanym przez parser zależnościowy 

Page 15: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

15

I I . MINOS » Wyniki

Skuteczność rozpoznawania czasowników z podmiotem domyślnym:● PCC (Polish Coreference Corpus) (Ogrodniczuk i inni, 2013),● KPWr (Korpus Politechniki Wrocławskiej)● MentionDetector (Kopeć, 2014)

Czasowniki Narzędzie PCC (test) KPWr

Precyzja Kompletność Miara F Precyzja Kompletność Miara F

1,2,3 os. Minos 72,33% 84,69% 78,02% 82,25% 69,55% 75,48%

MentionDetector 71,79% 67,39% 69,60% 88,74% 53,77% 66,97%

3 os. Minos 55,47% 69,49% 61,69% 70,32% 50,87% 59,03%

MentionDetector 62,56% 33,62% 43,74% 78,51% 27,42% 40,65%

Page 16: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

16

I I . MINOS » Wpływ na wyniki dla koreferencj i

Jakość rozpoznawania koreferencji między czasownikiem z podmiotem domyślnym a nazwami własnymi na korpusie KPWr dla narzędzia IKAR* (Broda, Burdka i Maziarz, 2012) przy użyciu metryki BLANC.

Precyzja Kompletność Miara F

Wszystkie czasowniki 11,93% 43,52% 18,72%

MINOS 61,37% 50,16% 55,20%

Wzorcowe 61,17% 59,29% 60,22%

* Oryginalna wersja narzędzia IKAR została rozszerzona o rozpoznawanie koreferencji dla czasowników z podmiotem domyślnym.

Page 17: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

17

I I . MINOS » Demo

http://tools.clar in-pl.eu/inforex/index.php?page=ner

Page 18: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

18

Agenda

Część I

Rozpoznawanie wyrażeń przestrzennych

(Spatia lPL)

Część I I

Wykrywanie czasowników z podmiotem domyślnym

(Minos)

Część II I

Rozpoznawaniewyznaczników sytuacj i

(EventsPL)

Page 19: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

19

I . EventsPL » Czym są wyznaczniki sytuacj i?

Sytuacja – odzwierciedla zmianę stanu w rzeczywistości i w którą zaangażowane są określone byty. Przykładowo zdanie: „Jan Kowalski urodził się 3 czerwca 1947 roku w Krakowie” zawiera opis sytuacji przyjścia na świat osoby w określonym miejscu i czasie. (Marcińczuk i inni, 2015)

Wyznacznik sytuacji – inaczej opis sytuacj i lub językowy wykładnik sytuacji, formalna reprezentacja sytuacji, do której można odnieść się w tekście, fragment tekstu denotujący pewną sytuację.

Przykłady z korpusu KPWr:

Page 20: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

20

I . EventsPL » Wytyczne

● Wytyczne zostały opracowane w oparciu o Temporal Annotation (SemEval-2013 Task 1) https://www.cs.york.ac.uk/semeval-2013/task1/

● Wytyczne wyróżniają następujące elementy:• Raportowanie – mówić, raportować, opowiadać, wyjaśniać, …• Percepcja – zobaczyć, patrzeć, spoglądać, słyszeć, ...• Aspektowość – rozpocząć, zaczynać, inicjować, …• Akcja intensjonalna – próbować, kazać, prosić, …• Stan intensjonalny – wierzyć, lękać (się), potrzebować, ...• Stan – spać, stać, istnieć, ...• Akcja – budować, tańczyć, skakać, biegać, …• Pomocniczy – przeprowadzić, dokonać, powodować, …• Relacje między jednostkami temporalnymi

O 9:00 Marysia wróciła do domu i zdjęła buty.

CLARIN-PL

planowane wCLARIN-PL 2

zawieranie następstwo

Page 21: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

21

I . EventsPL » Anotacja – anal iza zgodności

Dwóch ekspertów (A,B), 100 losowych dokumentów z KPWr, miara pozytywnej specyficznej zgodności (PSA)

Page 22: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

22

I . EventsPL » Przygotowanie modelu

● 540 anotowanych dokumentów dwukrotnie podzielony na zbiory:● pierwszy: uczący (50%), testowy (25%), pomocniczy (25%)● drugi: uczący1 (40%) uczący2 (40%), testowy2 (20%)

● Pierwszy podział: selekcja cech z pełnego zbioru cech dostępnych dla narzędzia Liner2 w celu uzyskania zestawu bazowego cech i ocena

● Drugi podział: tworzenie dziedzinowych cech słownikowych w oparciu o Słowosieć i ocena

● Hipoteza: Uogólnienie pewnych wyrazów (w tym przypadku opisów sytuacji) w podzbiorze dokumentów z korpusu umożliwia zlokalizowanie tych synsetów w Słowosieci, dla których możliwe jest odtworzenie słowników opisujących obserwowane zjawisko i ułatwia rozróżnienie pomiędzy kategoriami semantycznymi wyrazów (w naszym przypadku – kategoriami opisów sytuacji) dla innej części tego podzbioru.

Page 23: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

23

I . EventsPL » Wyniki 1

Porównanie wyników (miara F) otrzymanych na dwóch częściach zbioru uczącego: cz1 oraz cz2. Te podzbiory były różnymi źródłami dla cech słownikowych, które razem z cechami bazowymi tworzą zestaw cech bazowe+słowniki . Wyniki są porównywane z otrzymanymi dla zestawu bazowego. Przeprowadzono dwa typy oceny: CV10 (10-krotna walidacja krzyżowa na części zbioru uczącego) oraz testowy2 (model uczony na części zbioru uczącego i testowany na zbiorze testowym2):

Page 24: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

24

I . EventsPL » Wyniki 2

Miary P, R, F. Suma przykładów TP, FP i FN dla 10-krotnej walidacji krzyżowej na zbiorze uczący1 oraz uczący2. Ostatnia kolumna zawiera wartość zgodności PSA.

Page 25: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

CLARIN-PL

Dziękuję bardzo za uwagę

Page 26: Narzędzia do ekstrakcji informacji z tekstu - Clarin PLclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-pl16-ie... · opisuje względne położenie dwóch obiektów fizycznych

26

Bibliografia

Broda, B., Burdka, L., Maziarz, M.: IKAR: An improved kit for anaphora resolution for Polish. In: Proceedings of COLING 2012: Demonstration Papers, Mumbai, India, The COLING 2012 Organizing Committee (December 2012) 25–32

Kaczmarek, A. & Marcińczuk, M (2015). Heuristic algorithm for zero subject detection in Polish. In Král, P. & Matoušek, V. (editors), Text, Speech, and Dialogue, 18th International Conference, TSD 2015, Pilsen,Czech Republic, September 14-17, 2015, Proceedings, pages 378-386. Springer International Publishing.

Kopeć, M.: Zero subject detection for Polish. In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, volume 2: Short Papers, Gothenburg, Sweden, Association for Computational Linguistics (2014) 221–225

Marcińczuk, M., Oleksy, M., Bernaś, T., Kocoń, J. & Wolski, M. (2015). Towards an event annotated corpus of Polish. Cognitive Studies | Études cognitives, (15), 253-267.

Ogrodniczuk, M., Głowińska, K., Kopeć, M., Savary, A., Zawisławska, M.: Polish Coreference Corpus. W: Proceedings of the 6th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics. 494–498

Wróblewska A., Woliński M. (2012). Preliminary Experiments in Polish Dependency Parsing, w: Bouvry P. et al. (Eds.): Security and Intelligent Information Systems International Joint Conferences, SIIS 2011, Warsaw, Poland, June 13-14, 2011, Revised Selected Papers, Lecture Notes in Computer Science, Vol. 7053, 2012, Springer, pp. 279-292