Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛...

13
Przetwarzanie J ˛ ezyka Naturalnego Lab 8 – NER Aleksander Smywi ´ nski-Pohl Wydzial IEiT Katedra Informatyki 11.04.2017 1/13

Transcript of Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛...

Page 1: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Przetwarzanie Jezyka NaturalnegoLab 8 – NER

Aleksander Smywinski-Pohl

Wydział IEiTKatedra Informatyki

11.04.2017

1/13

Page 2: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Rozpoznawanie jednostek referencyjnych (nazewniczych)

z Named Entity Recognition – NER

Rozpoznawanie jednostek referencyjnych1 polega naokresleniu, które sposród wyrazen wystepujacych wtekscie odnosza sie do specyficznych obiektównajczesciej posiadajacych własna nazwe oraz jakajest kategoria semantyczna obiektów, do którychodnosza sie te wyrazania.

A. Smywinski-Pohl, Automatyczna ekstrakcja relacji semantycznych z tekstów w jezyku polskim

1W polskiej literaturze funkcjonuje równiez termin rozpoznawaniejednostek nazewniczy.

2/13

Page 3: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Przykład

Korea Północna[GPE ] zagroziła wystrzeleniempocisku balistycznego w kierunku USA[GPE ].

Typy jednostek referencyjnych:z ludzie (ang. people),z organizacje (ang. organizations),z miejsca (ang. locations),z podmioty geopolityczne (ang. geo-political entitites),z obiekty uzytecznosci publicznej (ang. facilities),z pojazdy (ang. vehicles),z etc.

3/13

Page 4: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Popularne metody

z HMM, CRF – modele statystyczne oparte na załozeniuliniowosci zjawisk tekstowych

z entity linking – wykorzystanie mechanizmuujednoznaczniania wyrazen do rozwiazania problemu NER

z (D)RNN – wykorzystanie sieci neuronowych domodelowania odległych zaleznosci tekstowych

4/13

Page 5: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Warunkowe pola losowe

z (linear chain) Conditional Random Fields – CRF

https://www.codeproject.com/Articles/559535/Sequence-Classifiers-in-Csharp-Part-II-Hidden-Cond

5/13

Page 6: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Modele generatywne i dyskryminacyjne

https://www.codeproject.com/Articles/559535/Sequence-Classifiers-in-Csharp-Part-II-Hidden-Cond

6/13

Page 7: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Entity linking

z Wykorzystanie Wikipedii jako słownika nazw własnych

Figure: Hasło Polska w poslkiej Wikipedii.

7/13

Page 8: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Entity linking – cd.

Pokrewienstwo semantyczne dwóch haseł w Wikipedii:

SRJ(σa, σb) =

1

1−log(

|A∩B||A∪B|

) |A ∩ B| > 0

0 |A ∩ B| = 0 ∧ a 6= b1 |A ∩ B| = 0 ∧ a = b

(1)

Cechy ujednoznaczniajace:

Hasło SRw Psense G RSR Rsense Plink +/−Burowie 0,32 0,93 84 0 0 0,18 +Afrykanerzy 0,18 0,04 84 1 1 0,18 -Burowo 0,01 0,03 84 2 1 0,18 -

8/13

Page 9: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Entity linking – cechy ujednoznaczniajace

z SRw – wazone pokrewienstwo semantycznez Psense – prawdopodobienstwo sensuz G – „gestosc” kontekstu semantycznegoz RSR – ranga pokrewienstwa semantycznegoz Rsense – ranga sensuz Plink – prawdopodobienstwo wystepowania jako odnosnik

w Wikipediiz +/− – przykład pozytywny/negatywny

9/13

Page 10: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Rekurencyjne sieci neuronowe – seq2seq

https://www.slideshare.net/emorynlp/rnn-lstm-and-seq2seq-models

10/13

Page 11: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Rekurencyjne sieci neuronowe – LSTM

https://www.slideshare.net/eefjeopdenbuysch/machine-learning-for-robot-journalism-59993401

11/13

Page 12: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Zadania

Celem zadania jest utworzenie indeksu nazw osobowych imiejscowych dla pliku potop.txt.

1 zapoznac sie ze schematami klasyfikacyjnymi orazformatami wyjsciowymi narzedzia Liner2, wybrac schematoraz format adekwatny dla zadania, przetworzyc próbketekstu w oparciu o Linera (1 pkt)

2 stworzyc indeks nazw osobowych i miejscowych dla całegopliku potop.txt oraz narzedzie pozwlajace na wyswietleniewszystkich wystapien okreslonej nazwy wraz z kontekstem(obejmujacym stała liczbe linii tekstu) wystapienia (1 pkt)

3 obliczyc statystyke wystepowania poszczególnych nazwosobowych i miejscowych; znalezc 10 najczestszych nazwosobowych i 10 najczestszych nazw miejscowych (1 pkt)

12/13

Page 13: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki

Materiały

z http://apohllo.pl/texts/lab3.tar.gz (plikpotop.txt)

z Clarin WS http://nlp.pwr.wroc.pl/redmine/projects/nlprest2/wiki/Liner2

z Smywinski-Pohl A. (2015). Automatyczna ekstrakcja relacjisemantycznych z tekstów w jezyku polskimi (pracadoktroska).

z Pohl A. (2013). Knowledge-based Named EntityRecognition in Polish

z Pohl A. (2012). Improving the Wikipedia Miner WordSense Disambiguation Algorithm.

13/13