Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛...

Przetwarzanie Jezyka NaturalnegoLab 8 – NER

Aleksander Smywinski-Pohl

Wydział IEiTKatedra Informatyki

11.04.2017

Rozpoznawanie jednostek referencyjnych (nazewniczych)

z Named Entity Recognition – NER

Rozpoznawanie jednostek referencyjnych1 polega naokresleniu, które sposród wyrazen wystepujacych wtekscie odnosza sie do specyficznych obiektównajczesciej posiadajacych własna nazwe oraz jakajest kategoria semantyczna obiektów, do którychodnosza sie te wyrazania.

A. Smywinski-Pohl, Automatyczna ekstrakcja relacji semantycznych z tekstów w jezyku polskim

1W polskiej literaturze funkcjonuje równiez termin rozpoznawaniejednostek nazewniczy.

Przykład

Korea Północna[GPE ] zagroziła wystrzeleniempocisku balistycznego w kierunku USA[GPE ].

Typy jednostek referencyjnych:z ludzie (ang. people),z organizacje (ang. organizations),z miejsca (ang. locations),z podmioty geopolityczne (ang. geo-political entitites),z obiekty uzytecznosci publicznej (ang. facilities),z pojazdy (ang. vehicles),z etc.

Popularne metody

z HMM, CRF – modele statystyczne oparte na załozeniuliniowosci zjawisk tekstowych

z entity linking – wykorzystanie mechanizmuujednoznaczniania wyrazen do rozwiazania problemu NER

z (D)RNN – wykorzystanie sieci neuronowych domodelowania odległych zaleznosci tekstowych

Warunkowe pola losowe

z (linear chain) Conditional Random Fields – CRF

https://www.codeproject.com/Articles/559535/Sequence-Classifiers-in-Csharp-Part-II-Hidden-Cond

Modele generatywne i dyskryminacyjne

https://www.codeproject.com/Articles/559535/Sequence-Classifiers-in-Csharp-Part-II-Hidden-Cond

Entity linking

z Wykorzystanie Wikipedii jako słownika nazw własnych

Figure: Hasło Polska w poslkiej Wikipedii.

Entity linking – cd.

Pokrewienstwo semantyczne dwóch haseł w Wikipedii:

SRJ(σa, σb) =

1−log(

|A∩B||A∪B|

) |A ∩ B| > 0

0 |A ∩ B| = 0 ∧ a 6= b1 |A ∩ B| = 0 ∧ a = b

Cechy ujednoznaczniajace:

Hasło SRw Psense G RSR Rsense Plink +/−Burowie 0,32 0,93 84 0 0 0,18 +Afrykanerzy 0,18 0,04 84 1 1 0,18 -Burowo 0,01 0,03 84 2 1 0,18 -

Entity linking – cechy ujednoznaczniajace

z SRw – wazone pokrewienstwo semantycznez Psense – prawdopodobienstwo sensuz G – „gestosc” kontekstu semantycznegoz RSR – ranga pokrewienstwa semantycznegoz Rsense – ranga sensuz Plink – prawdopodobienstwo wystepowania jako odnosnik

w Wikipediiz +/− – przykład pozytywny/negatywny

Rekurencyjne sieci neuronowe – seq2seq

https://www.slideshare.net/emorynlp/rnn-lstm-and-seq2seq-models

Rekurencyjne sieci neuronowe – LSTM

https://www.slideshare.net/eefjeopdenbuysch/machine-learning-for-robot-journalism-59993401

Zadania

Celem zadania jest utworzenie indeksu nazw osobowych imiejscowych dla pliku potop.txt.

1 zapoznac sie ze schematami klasyfikacyjnymi orazformatami wyjsciowymi narzedzia Liner2, wybrac schematoraz format adekwatny dla zadania, przetworzyc próbketekstu w oparciu o Linera (1 pkt)

2 stworzyc indeks nazw osobowych i miejscowych dla całegopliku potop.txt oraz narzedzie pozwlajace na wyswietleniewszystkich wystapien okreslonej nazwy wraz z kontekstem(obejmujacym stała liczbe linii tekstu) wystapienia (1 pkt)

3 obliczyc statystyke wystepowania poszczególnych nazwosobowych i miejscowych; znalezc 10 najczestszych nazwosobowych i 10 najczestszych nazw miejscowych (1 pkt)

Materiały

z http://apohllo.pl/texts/lab3.tar.gz (plikpotop.txt)

z Clarin WS http://nlp.pwr.wroc.pl/redmine/projects/nlprest2/wiki/Liner2

z Smywinski-Pohl A. (2015). Automatyczna ekstrakcja relacjisemantycznych z tekstów w jezyku polskimi (pracadoktroska).

z Pohl A. (2013). Knowledge-based Named EntityRecognition in Polish

z Pohl A. (2012). Improving the Wikipedia Miner WordSense Disambiguation Algorithm.

Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛...

Documents

Transcript of Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛...

Cala prawda-o-nauce-jezyka-angielskiego

Kurs Jezyka Polskiego - Cwiczenia Pisemne.pdf

Sekrety Jezyka C C Sharp

Katalog kursow jezyka hiszpanskiego w Hiszpanii

cdigital.dgb.uanl.mxcdigital.dgb.uanl.mx/la/1020081778/1020081778_013.pdf · F LAB F LAB F LAB F LAB Materia Química Maternáticas Algebra Dibujo I Tec. de los 1 Materia Requisito

· Podstawy programowania W/Lab Algorytmy i struktury danych W/Lab Architektura systemów komputerowych W/Lab Systemy operacyjne W/Lab Sieci komputerowe W/Lab Kierunkowe efekty uczenia

Sekrety jezyka C programowanie

Teatr na lekcji jezyka obcego

Skuteczne metody-nauki-jezyka-angielskiego

Przetwarzanie języka naturalnego

Analiza języka naturalnego

Pulapki I Ciekawostki Jezyka Niemieckiego Fragment

Ludium Lab

Automatyczna analiza semantyczna jezyka naturalnego ...dl236088/pdfs/msc.pdf · Przetwarzanie j¦zyka naturalnego (NLP, ang. Natu-alr Language Pressingco ) zajmuje si¦ szeroko poj¦tymi

50 sposobow motywowania uczacych sie jezyka

Sekrety Jezyka C#

Cwiczenia z Jezyka C - Claude Delannoy

Cala Prawda O Nauce Jezyka Angielskiego

Zapozyczenia z jezyka angielskiego

Lombardi Lab