Wydobywanie informacji oraz cech tekstów -...

30
CLARIN-PL Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1 Jan Kocoń, Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania Katedra Informatyki Technicznej Wydział Elektroniki [email protected]

Transcript of Wydobywanie informacji oraz cech tekstów -...

Page 1: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

CLARIN-PL

Wydobywanie informacji oraz cech tekstów:

tworzenie prostych statystykCzęść 1

Jan Kocoń, Tomasz WalkowiakPolitechnika Wrocławska

Grupa Naukowa G4.19

Katedra Inteligencji Obliczeniowej

Wydział Informatyki i Zarządzania

Katedra Informatyki Technicznej

Wydział Elektroniki

[email protected]

Page 2: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Wydobywanie informacji z tekstów

Kompetencje

Informatyka

Eksploracja danych

NLP

Lingwistyka

Wiedza dziedzinowa

Plan

Czwartek

Część 1: LEM

Część 2: MeWex, TermoPL

Piątek

Analiza semantyczna tekstów

Narzędzia: Topic, WebSty

Forum

Poznań

12 IV 2018

CLARIN-PL

Page 3: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Centrum Technologii JęzykowychCLARIN-PL

Narzędzia językowe

aplikacje zbudowane w różnorodnych technologiach

C++, Java, Python, R, Perl, Haskell, Julia

złożony proces instalacji

różnorodne interfejsy

trudność w tworzeniu potoków przetwarzania

Integracja zasobów i usług w oparciu o usługi sieciowe (REST)

dostęp poprzez aplikacje webowe

brak konieczności ściągania i instalowania

Infrastruktura

chmura obliczeniowa

3

Poznań

12 IV 2018

CLARIN-PL

Page 4: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Możliwości wykorzystania

Utworzone aplikacje webowe są do państwa dyspozycji

służymy pomocą w ich obsłudze

w zrozumieniu zasad ich działania/użytych metod

nie tylko w ramach warsztatów: [email protected]

Jeżeli nie spełniają one państwa potrzeb, to możemy:

zbudować potrzebną aplikacje badawczą na bazie

istniejących usług

przetworzyć korpus za pomocą usług CTJ Clarin-PL

Możecie państwo samodzielnie wykorzystać usługi

API REST-owe: http://ws.clarin-pl.eu

przykłady w Javie, Python

efektywność przetwarzania

Zasoby obliczeniowe są zawsze ograniczone

Warsztaty to bardzo trudny model przetwarzania4

Poznań

12 IV 2018

CLARIN-PL

Page 5: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Proste narzędzia, ale …

skomplikowane

http://ws.clarin-pl.eu

Poznań

12 IV 2018

CLARIN-PL

Page 6: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

LEM = System eksploracji tekstów

literackich

http://ws.clarin-pl.eu/lem.shtml

Opracowywany przez CLARIN-PL we współpracy z

Instytutem Badań Literackich Polskiej Akademii Nauk

Maciej Maryl, Maciej Piasecki, Tomasz Walkowiak

Poznań

12 IV 2018

CLARIN-PL

Page 7: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

LEM

http://ws.clarin-pl.eu/lem.shtml

LEM = Literary Exploratory Machine

Złożone metody …. prosta funkcjonalność

Poznań

12 IV 2018

CLARIN-PL

Page 8: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Załadowanie korpusów

Różnorodność formatów

txt – różnorodne kodowanie znaków

doc, docx (pptx, xlslx), odt, rtf, html, pdf

Apache Tika do konwersji

Różnorodność źródeł

Lokalny plik, URL,

prywatna chmura

ZIP

Problemy

Zip – wersje, struktura

Konwersje automatyczne:

kolumny

wzory, obrazy, tabele

nagłówki, stopki

Poznań

12 IV 2018

CLARIN-PL

Page 9: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Tagowanie morfosyntaktyczne

http://ws.clarin-pl.eu/tager.shtml

Morfeusz + WCRFT2, MorphoDiTa

tokenizacja

forma bazowa

znacznik, tagset NKJP: http://nkjp.pl/poliqarp/help/ense2.html

<chunk id="ch1" type="p">

<sentence id="s1">

<tok> <orth>Wysoka</orth> <lex disamb="1"> <base>wysoki</base>

<ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/>

<tok> <orth>,</orth> <lex disamb="1"><base>,</base>

<ctag>interp</ctag></lex> </tok>

<tok> <orth>kształtna</orth> <lex disamb="1"><base>kształtny</base>

<ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/>

<tok> <orth>,</orth> <lex disamb="1"><base>,</base>

<ctag>interp</ctag></lex> </tok>

<tok> <orth>z</orth> <lex disamb="1"><base>z</base>

<ctag>prep:gen:nwok</ctag></lex> </tok>

<tok> <orth>twarzą</orth> <lex disamb="1"><base>twarz</base>

<ctag>subst:sg:inst:f</ctag></lex> </tok>

Poznań

12 IV 2018

CLARIN-PL

Page 10: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

LEM: lematyzacja

Tekst przykładowy (Orzeszkowa, Szczęśliwa)

Wysoka, kształtna, z twarzą myślącą, zimną nieco, ale pięknie

zarysowaną i bardzo świeżą, w stroju pełnym smaku i powagi,

siedzi pod rozłożystemi drzewami wspaniałego parku i myśli o

tem, jaki ten park jest piękny, jaki ten dzień letni jest pogodny i

jaka ona sama jest szczęśliwa.

Rezultat lematyzacji (Orzeszkowa, Szczęśliwa)

wysoki, kształtny, z twarz myśląca, zimny nieco, ale pięknie

zarysować i bardzo świeży, w strój pełny smak i powaga,

siedzieć pod rozłożystemi drzewo wspaniały park i myśleć o

tema, jaki ten park być piękny, jaki ten dzień letni być pogodny i

jaki on sam być szczęśliwy.

Poznań

12 IV 2018

CLARIN-PL

Page 11: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Wydobywanie statystyk z

korpusów http://ws.clarin-pl.eu

Wyznaczanie części mowy (Orzeszkowa, Kto winien) Nie nie qub

była być praet

już już qub

młodą młody adj

, , interp

lecz lecz conj

twarz twarz subst

jej on ppron3

zachowała zachować praet

delikatność delikatność subst

rysów rys subst

i i conj

cery cer subst

, , interp

kibić kibić subst

Poznań

12 IV 2018

CLARIN-PL

Page 12: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Wydobywanie statystyk z

korpusów http://ws.clarin-pl.eu

Charakterystyka czasownikowa (Orzeszkowa, Kto winien)

Statystyki lematów i znaczników w tagsecie NKJP

Toke-ny

czasowniki

Czas1os lp

Czas1oslm

Czas2oslp

Czas3oslp

Czas3oslp_m

czas3oslp_z

Czas3os lp_n

czas3os lm_m

Czas3os lm_z

Czas3os lm_n

Czas3os lm

Czas2os lm

czasbezokolicznik

11242 1299 100 0 100 84 151 465 0 0 0 0 0 0 150

człowiek 36

ale 34

o 34

życie 33

od 33

oko 32

subst:sg:gen:m3 122

subst:sg:nom:f 119

subst:sg:gen:n 115

subst:sg:nom:n 111

prep:gen 107

prep:gen:nwok 105

Poznań

12 IV 2018

CLARIN-PL

Page 13: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Nazwy własne

Liner2

http://ws.clarin-pl.eu/ner.shtml

narzędzie do rozpoznawania i znakowania nazw własnych oraz

wyrażeń temporalnych w tekście

modele:

Poznań

12 IV 2018

CLARIN-PL

Page 14: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Wydobywanie statystyk z

korpusów http://ws.clarin-pl.eu

Wyszukanie nazw własnych (Żuławski, Veneri et romae)

Statystki nazw własnychAdrjatyku

Afrodyty

Albano

Albańskich

Alpach

Amfiteatrowi Flawjusza

Asklepjosa

Augusta

Baedeker

Baedekera

Berniniego

Bibljoteki Augusta

Bogu

Borghese

Cavour

Rzym Rzym 19

Palatynie Palatyn 13

Kapitolu Kapitol 7

Forum forum 6

Konstantyna Konstantyn 4

Koloseum Koloseum 3

Piotra Piotr 3

Słońce słońce 3

Via Sacra via sacrum 3

Baedeker Baedeker 2

Grecji Grecja 2

Kastora Kastor 2

Marka

Aureljusza

Marek

aureljusza 2

Poznań

12 IV 2018

CLARIN-PL

Page 15: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Słowosieć (plWordNet)

• Elektroniczny słownik relacyjny, rodzaj tezaurusa

• Podstawy teoretyczne: Princeton WordNet

• Pochodzenie: Politechnika Wrocławska, 2005-2018

• Cel: bardzo obszerny opis systemu językowego z

wykorzystaniem relacji leksykalno-semantycznych

• Opis czterech części mowy: czasowników, rzeczowników,

przymiotników i przysłówków

• Zastosowanie:

• słownik (do użytku przez nieprofesjonalnego użytkownika)

• zasób leksykalny (do użytku przez badaczy języka z różnych

dziedzin)

• baza danych (w przetwarzaniu języka naturalnego)

Poznań

12 IV 2018

CLARIN-PL

Page 16: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Proces budowy Słowosieci

Kto tworzy Słowosieć?

•zespół polonistów i anglistów

•informatycy, specjaliści od przetwarzania języka

•sztuczna inteligencja (narzędzia półautomatyczne)

Poznań

12 IV 2018

CLARIN-PL

Page 17: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Proces budowy Słowosieci

Korpus Słowosieci

2 mld tokenów

siatka haseł

(słowa najczęstsze)

wyróżnić znaczenia konkordancer korpusu

narzędzia komputerowe

automatyczne

przykłady użycia

n.a. - przykłady użycia -> wyróżnianie znaczeń, przykłady

typowe, 10 znaczeń (Marek)`o zwierzętach: gryźć używając zębów

`o zjawiskach pogodowych (np. mrozie): gryźć

Przykłady użycia wyrazu kąsać

`o owadach: gryźć’

`o wyrzutach sumienia: gryźć’

`o ludziach: dokuczać, szkodzić komuś’

1

2

3

4

5

6

7

8

9

10

Poznań

12 IV 2018

CLARIN-PL

Page 18: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Zawartość Słowosieci

• Ponad 191 tys. słów (lematów) jedno- i wielowyrazowych

= ok. 287 tys. znaczeń (jednostek leksykalnych)

• Opisanych ponad 635 tys. relacjami jednostek i synsetów

• Ok. 230 tys. haseł polsko-angielskich

• Ok. 80 tys. jednostek z anotacją emotywną

• Ponad 163 tys. definicji

• Ponad 73 tys. przykładów użycia

Poznań

12 IV 2018

CLARIN-PL

Page 19: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Synset

• Synset

– zbiór jednostek leksykalnych o wspólnych relacjach

konstytutywnych, np. hiperonimii, holo/meronimii, …

– jednostki zawarte w synsecie są uznawane za synonimy

– jest rodzajem skróconego zapisu, np.

{afekt 1, uczucie 2} hiperonim

{zakochanie 1, zadurzenie 1}

• Relacje konstytutywne

– podstawa konstrukcji synsetu, współdzielone i relatywnie częste

• Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt

Poznań

12 IV 2018

CLARIN-PL

Page 20: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Hiponimia

•Najważniejsza z relacji synsetów

•66% instancji wszystkich relacji synsetów

•kościec każdego wordnetu

Relacje synsetówPoznań

12 IV 2018

CLARIN-PL

Page 21: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Przeglądanie relacji synsetów

hiperonimy

Poznań

12 IV 2018

CLARIN-PL

Page 22: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Przeglądanie relacji synsetów

hiponimy

Poznań

12 IV 2018

CLARIN-PL

Page 23: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Ujednoznacznianie znaczeń

http://plwordnet.pwr.wroc.pl/wordnet/

http://ws.clarin-pl.eu/wsd.shtml

Poznań

12 IV 2018

CLARIN-PL

Page 24: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Wydobywanie statystyk z

korpusów http://ws.clarin-pl.eu

Ujednoznacznianie znaczeń leksykalnych WoSeDon

(Żuławski, Veneri et romae) niespokojny niespokojny adj niespokojny.3(42:jak)

sen sen subst spoczynek.2(23:st) sen.1(23:st)

jakiejś jakiś adj

jakowyś.1(42:jak) który.1(42:jak) jaki.1(42:jak) jakiś.1(42:jak)

jakowy.1(42:jak) któryś.2(42:jak)

jednej jeden adj pewien.1(42:jak) jeden.3(42:jak)

nocy noc subst noc.2(25:czas)

jesiennej jesienny adj jesienny.1(43:rel)

Hiperonimy i hiponimy

sen sen subst

spoczynek.2(23:st) sen.1(23:st)

proces fizjologiczny.1;odpoczynek.1 wypoczynek.1 spoczynek.1 relaks.1drzemka.1 półsen.1;sen zimowy.1 hibernacja.1 diapauza zimowa.1;sen letni.1 estywacja.1 diapauza letnia.1;hibernacja.2;twardy sen.1głęboki sen.1 mocny sen.1

Poznań

12 IV 2018

CLARIN-PL

Page 25: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Nastawienie emocjonalne

ANOTACJA NASTAWIENIEM EMOCJONALNYM

Emocje podstawowe –

radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie

czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992;

Plutchik 1980)

Wartości uniwersalne –

użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda,

prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i

nieszczęście (Puzynina 1992)

Nastawienie –

pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne,

ambiwalentne.

Ponad 80 000 oznakowanych jednostek.

Poznań

12 IV 2018

CLARIN-PL

Page 26: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Dwójka anotatorów

(lingwista i psycholog) dla

każdej jednostki;

Superanotator , którego

decyzja jest

rozstrzygająca w

przypadku niezgodnych

anotacji;

• Anotatorzy nie widzą

wzajemnie swoich

anotacji.

Nastawienie emocjonalnePoznań

12 IV 2018

CLARIN-PL

Page 27: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Analiza emotywna tekstuPoznań

12 IV 2018

CLARIN-PL

tiny.cc/clarinemo

Page 28: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

Wydobywanie statystyk z

korpusów http://ws.clarin-pl.eu

Charakterystyka czasownikowe, zaimkowe,

Polaryzacja emocjonalna, wartościowanie emocji

Częstości wystąpień w tekstach

Prus „Faraon”tokeny czas1oslpoj czas1oslmn czas2oslpoj czas2oslmn czas3oslpoj czas3oslmn

257490 2546 535 2421 463 18937 5105

zaim1oslpoj zaim1oslmn zaim2oslpoj zaim2oslmn zaim3oslpoj zaim3oslmn

1586 436 1021 299 3493 1259

polneu polpos polneg

98671 7101 11726

błąd nieszczęście szczęście strach zaufanie złość użyteczność radość krzywda

2951 4003 3598 2010 2206 4813 3166 4701 4133

smutek piękno wiedza

nieużytecz

ność niewiedza wstręt dobro

cieszenie się na coś

oczekiwanego

zaskoczenie

czymś

nieprzewidy

wanym brzydota prawda

4055 1237 815 3648 1345 3032 1676 244 110 643 249

Poznań

12 IV 2018

CLARIN-PL

Page 29: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

CLARIN-PL

Dziękuję bardzo za uwagę

ws.clarin-pl.eu

Page 30: Wydobywanie informacji oraz cech tekstów - clarin-pl.euclarin-pl.eu/wp-content/uploads/2018/04/wydobywanie-informacji-LEM.pdf · aplikacje zbudowane w różnorodnych technologiach

LEM - ćwiczenia

Przykładowy zbiór plików

http://ws.clarin-pl.eu/lem.shtml

http://ws.clarin-pl.eu/k.zip

Zadania

Załadowanie zbioru – musi to być pojedynczy plik zip

Uruchomienie poszczególnych funkcji przetwarzania

Pobranie pliku z rezultatami

Rozpakowanie pliku

Analiza poszczególnych rezultatów w na komputerze

lokalnym za pomocą arkusza kalkulacyjnego lub edytora

plików tekstowych

Poznań

12 IV 2018

CLARIN-PL