Wydobywanie informacji oraz cech tekstów -...
-
Upload
dangnguyet -
Category
Documents
-
view
217 -
download
0
Transcript of Wydobywanie informacji oraz cech tekstów -...
CLARIN-PL
Wydobywanie informacji oraz cech tekstów:
tworzenie prostych statystykCzęść 1
Jan Kocoń, Tomasz WalkowiakPolitechnika Wrocławska
Grupa Naukowa G4.19
Katedra Inteligencji Obliczeniowej
Wydział Informatyki i Zarządzania
Katedra Informatyki Technicznej
Wydział Elektroniki
Wydobywanie informacji z tekstów
Kompetencje
Informatyka
Eksploracja danych
NLP
Lingwistyka
Wiedza dziedzinowa
Plan
Czwartek
Część 1: LEM
Część 2: MeWex, TermoPL
Piątek
Analiza semantyczna tekstów
Narzędzia: Topic, WebSty
Forum
Poznań
12 IV 2018
CLARIN-PL
Centrum Technologii JęzykowychCLARIN-PL
Narzędzia językowe
aplikacje zbudowane w różnorodnych technologiach
C++, Java, Python, R, Perl, Haskell, Julia
złożony proces instalacji
różnorodne interfejsy
trudność w tworzeniu potoków przetwarzania
Integracja zasobów i usług w oparciu o usługi sieciowe (REST)
dostęp poprzez aplikacje webowe
brak konieczności ściągania i instalowania
Infrastruktura
chmura obliczeniowa
3
Poznań
12 IV 2018
CLARIN-PL
Możliwości wykorzystania
Utworzone aplikacje webowe są do państwa dyspozycji
służymy pomocą w ich obsłudze
w zrozumieniu zasad ich działania/użytych metod
nie tylko w ramach warsztatów: [email protected]
Jeżeli nie spełniają one państwa potrzeb, to możemy:
zbudować potrzebną aplikacje badawczą na bazie
istniejących usług
przetworzyć korpus za pomocą usług CTJ Clarin-PL
Możecie państwo samodzielnie wykorzystać usługi
API REST-owe: http://ws.clarin-pl.eu
przykłady w Javie, Python
efektywność przetwarzania
Zasoby obliczeniowe są zawsze ograniczone
Warsztaty to bardzo trudny model przetwarzania4
Poznań
12 IV 2018
CLARIN-PL
Proste narzędzia, ale …
skomplikowane
http://ws.clarin-pl.eu
Poznań
12 IV 2018
CLARIN-PL
LEM = System eksploracji tekstów
literackich
http://ws.clarin-pl.eu/lem.shtml
Opracowywany przez CLARIN-PL we współpracy z
Instytutem Badań Literackich Polskiej Akademii Nauk
Maciej Maryl, Maciej Piasecki, Tomasz Walkowiak
Poznań
12 IV 2018
CLARIN-PL
LEM
http://ws.clarin-pl.eu/lem.shtml
LEM = Literary Exploratory Machine
Złożone metody …. prosta funkcjonalność
Poznań
12 IV 2018
CLARIN-PL
Załadowanie korpusów
Różnorodność formatów
txt – różnorodne kodowanie znaków
doc, docx (pptx, xlslx), odt, rtf, html, pdf
Apache Tika do konwersji
Różnorodność źródeł
Lokalny plik, URL,
prywatna chmura
ZIP
Problemy
Zip – wersje, struktura
Konwersje automatyczne:
kolumny
wzory, obrazy, tabele
nagłówki, stopki
Poznań
12 IV 2018
CLARIN-PL
Tagowanie morfosyntaktyczne
http://ws.clarin-pl.eu/tager.shtml
Morfeusz + WCRFT2, MorphoDiTa
tokenizacja
forma bazowa
znacznik, tagset NKJP: http://nkjp.pl/poliqarp/help/ense2.html
<chunk id="ch1" type="p">
<sentence id="s1">
<tok> <orth>Wysoka</orth> <lex disamb="1"> <base>wysoki</base>
<ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/>
<tok> <orth>,</orth> <lex disamb="1"><base>,</base>
<ctag>interp</ctag></lex> </tok>
<tok> <orth>kształtna</orth> <lex disamb="1"><base>kształtny</base>
<ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/>
<tok> <orth>,</orth> <lex disamb="1"><base>,</base>
<ctag>interp</ctag></lex> </tok>
<tok> <orth>z</orth> <lex disamb="1"><base>z</base>
<ctag>prep:gen:nwok</ctag></lex> </tok>
<tok> <orth>twarzą</orth> <lex disamb="1"><base>twarz</base>
<ctag>subst:sg:inst:f</ctag></lex> </tok>
Poznań
12 IV 2018
CLARIN-PL
LEM: lematyzacja
Tekst przykładowy (Orzeszkowa, Szczęśliwa)
Wysoka, kształtna, z twarzą myślącą, zimną nieco, ale pięknie
zarysowaną i bardzo świeżą, w stroju pełnym smaku i powagi,
siedzi pod rozłożystemi drzewami wspaniałego parku i myśli o
tem, jaki ten park jest piękny, jaki ten dzień letni jest pogodny i
jaka ona sama jest szczęśliwa.
Rezultat lematyzacji (Orzeszkowa, Szczęśliwa)
wysoki, kształtny, z twarz myśląca, zimny nieco, ale pięknie
zarysować i bardzo świeży, w strój pełny smak i powaga,
siedzieć pod rozłożystemi drzewo wspaniały park i myśleć o
tema, jaki ten park być piękny, jaki ten dzień letni być pogodny i
jaki on sam być szczęśliwy.
Poznań
12 IV 2018
CLARIN-PL
Wydobywanie statystyk z
korpusów http://ws.clarin-pl.eu
Wyznaczanie części mowy (Orzeszkowa, Kto winien) Nie nie qub
była być praet
już już qub
młodą młody adj
, , interp
lecz lecz conj
twarz twarz subst
jej on ppron3
zachowała zachować praet
delikatność delikatność subst
rysów rys subst
i i conj
cery cer subst
, , interp
kibić kibić subst
Poznań
12 IV 2018
CLARIN-PL
Wydobywanie statystyk z
korpusów http://ws.clarin-pl.eu
Charakterystyka czasownikowa (Orzeszkowa, Kto winien)
Statystyki lematów i znaczników w tagsecie NKJP
Toke-ny
czasowniki
Czas1os lp
Czas1oslm
Czas2oslp
Czas3oslp
Czas3oslp_m
czas3oslp_z
Czas3os lp_n
czas3os lm_m
Czas3os lm_z
Czas3os lm_n
Czas3os lm
Czas2os lm
czasbezokolicznik
11242 1299 100 0 100 84 151 465 0 0 0 0 0 0 150
człowiek 36
ale 34
o 34
życie 33
od 33
oko 32
subst:sg:gen:m3 122
subst:sg:nom:f 119
subst:sg:gen:n 115
subst:sg:nom:n 111
prep:gen 107
prep:gen:nwok 105
Poznań
12 IV 2018
CLARIN-PL
Nazwy własne
Liner2
http://ws.clarin-pl.eu/ner.shtml
narzędzie do rozpoznawania i znakowania nazw własnych oraz
wyrażeń temporalnych w tekście
modele:
Poznań
12 IV 2018
CLARIN-PL
Wydobywanie statystyk z
korpusów http://ws.clarin-pl.eu
Wyszukanie nazw własnych (Żuławski, Veneri et romae)
Statystki nazw własnychAdrjatyku
Afrodyty
Albano
Albańskich
Alpach
Amfiteatrowi Flawjusza
Asklepjosa
Augusta
Baedeker
Baedekera
Berniniego
Bibljoteki Augusta
Bogu
Borghese
Cavour
Rzym Rzym 19
Palatynie Palatyn 13
Kapitolu Kapitol 7
Forum forum 6
Konstantyna Konstantyn 4
Koloseum Koloseum 3
Piotra Piotr 3
Słońce słońce 3
Via Sacra via sacrum 3
Baedeker Baedeker 2
Grecji Grecja 2
Kastora Kastor 2
Marka
Aureljusza
Marek
aureljusza 2
Poznań
12 IV 2018
CLARIN-PL
Słowosieć (plWordNet)
• Elektroniczny słownik relacyjny, rodzaj tezaurusa
• Podstawy teoretyczne: Princeton WordNet
• Pochodzenie: Politechnika Wrocławska, 2005-2018
• Cel: bardzo obszerny opis systemu językowego z
wykorzystaniem relacji leksykalno-semantycznych
• Opis czterech części mowy: czasowników, rzeczowników,
przymiotników i przysłówków
• Zastosowanie:
• słownik (do użytku przez nieprofesjonalnego użytkownika)
• zasób leksykalny (do użytku przez badaczy języka z różnych
dziedzin)
• baza danych (w przetwarzaniu języka naturalnego)
Poznań
12 IV 2018
CLARIN-PL
Proces budowy Słowosieci
Kto tworzy Słowosieć?
•zespół polonistów i anglistów
•informatycy, specjaliści od przetwarzania języka
•sztuczna inteligencja (narzędzia półautomatyczne)
Poznań
12 IV 2018
CLARIN-PL
Proces budowy Słowosieci
Korpus Słowosieci
2 mld tokenów
siatka haseł
(słowa najczęstsze)
wyróżnić znaczenia konkordancer korpusu
narzędzia komputerowe
automatyczne
przykłady użycia
n.a. - przykłady użycia -> wyróżnianie znaczeń, przykłady
typowe, 10 znaczeń (Marek)`o zwierzętach: gryźć używając zębów
`o zjawiskach pogodowych (np. mrozie): gryźć
Przykłady użycia wyrazu kąsać
`o owadach: gryźć’
`o wyrzutach sumienia: gryźć’
`o ludziach: dokuczać, szkodzić komuś’
1
2
3
4
5
6
7
8
9
10
Poznań
12 IV 2018
CLARIN-PL
Zawartość Słowosieci
• Ponad 191 tys. słów (lematów) jedno- i wielowyrazowych
= ok. 287 tys. znaczeń (jednostek leksykalnych)
• Opisanych ponad 635 tys. relacjami jednostek i synsetów
• Ok. 230 tys. haseł polsko-angielskich
• Ok. 80 tys. jednostek z anotacją emotywną
• Ponad 163 tys. definicji
• Ponad 73 tys. przykładów użycia
Poznań
12 IV 2018
CLARIN-PL
Synset
• Synset
– zbiór jednostek leksykalnych o wspólnych relacjach
konstytutywnych, np. hiperonimii, holo/meronimii, …
– jednostki zawarte w synsecie są uznawane za synonimy
– jest rodzajem skróconego zapisu, np.
{afekt 1, uczucie 2} hiperonim
{zakochanie 1, zadurzenie 1}
• Relacje konstytutywne
– podstawa konstrukcji synsetu, współdzielone i relatywnie częste
• Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt
Poznań
12 IV 2018
CLARIN-PL
Hiponimia
•Najważniejsza z relacji synsetów
•66% instancji wszystkich relacji synsetów
•kościec każdego wordnetu
Relacje synsetówPoznań
12 IV 2018
CLARIN-PL
Przeglądanie relacji synsetów
hiperonimy
Poznań
12 IV 2018
CLARIN-PL
Przeglądanie relacji synsetów
hiponimy
Poznań
12 IV 2018
CLARIN-PL
Ujednoznacznianie znaczeń
http://plwordnet.pwr.wroc.pl/wordnet/
http://ws.clarin-pl.eu/wsd.shtml
Poznań
12 IV 2018
CLARIN-PL
Wydobywanie statystyk z
korpusów http://ws.clarin-pl.eu
Ujednoznacznianie znaczeń leksykalnych WoSeDon
(Żuławski, Veneri et romae) niespokojny niespokojny adj niespokojny.3(42:jak)
sen sen subst spoczynek.2(23:st) sen.1(23:st)
jakiejś jakiś adj
jakowyś.1(42:jak) który.1(42:jak) jaki.1(42:jak) jakiś.1(42:jak)
jakowy.1(42:jak) któryś.2(42:jak)
jednej jeden adj pewien.1(42:jak) jeden.3(42:jak)
nocy noc subst noc.2(25:czas)
jesiennej jesienny adj jesienny.1(43:rel)
Hiperonimy i hiponimy
sen sen subst
spoczynek.2(23:st) sen.1(23:st)
proces fizjologiczny.1;odpoczynek.1 wypoczynek.1 spoczynek.1 relaks.1drzemka.1 półsen.1;sen zimowy.1 hibernacja.1 diapauza zimowa.1;sen letni.1 estywacja.1 diapauza letnia.1;hibernacja.2;twardy sen.1głęboki sen.1 mocny sen.1
Poznań
12 IV 2018
CLARIN-PL
Nastawienie emocjonalne
ANOTACJA NASTAWIENIEM EMOCJONALNYM
Emocje podstawowe –
radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie
czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992;
Plutchik 1980)
Wartości uniwersalne –
użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda,
prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i
nieszczęście (Puzynina 1992)
Nastawienie –
pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne,
ambiwalentne.
Ponad 80 000 oznakowanych jednostek.
Poznań
12 IV 2018
CLARIN-PL
Dwójka anotatorów
(lingwista i psycholog) dla
każdej jednostki;
Superanotator , którego
decyzja jest
rozstrzygająca w
przypadku niezgodnych
anotacji;
• Anotatorzy nie widzą
wzajemnie swoich
anotacji.
Nastawienie emocjonalnePoznań
12 IV 2018
CLARIN-PL
Analiza emotywna tekstuPoznań
12 IV 2018
CLARIN-PL
tiny.cc/clarinemo
Wydobywanie statystyk z
korpusów http://ws.clarin-pl.eu
Charakterystyka czasownikowe, zaimkowe,
Polaryzacja emocjonalna, wartościowanie emocji
Częstości wystąpień w tekstach
Prus „Faraon”tokeny czas1oslpoj czas1oslmn czas2oslpoj czas2oslmn czas3oslpoj czas3oslmn
257490 2546 535 2421 463 18937 5105
zaim1oslpoj zaim1oslmn zaim2oslpoj zaim2oslmn zaim3oslpoj zaim3oslmn
1586 436 1021 299 3493 1259
polneu polpos polneg
98671 7101 11726
błąd nieszczęście szczęście strach zaufanie złość użyteczność radość krzywda
2951 4003 3598 2010 2206 4813 3166 4701 4133
smutek piękno wiedza
nieużytecz
ność niewiedza wstręt dobro
cieszenie się na coś
oczekiwanego
zaskoczenie
czymś
nieprzewidy
wanym brzydota prawda
4055 1237 815 3648 1345 3032 1676 244 110 643 249
Poznań
12 IV 2018
CLARIN-PL
CLARIN-PL
Dziękuję bardzo za uwagę
ws.clarin-pl.eu
LEM - ćwiczenia
Przykładowy zbiór plików
http://ws.clarin-pl.eu/lem.shtml
http://ws.clarin-pl.eu/k.zip
Zadania
Załadowanie zbioru – musi to być pojedynczy plik zip
Uruchomienie poszczególnych funkcji przetwarzania
Pobranie pliku z rezultatami
Rozpakowanie pliku
Analiza poszczególnych rezultatów w na komputerze
lokalnym za pomocą arkusza kalkulacyjnego lub edytora
plików tekstowych
Poznań
12 IV 2018
CLARIN-PL