Słowosieć - polskie zasoby leksykalne i możliwość ich...

Post on 28-Jul-2020

2 views 0 download

Transcript of Słowosieć - polskie zasoby leksykalne i możliwość ich...

CLARIN-PL

Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania

Agnieszka DziobPolitechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@pwr.edu.pl

2018-05-24

Instalowanie aplikacji

CLARIN-PL

CLARIN-PL.EU/PL/USLUGI/

CLARIN-PL

CLARIN-PL

CLARIN-PL

O Słowosieci

CLARIN-PL

CLARIN-PL

Stan wyjściowy CLARIN-PL

CLARIN-PL

O SłowosieciZastosowania

CLARIN-PL

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Text mining

Semantic Web

Dane multimodalne

Lingwistyka, translacje, dydaktyka

WSD

Wydobywanie informacji

Generatory danych

Psychologia i medycyna

Budowa Słowosieci

CLARIN-PL

CLARIN-PL

Zadanie badawcze

• Przykładowy problem badawczy: diagnostyka zaburzeń osobowości

• Przykładowy materiał: wypowiedzi osób diagnozowanych

CLARIN-PL

System relacji

305 typów i podtypów relacji, w tym:

• 76 typów i podtypów relacji słownika walencyjnego Walenty (obrazują preferencje selekcyjne)

• 42 typów i podtypów relacji synsetów i jednostek łączących Słowosieć z Princeton WordNetem

• 29 typów relacji jednostek i synsetów Princeton WordNet

CLARIN-PL

System relacji

• Podstawowa: hiperonimia (odwrotna hiponimia) – wiąże z kategorią nadrzędną (kot -> ssak drapieżny)

• Relacja cząstkowości-całościowości: meronimia-holonimia dla rzeczowników (awans -> kariera)

• Relacja mero-/holonimii taksonomicznej dla rzeczownika – wiąże drzewo taksonomii naukowej z drzewem wiedzy potocznej (pies -> psowate)

• Relacja dla nazw własnych: typ-egzemplarz (oznaczenie nazw własnych: NP w komentarzu) (Mendel -> botanik)

• Relacje opisu związków przyczynowo-skutkowych dla czasowników:

• Wcześniej (przyczyna): uprzedniość i presupozycja

• Jednocześnie: mero-/ i holonimia czasownikowa

• Później (skutek): kauzacja (inchoatywność) i procesywność

• Relacje wielokrotności dla czasowników: dystrybutywność i iteratywność

CLARIN-PL

System relacji

wartość cechy (Adj-N)

CLARIN-PL

X to przymiotnik, N to rzeczownik

Jeżeli ktoś|coś jest X-owy(e), to ma określone N / jest kimś|czymś o określonym N.Jeżeli ktoś|coś ma określone N / jest o określonym N, to niekoniecznie jest X-owy(e).

System relacji

wartość cechy (Adj-N)

CLARIN-PL

X to derywat przymiotnikowy od czasownika VX oznacza ‘taki [prep] który można V-ować’

atrakcyjny to przymiotnik, wygląd to rzeczownik

Jeżeli ktoś|coś jest atrakcyjny, to ma określony wygląd / jest kimś|czymś o określonym wyglądzie.Jeżeli ktoś|coś ma określony wygląd / jest o określonym wyglądzie, to niekoniecznie jest atrakcyjny.

X to przymiotnik, N to rzeczownik

Jeżeli ktoś|coś jest X-owy(e), to ma określone N / jest kimś|czymś o określonym N.Jeżeli ktoś|coś ma określone N / jest o określonym N, to niekoniecznie jest X-owy(e).

CLARIN-PL

CLARIN-PL

CLARIN-PL

CLARIN-PL

CLARIN-PL

Zadanie badawcze

• Przykładowy problem badawczy: diagnostyka zaburzeń osobowości

• Przykładowy materiał: wypowiedzi osób diagnozowanych

• Proszę wyszukać w Słowosieci czasowniki z kauzacją i procesywnością

• Czym różnią się jedne od drugich?

CLARIN-PL

• Przykładowy scenariusz rozwiązania problemu:1. Badanie, jaki procent stanowią czasowniki wyrażające

postawę czynną a jaki bierną,

2. Przyporządkowanie na podstawie relacji czasowników agentywnych i bezagentywnych do obszarów semantycznych.

CLARIN-PL

Dziedziny w Słowosieci CLARIN-PL

• 53 dziedziny semantyczne dla wszystkich części mowy

• lexicographer files – zastosowanie czysto techniczne• brak zasad dziedzinowej kwalifikacji semantycznej

• brak kodyfikacji (dziedziny nie są opisane w wytycznych ani instrukcjach użytkownika; wyjątkiem jest przymiotnik i niektóre dziedziny czasownika)

bhp najwyższe w hierarchii

grp grupy ludzi i rzeczy

sys systematyka, klasyfikacja

cst czasowniki stanowe

cdystr czasownki dystrybutywne

caku czasowniki akumulatywne

cper czasowniki perduratywne

cdel czasowniki delimitatywne

czy czynności (nazwy)

zdarz zdarzenia

cel cel działania

st sytuacje statyczne (stany)

czc części ciała

os ludzie

rsl nazwy roślin

zw zwierzęta

hig pielęgnacja ciała

cjedz czasowniki jedzenia

pst czasowniki postrzegania (percepcji)

cech cechy ludzi i zwierząt

pos posiadanie i jego zmiana

il ilość, liczebność, jednostki miary

ksz kształty

czas czas i stosunki czasowe

zmn zmiana wielkości, temperatury natężenia, itp.

CLARIN-PL

wytw wytwory ludzkie(nazwy)

jedz jedzenie

msc miejsca i umiejscowienie

umy związane z myśleniem

por związane z porozumiewaniem się

czuj uczucia, odczucia i emocje

zwz związek miedzy ludźmi, rzeczami lub ideami

cumy czasowniki myślenia (szeroko rozumianego)

cpor czasowniki mówienia, śpiewania itp.

wal czasowniki rywalizacji fizycznej

cczuj czasowniki wyrażające uczucia

cpos czasowniki posiadania i zmiany posiadania

sp czasowniki oznacz. wydarzenie i działania społeczne i polityczne

pog czasowniki oznacz. zjawiska pogodowe

prc procesy naturalne

rz obiekty naturalne

zj zjawiska naturalne

sbst substancje

dtk czasowniki oznacz. kontakt fizyczny (dotykanie, uderzenie, rycie itp.)

cwyt czasowniki oznacz. wytwarzanie czegoś

ruch czasowniki ruchu

jak przymiotniki jakościowe

mat przymiotniki materiałowe

rel przymiotniki relacyjne (rzeczownikowe)

adv przysłówki

Zadanie badawcze

• Przykładowy problem badawczy: badanie zdolności dziecka szkolnego

• Przykładowy materiał: teksty tworzone przez dziecko

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

urz. – urzędowe

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

urz. – urzędowe

książk. – książkowe

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

urz. – urzędowe

książk. – książkowe

wulg. – wulgarne

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

urz. – urzędowe

książk. – książkowe

wulg. – wulgarne

posp. – pospolite

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

urz. – urzędowe

książk. – książkowe

wulg. – wulgarne

posp. – pospolite

pot. – potoczne

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

urz. – urzędowe

książk. – książkowe

wulg. – wulgarne

posp. – pospolite

pot. – potoczne

og. – rejestr ogólny

CLARIN-PL

Rejestr jednostki leksykalnej

11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

urz. – urzędowe

książk. – książkowe

wulg. – wulgarne

posp. – pospolite

pot. – potoczne

og. – rejestr ogólny

CLARIN-PL

Zadanie badawcze

• Przykładowy problem badawczy: badanie zdolności dziecka szkolnego

• Przykładowy materiał: teksty tworzone przez dziecko

• Proszę wyszukać w Słowosieci słownictwo książkowe i specjalistyczne abstrakcyjne

• Na podstawie relacji proszę sprawdzić, do jakich dziedzin może należeć słownictwo

CLARIN-PL

• Przykładowy scenariusz rozwiązania problemu:1. Badanie, jaki procent tekstu dziecka to słownictwo

specjalistyczne i książkowe,

2. Badanie, do jakich obszarów semantycznych należy słownictwo (jaki obszar nauk) na podstawie relacji jednostek i dziedzin semantycznych,

3. Utworzenie słownika (listy) jako materiału porównawczego w stosunku do innych dzieci w podobnym wieku.

CLARIN-PL

Synsety sztuczne

• Synsety o charakterze porządkującym, niebędące jednostkami języka

• Przykład: proszę prześledzić hiponimy czasownika czuć 2

• Proszę zobaczyć, jakie anotacje emotywne mają

CLARIN-PL

Zadanie badawcze

• Przykładowy problem badawczy: analiza sentymentu

• Przykładowy materiał: forum dyskusyjne chorych na depresję

CLARIN-PL

Nastawienie emocjonalne

• Emocje podstawowe –radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)

CLARIN-PL

Nastawienie emocjonalne

• Emocje podstawowe –radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)

• Wartości uniwersalne –użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992)

CLARIN-PL

Nastawienie emocjonalne

• Emocje podstawowe –radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)

• Wartości uniwersalne –użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992)

• Nastawienie –pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne.

CLARIN-PL

Nastawienie emocjonalne

• Emocje podstawowe –radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)

• Wartości uniwersalne –użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992)

• Nastawienie –pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne.

• Ponad 100 000 oznakowanych jednostek.

CLARIN-PL

Nastawienie emocjonalne CLARIN-PL

• Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki;

Nastawienie emocjonalne CLARIN-PL

• Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki;

• Superanotator , którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji;

Nastawienie emocjonalne CLARIN-PL

• Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki;

• Superanotator , którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji;

• Anotatorzy nie widzą wzajemnie swoich anotacji.

Nastawienie emocjonalne CLARIN-PL

Zadanie badawcze

• Przykładowy problem badawczy: analiza sentymentu

• Przykładowy materiał: forum dyskusyjne chorych na depresję

• Proszę wyszukać w Słowosieci słownictwo mocno negatywnie nacechowane

• Na podstawie relacji proszę sprawdzić, do jakich dziedzin może należeć słownictwo

CLARIN-PL

WNLoom

CLARIN-PL

Długotrwały kontakt językowy i jego skutki leksykalne oraz semantyczne na przykładzie polskich zapożyczeń leksykalnych w jidysz - grant NCN (OPUS 11); kierownik prof. Ewa Geller (UW)

CLARIN-PL

Do poczytaniaSubiektywny wybór tekstów

CLARIN-PL

• Nowaczyk, A., & Jackowska-Strumiłło, L. (2017). Rozpoznawanie emocji w tekstach polskojęzycznych z wykorzystaniem metody słów kluczowych. Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska, 7.

• Sansonnet, J. P., & Bouchet, F. (2010). Extraction of agent psychological behaviors from glosses of wordnet personality adjectives. In Proc. of the 8th European Workshop on Multi-Agent Systems (EUMAS10).

• Sigman, M., & Cecchi, G. A. (2002). Global organization of the Wordnet lexicon. Proceedings of the National Academy of Sciences, 99(3), 1742-1747.

• Mikołajczak-Matyja, N. (2015). The associative structure of the mental lexicon: hierarchical semantic relations in the minds of blind and sighted language users. Psychology of Language and Communication, 19(1), 1-18.

• Gatkowska, I. (2015). Empiryczna sieć powiązań leksykalnych. Polonica, 35, 155-178.

CLARIN-PL

Dziękuję bardzo za uwagę

Zapraszamy do kontaktu:agnieszka.dziob@pwr.edu.pl