Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

115
CLARIN-PL Słowosie 3.0 - leksykalna sie semantyczna jzyka polskiego i jej zastosowanie w analizie znacze Paweł Kdzia, Marek Maziarz, Maciej Piasecki i Piotr Pzik * Politechnika Wrocławska *Uniwersytet Łódzki Katedra Inteligencji Obliczeniowej Wydział Filologiczny Grupa Naukowa G4.19 Instytut Anglistyki pawel.kedzia@, marek.maziarz@, [email protected] [email protected] 2015-04-14

Transcript of Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Page 1: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

CLARIN-PL

Słowosiec 3.0 - leksykalna siec semantyczna jezyka polskiego i jej zastosowanie w analizie znaczen

Paweł Kedzia, Marek Maziarz, Maciej Piasecki i Piotr Pezik*

Politechnika Wrocławska *Uniwersytet Łódzki

Katedra Inteligencji Obliczeniowej Wydział Filologiczny

Grupa Naukowa G4.19 Instytut Anglistyki

pawel.kedzia@, marek.maziarz@, [email protected] [email protected]

2015-04-14

Page 2: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Plan prezentacji

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 3: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Plan prezentacji

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1. Wstęp

2. Relacje

3. Dodatkowe elementy opisu

4. Proces budowy Słowosieci

5. Efekt

6. Zastosowania

7. Ujednoznacznianie znaczeń słów

8. WoSeDon

9. Stenogramy sejmowe

Page 4: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

1. Wstęp

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 5: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Wordnet

Uniwersytet w Princeton, lata 80., psycholingwistyka i

lingwistyka informatyczna (J. Miller, Ch. Fellbaum)

Badania nad językiem dzieci

Wielka sieć leksykalno-semantyczna języka angielskiego

Cztery części mowy

rzeczowniki, czasowniki, przymiotniki i przysłówki

Synset – zbiór prawie synonimów (ang. near synonyms)

Relacje semantyczne

Podstawowy zasób językowy

Global Wordnet Association

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 6: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacyjna semantyka leksykalna

System semantyczny języka jako sieć relacji

John Lyons (1963), Structural semantics

znaczenie wyrazu = zbiór jego relacji znaczeniowych

główne relacje znaczeniowe (sense relations): synonimia,

antonimia, hiponimia, meronimia (relacje paradygmatyczne)

Igor Mel’čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60.

model „sens ↔ tekst”

funkcje leksykalne paradygmatyczne i syntagmatyczne

(Mel’čuk 1996),

neostrukturalizm

Alan Cruse, Gregory Murphy (Uniwersytet w Manchester),

lata 80.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 7: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Słowosieć (plWordNet)

Pochodzenie

Politechnika Wrocławska, 2005-2013

szereg projektów

cel: bardzo obszerny opis systemu

relacji leksykalno-semantycznych

Relacje leksykalno-semantyczne, ok. 40 głównych typów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

rzeczownik czasownik przymiotnik

hiponimia

meronimia

antonimia

mieszkaniec

role semantyczne

hiponimia

kauzacja

procesywność

zawieranie roli

aspektowość

hiponimia

wartość cechy

gradacyjność

charakteryzowanie

symilatywność

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 8: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Synset

• Synset

– zbiór jednostek leksykalnych o wspólnych relacjach

konstytutywnych, np. hiperonimii, holo/meronimii, …

– jednostki zawarte w synsecie są uznawane za synonimy

– jest rodzajem skróconego zapisu, np.

{afekt 1, uczucie 2} hiperonim

{miłość 1, umiłowanie 1, kochanie 1}

• Relacje konstytutywne

– podstawa konstrukcji synsetu, współdzielone i relatywnie częste

• Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 9: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Bogata sieć relacji

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 10: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

2. Relacje

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 11: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje

1. Relacje synsetów = pomiędzy zbiorami synonimów.

2. Relacje jednostek leksykalnych = pomiędzy znaczeniami.

3. Relacja synonimii.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 12: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje synsetów

relacje pomiędzy zbiorami synonimów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

0% 20% 40% 60% 80%

hiponimia

meronimia

fuzzynimia

bliskoznaczność

instancja

mieszkaniec Rzeczowniki

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 13: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Hiponimia

Najważniejsza z relacji synsetów

66% instancji wszystkich relacji synsetów

kościec każdego wordnetu

65,9%

15,1% 12,4%

3,7% 2,6% 0,3% 0%

10%

20%

30%

40%

50%

60%

70%

Rzeczowniki

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 14: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Hiponimia

testy podstawieniowe

tygrys1 (zw) «Panthera tigris»

kot1 (zw) « każdy ssak z rodziny kotowatych»

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Hiponimia

Jeśli coś jest tygrysem1, to musi być kotem1.

Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1.

Jeśli coś nie jest kotem1, to nie może być tygrysem1.

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 15: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Hiponimia

testy podstawieniowe

tygrys1 (zw) «Panthera tigris»

kot1 (zw) «każdy ssak z rodziny kotowatych»

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Hiponimia

Jeśli coś jest tygrysem1, to musi być kotem1.

Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1.

Jeśli coś nie jest kotem1, to nie może być tygrysem1.

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 16: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Hiponimia

testy podstawieniowe

tygrys1 (zw) «Panthera tigris»

kot1 (zw) «każdy ssak z rodziny kotowatych»

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Hiponimia

Jeśli coś jest tygrysem1, to musi być kotem1. TAK

Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. TAK

Jeśli coś nie jest kotem1, to nie może być tygrysem1. TAK

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 17: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Hiponimia

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

«każdy ssak z rodziny kotowatych»

«Panthera tigris»

«Panthera leo» «Panthera onca»

«Acinonyx jubatus»

Page 18: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Hiponimia

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 19: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Hiponimia

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

tygrys1 (zw) «Panthera tigris»

kot1 (zw) «każdy ssak z rodziny kotowatych»

drapieżnik1 (zw)

mięsożerca1 (zw)

istota żywa1 (zw)

organizm1 (rz)

Page 20: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Hiponimia

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

hiperonim

hiponimy

Page 21: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Meronimia

relacja część – całość

druga w kolejności, 15% instancji relacji

65,9%

15,1% 12,4%

3,7% 2,6% 0,3% 0%

10%

20%

30%

40%

50%

60%

70%

Rzeczowniki

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 22: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Meronimia

relacja część – całość

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

holonim (całość)

meronimy (części) 1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 23: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Meronimia

test podstawieniowy

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

holonim (całość) meronim (część)

Meronimia

Kiosk3 jest częścią okrętu podwodnego1.

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 24: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Meronimia

test podstawieniowy

Relacje synsetów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

holonim (całość) meronim (część)

Meronimia

Kiosk3 jest częścią okrętu podwodnego1. TAK

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 25: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

relacje pomiędzy jednostkami leksykalnymi (znaczeniami)

nie mniej ważne niż relacje synsetów

dostarczają informacji dodatkowej

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 26: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 27: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

«o zwierzętach: gryźć»

«używac sztyletu w celu zadania ciosu»

«kaleczyc, ranic, rozcinając ciało i odsłaniając wewnetrzne tkanki»

Page 28: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 29: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 30: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 31: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 32: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

AGENS rozpruwacz1 (os) «ktoś, kto rozpruwa»

NARZĘDZIE «sztyletuje sie sztyletem1 (wytw)»

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 33: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

AGENS rozpruwacz1 (os) «ktoś, kto rozpruwa»

NARZĘDZIE «sztyletuje sie sztyletem1 (wytw)»

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 34: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

AGENS rozpruwacz1 (os) «ktoś, kto rozpruwa»

NARZĘDZIE «sztyletuje sie sztyletem1 (wytw)»

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 35: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

rozpruwac1 (dtk) «kaleczyc (kogoś); czynnośc wykonywana przez morderce nazywanego rozpruwaczem»

NARZĘDZIE «sztyletuje sie sztyletem1 (wytw)»

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 36: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

rozpruwac1 (dtk) «kaleczyc (kogoś); czynnośc wykonywana przez morderce nazywanego rozpruwaczem»

sztyletowac1 (wal) «kaleczyc (kogoś) sztyletem»

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 37: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacje jednostek leksykalnych

1. Relacje o charakterze derywacyjnym:

np. rola – agens:

rozpruwacz1 (os) rozpruwać1 (dtk),

np. zawieranie roli – narzędzie:

sztyletować1 (wal) sztylet1 (wytw).

2. Pozostałe relacje:

antonimia: miłość1 (czuj) ↔ nienawiść1 (czuj),

konwersja: mąż2 (os) ↔ żona1 (os).

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 38: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacja synonimii

Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).

Synonimia w wordnetach = synonimia częściowa.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Definicja synonimii

X i Y są synonimami, jeżeli w sieci relacji konstytutywnych

zajmują dokładnie tę samą pozycję

i nie różnią się w sposób istotny rejestrem.

Relacje konstytutywne = hiponimia, meronimia, …

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 39: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacja synonimii

Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).

Synonimia w wordnetach = synonimia częściowa.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Definicja synonimii

X i Y są synonimami, jeżeli w sieci relacji konstytutywnych

zajmują dokładnie tę samą pozycję

i nie różnią się w sposób istotny rejestrem.

Relacje konstytutywne = hiponimia, meronimia, …

Istotnie różnią się np. rejestry wulgarny i potoczny.

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 40: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacja synonimii

Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).

Synonimia w wordnetach = synonimia częściowa.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Definicja synonimii

X i Y są synonimami, jeżeli w sieci relacji konstytutywnych

zajmują dokładnie tę samą pozycję

i nie różnią się w sposób istotny rejestrem.

Relacje konstytutywne = hiponimia, meronimia, …

Istotnie różnią się np. rejestry wulgarny i potoczny.

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 41: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacja synonimii

Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).

Synonimia w wordnetach = synonimia częściowa.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Definicja synonimii

X i Y są synonimami, jeżeli w sieci relacji konstytutywnych

zajmują dokładnie tę samą pozycję

i nie różnią się w sposób istotny rejestrem.

Relacje konstytutywne = hiponimia, meronimia, …

Istotnie różnią się np. rejestry wulgarny i potoczny.

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 42: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Relacja synonimii

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

{afekt 1, uczucie 2}

hiponimia

{miłość 1, umiłowanie 1, kochanie 1}

Page 43: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

3. Dodatkowe elementy opisu

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 44: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Rejestr jednostki leksykalnej

Rejestr = zakres stosowalności jednostki leksykalnej.

11 rejestrów Słowosieci

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 45: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Rejestr jednostki leksykalnej

Rejestr = zakres stosowalności jednostki leksykalnej.

11 rejestrów Słowosieci:

nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

urz. – urzędowe

książk. – książkowe

wulg. – wulgarne

posp. – pospolite

pot. – potoczne

og. – rejestr ogólny

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 46: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Rejestr jednostki leksykalnej

Rejestr = zakres stosowalności jednostki leksykalnej.

11 rejestrów Słowosieci:

nienorm. – nienormatywne

daw. – dawne

reg. – regionalne

środ. – środowiskowe

specj. – specjalistyczne

urz. – urzędowe

książk. – książkowe

wulg. – wulgarne

posp. – pospolite

pot. – potoczne

og. – rejestr ogólny

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

hulk1 (wytw) specj.

holk1 (wytw) specj.

tygrys1 (zw) og.

rozpruwacz1 (os) pot.

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 47: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Rejestr jednostki leksykalnej

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 48: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Glosy

Glosy to skrócone definicje.

W Słowosieci jest ich ponad 90 tys.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 49: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Glosy

Glosy to skrócone definicje.

W Słowosieci jest ich ponad 90 tys.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

tygrys1 (zw) og. «Panthera tigris – gatunek dużego, drapieżnego ssaka

łożyskowego z rodziny kotowatych (Felidae), największy z

żyjących współcześnie czterech wielkich, ryczących kotów z

rodzaju Panthera, jeden z największych drapieżników

lądowych – wielkością ustępuje jedynie niektórym niedźwiedziom»

rozpruwacz1 (os) pot.

«określenie mordercy, który okalecza swoje ofiary za pomocą

noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów,

masakruje różne części ciała»

Page 50: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Przykłady użycia

dokumentacja korpusowa lub ilustracja znaczenia

preparowane lub ze źródeł o otwartej licencji

ponad 100 tys. opisanych znaczeń (głównie rzeczowników i

przymiotników)

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

tygrys1 (zw) og.

«Panthera tigris – gatunek dużego, drapieżnego ssaka łożyskowego z rodziny

kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich,

ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych

– wielkością ustępuje jedynie niektórym niedźwiedziom»

„Umiejętność chowania pazurów umożliwia tygrysowi bardzo

ciche stąpanie przy podkradaniu się do ofiary, a ich wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy.” (źródło: Wikipedia)

Page 51: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Dziedziny Słowosieci

skróty w nawiasach:

tygrys1 (zw) zw = zwierzęta

fluita1 (wytw) wytw = wytwory (artefakty)

rozpruwacz1 (os) os = osoby, ludzie

sztyletować1 (wal) wal = walka i rywalizacja

rozpruwać1 (dtk) dtk = kontakt fizyczny

zamek1 (msc) msc = miejsce

nienawiść1 (czuj) czuj = uczucia, emocje

mają techniczny charakter

pomagają w orientowaniu się w sieci

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 52: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Dziedziny Słowosieci

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

pejoratywne określenia ludzi

gatunki i rasy zwierząt

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 53: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Nastawienie emocjonalne

ANOTACJA NASTAWIENIEM EMOCJONALNYM

Emocje podstawowe –

radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie

czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992;

Plutchik 1980)

Wartości uniwersalne –

użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda,

prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i

nieszczęście (Puzynina 1992)

Nastawienie –

pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne.

Ponad 20 000 oznakowanych jednostek.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 54: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Nastawienie emocjonalne

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

rozpruwacz1 (os) pot.

«określenie mordercy, który okalecza swoje ofiary za pomocą

noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów,

masakruje różne części ciała.»

##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m

[Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie

wychodził z domu po zmroku.]

##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m

[Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 55: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Nastawienie emocjonalne

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

rozpruwacz1 (os) pot.

«określenie mordercy, który okalecza swoje ofiary za pomocą

noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów,

masakruje różne części ciała.»

##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m

[Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie

wychodził z domu po zmroku.]

##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m

[Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

pierwszy anotator

emocje podstawowe wartości nastawienie

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 56: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Nastawienie emocjonalne

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

rozpruwacz1 (os) pot.

«określenie mordercy, który okalecza swoje ofiary za pomocą

noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów,

masakruje różne części ciała.»

##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m

[Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie

wychodził z domu po zmroku.]

##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m

[Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

drugi anotator

Page 57: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

4. Proces budowy Słowosieci

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 58: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Proces budowy Słowosieci

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Kto tworzy Słowosieć?

zespół 20-30 polonistów, 10 anglistów

informatycy, specjaliści od przetwarzania języka

sztuczna inteligencja (narzędzia półautomatyczne)

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 59: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Proces budowy Słowosieci

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Korpus Słowosieci

2 mld tokenów

siatka haseł

(słowa najczęstsze)

wyróżnić znaczenia konkordancer korpusu

narzędzia komputerowe

automatyczne

przykłady użycia

Sketch Engine

Inforex

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 60: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Proces budowy Słowosieci

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Korpus Słowosieci

2 mld tokenów

siatka haseł

(słowa najczęstsze)

wyróżnić znaczenia konkordancer korpusu

narzędzia komputerowe

automatyczne

przykłady użycia

n.a. - przykłady użycia -> wyróżnianie znaczeń, przykłady

typowe, 10 znaczeń (Marek) `o zwierzętach: gryźć używając zębów,

powodując rany’ `o zjawiskach pogodowych (np. mrozie): gryźć,

szczypać’

Przykłady użycia wyrazu kąsać

`o owadach:

gryźć’ `o zmartwieniach, wyrzutach sumienia:

gryźć’ `o ludziach: dokuczać, szkodzić komuś’

1

2

3

4

5

6

7

8

9

10

Page 61: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Proces budowy Słowosieci

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Korpus Słowosieci

2 mld tokenów

siatka haseł

(słowa najczęstsze)

wyróżnić znaczenia

narzędzia komputerowe

słowniki, encyklopedie,

leksykony…

zespół Słowosieci wytyczne

zdefiniować jednostkę

przypisać relacje = podpiąć

Tkacz Wordnetu

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 62: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Proces budowy Słowosieci

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

antonim hiperonim hiponim kohiponim

wyraz bliskoznaczny holonim

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 63: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

5. Efekt

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 64: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Słowosieć w liczbach

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

haseł 167 000 156 000

synsetów 178 000 118 000

jednostek 237 000 207 000

relacji > 500 000 > 500 000

0

20 000

40 000

60 000

80 000

100 000

120 000

140 000

rzeczownik czasownik przymiotnik przysłówek

Słowosieć WordNet

Liczba haseł (lematów) w Słowosieci i w WordNecie

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 65: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Słowosieć w liczbach

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Słowosieć a słowniki polszczyzny współczesnej

0 50 100 150 200

Słowosieć

Praktyczny słownik współczesnej polszczyzny

Słownik języka polskiego W. Doroszewskiego

Uniwersalny słownik języka polskiego

Inny słownik języka polskiegohaseł [tys.]

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 66: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Słowosieć w liczbach

Słowosieć 2.3

koniec kwietnia br.

przymiotnik + nastawienie

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 67: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Praca ze Słowosiecią

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Słowosieć online Słowosieć mobilna WordnetLoom-

Viewer

www.clarin-pl.eu

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 68: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Praca ze Słowosiecią

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

www.plwordnet.pwr.wroc.pl/wordnet

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 69: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Praca ze Słowosiecią

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Słowosieć mobilna

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 70: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Praca ze Słowosiecią

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

WordnetLoom

Page 71: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

6. Zastosowania

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 72: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Zastosowania: projekty

badawcze (wybrane)

Semantyczna anotacja korpusu gestów wskazujących (Lis, 2012)

Leksykony semantycznych ram walencyjnych (Hajnicz, 2011; Hajnicz, 2012)

Wyznaczanie pól semantycznych

Grupowanie czasowników na potrzeby badania klas alternacji

Kategoryzacja wyrażeń metaforycznych w oparciu o hiperonimy

Wspomagana komputerowo analiza danych jakościowych

Badania nad frazeologią

Nauka języka

„przygotowanie słowniku dla kursu języka czeskiego dla obcokrajowców” (Uniwersytet Masaryka, Brno)

Konstrukcja programów do nauki języka

Badanie treści prac uczniowskich/studenckich

Edukacyjne: językoznawstwo, leksykologia, leksykografia

Tłumaczenia

Analiza leksykalizacji pojęć

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 73: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Zastosowania (wybrane)

Wyszukiwanie semantyczne w korpusach tekstu

Grupowanie semantyczne tekstów

określanie podobieństwa zdań i fragmentów tekstów, np. (Siemiński,

2012)

Klasyfikacja semantyczna tekstu, np. (Maciołek, 2010)

Korekta rozpoznawania mowy w systemach dialogowych

Systemy odpowiedzi na pytania w języku naturalnym

Np. do rozpoznania typu pytania

Wydobywanie terminologii i słów kluczowych, np. (Mykowiecka i

Marciniak, 2012)

Wnioskowania w oparciu o logiki naturalne

Tworzenie programów do grania w gry słowne

Wykrywanie i generowanie pleonazmów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 74: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Zastosowania (wybrane)

Definiowanie cech na potrzeby Text Mining ze stron WWW (Maciolek

and Dobrowolski, 2013)

Rzutowanie pomiędzy leksykonem a ontologią (Wróblewska et al.,

2013)

Miara podobieństwa semantycznego słów na potrzeby analizy ontologii

(Lula and Paliwoda-Pękosz, 2009)

Automatyczne wydobywanie leksykonów atrybutów opinii (Wawer and

Gołuchowski, 2012)

Rozpoznawanie i klasyfikacja nazw własnych (własne G4.19)

Ujednoznacznianie sensów słów (Gołuchowski and Przepiórkowski,

2012, własne G4.19, 2015)

Rozpoznawanie powiązań anaforycznych (własne G4.19)

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 75: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

7. Ujednoznacznianie sensów

słów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 76: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Idea ujednoznaczniania sensów słów:

zamek

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 77: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Idea ujednoznaczniania sensów słów (cd.):

zamek

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 78: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Idea ujednoznaczniania sensów słów (cd.):

zamek

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 79: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Idea ujednoznaczniania sensów słów (cd.):

zamek

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 80: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Idea ujednoznaczniania sensów słów (cd.):

Po powrocie z pracy zepsułem zamek.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

`

`

`

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 81: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Idea ujednoznaczniania sensów słów (cd.):

Po powrocie z pracy zepsułem zamek w drzwiach.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

`

`

`

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 82: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Proces polegający na przypisaniu słowu odpowiedniego

znaczenia wybranego ze zbioru znaczeń słów,

odpowiadającego znaczeniu słowa w danym kontekście.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 83: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Uczenie na podstawie oznaczeń w tekstach:

Wymagane duże zasoby ręcznie oznaczonych tekstów;

Czasochłonność ręcznego oznaczania tekstów (koszty);

Każde słowo z osobna posiada swoje anotacje;

Rozpoznawanie znaczeń kolejnego słowa = anotacje tego

słowa = kolejne koszty;

Zaleta: duża dokładność systemu;

Wada: niska kompletność rozpoznawanych znaczeń;

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 84: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Uczenie bez wstępnego oznaczania w tekście:

Nie jest wymagane wstępne znakowanie znaczeń w tekstach;

Wykorzystanie istniejących struktur opisujących zależności

między znaczeniami słów (Słowosieć);

Zaleta: dużo większa kompletność rozpoznawanych słów w

stosunku do ujednoznaczniania na podstawie ręcznych

anotacji;

Wada: mniejsza dokładność rozpoznawanych w stosunku do

systemów uczonych na podstawie ręcznych oznaczeń;

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 85: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Nienadzorowane podejście oparte o przetwarzanie grafu.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

„Po powrocie z pracy zepsułem zamek w drzwiach.” – graf dla słowa „zamek”.

Page 86: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

„Po powrocie z pracy zepsułem zamek w drzwiach.”

Page 87: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

Proces aktywacji synsetów – Nienadzorowane podejście

oparte o przetwarzanie grafu.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

. . .

budowla obronna

rezydencja zamknięcie

zatrzask

furtka drzwi

kurtka zapięcie

garnitur posiadać

Mam zamek w kurtce i garniturze.

zamek-1

(budowla)

mieć zamek-6

(suwak)

zamek-2

(w drzwiach)

strażnica baszta

brama

. . . . . . . . .

. . .

. . .

. . . . . . . . . . . .

. . .

. . . 6

16

1

6

1

6

1

6

16

1

0

0

0

0

0 0 0

0

0

0

0

Page 88: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Ujednoznacznianie sensów słów

„Surowe” wyjście WoSeDona – anotacje WSD dla słowa „zamek” w zdaniu Po powrocie z pracy zepsułem zamek w drzwiach.

<tok>

<orth>zamek</orth>

<lex disamb="1">

<base>zamek</base><ctag>subst:sg:acc:m3</ctag>

</lex>

<prop key="sense:ukb:syns_id">4190</prop>

<prop key="sense:ukb:syns_rank">4190/0.1871610737

43594/0.1711723551 46716/0.1504792310

4189/0.1383621756 46718/0.1349534529

52769/0.1107446943 43596/0.1071270174</prop>

<prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop>

</tok>

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek.

Page 89: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

8. WoSeDon

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 90: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

WoSeDon

Narzędzie do generowania i przeglądania list

frekwencyjnych znaczeń Słowosieci z korpusów tekstów.

Korpus musi posiadać wcześniej przypisane znaczenia, za

co również odpowiada WoSeDon w fazie wstępnej

przetwarzania tekstu (preprocessingu).

Dostępność poprzez przeglądarkę pod adresem:

http://wosedon.clarin-pl.eu/home

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 91: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

WoSeDon – okno główne

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 92: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

WoSeDon – schemat działania

Korpus w

DSpace

Przetwarzanie korpusu do CCL

(WCRFT, Liner, WoSeDon)

Przejście do

WoSeDon’a

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 93: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

WoSeDon – funkcjonalność

Generowanie i przeglądanie list frekwencyjnych znaczeń z

korpusów tekstów.

Generowanie listy bezpośrednio z DSpace poprzez

kliknięcie w przycisk:

Ewentualnie poprzez wklejenie URI (np.

http://hdl.handle.net/11321/114) do WoSeDona:

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 94: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

WoSeDon – funkcjonalność

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 95: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

WoSeDon – funkcjonalność

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 96: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

WoSeDon – dalsze prace

Wyznaczanie „znaczeń tematów” – znaczenia, które łącznie

pokrywają 50% korpusu.

Rozwój interfejsu o kolejne informacje np. liczba wszystkich

znaczeń w korpusie, liczba różnych znaczeń itp.

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 97: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

9. Stenogramy sejmowe

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 98: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Sejm ostatnich kadencji

lata 2006-2014

metadane:

data

partia

poseł

automatycznie ujednozna-

cznione sensy słów

prezentacja w aplikacji

KOPER autorstwa dra

P. Pęzika

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 99: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

http://clarin.pelcra.pl/PSCWSDWeb

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 100: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

http://clarin.pelcra.pl/PSCWSDWeb

składnia zapytań – wersja robocza

<lemma=kryzys:30679>

↑ ↑

hasło ID synsetu

ID synsetu identyfikuje znaczenia

konkordancja + trendy (szeregi czasowe)

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 101: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

kryzys 1 (cech) (pogorszenie się sytuacji w sferze społecznej)

kryzys 2 (pos) (kryzys gospodarczy, recesja)

kryzys 3 (st) (pogorszenie się sytuacji człowieka, np. kryzys małżeński)

kryzys 4 (zdarz) (w chorobie)

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 102: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

kryzys 4 (zdarz) (w chorobie)

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 103: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

konkordancje

ściąganie

w formacie *.xls

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 104: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

ściąganie w różnych formatach

graficznych

Page 105: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

kryzys 2 (pos)

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 106: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 107: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

klikalne punkty

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 108: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

A przecież , jak mówiłem

wcześniej , taki kryzys

mógłby także zagrozić

stabilności polskiego systemu

bankowego.

minister Jacek Rostowski, PO, 2009-05-22

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 109: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 110: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

Z tego, co

usłyszałem

w exposé,

wynika, że

kryzys

gospodarczy nie stuka do naszych drzwi,

nie łomocze - jest już w przedpokoju,

powiesił płaszcz, założył kapcie i zaczyna

czuć się jak u siebie w domu .

poseł Leszek Miller, SLD, 2011-11-

18

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 111: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 112: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

Taką potrzebą chwili na przykład uzasadnialiśmy

zmiany, które weszły w 2009 r. i obowiązywały

przez 2 lata w okresie tzw. - niektórzy tak to

nazywają - pierwszej fali

kryzysu .

poseł Adam Szejnfeld, PO, 2011-03-7

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 113: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

szeregi czasowe

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

Page 114: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

Stenogramy sejmowe Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Plany:

pozostałe kadencje Sejmu

wyszukiwanie po polach leksykalnych

- tj. po grupie hiponimów danej jednostki

- np. hiponimy rzeczownika kobieta

w zn. «dorosły człowiek płci żeńskiej»

Page 115: Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej ...

CLARIN-PL

Dziękujmy bardzo za uwagę