Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

27
Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego Joanna Rączaszek – Leonardi Bartosz Kruszyński Wydział Psychologii UW

description

Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego. Joanna Rączaszek – Leonardi Bartosz Kruszyński Wydział Psychologii UW. Teorie znaczenia wyrazów języka naturalnego. Jak ująć/reprezentować znaczenie? Gdzie go szukać? - PowerPoint PPT Presentation

Transcript of Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Page 1: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Wielowymiarowa Przestrzeń Semantyczna (HAL)

jako narzędzie analizy korpusów języka polskiego

Joanna Rączaszek – LeonardiBartosz Kruszyński

Wydział Psychologii UW

Page 2: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Teorie znaczenia wyrazów języka naturalnego

Jak ująć/reprezentować znaczenie? Gdzie go szukać?

W zewnętrznej rzeczywistości?W umyśle użytkownika języka?W związkach między wyrazami?

Alan Cruse „Meaning in Language” (Oxford Textbooks in Linguistics, 2004)

„The position taken in this book is that in general meanings are not finitely describable, so this task boils down to finding the best way to approximate meanings as closely as necessary for current purposes...”

Page 3: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Charakterystyka znaczenia: częstość współwystępowania z innymi wyrazami Teoria najmniej ciekawa dla psychologa...? (pomija to, do czego wyraz się odnosi, pomija reprezentacje poznawcze, jakie towarzyszą użyciu lub rozumieniu wyrazu).

Jednak związki między wyrazami (konteksty jęz.) daje się obiektywnie opisać;

• Łatwiej niż: odniesienia, czy reprezentacje umysłowe...Wzorce współwystępowania wyrazów jeśli nie wyznaczają (tak jak chciał np. Quine) tego, co one znaczą, to na pewno z tego znaczenia wynikają. Jakoś więc są z innymi aspektami znaczenia powiązane, odzwierciedlają je.

Page 4: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Metoda: 1995 – Kurt Burgess: Konferencja CUNY: Hyperspace Analogue to Language

Korpus: np. 160 mln wyrazów;Macierz np. 10 000 x 10 000; elementy: średnia bliskość danych dwóch wyrazów w tekście (miara współwystępowania dwóch wyrazów);Wyraz: reprezentowany przez wektor (o długości 10 000 elementów); Podobieństwo wektorów: podobieństwo (strukturalistycznie zdefiniowanego) znaczenia.

Page 5: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

CO UMIE HAL?Kategoryzacja

Np. semantyczna rzeczowników (nazwy geograficzne, zwierzęta, rośliny); Kategorie gramatyczne;

Znajduje najbliższe „semantycznie” wyrazy Burgess: korelacja bliskości w przestrzeni HAL z siłą torowania (model pamięci semantycznej(?));

Page 6: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Torowanie semantyczne:

Założenie: słowa semantycznie związane uaktywniają się nawzajem (sieci semantyczne: im bliższy związek, tym silniej)

Rozpoznanie słowa jest szybsze po wcześniejszej prezentacji słowa semantycznie z nim związanego

Page 7: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

SZPITAL

LEKARZ

SZPITAL

TRATWA

KOŁO

STONU

DRZEWO

JAJKO

słowo nie-słowo

Page 8: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego
Page 9: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Wstępna ocena HAL’aBardzo prosty koncepcyjnie model może być użyteczny w badaniach reprezentacji znaczenia.Czy nadaje się do tych samych celów w przypadku języka polskiego?

Page 10: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

HAL a język polskiPolski: swobodniejszy (niż angielski) szyk zdania: czy HAL będzie działał?

• przykład: konstrukcja macierzy

Działa. Nawet na małym (np. 0,5 mln) korpusie:Znajduje wyrazy bliskie znaczeniowo (intuicyjnie; np. Najbliżej wyrazu „absolwentów”: są wyrazy: „uczniów”, „ludzi”, „i”, „nauczycieli”, „szkół”);Klasyfikuje; Przewiduje siłę torowania: efekt torowania silniejszy dla wyrazów bliskich w przestrzeni HAL niż dla dalekich (związek między „strukturalistycznym” a „psychologicznym” opisem znaczenia).

Page 11: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

HAL działa:Dla języków o różnej strukturze i szyku zdaniaDla małych korpusówDla form podstawowych jak i dla bezpośrednio występujących w tekście

Page 12: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

HAL jako narzędzie analizy tekstówPorównywanie bliskości wyrazów w HAL’ach skonstruowanych dla różnych korpusów tekstów:

Pochodzących z różnych momentów czasowych

• Np. Analiza zmiany relatywnej bliskości wektorów w czasie

Pochodzących z różnych kultur lub środowisk:• Nasz Dziennik vs Gazeta Wyborcza

Page 13: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Pierwsze (wstępne) analizy

1. Porównanie otoczenia semantycznego wybranych słów

2. Porównanie odległości między wybranymi wyrazami wewnątrz każdego korpusu

Page 14: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

"kościoła" "kościoła""kościoła" "wyroki""kościoła" "miał""kościoła" "krwi""kościoła" "znaki""kościoła" "przekracza

""kościoła" "założenia""kościoła" "dzieła""kościoła" "książka""kościoła" "mówić""kościoła" "europę""kościoła" "krakowie""kościoła" "odmówił""kościoła" "otwarcie""kościoła" "wiary""kościoła" "postawa""kościoła" "cbś""kościoła" "nagrodę""kościoła" "przekonan

y""kościoła" "głośno"

"kościoła" "kościoła""kościoła" "mit""kościoła" "urząd""kościoła" "historii""kościoła" "katolickieg

o""kościoła" "polityki""kościoła" "patriotyzm

""kościoła" "polaków""kościoła" "wiernych""kościoła" "powołany""kościoła" "duszpaster

z""kościoła" "tle""kościoła" "matki""kościoła" "w""kościoła" "bożej""kościoła" "św"

ND:GW:

Ad. 1

Page 15: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

ND: GW: "kobiet" "kobiet""kobiet" "mężczyzn""kobiet" "cyklu""kobiet" "ciała""kobiet" "chętnie""kobiet" "twarzy""kobiet" "białe""kobiet" "miejscach""kobiet" "zatem""kobiet" "zasadach""kobiet" "kilkunastu""kobiet" "rękę""kobiet" "trzech""kobiet" "zdjęcia""kobiet" "wspólnej""kobiet" "ton""kobiet" "sobą""kobiet" "ds""kobiet" "roli""kobiet" "prowadzi"

"kobiet" "kobiet""kobiet" "roli""kobiet" "niczym""kobiet" "dziele""kobiet" "równocześni

e""kobiet" "sytuacja""kobiet" "pokoleń""kobiet" "jaruga""kobiet" "pełnomocnik

""kobiet" "status""kobiet" "forum""kobiet" "wskaźnik""kobiet" "nowacka""kobiet" "pomysł""kobiet" "izabela""kobiet" "statusu""kobiet" "mężczyzn""kobiet" "kowalewska""kobiet" "wygląda""kobiet" "przyczynić"

Page 16: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Ad. 2. Porównanie relatywnych odległości wektorów reprezentujących wybrane pojęcia

Uporządkowano wszystkie wyrazy (o f >10) według odległości od wybranego wyrazu.

Czyli: im wyższa ranga, tym podobniejsze wektory.

Page 17: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

„Dyferencjał semantyczny” w HAL’u:

 

Kościoła

Kobieta

Aborcji

Polsce

ND GW

dobrego - 1307Złego - 1858

dobrego - 3381 złego - 1085

dobrego – 3034złego - 576matka - 157

dobrego – 1698złego - 3300matka - 309

dobrego – 5784złego - 1701

dobrego – 294złego - 465

dobrego – 4120złego - 3034

dobrego – 2451złego - 3269

Page 18: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Kłopoty z HAL’em:Odróżnienie asocjacji (klisz językowych) od „prawdziwej” bliskości semantycznej

• np. „czerwony” i „kapturek” mogą mieć podobne wektory bliskości do innych wyrazów bo często występują razem – szczególnie w małych korpusach.

Odróżnianie znaczeń wyrazów wieloznacznychCzym jest HAL? Ponadjednostkowa, abstrakcyjna „reprezentacja znaczenia”?

Page 19: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Grupowanie form podstawowych ze względu na znaczenie

Geografia Zw ierzęta Anatomia

Page 20: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

BibliografiaBurgess, C., & Lund, K. (1997). Modeling parsing constraints with high-

dimensional context space. Language and Cognitive Processes, 12, 177-210. Burgess, C., & Livesay, K. (1998). The effect of corpus size in predicting reaction

time in a basic word recognition task: Moving on from Kucera and Francis. Behavior Research Methods, Instruments, & Computers, 30, 272-277.

Burgess, C. (1998). From simple associations to the building blocks of language: Modeling meaning in memory with the HAL model. Behavior Research Methods, Instruments, & Computers, 30, 188-198.

Lund, K., & Burgess, C. (1996). Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instrumentation, and Computers, 28, 203-208.

Marciszewski, W. (1985) Logika formalna, Warszawa: PWN.Osgood, C. E. (1971) Exploration in semantic space: A personal diary. Journal of

Social Issues, 27, 5-64.

Page 21: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

Przykład:Obliczanie wartości elementów macierzy dla zdania:

The horse raced past the barn fell.

Okno o rozmiarze 5

Page 22: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

The horsebarn fell past raced horse the

barn

fell

past

raced

horse 5

the

Page 23: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

The horse racedbarn fell past raced horse the

barn

fell

past

raced 5 4

horse 5

the

Page 24: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

The horse raced pastbarn fell past raced horse the

barn

fell

past 5 4 3

raced 5 4

horse 5

the

Page 25: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

The horse raced past thebarn fell past raced horse the

barn

fell

past 5 4 3

raced 5 4

horse 5

the 5 4 3 2

Page 26: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

The horse raced past the barnbarn fell past raced horse the

barn 4 3 2 6

fell

past 5 4 3

raced 5 4

horse 5

the 5 4 3 2

Page 27: Wielowymiarowa Przestrzeń Semantyczna (HAL) jako narzędzie analizy korpusów języka polskiego

The horse raced past the barn fell

barn fell past raced horse the

barn 4 3 2 6

fell 5 3 2 1 4

past 5 4 3

raced 5 4

horse 5

the 5 4 3 2