Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 ·...
Transcript of Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 ·...
1
Seminarium NLP, IPI PAN, 26.06.06
Gradacyjna analiza danych korpusowych
Łukasz Dębowski Emilia Jarochowska
Marek Wiech
Instytut Podstaw Informatyki PAN
2
Plan wystąpienia
■ Narzędzie i dane:GradeStat i Korpus SFPW
■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady
● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników
3
GradeStat wersja 2.6
■ implementacja m.in. gradacyjnej analizy danych■ główny autor: dr inż. Olaf Matyja■ wersja demonstracyjna do pobrania pod adresem:
http://gradestat.ipipan.waw.pl
4
Korpus SFPW
Słownik frekwencyjny polszczyzny współczesnej
I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J.WoronczakInstytut Języka Polskiego PAN, Kraków, 1990
Korpus SFPW pochodzi z lat 60. XX w.
Zawiera 10 tys. próbek tekstów po około 50 słów.
Ogółem 500 tys słów, po 100 tys. słów z: tekstów popularnonaukowych, drobnych wiadomości prasowych, tekstów publicystycznych, prozy artystycznej dramatu artystycznego.
5
Korpus SFPW jest anotowanyform lemma POS number case gender person degree aspect negation accommodability accentability post-
prepositionality agglutination vocalicity punctuationSztuka sztuka subst sg nom f - - - - - - - - - - utraciła utracić praet sg - f - - perf - - - - nagl - - swoją swój adj sg acc f - pos - - - - - - - - moc moc subst sg acc f - - - - - - - - - - pobudzającą pobudzający adj sg acc f - pos - - - - - - - - : : interp - - - - - - - - - - - - - przykrym przykry adj sg inst n - pos - - - - - - - - widowiskiem widowisko subst sg inst n - - - - - - - - - - staje stawać fin sg - - ter - imperf - - - - - - - się się qub - - - - - - - - - - - - - koncert koncert subst sg nom m3 - - - - - - - - - - wybitnej wybitny adj sg gen f - pos - - - - - - - - niegdyś niegdyś qub - - - - - - - - - - - - - śpiewaczki śpiewaczka subst sg gen f - - - - - - - - - - i i conj - - - - - - - - - - - - - nie nie qub - - - - - - - - - - - - - uświetnią uświetnić fin pl - - ter - perf - - - - - - - go on ppron3 sg gen m3 ter - - - - nakc npraep - - - nawet nawet qub - - - - - - - - - - - - - nigdy nigdy qub - - - - - - - - - - - - - dotąd dotąd qub - - - - - - - - - - - - - nie nie qub - - - - - - - - - - - - - wykonywane wykonywać ppas pl nom m3 - - imperf aff - - - - - - utwory utwór subst pl nom m3 - - - - - - - - - - genialnego genialny adj sg gen m1 - pos - - - - - - - - kompozytora kompozytor subst sg gen m1 - - - - - - - - - -
6
Plan wystąpienia
■ Narzędzie i dane:GradeStat i Korpus SFPW
■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady
● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników
7
Mapy nadreprezentacji
acc dat gen inst loc nom voc
f
m1
m2
m3
n
f
m1
m2
m3
n
acc dat gen inst loc nom
253
2083
3456
4828
6201
7573
8946
1031
811
691
1306
314
436
1580
817
181
1855
319
926
2129
8
acc
dat
gen
inst loc
nom
voc
f
m1m2
m3
n
f
m1m2
m3
n
acc
dat
gen
inst loc
nom
voc
0.6
0.65
0.69
0.74
0.79
0.84
0.89
0.95
1.01
1.07
1.14
1.21
1.29
1.37
1.45
1.55
dane surowe mapa nadreprezentacji
częstości rodzajów i przypadków dla rzeczowników
8
Ścisła definicja nadreprezentacji
■ częstość dla komórki (i,j): pij(częstości sumują się do 1)
■ suma częstości komórek w i-tym wierszu: pi+
■ suma częstości komórek w j-tej kolumnie: p+j
■ nadreprezentacja komórki (i,j): pij/pi+p+j
9
Ścisła definicja GCA
Przestawmy wiersze i kolumny macierzy częstości tak, aby zmaksymalizować ρ Spearmana, czyli
gdzie dystrybuanty dla wierszy i kolumn
zależą od ich kolejności.
=3∑j=1
k
∑i=1
m
S i−1S i−1T j−1T j−1 pij
S i= p1 p2... pi ,
T j= p1 p2... p j .
10
Gradacyjna analiza odpowiedniości
voc nom gen loc
m1m2
f
n
m3
m1m2
f
n
m3
0.60.650.690.740.790.840.890.951.011.071.141.211.291.371.451.55
dat inst acc
mapa nadreprezentacji po GCA(grade correspondence analysis)
11
Plan wystąpienia
■ Narzędzie i dane:GradeStat i Korpus SFPW
■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady
● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników
12
Klasyfikacja słów nieodmiennych
■ 73 najczęstsze słowa a otaczające części mowy
Prz
ykła
d 1
w i na z nie że do a o ale się jak od po za topr
zez
dla czy
tak bo pr
zy no tylko
prze
dpo
djuż oraz
międ
zykie
dyna
d co bez
żeby
jako
jeszc
zewi
ęc gdy
gdzie
nawe
tpr
zecie
żm
oże
tu lub niech ani
jeśli u aby
równ
ież byjed
nak
też
właś
niete
raz
lecz
dlacz
ego
albo
tam iż
takż
ejeż
elijak
by niżgd
yby
zaws
zewś
ród
mim
opo
tem
chyb
awo
bec
dlate
gona
tom
iast
subst:subst
interp:subst
interp:qubinterp:adjqub:substsubst:adjadj:substfin:substinterp:fin
praet:substconj:subst
adj:adjinterp:prepinterp:praetinterp:ppronsubst:finqub:adjinterp:intersubst:praetinterp:conjfin:adjppas:substconj:adj
13
Dwa skupienia (po GCA)
no niedla
czeg
ogd
zie ale jeśli
bo tak
kiedy
lecz
pote
mjeż
elidla
tego
moż
eże żeby aby
gdy a iż co to
gdyb
yjak
byza
wsze
jakpr
zecie
żte
raz
chyb
anie
ch tuna
tom
iast
więc tam
właś
nie już mim
oalb
ona
wet
czy
ani
jeszc
zetyl
ko by też
jedna
kró
wnież
się takż
e u po bez
jako o
wśró
dpr
zy zapr
zed
wwo
bec
niż od na pod do dla
międ
zy z ina
dor
azpr
zez
lub
interp:fininterp:interinterp:praetinterp:conjinterp:prepsubst:fin
interp:qubinterp:ppronsubst:praet
interp:subst
interp:adjfin:adjconj:adj
conj:substfin:substqub:adj
praet:substqub:substadj:substsubst:adj
subst:subst
ppas:substadj:adj
14
Siedem skupień
no niedla
czeg
ogd
zie ale jeśli
bo tak
kiedy
lecz
pote
mjeż
elidla
tego
moż
eże żeby aby
gdy a iż co to
gdyb
yjak
byza
wsze
jakpr
zecie
żte
raz
chyb
anie
ch tuna
tom
iast
więc tam
właś
nie już mim
oalb
ona
wet
czy
ani
jeszc
zetyl
ko by też
jedna
kró
wnież
się takż
e u po bez
jako o
wśró
dpr
zy zapr
zed
wwo
bec
niż od na pod do dla
międ
zy z ina
dor
azpr
zez
lub
interp:fininterp:interinterp:praetinterp:conjinterp:prepsubst:fin
interp:qubinterp:ppronsubst:praet
interp:subst
interp:adjfin:adjconj:adj
conj:substfin:substqub:adj
praet:substqub:substadj:substsubst:adj
subst:subst
ppas:substadj:adj
15
Kolumny najbardziej odstające
■ Posortowane według AvgDistA:
właśnie, tam, się, mimo, by, czy, albo, zawsze, też, tu, już, chyba, niech, natomiast, niż, iż, ...
16
Plan wystąpienia
■ Narzędzie i dane:GradeStat i Korpus SFPW
■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady
● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników
17
Współwystępowanie rzeczowników i liczebników
mał
o
czte
rnaś
cior
niew
iele
osie
m
dwad
zieś
cia
kilkan
aście
pięć
dzie
siąt
czte
rytrz
ecia
czwor
o
kilka
sied
emse
tkilkad
zies
ią
dwa
oba
trzy
parę
babkagość
automatcentymetr
kilometrpozycjaprocent
dolarfrank
nagrodarodzina
delegat
pociskwyjazd
akrtyp
piesrozdziałprogramkopalnia
miśkieliszek
światłoczasofiaratytułwojewództwomegaherc
naukowieclekarzagronommilion
tysiąc
czasopismo
rokgazeta
kobietagrządkakomisjaobózszkołaparakrokminerałmorga
dwoj
e
wie
lepi
ęcio
rosz
eśćd
zies
ią
osie
mse
t
sied
emna
ście
pięć
czte
rdzi
eści
trzys
tasz
esna
ście
półto
ratrz
ynaś
cie
dzie
sięć
oboj
e
czte
rnaś
cie
Prz
ykła
d 2
18
Wynik GCA
sied
emna
sty
czte
rdzieś
cisied
emse
tje
dena
ście
czte
rnaś
cie
trzyn
aście
dwan
aście
milio
n
kilkas
et
czte
rydz
iewię
ć
trzy
kilkan
aście
parę
niew
iele
parę
set
piciedolar
kilometrdekagram
węzeł
frankwięzień
przedsiębior
rok
minutadychasklep
raz
dzieńblok
łokiećspółdzielnia
dziełocal
widok
wszystkotonaprocentcentymetrstopień
tysiąc
woltmilionjednostkawspółobwinioatom
klubreferatbudynekkołowłaścicieldziałaniekółkoalternatywaokręgkierowniksposóbokolica
troch
ępi
ęćse
t
sześ
ćdzi
esią
osie
mna
ście
trzyd
zieś
ci
pięt
naśc
iepi
ęć
dzie
sięć
sied
em
półto
ra pół
dwa
kilk
aty
lew
iele
dwoj
e
Czy »trochę«jest elementemodstającym?
19
Odstępstwa od regularności dla kolumn
sied
emna
sty
osie
mse
tcz
tery
sta
sied
emdz
iesi
ąt
pięć
set
pięć
dzie
siąt
sześ
ćdzi
esią
t
dwie
ście
osie
mna
ście
trzyd
zieś
ci
sied
emna
ście
pięt
naśc
ie
pięć
dzie
sięć
szes
naśc
ie
sied
em
sześ
ć
półto
ra
kilk
adzi
esią
t
pół
dwa
kilk
a
tyle
czw
oro
parę
set
oba
jede
naśc
ioro
siedemnastyosiemsetczterysta
siedemdziesiąt
pięćset
pięćdziesiąt
sześćdziesiąt
dwieście
osiemnaście
trzydzieści
siedemnaście
piętnaście
pięć
dziesięć
szesnaście
siedem
sześć
półtora
kilkadziesiątpółdwakilkatyleczworoparęsetdwojesiedmioro 0.6
0.650.690.740.790.840.890.951.011.071.141.211.291.371.451.55
20
GCA na odstępstwach od regularności
troch
ęos
iem
set
czte
ryst
a
sied
emdz
iesi
ąt
czte
rdzieś
ci
pięć
set
sześ
ćdzi
esią
t
dwie
ście
dwad
zieś
cia
czte
rnaś
cie
sied
emna
ście
pięt
naśc
ie
pięć
dwan
aści
e
szes
naśc
ie
milio
n
sześ
ć
czte
ry
dzie
wię
ć
trzy
pół
parę
czw
oro
ile trzec
iapa
ręse
tob
api
ęcio
ro
trochęosiemsetczterystasiedemdziesiątczterdzieścipięćset
sześćdziesiąt
dwieście
dwadzieścia
czternaście
trzydzieści
sto
trzynaście
dziesięć
szesnaście
siedem
kilkaset
półtora
kilkadziesiątkilkanaściedwakilkaniewieletylewieledwojesiedmioro
Odstępstwa od regularnościznalezionej przez GCArównież są regularne.
21
Co widać na mapie odstępstw?
■ Dwa skupienia liczebników: precyzyjne określenia: pięćset, trzydzieści, nieprecyzyjne określenia: wiele, kilkanaście.
■ Trochę jest elementem odstającym: występuje
jako skrajny przykład określenia precyzyjnego.■ Słowa o szerokim zastosowaniu (np. tyle, ile,
wiele) występują najczęściej i w podobnym
kontekście, co liczebniki określające małe
wielkości.
22
Odstępstwa od regularności dla wierszy
Czy widać wyraźneskupienia?
23
Odstępstwa wierszy od regularnościpo GCA
24
Co widać na mapie odstępstw?
■ Skupienia rzeczowników o podobnym rozkładzie
współwystępowania z liczebnikami – można
uporządkować liniowo.■ Odstawanie od liniowego porządku (łatwa zmiana
miejsca w kolejnych iteracjach) – słowa o wielu
znaczeniach.■ Czy współwystępowanie z liczebnikami jest
dobrym kryterium klasyfikacji rzeczowników?
25
Plan wystąpienia
■ Narzędzie i dane:GradeStat i Korpus SFPW
■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady
● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników
26
Prz
ykła
d 3
Deklinacja rzeczowników
■ z Korpusu zostały wyciągnięte informacje o częstościach występowania rzeczowników we wszystkich przypadkach
■ przypadki zostały rozdzielone do oddzielnych grup, co w uproszczeniu oznacza, że brzeg ignorowana jest informacja o tym, jak często wystąpił rzeczownik w danym przypadku w całym korpusie; przypadki są więc potraktowane jako równie ważne przy uporządkowaniu tabeli
■ czy w latach 60 wszystkie przypadki były rzeczywiście równoważne?
27
Deklinacja rzeczowników
■ mapy danych surowych i nadreprezentacji przed posortowaniem zgodnie z GCA
acc dat gen inst loc nom voc
USA absolwentbóg bólco cokolwiekczłowiek cząsteczkadruk dyrektordziura eliminacjagomułka gronoimię interpretacjkartka kierownikkoncert konstrukcjakto któżmalarstwo mamusiamiejsce milionnamiot nawózobrazek ochotaokulary osiedlepan
panipanienkapiętropodstawaposełpowietrze
prezydiumproduktprzewódprzynależnoś
ranekredaktorrokowanieroztwórsekretariatsiebie
sprawasprawnośćsumasystemtaśmaten
toktokioulicauliczka
wieśćwilsonwyglądwyjściezakrętzakup
znakzobowiązanie 15.61091872653434214995776557338118899671045112312011279135714351513
acc dat gen inst loc nom voc
USA absolwentbóg bólco cokolwiekczłowiek cząsteczkadruk dyrektordziura eliminacjagomułka gronoimię interpretacjkartka kierownikkoncert konstrukcjakto któżmalarstwo mamusiamiejsce milionnamiot nawózobrazek ochotaokulary osiedlepan
panipanienkapiętropodstawaposełpowietrze
prezydiumproduktprzewódprzynależnoś
ranekredaktorrokowanieroztwórsekretariatsiebie
sprawasprawnośćsumasystem
taśmatentoktokio
ulicauliczkawieśćwilson
wyglądwyjściezakrętzakup
znakzobowiązanie 0.60.640.670.710.750.790.830.870.920.961.021.071.131.181.251.311.381.451.531.61
28
Deklinacja rzeczowników
■ mapy danych surowych i nadreprezentacji posortowane zgodnie z GCA, wysokie zróżnicowanie (ρ* = 0.69)
■ wciąż są elementy odstające
voc dat nom inst gen acc loc
kochanie helenkabrat barbara
panwariatdyrektor
ewahankaprzyjacielfranekmaszynamuchapartyzantprojektantludzkośćktośniemiecoskarżony
problematykaczłonekrobotnikjesień
sektordrwpośrednictwoanioł
sportmałżonkaulgaduch
stopawyjazdpowodzeniepojęcie
colufażyciecierpieniewodabieg
programpytanieenergiaremont
budatwierdzawyposażeniepretensja
listwalkafrontzakup
wychowanietablicaakcjasprzętspórracja
razciągłośćalgieriaklasztorubraniemiejsce
rokwarszawa 15.61091872653434214995776557338118899671045112312011279135714351513
voc dat nom inst gen acc loc
kochanie helenkabrat barbara
panwariatdyrektor
ewahankaprzyjacielfranekmaszynamuchapartyzantprojektantludzkośćktośniemiecoskarżony
problematykaczłonekrobotnikjesień
sektordrwpośrednictwoanioł
sportmałżonkaulgaduch
stopawyjazdpowodzeniepojęcie
colufażyciecierpieniewodabieg
programpytanieenergiaremont
budatwierdzawyposażeniepretensja
listwalkafrontzakup
wychowanietablicaakcjasprzętspórracjarazciągłość
algieriaklasztorubraniemiejsce
rokwarszawa 0.60.640.670.710.750.790.830.870.920.961.021.071.131.181.251.311.381.451.531.61
29
Deklinacja rzeczowników
mos
kwa
koc
tury
styk
apł
otpr
ośba
zwło
kano
gam
ajpa
szpo
rtrz
eczy
wis
toś
wym
ógin
terw
encj
aur
oczy
stoś
ćle
nin
pow
ódćw
icze
nie
pom
ocka
mie
nica
wils
onko
rpus
żniw
obo
gact
wo
środ
aba
nda
cyfr
aog
ród
lubl
inża
rtw
arta
cień
krew
nyog
onw
aria
ntsc
hem
atse
rce
bada
nie
ofia
rasz
kole
nie
etap
war
tość
solid
arno
śćtu
ryst
ają
dro
kom
enta
rzlo
slę
kta
lerz
wal
ecpr
asa
zest
awch
odni
ksi
ław
łasn
ość
garn
itur
śmie
chob
jaw
obow
iąze
kas
orty
men
tpo
tenc
jał
usłu
gaod
budo
wa
tros
kam
ilcze
nie
twie
rdza
mor
alno
śćch
ęćlic
zba
zast
rzeż
enie
gdyn
iapo
stać
zaw
ódst
udni
ata
blic
agn
iazd
opo
dręc
znik
funk
cjon
ariu
otw
órak
tba
rre
stau
racj
aba
lm
acie
kw
ikto
rof
icer
biał
ypl
asty
kki
elce
face
tw
icep
rem
ier
skal
ajo
rkoj
ciec
plaż
ado
ktor
kole
gaja
cek
augu
st
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
Avg
Dis
tA
■ rzeczowniki na lewo od czarnej kropki zostały przeniesione do grupy elementów odstających (czarna kropka to również element odstający, wyraz co)
30
Elementy odstające
voc gen loc dat nom acc inst
moskwa
waga
sklep
duchwidzeniekpzrleśnictwowrnkcpzprzbrojeniezłotyfuntbranżarwpgtonaużytekpłacawspółżyciemrnrzeczpospoliegzekutywatysiącleciekpoddziaływanicsrsdepartamentprawdopodobireuterwynagrodzenipolitechnikamoekonomiaoświataplanowaniebrygadamarkaprzewózczaszkakongoturystykapołównatobiuroobserwatoriujuniorusaepokaszkolnictwotowarzystwochałupapowstaniesprawiedliwoobradaambasadadaniawęgryklubczasopismoangliawrocławświątyniaplenumlecznictwoghanazakazdziejeporządekwynalazekrosjahalaprzeglądłódźrozruchśrednicahierarchiaopoleciemnośćwyspazatokastudiumwypadekprzekrójarchitekturapromieńnastrójsferaorganizmhiszpaniawillajezdniawalordolinafrancjasektorwytrzymałośćosadawyścigpraktykakolejnośćewolucjaczęstośćtokiowspółczynnikoblicze
celtoruńkiermaszsumaterytoriumzeszytpechnieobecnośćkomunikatzwłokapiętarezolucjalinkawyliczeniejurybiegświt
co
imieninykępawrażeniestawniespodziankprzestępczośmszapytaniecóżsamsprzężenieminusbudaprzekształceogłoszeniepłotwindawejściekawałcoś
powrótteraźniejszoowiesdzióbdłońnawiasnastępstwospódodrobinażądaniegestniewolnikpowiekaołówekprośbaadreskocerapewnośćdokładnośćszeptpośrednictwowyjątek
0.6666
0.99
1.0101
1.5
silna niedoreprezentacja
słaba niedoreprezentacja
idealna reprezentacja
słaba nadreprezentacja
silna nadreprezentacja
31
Podział na 8 skupień
voc gen loc dat nom acc inst
moskwa
waga
sklep
duchwidzenie
złotywspółżycie
markausa
chałupadania
wrocławdziejehala
hierarchiastudium
przekrójorganizmfrancja
praktyka
celtoruń
nieobecność
co
imieninycóż
cośpowrót
następstwoadresszept
0.6666
0.99
1.0101
1.5
silna niedoreprezentacja
słaba niedoreprezentacja
idealna reprezentacja
słaba nadreprezentacja
silna nadreprezentacja
■ skupienie 1 – po prostu rzeczowniki, które wystąpiły chociaż raz w wołaczu: moskwa, waga, sklep, duch
32
Ustawienie po GCA – bez wołaczainst acc nom loc dat gen
wyjątek pośrednictwo szeptdokładność pewność erakoc adres prośbapowieka ołówek gestniewolnik następstwo żądanienawias spód dłońdziób odrobina teraźniejszoowies powrót płotwejście winda cośprzekształce buda sprzężeniekawał ogłoszenie kępastaw pięta imieninyświt minus sammsza przestępczoś niespodziankpytanie duch pechbieg co cóżjury wyliczenie linkarezolucja wrażenie toruńkiermasz komunikat nieobecnośćzeszyt tokio współczynnikczęstość oblicze wagazwłoka terytorium celsuma kolejność skleppraktyka wypadek francjawyścig ciemność ghanadolina promień plenumdania czasopismo osadarozruch sfera średnicadzieje chałupa porządekłódź wytrzymałość angliawyspa wrocław moskwahiszpania architektura nastrójopole przekrój studiumsektor organizm jezdniawilla rosja walorzakaz ewolucja obserwatoriuklub kongo towarzystwohierarchia zatoka przeglądświątynia epoka halawynalazek węgry juniorczaszka połów powstanieambasada lecznictwo usabiuro obrada przewózszkolnictwo sprawiedliwo planowaniemarka brygada departamentekonomia csrs turystykamo politechnika wynagrodzeninato rzeczpospoli reuterprawdopodobi współżycie oddziaływanioświata kp tysiąclecieegzekutywa mrn użytekpłaca branża tonarwpg leśnictwo funtzłoty pzpr kczbrojenie wrn kpzrwidzenie
33
Elementy odstające
Czyżby za ułożeniem stała opozycja rzeczywista informacja - nowomowa?
skupienie 1 – wyjątek, pośrednictwo, dokładność, adres, prośba, żądanie, wejście, teraźniejszość, ogłoszenie, niewolnik, coś skupienie 5 – biuro, obrada, sprawiedliwość, planowanie, departament, mo, csrs, turystyka, nato, rzepospolita, reuter, oświata, kp, współżycie, mrn, rwpg, pzpr, złoty, zbrojenie, kc, kpzr...
34
Informacja a nowomowa
■ rzeczowniki ze skupienia 1 (rzeczywiście informujące?) częściej występowały w narzędniku
■ rzeczowniki ze skupienia 5 (nowomowa?) znacznie częściej występowały w dopełniaczu (planowania, departamentu, kc...)
9.84 13.6 8 2.43 0 3.53 32
4.69 43.6 46.7 8.57 1.07 11.3 26
3.61 8.26 8.92 17.1 1.42 15.4 26
0.66 3.33 5.52 9.14 1.11 16 42
0.02 1.35 2.87 1.1 0.22 31.6 40
inst acc nom loc dat gen Ilości
1
2
3
4
5
1
2
3
4
50.467.4711.214.918.622.426.129.933.637.341.144.8
35
Deklinacja rzeczowników
mos
kwa
koc
tury
styk
apł
otpr
ośba
zwło
kano
gam
ajpa
szpo
rtrz
eczy
wis
toś
wym
ógin
terw
encj
aur
oczy
stoś
ćle
nin
pow
ódćw
icze
nie
pom
ocka
mie
nica
wils
onko
rpus
żniw
obo
gact
wo
środ
aba
nda
cyfr
aog
ród
lubl
inża
rtw
arta
cień
krew
nyog
onw
aria
ntsc
hem
atse
rce
bada
nie
ofia
rasz
kole
nie
etap
war
tość
solid
arno
śćtu
ryst
ają
dro
kom
enta
rzlo
slę
kta
lerz
wal
ecpr
asa
zest
awch
odni
ksi
ław
łasn
ość
garn
itur
śmie
chob
jaw
obow
iąze
kas
orty
men
tpo
tenc
jał
usłu
gaod
budo
wa
tros
kam
ilcze
nie
twie
rdza
mor
alno
śćch
ęćlic
zba
zast
rzeż
enie
gdyn
iapo
stać
zaw
ódst
udni
ata
blic
agn
iazd
opo
dręc
znik
funk
cjon
ariu
otw
órak
tba
rre
stau
racj
aba
lm
acie
kw
ikto
rof
icer
biał
ypl
asty
kki
elce
face
tw
icep
rem
ier
skal
ajo
rkoj
ciec
plaż
ado
ktor
kole
gaja
cek
augu
st
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
Avg
Dis
tA
■ druga grupa to rzeczowniki na prawo od czarnej kropki (zgodne z wyłonioną po GCA regularnością w macierzy)
36
Rzeczowniki z grupy „regularnej” także tym razem wołacz najsilniej wpłynął na kolejność wierszy i kolumn (skupienie 2 i 3 to rzeczowniki, które nigdy nie wystąpiły w wołaczu)
voc dat nom inst gen acc loc
kochaniemariajózef
panwalterpani
władekkrólowaheniekfacetreżim
przewodnicząnaród
powiązaniewęgierwładza
sekretarzedekkrytyk
tofala
fragmentpszenica
wizytalimitpiwożyciewisła
substancjaugrupowanie
gazśmierć
usprawiedliwniechęć
sprawnośćgłowa
stowarzyszenzgłoszenie
tłumaczeniepapiereksport
proporcjazawódchwila
powierzchniachwileczka
posiłek
0.6666%
0.99%
1.0101%
1.5%
silna niedoreprezentacja
słaba niedoreprezentacja
idealna reprezentacja
słaba nadreprezentacja
silna nadreprezentacja
<numer>
Wołacz wyłączony
po wyłączeniu wołacza i przeprowadzeniu GCA ustaliła się identyczna kolejność kolumn, ρ* = 0.557
dat nom inst gen acc loc
chwałapan
przestępcaradny
dziewczynaamatorchemikalkoholdzieckodyrekcja
ideałresztaurząd
żołnierznowość
torada
wieczórefektwada
wzmiankamaszyna
zarządzeniewydatekprojekt
nosjedno
gorączkaświęty
cywilizacjapieśńbrzeg
rachunekdokumentacja
żołądekkłopotziemia
solidarnośćkoniec
współzawodnidzieńskórakino
znaczeniewywiadniemcy
warszawaluty
0.6666%
0.99%
1.0101%
1.5%
silna niedoreprezentacja
słaba niedoreprezentacja
idealna reprezentacja
słaba nadreprezentacja
silna nadreprezentacja
<numer>
Nadreprezentacje dla agregacji
czym różni się 8 wydzielonych skupień
dat nom inst gen acc loc
1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
0.6666
0.99
1.0101
1.5
silna niedoreprezentacja
słaba niedoreprezentacja
idealna reprezentacja
słaba nadreprezentacja
silna nadreprezentacja
dat nom inst gen acc loc
<numer>
Mapa danych surowych
średnie częstości wystąpienia danego przypadku dla rzeczowników w każdym ze skupień
4.6 24.3 2.05 8.39 3.91 0.52
2.39 18.7 3.55 17 5.16 1.24
1.43 21.5 5.64 22.2 10.2 3.87
0.6 11.8 6.53 20.4 9.29 4.32
0.21 9.9 4.52 22.8 11.4 4.63
0.21 8.22 3.46 23.7 10.9 9.96
0.07 5.89 2.55 18.7 13.8 12.6
0.01 4.15 1.4 17.2 10.6 24.8
dat nom inst gen acc loc
1
2
3
4
5
6
7
80.261.752.994.235.476.717.959.1910.411.612.914.115.416.617.819.120.321.622.824
161
278
294
345
392
375
310
213
Ilości
1
2
3
4
5
6
7
8
<numer>
Podsumowanie analizy przykładu 3
skupienie 1 – pan, pani, siebie, nikt, ojciec, minister, naród, członek
skupienie 2 – człowiek, dziecko, państwo, kobieta, zmiana skupienie 3 – to, tysiąc, rada, problem, rząd, organizacja,
liczba skupienie 4 – sprawa, wszystko, życie, pomoc, siła skupienie 5 – praca, nic, oko, woda, szkoła, rzecz skupienie 6 – kraj, związek, świat, miasto, ręka, warunek,
głowa, ziemia skupienie 7 – raz, dzień, chwila, przykład, droga, dom,
polska, sposób, strona skupienie 8 – rok, czas, miejsce, godzina, okres
<numer>
Dziękujemy!
Zapraszamy na nasze strony:http://korpus.plhttp://gradestat.ipipan.waw.pl