Stat jk21 korpusywprowadzenie
-
Upload
victoria-kamasa -
Category
Education
-
view
124 -
download
0
Transcript of Stat jk21 korpusywprowadzenie
SŁOWA I LICZBY WPROWADZENIE DO STATYSKTKI W KORPUSACH
WPROWADZENIE
TAK SAMO
ogólna mechanika; szacowanie
prawdopodobieństwa; podobne testy;
INACZEJ
mniej „ustatkowania”: różne miary dla tych samych zjawisk; brak długiej tradycji stosowania określonych miar;
ciągły rozwój; mniej liczenia ręcznego: programy do obsługi korpusów (AntConc, WordSmith);
pakiety dla R
NA JAKIE PYTANIA ODPOWIADA KORPUS?NA JAKIE PYTANIA
ODPOWIADAMY PRZY POMOCY KORPUSU?
Czy ludzie są coraz mniej grzeczni?
Czym różni się znaczenie czasu teraźniejszego od przyszłego?
Jak mówi się o kobietach? Czy rożni się wstyd, wina i
zażenowanie? …
NA JAKIE PYTANIA ODPOWIADA KORPUS?
Jak często?
JAK CZĘSTO?
(Szczyszek, Karpiński 2010)
1. Kto mówi więcej jest?2. Kto używa częściej żeby (=>wskaźnik
zdania celowego)?3. Czy w przypadku WW dochodzi do
większej koncentracji na celu?
NORMALIZACJA CZĘSTOŚCI
Umożliwia porównanie korpusów o różnych wielkościach;
zwykle na 1000 słów;
wariant: na 1000 000 słów;
𝑐𝑧 ę 𝑠𝑡𝑜ść ∗1000𝑤𝑖𝑒𝑙𝑘𝑜 ść𝑘𝑜𝑟𝑝𝑢𝑠𝑢
MIARA DYSPERSJI DP (GRICE 2008)
1. Określ wielkości poszczególnych części korpusu. Określ procentowy udział poszczególnych części w całym korpusie (sn) => procenty oczekiwane.
2. Określ częstość, z jaką dane słowo pojawia się w poszczególnych częściach korpusu. Określ procent wystąpień danego słowa, jaki przypada na każdą część korpusu (vn) => procenty obserwowane.
3. Oblicz różnicę między procentami oczekiwanymi a procentami obserwowanymi. Oblicz wartość bezwzględną otrzymanej różnicy.
4. Dodaj otrzymane różnice i podziel przez 2 (DP).5. Zinterpretuj: wartości bliskie 0 – równy rozkład w całym korpusie, wartości
bliskie 1 – rozkład dokładnie odwrotny do oczekiwanego.
PRZYKŁAD – KANAŁ - ŻEBY
KANAŁ KORPUS
OCZEKIWANA WYSTĄPIENIA
OBERWOWAN
A
RÓŻNICA
INTERNET 19965982 0,22 9458 0,15 0,07KSIĄŻKA 69405908 0,76 51987 0,80 0,04MÓWIONY 1774144 0,02 3640 0,06 0,04 91146034 1 65085 1,00 0,15
PRZYKŁAD – KANAŁ - KLASA
KANAŁ OBSERWOWANA
NORMALIZOWANA
OCZEKIWANA
RÓŻNICA
INTERNET 510 0,2304 0,3300 0,099648KSIĄŻKA 1586 0,7164 0,3300 0,38635MÓWIONY 118 0,0533 0,3300 0,276703
2 214 0,762701
ĆWICZENIE
Testujemy intuicję:• Porównaj frekwencję i dyspersję w części mówionej i pisanej
wyrazów, które wydają Ci się:• Częste• Średnio częste• Rzadkie
• Znajdź dwa wyrazy o podobnej frekwencji w całym korpusie, ale zróżnicowanej dyspersji ze względu na rodzaj tekstu
CO MOGĘ NA POSTAWIE CZĘSTOŚCI?
„Warto zwrócić uwagę, że mimo różnic w liczbach zrealizowanych jednostek,leksykony instruujących i instruowanych (rozumiane jako zbiory użytychleksemów) w obu sytuacjach eksperymentalnych były niemal równe co do
liczebności. Być może wyjaśnienia należy doszukiwać się w fakcie, iżuczestnicy byli wyraźnie skupieni na realizacji zadania i tylko bardzo nieliczne
wypowiedzi wychodziły poza ten zakres tematyczny. Rozmiar leksykonuwydaje się zatem niezwykle silnie zdeterminowany specyfiką zadania.
Pewne wsparcie tej tezy w obrębie analizowanego materiału można osiągnąć poprzez porównanie parami list wyrazowych PI_WW - PI_OW oraz OI_WW - OI_BW w celu określenia, czy podobieństwu rozmiaru towarzyszy również
podobieństwo profili.”(Szczyszek, Karpiński 2010)
DANE
(Szczyszek, Karpiński 2010)
ĆWICZENIE
Iż, że i praca licencjacka: pytanie: Czy słowo iż jest charakterystyczne dla języka pisanego książkowego,
a słowo że dla języka mówionego? dane: NKJP
TABELA
MÓWIONY
PISANY
IŻ
NIE IŻ
ĆWICZENIE
Kobiety, mężczyźni i kolory: pytanie: Czy kobiety i mężczyźni równie często mówią o kolorach? dane: NKJP mówiony zakładamy: liczba słów wypowiadanych przez kobiety i mężczyzn jest równa
w korpusie (po 1 186 093)
TABELA
KOBIETYMĘŻCZYŹ
NI
KOLOR
NIE KOLOR