Stat jk21 korpusywprowadzenie

15
SŁOWA I LICZBY WPROWADZENIE DO STATYSKTKI W KORPUSACH

Transcript of Stat jk21 korpusywprowadzenie

Page 1: Stat jk21 korpusywprowadzenie

SŁOWA I LICZBY WPROWADZENIE DO STATYSKTKI W KORPUSACH

Page 2: Stat jk21 korpusywprowadzenie

WPROWADZENIE

TAK SAMO

ogólna mechanika; szacowanie

prawdopodobieństwa; podobne testy;

INACZEJ

mniej „ustatkowania”: różne miary dla tych samych zjawisk; brak długiej tradycji stosowania określonych miar;

ciągły rozwój; mniej liczenia ręcznego: programy do obsługi korpusów (AntConc, WordSmith);

pakiety dla R

Page 3: Stat jk21 korpusywprowadzenie

NA JAKIE PYTANIA ODPOWIADA KORPUS?NA JAKIE PYTANIA

ODPOWIADAMY PRZY POMOCY KORPUSU?

Czy ludzie są coraz mniej grzeczni?

Czym różni się znaczenie czasu teraźniejszego od przyszłego?

Jak mówi się o kobietach? Czy rożni się wstyd, wina i

zażenowanie? …

NA JAKIE PYTANIA ODPOWIADA KORPUS?

Jak często?

Page 4: Stat jk21 korpusywprowadzenie

JAK CZĘSTO?

(Szczyszek, Karpiński 2010)

1. Kto mówi więcej jest?2. Kto używa częściej żeby (=>wskaźnik

zdania celowego)?3. Czy w przypadku WW dochodzi do

większej koncentracji na celu?

Page 5: Stat jk21 korpusywprowadzenie

NORMALIZACJA CZĘSTOŚCI

Umożliwia porównanie korpusów o różnych wielkościach;

zwykle na 1000 słów;

wariant: na 1000 000 słów;

𝑐𝑧 ę 𝑠𝑡𝑜ść ∗1000𝑤𝑖𝑒𝑙𝑘𝑜 ść𝑘𝑜𝑟𝑝𝑢𝑠𝑢

Page 6: Stat jk21 korpusywprowadzenie

MIARA DYSPERSJI DP (GRICE 2008)

1. Określ wielkości poszczególnych części korpusu. Określ procentowy udział poszczególnych części w całym korpusie (sn) => procenty oczekiwane.

2. Określ częstość, z jaką dane słowo pojawia się w poszczególnych częściach korpusu. Określ procent wystąpień danego słowa, jaki przypada na każdą część korpusu (vn) => procenty obserwowane.

3. Oblicz różnicę między procentami oczekiwanymi a procentami obserwowanymi. Oblicz wartość bezwzględną otrzymanej różnicy.

4. Dodaj otrzymane różnice i podziel przez 2 (DP).5. Zinterpretuj: wartości bliskie 0 – równy rozkład w całym korpusie, wartości

bliskie 1 – rozkład dokładnie odwrotny do oczekiwanego.

Page 7: Stat jk21 korpusywprowadzenie

PRZYKŁAD – KANAŁ - ŻEBY

KANAŁ KORPUS 

OCZEKIWANA WYSTĄPIENIA

OBERWOWAN

A

RÓŻNICA

INTERNET 19965982 0,22 9458 0,15 0,07KSIĄŻKA 69405908 0,76 51987 0,80 0,04MÓWIONY 1774144 0,02 3640 0,06 0,04  91146034 1 65085 1,00 0,15

Page 8: Stat jk21 korpusywprowadzenie

PRZYKŁAD – KANAŁ - KLASA

KANAŁ OBSERWOWANA

NORMALIZOWANA

OCZEKIWANA

RÓŻNICA

INTERNET 510 0,2304 0,3300 0,099648KSIĄŻKA 1586 0,7164 0,3300 0,38635MÓWIONY 118 0,0533 0,3300 0,276703

2 214 0,762701

Page 9: Stat jk21 korpusywprowadzenie

ĆWICZENIE

Testujemy intuicję:• Porównaj frekwencję i dyspersję w części mówionej i pisanej

wyrazów, które wydają Ci się:• Częste• Średnio częste• Rzadkie

• Znajdź dwa wyrazy o podobnej frekwencji w całym korpusie, ale zróżnicowanej dyspersji ze względu na rodzaj tekstu

Page 10: Stat jk21 korpusywprowadzenie

CO MOGĘ NA POSTAWIE CZĘSTOŚCI?

„Warto zwrócić uwagę, że mimo różnic w liczbach zrealizowanych jednostek,leksykony instruujących i instruowanych (rozumiane jako zbiory użytychleksemów) w obu sytuacjach eksperymentalnych były niemal równe co do

liczebności. Być może wyjaśnienia należy doszukiwać się w fakcie, iżuczestnicy byli wyraźnie skupieni na realizacji zadania i tylko bardzo nieliczne

wypowiedzi wychodziły poza ten zakres tematyczny. Rozmiar leksykonuwydaje się zatem niezwykle silnie zdeterminowany specyfiką zadania.

Pewne wsparcie tej tezy w obrębie analizowanego materiału można osiągnąć poprzez porównanie parami list wyrazowych PI_WW - PI_OW oraz OI_WW - OI_BW w celu określenia, czy podobieństwu rozmiaru towarzyszy również

podobieństwo profili.”(Szczyszek, Karpiński 2010)

Page 11: Stat jk21 korpusywprowadzenie

DANE

(Szczyszek, Karpiński 2010)

Page 12: Stat jk21 korpusywprowadzenie

ĆWICZENIE

Iż, że i praca licencjacka: pytanie: Czy słowo iż jest charakterystyczne dla języka pisanego książkowego,

a słowo że dla języka mówionego? dane: NKJP

Page 13: Stat jk21 korpusywprowadzenie

TABELA

MÓWIONY

PISANY

NIE IŻ

Page 14: Stat jk21 korpusywprowadzenie

ĆWICZENIE

Kobiety, mężczyźni i kolory: pytanie: Czy kobiety i mężczyźni równie często mówią o kolorach? dane: NKJP mówiony zakładamy: liczba słów wypowiadanych przez kobiety i mężczyzn jest równa

w korpusie (po 1 186 093)

Page 15: Stat jk21 korpusywprowadzenie

TABELA

KOBIETYMĘŻCZYŹ

NI

KOLOR

NIE KOLOR