Dobór próby. Korpus.

24
PRÓBA dobór korpusu

Transcript of Dobór próby. Korpus.

Page 1: Dobór próby. Korpus.

PRÓBA dobór korpusu

Page 2: Dobór próby. Korpus.

www.logic.amu.edu.pl

MAGIC BOX

DANE

RÓŻNICE

ZALEŻNOŚCI

STATYSTYKA

ZMIENNE

ROZKŁADY

TESTY

WSKAŹNIKI

MIARY

…MAGIA

dr Victoria Kamasa

Page 3: Dobór próby. Korpus.

KORPUS OGÓLNY

Page 4: Dobór próby. Korpus.

GDZIE PROBLEM?

REPREZENTATYWNOŚĆ„zagregowane cechy próby

ściśle odzwierciedlają zagregowane cechy populacji”

(Babbie 2006)

Page 5: Dobór próby. Korpus.

JAKA POPULACJA

„Korpus może odzwierciedlać:

1. populację twórców tekstów,

2. populację tekstów,

3. produkcję tekstów,

4. recepcję tekstów.”

5. …

(Przepiórkowski i in. 2012)

Page 6: Dobór próby. Korpus.

ZAGREGOWANE CECHY POPULACJI

WAŻNA CECHA

proporcja mowa VS pismo;

proporcja poszczególnych rejestrów (np. oficjalny VS nieoficjalny);

proporcja poszczególnych gatunków (np. powieści VS felietony);

proporcja poszczególnych odmian (np. gwara wielkopolska VS gwara śląska);

ŹRÓDŁO INFORMACJI

?

?

?

?

Page 7: Dobór próby. Korpus.

ROZWIĄZANIE

REPREZENTATYWNOŚĆ

ZRÓWNOWAŻENIE

Page 8: Dobór próby. Korpus.

ZRÓWNOWAŻENIE

zachowanie właściwych (uwzględniających ich częstotliwość i istotność) proporcji między reprezentacją poszczególnych

elementów badanej odmiany w korpusie (Gries 2009)

Page 9: Dobór próby. Korpus.

ZRÓWNOWAŻENIE VS REPREZENTATYWNOŚĆ

„Reprezentatywność to odnoszenie się do jakiejś rzeczywistości istniejącej poza korpusem.

Zrównoważenie zaś to dbałość o taka budowę korpusu, by żaden składnik na żadnym z poziomów nie dominował nad innymi.”

(Przepiórkowski i in. 2012)

Page 10: Dobór próby. Korpus.

JAK ZAPEWNIANE?KO

RPU

S MONITOROWANY

stale uzupełniany

John Sinclair

Corpus of Contemporary American English (COCA)The Bank of English (BoE)

PRÓBKOWANY

dla określonego odcinka czasu wg określongo modelu doboru materiału

Gregory Leech

Lancaster-Oslo/Bergen corpus (LOB)

Page 11: Dobór próby. Korpus.

KORPUSY

MONITOROWANY

+ aktualny

— tylko dla określonego odcinka w czasie;

PRÓBKOWANY

+ dokładnie wiadomo co w nim jest;

— tylko dla określonego odcinka w czasie;

Page 12: Dobór próby. Korpus.

NARODOWY KORPUS JĘZYKA POLSKIEGO

przykład

Page 13: Dobór próby. Korpus.

TWÓRCY O KORPUSIE

Korpus może odzwierciedlać:1.populację twórców tekstów:• dla części mówionej;• odzwierciedla strukturę socjodemograficzną populacji;

2.populację tekstów:• prosty technicznie wybór dla części pisanej (=> listy Biblioteki Narodowej);• ignoruje społeczne i psychologiczne aspekty języka

3.produkcję tekstów,4.recepcję tekstów:• w praktyce: odzwierciedlanie struktury czytelnictwa;• brak zrównoważenia, ALE uwzględnienie aspektów społecznych;

(Przepiórkowski i in. 2012)

Page 14: Dobór próby. Korpus.

RECEPCJA - PROBLEMY

PROBLEM 1: proporcja recepcji PISANY vs. MÓWIONY:• nie do ustalenia => arbitralnie: 10% tekstów mówionych;

PROBLEM 2: ile słów przeciętny czytelnik „konsumuje” w poszczególnych typach i kanałach tekstów? • potrzebujemy informacji o strukturze czytelnictwa w Polsce;• dostępne badania:

• czytelnictwo: zachowania kulturowe NIE konkretne informacje o typach tekstów;

• statystyki czasopism: mało dokładne, nie oddają wszystkich niuansów;

• (Przepiórkowski i in. 2012)

Page 15: Dobór próby. Korpus.

STRUKTURA TEKSTÓW W NKJP

10% 7%3%

80%

mówione internetoweniesklasyfikowane prymarne

medium: prasa lub książka

(na podstawie: Przepiórkowski i in. 2012)

ARBITRALNE DECYZJE

DANE DOT. CZYTELNICTWA KSIĄŻEK I

PRASY

Page 16: Dobór próby. Korpus.

OSTATECZNA STRUKTURA KORPUSU

50%

16%6%

6%2%3%1%

10%7% Publicystyka i krótkie wiadomosci

prasowe

Literatura piekna

Literatura faktu

Typ informacyjno-poradnikowy

Typ naukowo-dydaktyczny

Inne teksty pisane

Ksiazka niebeletrystyczna nieklasyfikowana

Mówiony

Teksty internetowe

(na podstawie: Przepiórkowski i in. 2012)

Page 17: Dobór próby. Korpus.

TYPY TEKSTÓW1. literatura piękna

proza

poezja

dramat 2. literatura faktu 3. publicystyka i krótkie wiadomości

prasowe 4. typ naukowo-dydaktyczny

5. typ informacyjno-poradnikowy 6. książka niebeletrystyczna

niesklasyfikowana 7. inne teksty pisane

typ urzędowo-kancelaryjny

teksty perswazyjnekrótkie teksty instruktażowe8. listy

9. Internetinteraktywne strony

WWWstatyczne strony WWW

10. teksty mówione konwersacyjne

11. teksty mówione medialne

12. teksty quasi-mówione.

Page 18: Dobór próby. Korpus.

KANAŁ

PRASA

PRASA – DZIENNIK

PRASA – TYGODNIK

PRASA – MIESIĘCZNIK

PRASA – INNE KSIĄŻKA

INTERNET

MÓWIONY

ULOTKA

RĘKOPIS

Page 19: Dobór próby. Korpus.

KORPUS DO BADAŃ SZCZEGÓŁOWYCH

Page 20: Dobór próby. Korpus.

MOŻLIWOŚCI

KORPUS

PEŁEN

CELOWY

KWOTOWY

DOSTĘPNOŚCIOWY

Page 21: Dobór próby. Korpus.

ALGORYTM DOBORU PRZYKŁAD

Page 22: Dobór próby. Korpus.

TEMAT

Dyskursywna konstrukcja imigrantów w artykułach z brytyjskiej prasy z lat 1996 - 2005.

Gabrielatos, C.; Baker, P. (2008): Fleeing, Sneaking, Flooding: A Corpus Analysis of Discursive Constructions of Refugees and Asylum Seekers in the UK Press, 1996-

2005.

Page 23: Dobór próby. Korpus.

WYBÓR ARTYKUŁÓW

Wszystkie artykuły zawierające jedno ze słów:

refugee* OR asylum* OR deport* OR immigr* OR emigr* OR migrant* OR illegal

alien* or illegal entry OR leave to remain AND NOT deportivo AND NOT deportment

Page 24: Dobór próby. Korpus.

ZADANIE DOMOWE

Moodle;

poprawki do projektów (wg uwag);