Dobór próby. Korpus.

Post on 25-Jun-2015

259 views 2 download

Transcript of Dobór próby. Korpus.

PRÓBA dobór korpusu

www.logic.amu.edu.pl

MAGIC BOX

DANE

RÓŻNICE

ZALEŻNOŚCI

STATYSTYKA

ZMIENNE

ROZKŁADY

TESTY

WSKAŹNIKI

MIARY

…MAGIA

dr Victoria Kamasa

KORPUS OGÓLNY

GDZIE PROBLEM?

REPREZENTATYWNOŚĆ„zagregowane cechy próby

ściśle odzwierciedlają zagregowane cechy populacji”

(Babbie 2006)

JAKA POPULACJA

„Korpus może odzwierciedlać:

1. populację twórców tekstów,

2. populację tekstów,

3. produkcję tekstów,

4. recepcję tekstów.”

5. …

(Przepiórkowski i in. 2012)

ZAGREGOWANE CECHY POPULACJI

WAŻNA CECHA

proporcja mowa VS pismo;

proporcja poszczególnych rejestrów (np. oficjalny VS nieoficjalny);

proporcja poszczególnych gatunków (np. powieści VS felietony);

proporcja poszczególnych odmian (np. gwara wielkopolska VS gwara śląska);

ŹRÓDŁO INFORMACJI

?

?

?

?

ROZWIĄZANIE

REPREZENTATYWNOŚĆ

ZRÓWNOWAŻENIE

ZRÓWNOWAŻENIE

zachowanie właściwych (uwzględniających ich częstotliwość i istotność) proporcji między reprezentacją poszczególnych

elementów badanej odmiany w korpusie (Gries 2009)

ZRÓWNOWAŻENIE VS REPREZENTATYWNOŚĆ

„Reprezentatywność to odnoszenie się do jakiejś rzeczywistości istniejącej poza korpusem.

Zrównoważenie zaś to dbałość o taka budowę korpusu, by żaden składnik na żadnym z poziomów nie dominował nad innymi.”

(Przepiórkowski i in. 2012)

JAK ZAPEWNIANE?KO

RPU

S MONITOROWANY

stale uzupełniany

John Sinclair

Corpus of Contemporary American English (COCA)The Bank of English (BoE)

PRÓBKOWANY

dla określonego odcinka czasu wg określongo modelu doboru materiału

Gregory Leech

Lancaster-Oslo/Bergen corpus (LOB)

KORPUSY

MONITOROWANY

+ aktualny

— tylko dla określonego odcinka w czasie;

PRÓBKOWANY

+ dokładnie wiadomo co w nim jest;

— tylko dla określonego odcinka w czasie;

NARODOWY KORPUS JĘZYKA POLSKIEGO

przykład

TWÓRCY O KORPUSIE

Korpus może odzwierciedlać:1.populację twórców tekstów:• dla części mówionej;• odzwierciedla strukturę socjodemograficzną populacji;

2.populację tekstów:• prosty technicznie wybór dla części pisanej (=> listy Biblioteki Narodowej);• ignoruje społeczne i psychologiczne aspekty języka

3.produkcję tekstów,4.recepcję tekstów:• w praktyce: odzwierciedlanie struktury czytelnictwa;• brak zrównoważenia, ALE uwzględnienie aspektów społecznych;

(Przepiórkowski i in. 2012)

RECEPCJA - PROBLEMY

PROBLEM 1: proporcja recepcji PISANY vs. MÓWIONY:• nie do ustalenia => arbitralnie: 10% tekstów mówionych;

PROBLEM 2: ile słów przeciętny czytelnik „konsumuje” w poszczególnych typach i kanałach tekstów? • potrzebujemy informacji o strukturze czytelnictwa w Polsce;• dostępne badania:

• czytelnictwo: zachowania kulturowe NIE konkretne informacje o typach tekstów;

• statystyki czasopism: mało dokładne, nie oddają wszystkich niuansów;

• (Przepiórkowski i in. 2012)

STRUKTURA TEKSTÓW W NKJP

10% 7%3%

80%

mówione internetoweniesklasyfikowane prymarne

medium: prasa lub książka

(na podstawie: Przepiórkowski i in. 2012)

ARBITRALNE DECYZJE

DANE DOT. CZYTELNICTWA KSIĄŻEK I

PRASY

OSTATECZNA STRUKTURA KORPUSU

50%

16%6%

6%2%3%1%

10%7% Publicystyka i krótkie wiadomosci

prasowe

Literatura piekna

Literatura faktu

Typ informacyjno-poradnikowy

Typ naukowo-dydaktyczny

Inne teksty pisane

Ksiazka niebeletrystyczna nieklasyfikowana

Mówiony

Teksty internetowe

(na podstawie: Przepiórkowski i in. 2012)

TYPY TEKSTÓW1. literatura piękna

proza

poezja

dramat 2. literatura faktu 3. publicystyka i krótkie wiadomości

prasowe 4. typ naukowo-dydaktyczny

5. typ informacyjno-poradnikowy 6. książka niebeletrystyczna

niesklasyfikowana 7. inne teksty pisane

typ urzędowo-kancelaryjny

teksty perswazyjnekrótkie teksty instruktażowe8. listy

9. Internetinteraktywne strony

WWWstatyczne strony WWW

10. teksty mówione konwersacyjne

11. teksty mówione medialne

12. teksty quasi-mówione.

KANAŁ

PRASA

PRASA – DZIENNIK

PRASA – TYGODNIK

PRASA – MIESIĘCZNIK

PRASA – INNE KSIĄŻKA

INTERNET

MÓWIONY

ULOTKA

RĘKOPIS

KORPUS DO BADAŃ SZCZEGÓŁOWYCH

MOŻLIWOŚCI

KORPUS

PEŁEN

CELOWY

KWOTOWY

DOSTĘPNOŚCIOWY

ALGORYTM DOBORU PRZYKŁAD

TEMAT

Dyskursywna konstrukcja imigrantów w artykułach z brytyjskiej prasy z lat 1996 - 2005.

Gabrielatos, C.; Baker, P. (2008): Fleeing, Sneaking, Flooding: A Corpus Analysis of Discursive Constructions of Refugees and Asylum Seekers in the UK Press, 1996-

2005.

WYBÓR ARTYKUŁÓW

Wszystkie artykuły zawierające jedno ze słów:

refugee* OR asylum* OR deport* OR immigr* OR emigr* OR migrant* OR illegal

alien* or illegal entry OR leave to remain AND NOT deportivo AND NOT deportment

ZADANIE DOMOWE

Moodle;

poprawki do projektów (wg uwag);