Dobór próby. Korpus.
-
Upload
victoria-kamasa -
Category
Documents
-
view
259 -
download
2
Transcript of Dobór próby. Korpus.
PRÓBA dobór korpusu
www.logic.amu.edu.pl
MAGIC BOX
DANE
RÓŻNICE
ZALEŻNOŚCI
STATYSTYKA
ZMIENNE
ROZKŁADY
TESTY
WSKAŹNIKI
MIARY
…MAGIA
dr Victoria Kamasa
KORPUS OGÓLNY
GDZIE PROBLEM?
REPREZENTATYWNOŚĆ„zagregowane cechy próby
ściśle odzwierciedlają zagregowane cechy populacji”
(Babbie 2006)
JAKA POPULACJA
„Korpus może odzwierciedlać:
1. populację twórców tekstów,
2. populację tekstów,
3. produkcję tekstów,
4. recepcję tekstów.”
5. …
(Przepiórkowski i in. 2012)
ZAGREGOWANE CECHY POPULACJI
WAŻNA CECHA
proporcja mowa VS pismo;
proporcja poszczególnych rejestrów (np. oficjalny VS nieoficjalny);
proporcja poszczególnych gatunków (np. powieści VS felietony);
proporcja poszczególnych odmian (np. gwara wielkopolska VS gwara śląska);
…
ŹRÓDŁO INFORMACJI
?
?
?
?
ROZWIĄZANIE
REPREZENTATYWNOŚĆ
ZRÓWNOWAŻENIE
ZRÓWNOWAŻENIE
zachowanie właściwych (uwzględniających ich częstotliwość i istotność) proporcji między reprezentacją poszczególnych
elementów badanej odmiany w korpusie (Gries 2009)
ZRÓWNOWAŻENIE VS REPREZENTATYWNOŚĆ
„Reprezentatywność to odnoszenie się do jakiejś rzeczywistości istniejącej poza korpusem.
Zrównoważenie zaś to dbałość o taka budowę korpusu, by żaden składnik na żadnym z poziomów nie dominował nad innymi.”
(Przepiórkowski i in. 2012)
JAK ZAPEWNIANE?KO
RPU
S MONITOROWANY
stale uzupełniany
John Sinclair
Corpus of Contemporary American English (COCA)The Bank of English (BoE)
PRÓBKOWANY
dla określonego odcinka czasu wg określongo modelu doboru materiału
Gregory Leech
Lancaster-Oslo/Bergen corpus (LOB)
KORPUSY
MONITOROWANY
+ aktualny
— tylko dla określonego odcinka w czasie;
PRÓBKOWANY
+ dokładnie wiadomo co w nim jest;
— tylko dla określonego odcinka w czasie;
NARODOWY KORPUS JĘZYKA POLSKIEGO
przykład
TWÓRCY O KORPUSIE
Korpus może odzwierciedlać:1.populację twórców tekstów:• dla części mówionej;• odzwierciedla strukturę socjodemograficzną populacji;
2.populację tekstów:• prosty technicznie wybór dla części pisanej (=> listy Biblioteki Narodowej);• ignoruje społeczne i psychologiczne aspekty języka
3.produkcję tekstów,4.recepcję tekstów:• w praktyce: odzwierciedlanie struktury czytelnictwa;• brak zrównoważenia, ALE uwzględnienie aspektów społecznych;
(Przepiórkowski i in. 2012)
RECEPCJA - PROBLEMY
PROBLEM 1: proporcja recepcji PISANY vs. MÓWIONY:• nie do ustalenia => arbitralnie: 10% tekstów mówionych;
PROBLEM 2: ile słów przeciętny czytelnik „konsumuje” w poszczególnych typach i kanałach tekstów? • potrzebujemy informacji o strukturze czytelnictwa w Polsce;• dostępne badania:
• czytelnictwo: zachowania kulturowe NIE konkretne informacje o typach tekstów;
• statystyki czasopism: mało dokładne, nie oddają wszystkich niuansów;
• (Przepiórkowski i in. 2012)
STRUKTURA TEKSTÓW W NKJP
10% 7%3%
80%
mówione internetoweniesklasyfikowane prymarne
medium: prasa lub książka
(na podstawie: Przepiórkowski i in. 2012)
ARBITRALNE DECYZJE
DANE DOT. CZYTELNICTWA KSIĄŻEK I
PRASY
OSTATECZNA STRUKTURA KORPUSU
50%
16%6%
6%2%3%1%
10%7% Publicystyka i krótkie wiadomosci
prasowe
Literatura piekna
Literatura faktu
Typ informacyjno-poradnikowy
Typ naukowo-dydaktyczny
Inne teksty pisane
Ksiazka niebeletrystyczna nieklasyfikowana
Mówiony
Teksty internetowe
(na podstawie: Przepiórkowski i in. 2012)
TYPY TEKSTÓW1. literatura piękna
proza
poezja
dramat 2. literatura faktu 3. publicystyka i krótkie wiadomości
prasowe 4. typ naukowo-dydaktyczny
5. typ informacyjno-poradnikowy 6. książka niebeletrystyczna
niesklasyfikowana 7. inne teksty pisane
typ urzędowo-kancelaryjny
teksty perswazyjnekrótkie teksty instruktażowe8. listy
9. Internetinteraktywne strony
WWWstatyczne strony WWW
10. teksty mówione konwersacyjne
11. teksty mówione medialne
12. teksty quasi-mówione.
KANAŁ
PRASA
PRASA – DZIENNIK
PRASA – TYGODNIK
PRASA – MIESIĘCZNIK
PRASA – INNE KSIĄŻKA
INTERNET
MÓWIONY
ULOTKA
RĘKOPIS
KORPUS DO BADAŃ SZCZEGÓŁOWYCH
MOŻLIWOŚCI
KORPUS
PEŁEN
CELOWY
KWOTOWY
DOSTĘPNOŚCIOWY
ALGORYTM DOBORU PRZYKŁAD
TEMAT
Dyskursywna konstrukcja imigrantów w artykułach z brytyjskiej prasy z lat 1996 - 2005.
Gabrielatos, C.; Baker, P. (2008): Fleeing, Sneaking, Flooding: A Corpus Analysis of Discursive Constructions of Refugees and Asylum Seekers in the UK Press, 1996-
2005.
WYBÓR ARTYKUŁÓW
Wszystkie artykuły zawierające jedno ze słów:
refugee* OR asylum* OR deport* OR immigr* OR emigr* OR migrant* OR illegal
alien* or illegal entry OR leave to remain AND NOT deportivo AND NOT deportment
ZADANIE DOMOWE
Moodle;
poprawki do projektów (wg uwag);