Jak wylosować turystów do badania? O możliwościach...

8
dr hab. Jolanta Perek-Białas /// Szkoła Główna Handlowa, Uniwersytet Jagielloński /// we współpracy z Joanną Szwed i Michałem Krawczykiem Jak wylosować turystów do badania? O możliwościach zastosowania modułu Próby złożone w PS IMAGO PRO W niniejszym artykule pokażemy, jak i dlaczego warto wspierać się gotowymi rozwiąza- niami (moduł Próby złożone w PS IMAGo Pro), które mogą ułatwić odpowiedni dobór respondentów do badań. Jednym z dylematów, przed którymi stoją badacze, to właśnie kłopot doboru jednostek do badania. Jest to szczególnie istotne w przypadku badań sonda- żowych, gdy zakładamy próby losowe, które dają możliwość wnioskowania statystycznego z odpowiednią pewnością na całą populację. Dobór próby jest jednym z najtrudniejszych zadań w etapie realizacji badań, ale nie oznacza to, że jesteśmy całkowicie pozbawieni szans na poprawny dobór (zgodnie z zasadami metody reprezentacyjnej) i tym samym na poprawne analizy. Dobór próby może być skomplikowany, gdy nasza grupa docelowa jest bardzo liczna i wewnętrznie zróżnicowana. Rodzaje doboru próby Zanim pokażemy, jak można losować jednostki do badania z pomocą programu PS IMAGo Pro, trzeba wiedzieć, że badacze wyróżniają dwa typy doboru próby: metody doboru nieproba- bilistycznego (nielosowego) oraz metody doboru probabilistycznego (losowego). Metody należące do pierwszej z grup (takie jak: dobór oparty na dostępności respondentów, dobór kwotowy, dobór celowy oraz dobór metodą „kuli śnieżnej”) wykorzystywane są przede wszystkim na gruncie badań jakościowych (wywiady indywidualne, grupowe), które tutaj nie będą omawiane. Do probabilistycznych (losowych) metod doboru próby, czyli takich, które pozwolą na wnio- skowanie o całej populacji z odpowiednimi błędami, zaliczamy: prosty dobór losowy, dobór losowy systematyczny, dobór losowy warstwowy oraz dobór losowy grupowy (zespołowy) oraz różnego rodzaju „hybrydy”, dobory złożone (warstwowo-zespołowe, wieloetapowe). Doborem prostym losowym nazywamy taki sposób doboru jednostek, w którym przypadek losowy decyduje o tym, która jednostka zostanie dobrana z listy badanej populacji, a więc wszystkie jednostki mogą się znaleźć w próbie z tym samym, znanym prawdopodobieństwem. Dobór próby krok po kroku Proces doboru jednostek musi być poprzedzony zdefiniowaniem populacji, która będzie podlegać badaniu. Populacja rozumiana jest jako zbiorowość składająca się z elementów posiadających pewne cechy wspólne, które stanowią przedmiot zainteresowania bada- cza w kontekście wybranego wcześniej problemu badawczego. Warunkiem koniecznym, w przypadku doboru probabilistycznego jest zdobycie operatu – spisu jednostek należących do badanej populacji. W przypadku kiedy losowaniu podlegają jednostki, podstawą loso- wania mogą być np. książki telefoniczne, książki adresowe czy baza zawierająca numery PeSeL. Od jakości operatu losowania zależy jakość wylosowanej próby. Czasami, pomimo prawidłowo przeprowadzonej procedury losowania, wyniki nie będą trafne, jeśli operat, którym dysponuje badacz okaże się niekompletny bądź będzie zawierał jedynie grupę osób o określonych cechach, determinujących stronniczość późniejszych odpowiedzi. W kolejnym kroku musimy ustalić, jaka liczebność próby będzie satysfakcjonująca w przypadku danego badania. Naszym celem jest bowiem możliwość generalizacji wyników na całą zbiorowość, z zachowaniem określonej wiarygodności i dokładności. Liczebność próby jest zwykle mocno związana z ograniczeniami finansowymi, jakim podlega badanie. Należy jednak zwrócić szczególną uwagę na ten aspekt doboru próby, zwłaszcza w przypadku, gdy badana grupa jest bardzo heterogeniczna. Osoby, które chcą opanować umiejętności losowania prób i analizy danych z prób złożonych, zapraszamy do uczestnictwa w szkoleniu An3 – Badania ankietowe. Losowanie prób, ważenie, analiza braków danych

Transcript of Jak wylosować turystów do badania? O możliwościach...

Page 1: Jak wylosować turystów do badania? O możliwościach ...predictivesolutions.pl/EKSPRESSwydbiez/Analiza_danych_w_dzialaniu/... · danych z prób złożonych, zapraszamy do uczestnictwa

dr hab. Jolanta Perek-Białas ///  Szkoła Główna Handlowa, Uniwersytet Jagielloński /// we współpracy z Joanną Szwed i Michałem Krawczykiem

Jak wylosować turystów do badania? O możliwościach zastosowania modułu Próby złożone w PS IMAGO PRO

W niniejszym artykule pokażemy, jak i dlaczego warto wspierać się gotowymi rozwiąza-niami (moduł Próby złożone w PS IMAGo Pro), które mogą ułatwić odpowiedni dobór respondentów do badań. Jednym z dylematów, przed którymi stoją badacze, to właśnie kłopot doboru jednostek do badania. Jest to szczególnie istotne w przypadku badań sonda-żowych, gdy zakładamy próby losowe, które dają możliwość wnioskowania statystycznego z odpowiednią pewnością na całą populację. Dobór próby jest jednym z najtrudniejszych zadań w etapie realizacji badań, ale nie oznacza to, że jesteśmy całkowicie pozbawieni szans na poprawny dobór (zgodnie z zasadami metody reprezentacyjnej) i tym samym na poprawne analizy. Dobór próby może być skomplikowany, gdy nasza grupa docelowa jest bardzo liczna i wewnętrznie zróżnicowana.

Rodzaje doboru próby

Zanim pokażemy, jak można losować jednostki do badania z pomocą programu PS IMAGo Pro, trzeba wiedzieć, że badacze wyróżniają dwa typy doboru próby: metody doboru nieproba-bilistycznego (nielosowego) oraz metody doboru probabilistycznego (losowego). Metody należące do pierwszej z grup (takie jak: dobór oparty na dostępności respondentów, dobór kwotowy, dobór celowy oraz dobór metodą „kuli śnieżnej”) wykorzystywane są przede wszystkim na gruncie badań jakościowych (wywiady indywidualne, grupowe), które tutaj nie będą omawiane.

Do probabilistycznych (losowych) metod doboru próby, czyli takich, które pozwolą na wnio-skowanie o całej populacji z odpowiednimi błędami, zaliczamy: prosty dobór losowy, dobór losowy systematyczny, dobór losowy warstwowy oraz dobór losowy grupowy (zespołowy) oraz różnego rodzaju „hybrydy”, dobory złożone (warstwowo-zespołowe, wieloetapowe).

Doborem prostym losowym nazywamy taki sposób doboru jednostek, w którym przypadek losowy decyduje o tym, która jednostka zostanie dobrana z listy badanej populacji, a więc wszystkie jednostki mogą się znaleźć w próbie z tym samym, znanym prawdopodobieństwem.

Dobór próby krok po kroku

Proces doboru jednostek musi być poprzedzony zdefiniowaniem populacji, która będzie podlegać badaniu. Populacja rozumiana jest jako zbiorowość składająca się z elementów posiadających pewne cechy wspólne, które stanowią przedmiot zainteresowania bada-cza w kontekście wybranego wcześniej problemu badawczego. Warunkiem koniecznym, w przypadku doboru probabilistycznego jest zdobycie operatu – spisu jednostek należących do badanej populacji. W przypadku kiedy losowaniu podlegają jednostki, podstawą loso-wania mogą być np. książki telefoniczne, książki adresowe czy baza zawierająca numery PeSeL. Od jakości operatu losowania zależy jakość wylosowanej próby. Czasami, pomimo prawidłowo przeprowadzonej procedury losowania, wyniki nie będą trafne, jeśli operat, którym dysponuje badacz okaże się niekompletny bądź będzie zawierał jedynie grupę osób o określonych cechach, determinujących stronniczość późniejszych odpowiedzi. W kolejnym kroku musimy ustalić, jaka liczebność próby będzie satysfakcjonująca w przypadku danego badania. Naszym celem jest bowiem możliwość generalizacji wyników na całą zbiorowość, z zachowaniem określonej wiarygodności i dokładności. Liczebność próby jest zwykle mocno związana z ograniczeniami finansowymi, jakim podlega badanie. Należy jednak zwrócić szczególną uwagę na ten aspekt doboru próby, zwłaszcza w przypadku, gdy badana grupa jest bardzo heterogeniczna.

Osoby, które chcą opanować umiejętności losowania prób i analizy danych z prób złożonych, zapraszamy do uczestnictwa w szkoleniu An3 – Badania ankietowe. Losowanie prób, ważenie, analiza braków danych

Page 2: Jak wylosować turystów do badania? O możliwościach ...predictivesolutions.pl/EKSPRESSwydbiez/Analiza_danych_w_dzialaniu/... · danych z prób złożonych, zapraszamy do uczestnictwa

2www.predictivesolutions.pl Jak wylosować turystów do badania? O możliwościach zastosowania modułu Próby złożone w PS IMAGo Pro

Jak to zrobić w PS IMAGO PRO?

Rozwiązanie PS IMAGo Pro oferuje wiele możliwości losowania. W tym artykule skupimy się na dwóch sposobach: losowaniu prostym oraz losowaniu warstwowym. Pierwszy sposób, zwany inaczej indywidualnym losowaniem nieograniczonym, polega na losowaniu poje-dynczych elementów zbioru, w którym każdy z nich ma takie samo prawdopodobieństwo znalezienia się w próbie. Losowanie proste stosuje się przede wszystkim wtedy, kiedy wiedza na temat populacji jest ograniczona, nie znamy jej struktury ani cech poszczególnych jed-nostek, przez co w porównaniu do innych metod (losowania warstwowego) daje niższą efektywność wyników. Warto dodać, że losowanie proste, dzięki takiemu samemu prawdo-podobieństwu trafienia do próby dla każdej jednostki, sprawia że próba jest automatycznie ważona (samoważąca), co oznacza, że nie ma potrzeby uwzględniania dodatkowych wag w celu korekty różnych szans znalezienia się w próbie.

Losowanie proste zostanie zastosowane na danych, które odnoszą się do turystów odwiedza-jących polskie parki narodowe (parki_narodowe.sav). W zbiorze, który mamy do dyspozycji, znajduje się kilka istotnych informacji o potencjalnych respondentach. Wiemy, jaki park narodowy odwiedzili, ile mają lat oraz z jak dużej miejscowości pochodzą. W zależności od tego, jaki jest cel naszego badania, te informacje mogą być przydatne dla wybranego rodzaju losowania.

Załóżmy jednak, że jedyne informacje, jakie posiadamy to dane kontaktowe respondenta oraz jego id. W takiej sytuacji nie mamy zbyt wielkiego wyboru, jeżeli chodzi o sposób losowania. Możemy zastosować dobór prosty lub systematyczny. Oba te sposoby są dostępne w IbM SPSS Statistics, czyli silniku analitycznym rozwiązania PS IMAGo Pro. Dzięki temu nie ma potrzeby stosowania niewygodnych (i czasochłonnych) w użyciu tablic liczb losowych. W pierwszym rozważanym przypadku, zastosujemy technikę losowania prostego bez zwracania.

IbM SPSS Statistics za pomocą funkcjonalności Próby złożone dostępnej w menu AnALIzA, umożliwia tworzenie planów losowania, losowanie prób oraz obliczanie statystyk z uwzględ-nieniem planów losowania. W przypadku, kiedy posiadamy dane odnoszące się do całej popu-lacji i naszym celem jest wylosowanie próby, w kolejnym kroku należy wybrać opcję Wybór Próby. Jeżeli natomiast pracujemy na pliku z danymi, które zostały uzyskane od wylosowanych wcześniej osób, a w analizie chcemy wziąć pod uwagę sposób, w jaki te jednostki zostały włączone do próby, należy wybrać opcję PrzyGotoWAnIe AnALIzy. Wszystkie możliwości, jakie daje moduł Próby złożone zostały przedstawione na poniższym rysunku.

rySunek 1.Krok pierwszy – wybór próby

Page 3: Jak wylosować turystów do badania? O możliwościach ...predictivesolutions.pl/EKSPRESSwydbiez/Analiza_danych_w_dzialaniu/... · danych z prób złożonych, zapraszamy do uczestnictwa

3www.predictivesolutions.pl Jak wylosować turystów do badania? O możliwościach zastosowania modułu Próby złożone w PS IMAGo Pro

Po wybraniu interesującej nas opcji, należy wskazać miejsce, gdzie program zapisze plik planu losowania, który musimy utworzyć, aby losowanie doszło do skutku. Jeśli dysponujemy już plikiem planu losowania, w tej części kreatora losowania prób możemy go edytować lub zaznaczyć, że na jego podstawie chcemy dokonać losowania.

Kolejne okno kreatora pozwala nam na wybór zmiennych, które będą stanowić podstawę losowania warstwowego lub zespołowego oraz umożliwia określenie wejściowych wag próby. W przypadku losowania prostego, te opcje nie są nam potrzebne, więc po prostu przejdźmy do kolejnego okna, poprzez wybranie opcji DALej.

W kolejnym kroku należy wybrać metodę losowania, którą uznajemy za odpowiednią dla naszego typu danych. Program IbM SPSS Statistics umożliwia nam zmianę metody z loso-wania prostego na: proste systematyczne, proste sekwencyjne, proporcjonalne (PPS), proporcjonalne systematyczne i proporcjonalne sekwencyjne. W tym oknie możemy także określić, czy chcemy żeby było to losowanie ze zwracaniem obserwacji. Z racji tego, że w tym przykładzie zdecydowaliśmy się na wykorzystanie losowania prostego bez zwracania, nie musimy zmieniać opcji domyślnie ustawionych w programie.

rySunek 2. Krok drugi – stworzenie pliku planu losowania

rySunek 3. Krok trzeci – wybranie zmiennych planu

Page 4: Jak wylosować turystów do badania? O możliwościach ...predictivesolutions.pl/EKSPRESSwydbiez/Analiza_danych_w_dzialaniu/... · danych z prób złożonych, zapraszamy do uczestnictwa

4www.predictivesolutions.pl Jak wylosować turystów do badania? O możliwościach zastosowania modułu Próby złożone w PS IMAGo Pro

Następne okno to możliwość określenia wielkości naszej próby. W poniższym przykładzie stała wartość wielkości próby została ustalona na poziomie 1000. Program pozwala nam jednak także na wykorzystanie proporcji (np. wybranie 10% wszystkich obserwacji z operatu).

W kolejnym kroku, wybieramy te zmienne, które program ma zapisać po wylosowaniu próby. Możemy zdecydować się na zmienne odnoszące się do: wielkości populacji, rozmiaru próby, proporcji próby oraz wagi próby. W zależności od potrzeb informacyjnych zaznaczamy te opcje, które uznajemy za użyteczne. Jednak zaletą programu jest to, że niezależnie od tego, co będziemy chcieli dodatkowo otrzymać, zapisywane są nowe zmienne, które prezentują

„prawdopodobieństwo włączenia” oraz „wagę próby” jako odwrotność prawdopodobień-stwa. Przykładowo, gdyby nasza populacja liczyła 100 tys. jednostek, a chcemy wylosować do badania 1000 jednostek, to utworzona zostanie nowa zmienna, która powstaje przez wyliczenie 1000/100000. Inaczej to prawdopodobieństwo wyniosło 0,01, a jego odwrotność, czyli 1/0,01 daje nam wynik 100. Oznacza to, że jedna osoba z próby „reprezentuje” 100 osób w populacji. Włączając potem wagi w analizach, uzyskujemy wyniki przeszacowane na populację.

rySunek 5. Krok piąty – wyznaczenie wielkości próby

rySunek 4. Krok czwarty – określenie metody losowania

Page 5: Jak wylosować turystów do badania? O możliwościach ...predictivesolutions.pl/EKSPRESSwydbiez/Analiza_danych_w_dzialaniu/... · danych z prób złożonych, zapraszamy do uczestnictwa

5www.predictivesolutions.pl Jak wylosować turystów do badania? O możliwościach zastosowania modułu Próby złożone w PS IMAGo Pro

W następnym oknie otrzymujemy podsumowanie dotyczące podjętych przez nas decyzji oraz możliwość dodania kolejnego etapu losowania. Warto także zaznaczyć, że po wykryciu błędu, w każdej chwili możemy wrócić do poprzednich okien i zmienić dowolny element planu losowania.

Zgodnie z zaznaczoną domyślnie funkcją, program sam wybiera liczbę startową, która stanowi punkt wyjściowy dla obserwacji wybranych na drodze losowania. W oknie oPcje Wyboru mamy jednak możliwość wpisania własnej wartości, której generator liczb pseudolosowych użyje jako startowej. Opcja ta przydaje się wtedy, kiedy ponawiamy losowanie i chcemy otrzymać w jego wyniku próbę o dokładnie takiej samej strukturze jak ta, która została wylosowana poprzednio.

rySunek 6. Krok szósty – zapisanie zmiennych wynikowych

rySunek 7. Krok siódmy – podsumowanie planu

rySunek 8. Krok ósmy – opcje wyboru

Page 6: Jak wylosować turystów do badania? O możliwościach ...predictivesolutions.pl/EKSPRESSwydbiez/Analiza_danych_w_dzialaniu/... · danych z prób złożonych, zapraszamy do uczestnictwa

6www.predictivesolutions.pl Jak wylosować turystów do badania? O możliwościach zastosowania modułu Próby złożone w PS IMAGo Pro

Po określeniu punktu startowego dla naszego losowania, musimy jeszcze wpisać ścieżkę, z której program skorzysta w momencie zapisywania wylosowanych danych. W tym celu wybieramy opcję zeWnętrzny PLIk i wpisujemy dogodną lokalizację.

W ostatnim kroku mamy możliwość wklejenia wygenerowanych komend do okna edytora komend. Jeśli jednak nie jesteśmy zainteresowani uzyskaniem polecenia, które stanowiło podstawę losowania, wybieramy opcję zAPISz Projekt W PLIku PLAnu I WyLoSuj Próbę.

Po wybraniu opcji zAkończ, zgodnie z decyzjami, które podjęliśmy na etapie tworzenia planu losowania, zostanie wylosowania odpowiednia próba.

Losowanie warstwowe

Jeżeli dysponujemy wiedzą na temat heterogeniczności danej populacji, a operat zawiera informacje umożliwiające podział jednostek na podgrupy, wachlarz metod losowania roz-szerza się. Jedną z możliwości, jaką daje nam rozwiązanie PS IMAGo Pro jest losowanie warstwowe, które polega na podziale całej populacji na tzw. warstwy i dokonaniu losowa-nia niezależnych prób w obrębie każdej z nich. Podzbiory w operacie losowania tworzone są w ten sposób, aby jednostki były bardziej podobne do siebie w obrębie wydzielonego podzbioru, niż w stosunku do całej populacji. Każda jednostka musi być przypisana do jakiejś warstwy, ale nie może znajdować się w więcej niż 1 warstwie. Podzbiory te są rozłączne, ale razem tworzą populację. Homogeniczność podzbiorów jest kluczowa dla zwiększenia efektywności oszacowania parametrów rozkładu populacji. Im bardziej podobne do siebie, a zarazem różne od pozostałych warstw cechy jednostek, tym reprezentatywność próby większa względem losowania prostego. Przewagą losowania warstwowego w stosunku do prostego jest to, że pierwsze bierze pod uwagę cechy grupujące poszczególne jednostki, czego to drugie nie uwzględnia.

rySunek 9. Krok dziewiąty – zapisanie danych uzyskanych na drodze losowania

rySunek 10. Krok dziesiąty – wylosowanie próby

Page 7: Jak wylosować turystów do badania? O możliwościach ...predictivesolutions.pl/EKSPRESSwydbiez/Analiza_danych_w_dzialaniu/... · danych z prób złożonych, zapraszamy do uczestnictwa

7www.predictivesolutions.pl Jak wylosować turystów do badania? O możliwościach zastosowania modułu Próby złożone w PS IMAGo Pro

Korzystając z danych o liczbie turystów odwiedzających poszczególne parki, które genero-wane są przez Główny Urząd Statystyczny, możemy ustalić proporcje, które chcielibyśmy uwzględnić w planie losowania jednostek do badania turystów.

Aby rozszerzyć plan losowania o nowe informacje, należy ponownie przejść kroki opisane w przypadku losowania prostego. Na etapie wyboru zmiennych planu (krok trzeci), należy jednak przenieść zmienną, która zawiera dane na temat nazwy parku odwiedzonego przez turystę, do okienka zatytułowanego WArStWy WeDłuG.

Zdecydowaliśmy, że w losowaniu warstwowym chcemy bazować na proporcjach, które będą odzwierciedlały faktyczny ruch turystyczny w polskich parkach. Z tego powodu, w oknie pozwalającym określić wielkość próby, zaznaczmy opcję nIeróWne WArtoścI DLA WArStW.

rySunek 11. Ruch turystycznych w polskich parkach narodowych w 2010 roku1

rySunek 12. Wybranie zmiennych planu w przypadku losowania prostego warstwowego

1. Źródło: Główny Urząd Statystyczny

Page 8: Jak wylosować turystów do badania? O możliwościach ...predictivesolutions.pl/EKSPRESSwydbiez/Analiza_danych_w_dzialaniu/... · danych z prób złożonych, zapraszamy do uczestnictwa

Predictive Solutionsul. Racławicka 58 /// 30–017 Krakówt 12 636 96 80 /// f wew. 102

8www.predictivesolutions.pl

© Copyright Predictive Solutions Sp. z o.o. [dawniej SPSS Polska], 2016 ///  PS ACRM, PS AML, PS CLEMENTINE PRO, PS FRAUD, PS IMAGO PRO, PS QUAESTIO PRO, PS TUTELA PRO i PS VINDICATIO są znakami towarowymi Predictive Solutions Sp. z o.o. ///  IBM SPSS © Copyright IBM Corporation, 2000 – 2016 /// Mapy Polski © Copyright Emapa, 2007 ‒ 2016

Jak wylosować turystów do badania? O możliwościach zastosowania modułu Próby złożone w PS IMAGo Pro

Po wybraniu opcji nIeróWne WArtoścI DLA WArStW wyświetli się okno, w którym będziemy mogli wpisać, ile jednostek ma zostać wylosowanych w obrębie wyznaczonych przez nas warstw, którymi są w tym przypadku polskie parki narodowe.

Pozostałe kroki, które należy przejść, aby doprowadzić do wylosowania próby są zbieżne z tymi, które stosowaliśmy w przypadku losowania prostego. Zachęcamy do samodzielnego sprawdzenia, jak z bazy turystów wylosować nie tylko próbę prostą, ale też próbę warstwową.

Przykładowo, gdy założenie jest takie, że ogółem mamy dotrzeć do 1000 turystów, to z listy kontaktów osób pełnoletnich,2 które odwiedziły poszczególne parki i ich dane zostały zapi-sane w bazie (parki_narodowe.sav), możemy losować proporcjonalnie do udziału liczby turystów danego parku do liczby wszystkich turystów odwiedzających wszystkie parki narodowe w Polsce. Przykładowo, dla Kampinoskiego Parku Narodowego trzeba wpisać dla liczebności 189 osób do losowania, a w przypadku proporcji 0,189.

Podsumowanie

Przedstawione w tym artykule opcje, jakie daje PS IMAGo Pro są zaledwie wstępem do wszyst-kich możliwości losowania, jakich możemy dokonać korzystając z tego kompleksowego rozwiązania analityczno-raportującego. Wybór poszczególnych typów losowania czy metod określenia wielkości próby jest jednak ściśle uzależniony od postawionego przez nas problemu badawczego oraz struktury populacji, która stanowi przedmiot naszego badania.

rySunek 13. Określenie wielkości próby w przypadku losowania prostego warstwowego

rySunek 14. Określenie wielkości próby w obrębie poszczególnych warstw w przypadku losowania prostego warstwowego

2. Trzeba dodać, że noworodki i dzieci także są wliczone w statystykę GUS jako turyści odwiedzający parki. Jednak jeśli wziąć pod uwagę, że jedynie z osobami pełnoletnimi założono przeprowadzenie badania, to warunek proporcjonalności nie jest „idealnie” spełniony, ale w prezentacji sposobu losowania warstwowego celowo został tak użyty.