Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja...

139
Projekt pn. „Wzmocnienie potencjalu dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczychrealizowany w ramach Poddzialania 4.1.1 Programu Operacyjnego Kapital Ludzki Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karlowska-Pik Wersja z dnia 17 maja 2012 UMK Toruń 2011 Projekt wspólfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Spolecznego

Transcript of Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja...

Page 1: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Projekt pn. „Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych”

realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki

Statystykai eksploracja danych

Ćwiczenia i zadania

Joanna Karłowska-Pik

Wersja z dnia 17 maja 2012

UMK Toruń 2011

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Page 2: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia
Page 3: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wstęp

Skrypt Statystyka i eksploracja danych. Ćwiczenia i zadania powstał na po-trzeby zajęć prowadzonych na I roku studiów II stopnia na kierunku Informa-tyka. Ćwiczenia z tego przedmiotu mają charakter rachunkowo-praktyczny.Pojęcia i twierdzenia omawiane na wykładzie są ilustrowane zadaniami ra-chunkowymi oraz poleceniami do wykonania w programie IBM SPSS Stati-stics.

Zasadniczo każdy z rozdziałów tego skryptu składa się z ćwiczeń opatrzo-nych pełnymi rozwiązaniami, ćwiczeń praktycznych oraz zadań z odpowie-dziami. Zadania służą do pracy samodzielnej i są odpowiednikami ćwiczeńwykonywanych na zajęciach. Ćwiczenia praktyczne nie mają swoich odpo-wiedników do pracy samodzielnej. Zamiast tego w ostatnim rozdziale znaj-duje się zestaw projektów podsumowujących umiejętności praktyczne, którestudent powinien nabyć w trakcie kursu.

Pliki do pracy są albo plikami przykładowymi programu IBM SPSS Sta-tistics, albo są udostępnione studentom na platformie Moodle.

3

Page 4: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia
Page 5: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozdział 1.

Podstawy pracy w programieIBM SPSS Statistics

Ćwiczenia z przedmiotu Statystyka i eksploracja danych są wspomagane pro-gramem IBM SPSS Statistics, który jest jednym z kilku najbardziej popu-larnych programów do analizy statystycznej. Dzięki udziałowi UniwersytetuMikołaja Kopernika w programie Ariadna polegającym na współpracy fir-my Predictive Solutions (dawniej SPSS Polska) z jednostkami akademickimi,posiadamy licencję, która pozwala wszystkim studentom na instalację wspo-mnianego oprogramowania na komputerach domowych oraz na używanie gorównież w celach komercyjnych. Płyty z oprogramowaniem oraz aktualnekody autoryzacyjne są dostępne u osób prowadzących zajęcia. Niezbędne in-formacje na temat oprogramowania i warunków licencji można znaleźć nastronach

http://www.spss.pl/ i http://www.ariadna.edu.pl/

Absolwenci studiów licencjackich na kierunku Informatyka Wydziału Ma-tematyki i Informatyki UMK zetknęli się już z programem IBM SPSS Stati-stics w czasie ćwiczeń laboratoryjnych z przedmiotu Wstęp do statystycznejanalizy danych. Podane niżej ćwiczenie wstępne ma pozwolić im na przy-pomnienie sobie zasad pracy w tym programie. Pozostałe osoby będą miałymożliwość szybkiego zapoznanie się z jego możliwościami. Zasadniczo treśććwiczenia zawiera elementy niezbędnej znajomości programu na poziomie,który pozwoli na realizację założonych treści programowych, tj. z zakresu

• instalacji oprogramowania,

• uruchamiania oprogramowania,

• ustawiania opcji użytkownika,

5

Page 6: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

• importu danych,

• zarządzania danymi,

• przekształcania zmiennych,

• wyznaczania podstawowych statystyk,

• analizy danych w podgrupach,

• tworzenia wykresów,

• eksportu raportów.

Jako materiał pomocniczy w tym zakresie może służyć kurs

http://www.mat.umk.pl/˜joanka/zajecia/kursSPSS/index.php

1.1. Ćwiczenia praktyczne

Podane niżej rozwiązanie zostało wykonane z użyciem programu w wersji19.0.1 (aktualnie dostępne są już nowsze wersje oprogramowania).

Ćwiczenie 1.1. Plik domy.txt (dostępny na platformie Moodle) zawieradane firmy pośredniczącej w sprzedaży domów w stanie Kalifornia. Zmien-ne w tym pliku są rozdzielone tabulatorami, nazwy zmiennych znajdują sięw pierwszym wierszu. Kolejne zmienne to:

• price – cena (w dolarach),

• sqm – powierzchnia (w metrach kwadratowych),

• bedrooms – liczba sypialni,

• baths – liczba łazienek,

• age – wiek domu,

• occupancy – liczba mieszkańców,

• pool – basen (0 – nie, 1 – tak),

• fireplace – kominek (0 – nie, 1 – tak),

• waterfront – na nabrzeżu (0 – nie, 1 – tak),

6

Page 7: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

• lday – liczba dni w sprzedaży.

Zaimportuj plik do programu IBM SPSS Statistics i wyspecyfikuj odpowied-nio zmienne. Przeprowadź analizę danych i sporządź raport zawierający opi-sane niżej elementy. Zadbaj o czytelność wykonanej prezentacji i uatrakcyjnijją graficznie.

a) Wykonaj podstawową analizę statystyczną cen domów (statystyki, wykresskrzynkowy, histogram). Jaki jest rozkład tych cen?

b) Utwórz zmienną będącą ceną 1 m2 każdego z domów. Jak wygląda rozkładtych cen?

c) Na wykresie słupkowym porównaj średnie ceny domów zlokalizowanych nanabrzeżu i ceny pozostałych. Jaki jest procentowy udział domów stojącychna nabrzeżu w ofercie firmy? Zaprezentuj ten udział na wykresie kołowym.

d) Dom jest uważany za luksusowy, jeśli jest położony na nabrzeżu, ma conajmniej 3000 m2, posiada co najmniej tyle łazienek ile sypialni oraz ba-sen. Ile średnio kosztuje dom uważany za luksusowy? Porównaj ceny do-mów luksusowych na wykresie słupkowym.

e) Na trójwymiarowym wykresie słupkowym zaprezentuj zależność pomię-dzy posiadaniem basenu oraz kominka. Wyróżnij domy stojące na na-brzeżu.

f) Eksportuj raport do formatu PDF.

Rozwiązanie. Otwieramy program IBM SPSS Statistics. W celu wczyta-nia danych tekstowych wybieramy Plik –> Czytaj dane tekstowe...W oknie dialogowym wskazujemy plik domy.txt i klikamy Otwórz.

Uruchamia się kreator importu tekstu, w kolejnych jego krokach zazna-czamy, że wczytywany plik nie ma predefiniowanego formatu, ma separowanezmienne, nazwy zapisane na początku pliku, pierwszą obserwację rozpoczy-nającą się w wierszu 2., każdy jego wiersz zawiera tylko jedną obserwacjęi zamierzamy wszystkie te obserwacje zaimportować. W dalszych etapachzaznaczamy, że separatorem zmiennych jest tabulator, a w pliku nie wystę-puje kwalifikator tekstu. W kroku 5. mamy możliwość zaznaczenia każdejzmiennej na podglądzie, a następnie dokonania (ewentualnie) zmiany jej na-zwy lub formatu. W ostatnim kroku 6. kończymy wczytywanie.

Specyfikacji zmiennych dokonujemy, przełączając się w oknie danych nadole na zakładkę Zmienne. W kolumnie

• Nazwa możemy skorygować nazwę zmiennej (nazwa nie może zawieraćspacji),

7

Page 8: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

• Typ ustawiamy typ zmiennej (np. numeryczny, tekstowy czy daty),

• Szerokość podajemy maksymalną liczbę znaków danej zmiennej,

• Dziesiętne podajemy liczbę miejsc dziesiętnych dla danych numerycz-nych,

• Etykieta wpisujemy etykiety zmiennych podane w zadaniu,

• Wartości definiujemy wartości dla zmiennych pool, fireplace i water-front, wpisując 1 – tak, 0 – nie,

• Braki deklarujemy, które wartości zmiennych program ma traktowaćjako braki danych, w naszym pliku takich wartości nie ma,

• Kolumny ustawiamy szerokość kolumn w pliku danych,

• Wyrównanie ustawiamy sposób wyrównania zmiennych,

• Poziom pomiaru ustawiamy poziom pomiaru zmiennych: dla zmien-nych price, sqm, bedrooms, baths, age, occupancy i ld poziom ilościowy,a dla pozostałych nominalny,

• Rola ustawiamy rolę zmiennej, zasadniczo możemy zostawić rolę Wej-ście, inne role okazują się być przydatne przy zaawansowanych ana-lizach i mają za zadanie tylko usprawnienie pracy, nie wpływają nawyniki analiz.

Wykonujemy analizę danych.

a) Wybieramy z menu Analiza –> Opis statystyczny –> Eksplo-racja... W oknie dialogowym w polu Zmienne zależne umieszczamyzmienną price. Klikamy Wykresy... i zamiast wykresu łodyga-i-liściezaznaczamy histogram. Klikamy Dalej i OK. Otrzymujemy raport.

8

Page 9: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

9

Page 10: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

W analizie uwzględniono 1080 obserwacji. Średnia cena badanych domówwynosiła 154 863,18 dolarów przy odchyleniu standardowym 122 912,807dolarów. Ceny połowy domów nie przekroczyły 130 000 dolarów. Najtań-szy dom kosztował 22 000 dolarów, a najdroższy 1 580 000 dolarów, codaje różnicę w ich cenie równą 1 558 000 dolarów. Rozkład cen domówjest prawostronnie skośny (skośność = 6, 301) z wieloma wartościami od-stającymi. Poza tym charakteryzuje się dużą koncentracją wokół wartościśredniej (kurtoza = 58, 225).

b) Tworzymy nową zmienną price m. Wybieramy z menu Przekształce-nia –> Oblicz wartości.... W oknie dialogowym w polu Zmiennawynikowa wpisujemy price m. W poluWyrażenie numeryczne wpi-sujemy wzór definiujący nową zmienną: price / sqm. Klikamy OK. W pli-ku pojawiła się nowa zmienna. Podobnie jak wcześniej wykonujemy ana-lizę tej zmiennej, otrzymując raport.

10

Page 11: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

11

Page 12: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozkład cen za metr kwadratowy domu jest dużo bardziej symetryczny,choć dalej prawostronnie skośny (skośność = 1, 546) z licznymi wartościa-mi odstającymi. Charakteryzuje się również mniejszym skoncentrowaniemwokół średniej (kurtoza = 6, 970).

c)

Wybieramy z menu Wykresy –> Kreator wykresów... W okniedialogowym klikamy OK, potwierdzając poprawną specyfikację zmien-

12

Page 13: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

nych. Wybieramy prosty wykres słupkowy. Na osi poziomej umieszczamyzmienną waterfront a na pionowej price. Klikamy OK.

Z wykresu odczytujemy, że średnia cena domów usytuowanych na na-brzeżu jest w przybliżeniu dwukrotnie wyższa od średniej ceny domówusytuowanych poza nabrzeżem.

Wybieramy z menu Wykresy –> Kreator wykresów... W okniekreatora wybieramy wykres kołowy. Jako kolor umieszczamy zmienną wa-terfront. W oknie właściwości elementu zamieniamy statystykę z liczeb-ność na procent. Klikamy Zastosuj i OK.

Domów stojących na nabrzeżu jest znacznie mniej od pozostałych, ichodsetek wynosi 7, 22%.

d) Wybieramy obserwacje, które spełniają warunek bycia luksusowym. Da-ne –> Wybierz obserwacje... Zaznaczamy opcję Jeśli spełnionyjest warunek. Klikamy Jeżeli... i w oknie dialogowym, które się po-jawi, zapisujemy warunek

waterfront = 1 & sqm >= 3000 & baths >= bedrooms & pool = 1.

Obserwacje niewybrane zostaną odfiltrowane.

13

Page 14: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wyznaczamy średnią cenę wybranych domów:Analiza –> Opis staty-styczny –> Statystyki opisowe... W polu Zmienne umieszczamyzmienną price. Klikamy Opcje... i zaznaczamy średnią.

Średnia cena 3 luksusowych domów wynosi 934 000 dolarów.

Wykonujemy wykres słupkowy.Wykresy –> Wykresy tradycyjne–> Słupkowy... Rysujemy wykres słupkowy prosty z zaznaczoną opcjąWartości poszczególnych obserwacji. W polu Słupki przedsta-wiają umieszczamy zmienną price.

Mamy 3 domy luksusowe, z których pierwszy (według kolejności wystę-powania w pliku danych) jest znacznie droższy od dwóch pozostałych.

14

Page 15: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

e) Cofamy wybieranie obserwacji: Dane –> Wybierz obserwacje... Za-znaczamy opcjęWszystkie obserwacje.

Wykonujemy trójwymiarowy wykres słupkowy:Wykresy –> Kreatorwykresów... Wybieramy zestawiony wykres słupkowy 3W. Następniena osi kategorii X umieszczamy zmienną pool, na osi kategorii Z zmiennąfireplace, a jako zestawienie zmienną waterfront.

Na wykresie nie widać zależności pomiędzy posiadaniem basenu i kominka.Wśród domów wyposażonych i niewyposażonych w basen przeważają te,które mają kominek.

f) Otrzymany raport zapisujemy, a następnie eksportujemy do formatu PDF:Plik –> Eksportuj... Jako typ wybieramy Portable DocumentFormat. Warto jest zaznaczyć opcjęWszystkie widoczne.

15

Page 16: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

16

Page 17: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozdział 2.

Podstawy teoriiprawdopodobieństwa

2.1. Ćwiczenia

Ćwiczenie 2.1. Przez Bn oznaczamy σ-algebrę generowaną przez wszyst-kie zbiory otwarte w przestrzeni Rn, tj. najmniejszą σ-algebrę zawierającąwszystkie zbiory otwarte. Elementy Bn nazywamy zbiorami borelowskimi.

Czy następujące zbiory są zbiorami borelowskimi: zbiór domknięty, zbiórjednopunktowy, zbiór liczb wymiernych w przestrzeni R1, zbiór liczb niewy-miernych w przestrzeni R1?

Rozwiązanie. Korzystamy z definicji σ-algebry. Zbiór domknięty jest bore-lowski, ponieważ jest dopełnieniem zbioru otwartego. Zbiór jednopunktowyjest borelowski, ponieważ jest domknięty. Zbiór liczb wymiernych jest bo-relowski, ponieważ jest przeliczalną sumą zbiorów jednopunktowych. Zbiórliczb niewymiernych jest borelowski, ponieważ jest dopełnieniem zbioru liczbwymiernych. �

Ćwiczenie 2.2. Wiadomo, że P (A) = 0, 8, P (B) = 0, 7, P (A \ B) = 0, 2.Oblicz P (A ∩B), P (A ∪B), P (A′ \B).

Rozwiązanie.

P (A ∩B) = P (A \ (A \B)) = P (A)− P (A \B) = 0, 8− 0, 2 = 0, 6,P (A ∪B) = P (A) + P (B)− P (A ∩B) = 0, 8 + 0, 7− 0, 6 = 0, 9,P (A′ \B) = P ((A ∪B)′) = 1− P (A ∪B) = 1− 0, 9 = 0, 1.

17

Page 18: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 2.3. Na przestrzeni ([0, 1],B) zdefiniowano prawdopodobieństwo

wzorem P ([0, a]) = a2 dla a ∈ Q ∩ [0, 1]. Oblicz P([

12,

√2

2

]).

Rozwiązanie.

P

([12,

√2

2

])= P

([0,

√2

2

]\[0,

12

)).

Niech an ↘√

22

, an ∈ Q∩ [0, 1]. Prawdopodobieństwo ma własność ciągłościz góry, więc

P

([0,

√2

2

])= P

( ∞⋂n=1

[0, an])

= limn→∞

P ([0, an]) = limn→∞

a2n =

(√2

2

)2

=12.

Z kolei z własności ciągłości z dołu

P([

0,12

))= P

( ∞⋃n=1

[0,

12− 1

2n

] )= lim

n→∞P([

0,12− 1

2n

])=

= limn→∞

(12− 1

2n

)2

=14.

Zatem

P

([12,

√2

2

])=

14.

Ćwiczenie 2.4. Rozkład zmiennej losowej dany jest tabelą:

k −1 0 1 2P (X = k) 0, 4 0, 3 0, 2 0, 1

Wyznacz dystrybuantę tej zmiennej, wartość oczekiwaną oraz wariancję. Ob-licz 3. i 4. moment absolutny.

Rozwiązanie. Dystrybuanta:

FX(t) = P (X ¬ t) =

0, t < −10, 4, −1 ¬ t < 00, 7, 0 ¬ t < 10, 9, 1 ¬ t < 21, t ­ 2.

18

Page 19: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wartość oczekiwana:EX = −1 · P (X = −1) + 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2) =

= −1 · 0, 4 + 1 · 0, 2 + 2 · 0, 1 = 0.

Drugi moment:

EX2 = (−1)2 · P (X=−1) + 02 · P (X=0) + 12 · P (X=1) + 22 · P (X=2) == 1 · 0, 4 + 1 · 0, 2 + 4 · 0, 1 = 1.

Wariancja:VarX = EX2 − (EX)2 = 1− 02 = 1.

3. moment absolutny:

E|X|3 = |−1|3 ·P (X=−1)+|0|3 ·P (X=0)+|1|3 ·P (X=1)+|2|3 ·P (X=2) == 1 · 0, 4 + 1 · 0, 2 + 8 · 0, 1 = 1, 4.

4. moment absolutny:

E|X|4 = |−1|4 ·P (X=−1)+|0|4 ·P (X=0)+|1|4 ·P (X=1)+|2|4 ·P (X=2) == 1 · 0, 4 + 1 · 0, 2 + 16 · 0, 1 = 2, 2.

Ćwiczenie 2.5. Dystrybuanta zmiennej losowej X ma postać

FX(t) =

0, t < −11/4, −1 ¬ t < 1/22/3, 1/2 ¬ t < 31, t ­ 3.

Oblicz P (X ∈ (0, 2]). Wyznacz rozkład zmiennej losowej X, jej wartość ocze-kiwaną, wariancję, medianę oraz 1. kwartyl (tzn. kwantyl rzędu 1/4).

Rozwiązanie.

P (X ∈ (0, 2]) = P (X ∈ (−∞, 2])− P (X ∈ (−∞, 0]) =

= FX(2)− FX(0) =23− 1

4=

512.

Zmienna losowa X przyjmuje wartości −1,12

i 3 z prawdopodobieństwami:

P (X = −1) = FX(−1)− FX(−1−) =14− 0 =

14,

P(X =

12

)= FX

(12

)− FX

(12

−)=

23− 1

4=

512,

P (X = 3) = FX(3)− FX(3−) = 1− 23

=13.

19

Page 20: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozkład tej zmiennej możemy podać w tabeli:

k −1 1/2 3P (X = k) 1/4 5/12 1/3

Wartość oczekiwana:

EX = −1 · 14

+12· 5

12+ 3 · 1

3=

2324.

Drugi moment:

EX2 = (−1)2 · 14

+(1

2

)2

· 512

+ 32 · 13

= 31748.

Wariancja:

VarX = EX2 − (EX)2 = 31748−(23

24

)2

=1403576

.

Wyznaczamy medianę rozkładu zmiennej X, tj. szukamy takiej liczbyx1/2, dla której

P (X ¬ x1/2) = FX(x1/2) ­ 12

orazP (X ­ x1/2) = 1− FX(x−1/2) ­ 1− 1

2=

12,

czyli

FX(x−1/2) ¬ 12.

20

Page 21: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Jedyną liczbą spełniającą te warunki jest x1/2 =12.

Wyznaczamy pierwszy kwartyl rozkładu zmiennej X, tj. taką liczbę x1/4,dla której

FX(x1/4) ­ 14

i FX(x−1/4) ¬ 14.

Podane warunki spełniają wszystkie liczby x1/4 ∈ [−1, 1/2]. �

Ćwiczenie 2.6. Rozkład zmiennej losowej X dany jest wzorem

P (X = k) =23k, k = 1, 2, . . .

Wyznacz wartość oczekiwaną, medianę i 3. kwartyl (tzn. kwantyl rzędu 3/4)tej zmiennej.

Rozwiązanie. Wartość oczekiwana:

EX =∞∑k=1

k · 23k

= 2∞∑k=1

k ·(1

3

)k.

Korzystamy z wzoru∞∑k=1

kqk =q

(1− q)2,

otrzymując

EX = 213(

23

)2 =32.

Ponieważ P (X ¬ 1) = 2/3, a P (X ¬ 2) = 2/3 + 2/9 = 8/9, to medianax1/2 = 1, a x3/4 = 2. �

21

Page 22: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 2.7. Niech X będzie zmienną losową o gęstości

f(x) =

0, x /∈ [−1, 1],λ(1− x2), x ∈ [−1, 1].

a) Wyznacz λ i narysuj wykres f .

b) Wyznacz dystrybuantę zmiennej X i narysuj jej wykres.

c) Wyznacz P (X > 0, 5 ∨X < −0, 5).

d) Wyznacz medianę.

e) Oblicz EX i VarX oraz 3. i 4. moment absolutny.

Rozwiązanie.

a) Żeby funkcja f była gęstością zmiennej losowej, musi być nieujemna i musicałkować się do 1.∫ 1

−1λ(1− x2) dx = λ

(x− x3

3

) ∣∣∣∣1−1

= λ(

1− 13

+ 1− 13

)=

43λ.

Stąd λ = 3/4.

b) Wyznaczamy dystrybuantę.

FX(t) = P (X ¬ t) =∫ t

−∞f(x) dx =

=

0, t ¬ −1∫ t−1

34(1− x2) dx, t ∈ (−1, 1]

1, t > 1

=

=

0, t ¬ −134

(x− x3

3

) ∣∣∣∣t−1, t ∈ (−1, 1]

1, t > 1

=

22

Page 23: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

=

0, t ¬ −134

(t− t3

3 + 1− 13

), t ∈ (−1, 1]

1, t > 1

=

=

0, t ¬ −1− t3

4 + 34t+ 1

2 , t ∈ (−1, 1]1, t > 1

.

c) Obliczamy podane prawdopodobieństwo.

P (X > 0, 5 ∨X < −0, 5) = P (X > 0, 5) + P (X < −0, 5) == 1− P (X ¬ 0, 5) + P (X < −0, 5) == 1− FX(0, 5) + FX(−0, 5) =

= 1−(− 1

32+

38

+12

)+( 1

32− 3

8+

12

)=

516.

d) W celu wyznaczenia mediany dla zmiennej o rozkładzie absolutnie cią-głym rozwiązujemy równanie

FX(t) =12

−t3

4+

34t+

12

=12

−t3

4+

34t = 0

−14t(t2 − 3) = 0

−14t(t−

√3)(t+

√3) = 0.

23

Page 24: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Jedynym rozwiązaniem podanego równania należącym do przedziału[−1, 1] jest t = 0, tak więc x1/2 = 0.

e) Wartość oczekiwana

EX =∫ 1

1xf(x) dx =

∫ 1

−1

34x(1− x2) dx = 0,

gdyż funkcja podcałkowa jest nieparzysta, a przedział, po którym całku-jemy, jest symetryczny względem 0.

Wariancja:

VarX = EX2 − (EX)2 = EX2 =∫ 1

−1x2f(x) dx =

=∫ 1

−1

34x2(1− x2) dx =

34

∫ 1

−1x2 − x4 dx =

34

(x3

3− x5

5

) ∣∣∣∣1−1

=

=34

(13− 1

5+

13− 1

5

)=

34· 4

15=

15.

3. moment:

E|X|3 =∫ 1

−1|x|3f(x) dx =

∫ 1

−1

34|x|3(1− x2) dx =

32

∫ 1

0x3(1− x2) dx =

=32

∫ 1

0x3 − x5 dx =

32

(x4

4− x6

6

) ∣∣∣∣10

=32

(14− 1

6

)=

18.

4. moment:

E|X|4 =∫ 1

−1|x|4f(x) dx =

∫ 1

−1

34|x|4(1− x2) dx =

32

∫ 1

0x4(1− x2) dx =

=32

∫ 1

0x4 − x6 dx =

32

(x5

5− x7

7

) ∣∣∣∣10

=32

(15− 1

7

)=

335.

Ćwiczenie 2.8. [2, Zad. 2.112 str. 118] Dobierz stałe A i B tak, żeby funkcja

F (x) =

A+B arccosx dla |x| < 10 dla x ¬ −11 dla x ­ 1.

była dystrybuantą zmiennej losowej typu ciągłego. Wyznacz gęstość tej zmien-nej.

24

Page 25: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozwiązanie. Funkcja F jest dystrybuantą zmiennej losowej typu ciągłe-go, jeśli jest niemalejąca i ciągła. F jest niemalejąca dla B ¬ 0. Ciągłośćgwarantują warunki

A+B arccos(−1) = 0 i A+B arccos 1 = 1.

Z pierwszego równania otrzymujemy A + πB = 0, a z drugiego A = 1. StądB = −1/π, a dystrybuanta ma postać

F (x) =

1− 1

πarccosx dla |x| < 1

0 dla x ¬ −11 dla x ­ 1.

Gęstość otrzymujemy, różniczkując dystrybuantę:

f(x) =1

π√

1− x21(−1,1)(x).

Sprawdzamy, że

∫ 1

−1f(x) dx =

∫ 1

−1

1√1− x2

dx = − 1π

arccosx∣∣∣∣1−1

=1π

(0 + π) = 1.

Ćwiczenie 2.9. Rozkład wektora (X, Y ) dany jest w tabeli:

HHHHHHYX

1 0

1 0, 4 0, 1−1 0, 2 0, 3

1. Znajdź rozkłady zmiennych X i Y .

2. Wyznacz rozkład zmiennej Z = X · Y .

3. Czy X i Y są niezależne? Czy są nieskorelowane?

4. Wyznacz P (X = Y ).

5. Wyznacz wartość oczekiwaną, macierz kowariancji i wariancję wektora(X, Y ).

25

Page 26: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozwiązanie.

a) Rozkład zmiennej X otrzymujemy po zsumowaniu w obrębie każdej z ko-lumn prawdopodobieństw danych w tabeli rozkładu wektora:

k 1 0P (X = k) 0, 6 0, 4

Rozkład zmiennej Y otrzymujemy po zsumowaniu w obrębie każdegoz wierszy prawdopodobieństw danych w tabeli rozkładu wektora:

k 1 −1P (Y = k) 0, 5 0, 5

b) Zmienna XY przyjmuje wartości 0, 1 i −1.

P (XY = 0) = P (X = 0, Y = 1) + P (X = 0, Y = −1) = 0, 4,P (XY = 1) = P (X = 1, Y = 1) = 0, 4,

P (XY = −1) = P (X = 1, Y = −1) = 0, 2.

Rozkład możemy podać w tabeli

k −1 0 1P (XY = k) 0, 2 0, 4 0, 4

c) W przypadku rozkładu dyskretnego niezależność zmiennych losowych Xi Y oznacza, że dla każdego m ∈ {0, 1} i n ∈ {−1, 1} zachodzi równość

P (X = m,Y = n) = P (X = m) · P (Y = n).

Zauważmy jednak, że

P (X = 0, Y = 1) = 0, 1 6= 0, 4 · 0, 5 = P (X = 0) · P (Y = 1),

czyli rozważane zmienne nie są niezależne.

Miarą skorelowania jest współczynnik korelacji

ρ(X, Y ) =Cov(X, Y )√VarX ·VarY

.

Zmienne X i Y są nieskorelowane, gdy ρ(X, Y ) = 0, czyli Cov(X, Y ) = 0.Wyznaczając kowariancję, możemy skorzystać z rozkładu zmiennej XYotrzymanego w poprzednim podpunkcie.

Cov(X, Y ) = E(XY )− EX · EY == (−1) · 0, 2 + 0 · 0, 4 + 1 · 0, 4+− (1 · 0, 6 + 0 · 0, 4)(1 · 0, 5 + (−1) · 0, 5) = 0, 2 6= 0.

Podane zmienne są więc dodatnio skorelowane.

26

Page 27: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

d) P (X = Y ) = P (X = 1, Y = 1) = 0, 4.

e) Wartościami oczekiwanymi zmiennych X i Y są

EX = 1 · 0, 6 + 0 · 0, 4 = 0, 6,EY = 1 · 0, 5 + (−1) · 0, 5 = 0.

Wartością oczekiwaną wektora (X, Y ) jest

E(X, Y ) = (EX,EY ) = (0, 6; 0).

Macierz kowariancji to macierz postaci

Σ =(

Cov(X,X) Cov(X, Y )Cov(Y,X) Cov(Y, Y )

).

Dwa z jej współczynników mamy już wyznaczone, gdyż

Cov(X, Y ) = Cov(Y,X) = 0, 2.

Z kolei

Cov(X,X) = VarX = EX2−(EX)2 = (12 ·0, 6+02 ·0, 4)−(0, 6)2 = 0, 24,

a

Cov(Y, Y ) = VarY = EY 2 − (EY )2 = (12 · 0, 5 + (−1)2 · 0, 5)− (0)2 = 1.

Stąd

Σ =(

0, 24 0, 20, 2 1

).

Wariancją wektora jest

Var(X, Y ) = VarX + VarY = 0, 24 + 1 = 1, 24.

Ćwiczenie 2.10. Wektor (X, Y ) ma łączny rozkład zadany wzorem

P((X, Y ) = (m,n)

)=

13m+12n

, m, n ∈ N ∪ {0}.

Wyznacz rozkłady brzegowe. Czy podany wektor ma składowe niezależne?

27

Page 28: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozwiązanie. Zmienna losowa X przyjmuje wartości m = 0, 1, 2, . . . Roz-kład brzegowy tej zmiennej otrzymujemy, sumując prawdopodobieństwa okre-ślające rozkład łączny po wszystkich możliwych wartościach zmiennej Y .

P (X = m) =∞∑n=0

P (X = m,Y = n) =∞∑n=0

13m+12n

=

=1

3m+1

∞∑n=0

12n

=1

3m+1· 1

1− 12

=2

3m+1.

Zmienna losowa Y przyjmuje wartości n = 0, 1, 2, . . . Rozkład brzegowytej zmiennej otrzymujemy sumując prawdopodobieństwa określające rozkładłączny po wszystkich możliwych wartościach zmiennej X.

P (Y = n) =∞∑m=0

P (X = m,Y = n) =∞∑m=0

13m+12n

=

=12n

∞∑m=0

13m+1

=12n·

13

1− 13

=1

2n+1.

Badamy niezależność zmiennych X i Y :

P (X = m) · P (Y = n) =2

3m+1· 1

2n+1=

13m+12n

= P((X, Y ) = (m,n)

),

co oznacza niezależność zmiennych X i Y . �

Ćwiczenie 2.11. Funkcja

f(x, y) ={e−y, 0 ¬ x <∞, x ¬ y <∞,0, w p.w.

jest gęstością rozkładu wektora (X, Y ). Znajdź dystrybuantę wektora (X, Y )oraz gęstości brzegowe zmiennych X i Y . Sprawdź, czy X i Y są niezależne.Czy X i Y są nieskorelowane? Oblicz P (X + Y ¬ 2).

Rozwiązanie. Zaznaczmy na płaszczyźnie obszar, na którym podana gęstośćjest niezerowa.

28

Page 29: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wyznaczyć dystrybuantę wektora (X, Y ) oznacza wyznaczyć dla każdejpary (s, t) wartość funkcji

F(X,Y )(s, t) = P (X ¬ s, Y ¬ t) =∫{(x,y);x¬s,y¬t}

f(x, y) dxdy =

=∫{(x,y);x¬s,y¬t}

e−y1{(x,y); 0¬x¬y}(x, y) dxdy.

Musimy zatem scałkować funkcję e−y po części wspólnej obszaru zaznaczo-nego na rysunku i zbioru {(x, y); x ¬ s, y ¬ t}.

1. s < 0 ∨ t < 0.

Ten przypadek zawiera w sobie każdą z trzech sytuacji przedstawionychna rysunkach poniżej.

Jak widać część wspólna rozważanych obszarów jest zbiorem pustym, a coza tym idzie całka po niej jest równa 0.

2. 0 ¬ s ¬ t.

29

Page 30: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Część wspólna omawianych obszarów jest ograniczona prostymi x = 0,x = s, y = x i y = t. Stąd

F(X,Y )(s, t) =∫ s

0

∫ t

xe−y dydx =

∫ s

0−e−y

∣∣∣txdx =

∫ s

0−e−t + e−x dx =

= (−e−tx− e−x)∣∣∣s0

= −e−ts− e−s + 1.

3. 0 ¬ t < s.

Częścią wspólną omawianych obszarów jest trójkąt ograniczony prostymix = 0, x = t, y = x i y = t. Stąd

F(X,Y )(s, t) =∫ t

0

∫ t

xe−y dydx =

∫ t

0−e−y

∣∣∣txdx =

∫ t

0−e−t + e−x dx =

= (−e−tx− e−x)∣∣∣t0

= −e−tt− e−t + 1.

Reasumując

F(X,Y )(s, t) =

0, s < 0 ∨ t < 0−e−ts− e−s + 1, 0 ¬ s ¬ t

−e−tt− e−t + 1, 0 ¬ t < s.

W celu wyznaczenia rozkładów brzegowych należy scałkować gęstość roz-kładu wektora raz po zmiennej y, a raz po x. Zapiszmy najpierw gęstośćrozważanego wektora dwojako:

f(x, y) = e−y1[0,∞)(x)1[x,∞)(y) = e−y1[0,∞)(y)1[0,y](x).

30

Page 31: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Gęstość zmiennej X wyznaczamy, korzystając z tej pierwszej postaci:

fX(x) =∫ ∞−∞

e−y1[0,∞)(x)1[x,∞)(y) dy =

= 1[0,∞)(x)∫ ∞x

e−y dy = 1[0,∞)(x)(−e−y)∣∣∣∞x

= 1[0,∞)(x)e−x.

Zauważmy, że otrzymaliśmy gęstość rozkładu wykładniczego z parametrem 1.Gęstość zmiennej Y wyznaczamy, korzystając z drugiej.

fY (y) =∫ ∞−∞

e−y1[0,∞)(y)1[0,y](x) dx =

= e−y1[0,∞)(y)∫ y

01 dx = e−y1[0,∞)(y)y.

Zmienne X i Y o rozkładach absolutnie ciągłych są niezależne, jeśli

f(x, y) = fX(x) · fY (y).

Zauważmy jednak, że

fX(x) · fY (y) = e−xe−yy1[0,∞)(x)1[0,∞)(y)

i iloczyn ten jest niezerowy na całym obszarze (0,∞)× (0,∞), podczas gdyf(x, y) jest niezerowa tylko na obszarze zaznaczonym na pierwszym ze spo-rządzonych przez nas rysunków. Tak więc

f(x, y) 6= fX(x) · fY (y),

co oznacza, że zmienne X i Y nie są niezależne.Zmienne X i Y są nieskorelowane, jeśli Cov(X, Y ) = 0. Z kolei

Cov(X, Y ) = E(XY )− EX · EY.

Obliczamy kolejno wymienione wartości oczekiwane:

EX = 1,

bo X ma rozkład E(1).

EY =∫ ∞−∞

yfY (y) dy =∫ ∞

0y2e−y dy =(

całkujemy przez częściu = y2 v′ = e−y

u′ = 2y v = −e−y)

= −y2e−y∣∣∣∞0

+ 2∫ ∞

0ye−y dy = 2,

31

Page 32: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

przy czym skorzystaliśmy z faktu, że∫∞

0 ye−y dy jest wartością oczekiwanązmiennej o rozkładzie E(1), więc wynosi 1.

E(XY ) =∫ ∞−∞

∫ ∞−∞

xyf(x, y) dxdy =

=∫ ∞−∞

∫ ∞−∞

xye−y1[0,∞)(x)1[x,∞)(y) dydx =

=∫ ∞

0

∫ ∞x

xye−y dydx =∫ ∞

0x(∫ ∞

xye−y dy

)dx =(

całkujemy przez częściu = y v′ = e−y

u′ = 1 v = −e−y)

=∫ ∞

0x(−ye−y

∣∣∣∞x

+∫ ∞x

e−y dy)dx =

=∫ ∞

0x(xe−x − e−y

∣∣∣∞x

)dx =

=∫ ∞

0x(xe−x + e−x) dx =

=∫ ∞

0x2e−x dx+

∫ ∞0

xe−x dx = 2 + 1 = 3.

ReasumującCov(X, Y ) = 3− 2 · 1 = 1 6= 0,

więc zmienne nie są nieskorelowane.Zanim obliczymy P (X + Y ¬ 2), zaznaczmy obszar {(x, y); x + y ¬ 2}

na rysunku z naniesionym obszarem, na którym gęstość jest niezerowa.

Częścią wspólną jest trójkąt postaci {(x, y); 0 ¬ x ¬ 1, x ¬ y ¬ 2− x}.

P (X + Y ¬ 2) =∫∫{(x,y); x+y¬2}

f(x, y) dxdy =∫ 1

0

∫ 2−x

xe−y dydx =

=∫ 1

0−e−y

∣∣∣2−xx

dx =∫ 1

0−e−2+x + e−x dx =

= (−e−2+x − e−x)∣∣∣10

= −e−1 − e−1 + e−2 + 1 = (1− e−1)2.

32

Page 33: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 2.12. Wektor (X, Y ) ma rozkład o gęstości

g(x, y) =52e−x−2y

1(0,2x](y)1(0,∞)(x).

Znajdź gęstości brzegowe zmiennych X i Y oraz sprawdź, czy zmienne sąniezależne.

Rozwiązanie. Zaznaczmy na płaszczyźnie obszar, na którym podana gęstośćjest niezerowa.

Gęstość możemy zapisać dwojako:

g(x, y) =52e−x−2y

1(0,2x](y)1(0,∞)(x) =

=52e−x−2y

1(0,∞)(y)1[ 12y,∞)(x).

Wyznaczając gęstość zmiennejX, korzystamy z pierwszej z wymienionychpostaci gęstości:

gX(x) =∫ ∞−∞

g(x, y) dy =∫ ∞−∞

52e−x−2y

1(0,2x](y)1(0,∞)(x) dy =

=52e−x1(0,∞)(x)

∫ 2x

0e−2y dy =

52e−x1(0,∞)(x)

(−1

2e−2y

∣∣∣∣2x0

)=

=54e−x1(0,∞)(x)(1− e−4x) =

54e−x(1− e−4x)1(0,∞)(x).

33

Page 34: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wyznaczając gęstość zmiennej Y , korzystamy z drugiej:

gY (y) =∫ ∞−∞

g(x, y) dy =∫ ∞−∞

52e−x−2y

1(0,∞)(y)1[ 12y,∞)(x) dx =

=52e−2y

1(0,∞)(y)∫ ∞

12ye−x dx =

52e−2y

1(0,∞)(y)(−e−x)∣∣∣∣∞1

2y=

=52e−2y

1(0,∞)(y)e−12y =

52e−

52y1(0,∞)(y),

co oznacza, że Y jest zmienną losową o rozkładzie wykładniczym z parame-

trem52

.Zmienne X i Y o rozkładach absolutnie ciągłych są niezależne, jeśli

g(x, y) = gX(x) · gY (y).

Zauważmy jednak, że

gX(x) · gY (y) =54e−x(1− e−4x)

52e−

52y1[0,∞)(x)1[0,∞)(y)

i iloczyn ten jest niezerowy na całym obszarze (0,∞)× (0,∞), podczas gdyg(x, y) jest niezerowa tylko na obszarze zaznaczonym na sporządzonym przeznas rysunku. Tak więc

g(x, y) 6= gX(x) · gY (y),

co oznacza, że zmienne X i Y nie są niezależne. �

Ćwiczenie 2.13. Podaj przykład dwóch wektorów losowych o różnych roz-kładach łącznych, które mają te same rozkłady brzegowe.

Rozwiązanie. Wektory o rozkładach dyskretnych:

HHHH

HHYX

0 1

0 3/8 1/8 1/21 1/8 3/8 1/2

1/2 1/2

i

HHHH

HHTS

0 1

0 1/4 1/4 1/21 1/4 1/4 1/2

1/2 1/2

Dla uzyskania przykładu wektorów o rozkładach absolutnie ciągłych wy-starczy zauważyć, że gX i gY z poprzedniego ćwiczenia są gęstościami brze-gowymi i wektora o zależnych składowych, którego gęstością jest g(x, y),i wektora o składowych niezależnych, którego gęstością jest gX(x)gY (y). �

34

Page 35: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

2.2. Ćwiczenia praktyczne

Ćwiczenie 2.14. Otwórz plik rozklady.sav z wygenerowanymi liczbami z roz-kładów jednostajnego, normalnego i wykładniczego. Utwórz histogramy po-danych zmiennych i porównaj je z wykresami gęstości rozkładów. Sprawdź,czy dobrze zidentyfikowałeś rozkłady, wykonując wykres prawdopodobieństwo-prawdopodobieństwo. Na wykresie tym przedstawione są pary (x, y) = (F (t), G(t)),gdzie F jest dystrybuantą empiryczną (częstości względne skumulowane), aGteoretyczną. Dystrybuanty są jednakowe, gdy punkty układają się w układziewspółrzędnych XOY na prostej y = x.

Rozwiązanie. Po wczytaniu pliku do programu sprawdzamy, czy zmiennemają ustawiony poziom ilościowy, a następnie wybieramy z menuWykresy–> Kreator wykresów... Decydujemy się na prosty histogram i na osipoziomej umieszczamy kolejno zmienne v1, v2, v3.

Pierwszy histogram odpowiada gęstości rozkładu normalnego, drugi jed-nostajnego, a trzeci wykładniczego.

35

Page 36: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wykonujemy wykresy prawdopodobieństwo-prawdopodobieństwo: Ana-liza –> Opis statystyczny –> Wykresy P-P... Dla każdej ze zmien-

36

Page 37: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

nych v1, v2, v3 testujemy odpowiedni z podanych wyżej rozkładów. WykresyP-P mają postać:

37

Page 38: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

38

Page 39: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wykresy te potwierdzają zgodność z proponowanymi rozkładami. �

39

Page 40: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 2.15. Otwórz plik cereal.sav (plik przykładowy programu).

a) Czy zmienne gender i bfast mają rozkład dyskretny, czy absolutnie ciągły?

b) Wykonaj tabelę krzyżową dla podanych zmiennych. Wyznacz liczebnościobserwowane, oczekiwane oraz procenty z całości.

c) Narysuj wykresy słupkowe dla tych zmiennych. Porównaj rozkłady. Nary-suj trójwymiarowy wykres słupkowy dla obu zmiennych. Porównaj z wcze-śniejszymi wykresami.

d) Czy podane zmienne są dodatnio, czy ujemnie skorelowane? Wyznaczwspółczynnik korelacji Pearsona. Czy rysowanie dla tych zmiennych wy-kresu rozrzutu ma sens?

Rozwiązanie.

a) Zmienne mają rozkład dyskretny.

b) Wybieramy z menu Analiza –> Opis statystyczny –> Tabelekrzyżowe... Jedną zmienną umieszczamy w wierszach, a drugą w ko-lumnach. Wybieramy przycisk Komórki... i zaznaczamy liczebności ob-serwowane, oczekiwane oraz procenty z całości.

40

Page 41: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

c) Wybieramy z menu Wykresy –> Kreator wykresów.... Rysujemyprosty wykres słupkowy. Na osi kategorii umieszczamy za pierwszym ra-zem zmienną gender, a za drugim bfast.

Z wykresów odczytujemy, że w próbie większość stanowiły kobiety. Naj-częściej wybieranym śniadaniem były płatki zbożowe (cereal), następnieowsianka (oatmeal) i śniadanie w formie bufetu (breakfast bar).

41

Page 42: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wybieramy z menu Wykresy –> Kreator wykresów... i rysujemyprosty wykres słupkowy 3W. Wprowadzamy na osie żądane zmienne.

Powyższy wykres prezentuje rozkład łączny płci i preferowanego śniada-nia. Widzimy np., że w porównaniu do kobiet mężczyźni rzadziej wybie-rają śniadania w formie bufetu, a częściej owsiankę.

d) Wybieramy z menu Analiza –> Korelacje –> Parami... Przeno-simy zmienne gender i bfast do pola Zmienne i wyznaczamy dla nichwspółczynnik korelacji Pearsona.

42

Page 43: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wartość współczynnika równa −0, 026 oznacza w praktyce brak korelacjimiędzy zmiennymi.

Rysowanie wykresu rozrzutu dla zmiennych o rozkładach dyskretnych niema sensu.

Ćwiczenie 2.16. Otwórz plik Employee data.sav (plik przykładowy progra-mu).

a) Czy zmienne salary i salbegin mają rozkład dyskretny, czy absolutnieciągły?

b) Wykonaj histogramy dla tych zmiennych i porównaj ich rozkłady. Wyko-naj histogram trójwymiarowy dla rozkładu łącznego.

c) Wykonaj wykres rozrzutu. Czy wybrane zmienne są dodatnio, czy ujemnieskorelowane? Wyznacz współczynnik korelacji Pearsona.

Rozwiązanie.

a) Zmienne mają rozkład absolutnie ciągły.

b) Wybieramy z menu Wykresy –> Kreator wykresów... Rysujemyprosty histogram, umieszczając na osi poziomej kolejno zmienne salaryi salbegin.

43

Page 44: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

W celu wykonania histogramu dla rozkładu łącznego wybieramyWykre-sy –> Szablony wizualizacji danych... Trzymając Ctrl zaznaczamyobie zmienne i z galerii dostępnych wykresów wybieramy histogram 3-W.

44

Page 45: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

c) Wybieramy Wykresy –> Kreator wykresów... i wykonujemy pro-sty wykres rozrzutu ze zmienną salary na osi Y a salbegin na osi X.

Wykres sugeruje dodatnie skorelowanie. Wyznaczamy współczynnik ko-relacji Pearsona: Analiza –> Korelacje –> Parami...

Współczynnik korelacji wynosi 0, 880, co oznacza silne skorelowanie do-datnie.

45

Page 46: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

2.3. Zadania

Zadanie 2.1. Korzystając z faktu, że σ-algebra zbiorów borelowskich B1 jestnajmniejszą σ-algebrą zawierającą wszystkie odcinki otwarte (a, b),a < b, wykaż, że jest ona identyczna z najmniejszą σ-algebrą zawierającąwszystkie półproste postaci [q,+∞), q ∈ Q.

Zadanie 2.2. Wiadomo, że P (A) = 0, 4, P (B) = 0, 8, P (A ∩ B) = 0, 3.Oblicz P (A ∪B), P (A \B), P (A ∪B′).

Odpowiedź. P (A ∪B) = 0, 9, P (A \B) = 0, 1, P (A ∪B′) = 0, 5.

Zadanie 2.3. [2, Zad. 2.3. str. 52] W grupie studentów przeprowadzonosprawdzian. Niech X będzie zmienną losową oznaczającą ocenę losowo wy-branego studenta. Zakładając, że stosunek ocen bdb (5), db (4), dst (3), ndst(2) ma się jak 1 : 3 : 4 : 2, wyznacz:

a) rozkład zmiennej X,

b) dystrybuantę i jej wykres,

c) P (X ¬ 3, 5) oraz P (3 < X ¬ 4, 5), korzystając raz z rozkładu, a razz dystrybuanty,

d) wartość oczekiwaną i wariancję zmiennej X,

e) medianę i kwantyl rzędu 3/5.

Odpowiedź.

a)k 2 3 4 5

P (X = k) 0, 2 0, 4 0, 3 0, 1

b)

FX(t) =

0, t < 20, 2, 2 ¬ t < 30, 6, 3 ¬ t < 40, 9, 4 ¬ t < 51, t ­ 5

46

Page 47: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

c) P (X ¬ 3, 5) = 0, 6, P (3 < X ¬ 4, 5) = 0, 3.

d) EX = 3, 3, VarX = 0, 81.

e) x1/2 = 3, x3/5 ∈ [3, 4].

Zadanie 2.4. [2, Zad. 2.4. str. 54] Dystrybuanta zmiennej losowej X mapostać

FX(t) =

0, t < −20, 4, −2 ¬ t < 30, 5, 3 ¬ t < 51, t ­ 5.

Wyznacz rozkład zmiennej X, oblicz wartość oczekiwaną, wariancję i 3. mo-ment absolutny tej zmiennej.

Odpowiedź.

k −2 3 5P (X = k) 0, 4 0, 1 0, 5

EX = 2, VarX = 11, E|X|3 = 68, 4.

Zadanie 2.5. [2, Zad. 2.44. str. 110] Rozkład zmiennej losowej X dany jestw tabeli:

k −5 −2 0 1 3 8P (X = k) 0, 1 0, 2 0, 1 0, 2 c 0, 1

Wyznacz

a) stałą c,

b) dystrybuantę i jej wykres,

47

Page 48: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

c) prawdopodobieństwa

P (X = 1), P (X = 2), P (X < 3), P (X < 2), P (X ­ 0), P (−2 ¬ X < 3),

korzystając raz z rozkładu, raz z dystrybuanty,

d) wartość oczekiwaną i wariancję zmiennej X,

e) medianę i kwantyl rzędu 0, 3.

Odpowiedź.

a) c = 0, 3,

b)

FX(t) =

0, t < −50, 1, −5 ¬ t < −20, 3, −2 ¬ t < 00, 4, 0 ¬ t < 10, 6, 1 ¬ t < 30, 9, 3 ¬ t < 81, t ­ 8

c) P (X = 1) = 0, 2, P (X = 2) = 0, P (X < 3) = 0, 6,P (X < 2) = 0, 6, P (X ­ 0) = 0, 7, P (−2 ¬ X < 3) = 0, 5.

d) EX = 1, VarX = 11, 6.

e) x1/2 = 1, x3/10 ∈ [−2, 0].

Zadanie 2.6. Zmienna losowa X ma gęstość f(x) = 4a3 x1(0,3)(x). Wyznacz

parametr a i dystrybuantę tej zmiennej oraz oblicz 3. i 4. moment absolutny,medianę i 1. kwartyl (tzn. kwantyl rzędu 1/4).

48

Page 49: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Odpowiedź. a = 1/6,

FX(t) =

0, t < 0t2/9, 0 ¬ t < 31, t > 3

E|X|3 = 54/5, E|X|4 = 27, x1/2 = 3√

2/2, x1/4 = 3/2.

Zadanie 2.7. [2, Zad. 2.108. str. 117] Dobierz stałą c tak, aby funkcja

f(x) =

c sinx dla 0 ¬ x ¬ π

0 w p. w.

była gęstością. Następnie wyznacz jej dystrybuantę, medianę i 1. kwartyloraz oblicz P (|X| < π/3).

Odpowiedź. c = 1/2,

F (t) =

0, t < 012

(1− cos t), 0 ¬ t < π

1, t ­ π

x1/2 = π/2, x1/4 = π/3, P (|X| < π/3) = 1/4.

Zadanie 2.8. [2, Zad. 2.113. str. 118] Wyznacz tak stałą a, by funkcja

F (x) =

0 dla x < 12(1− 1

x

)dla 1 ¬ x < a

1 dla x ­ a

była dystrybuantą zmiennej losowej X typu ciągłego.

a) Oblicz P (−1 ¬ X ¬ 1, 5).

b) Wyznacz ogólny wzór na kwantyl rzędu p.

c) Wyznacz gęstość tej zmiennej losowej.

d) Oblicz wartość oczekiwaną oraz 3. i 4. moment absolutny tej zmiennej.

Odpowiedź. a = 2,

a) P (−1 ¬ X ¬ 1, 5) = 2/3,

b) xp =2

2− p,

49

Page 50: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

c) f(x) =2x21(1,2)(x),

d) EX = 2 ln 2, E|X|3 = 3, E|X|4 = 14/3.

Zadanie 2.9. Rozkład wektora (X, Y ) dany jest tabelką:

HHHHHHY

X1 2 3 4

2 0, 125 0, 25 0 04 0, 125 0 0, 125 0, 256 0 0 0, 125 0

a) Znajdź rozkłady brzegowe zmiennych X i Y .

b) Czy X i Y są niezależne? Czy są nieskorelowane?

c) Wyznacz P (X = Y ).

d) Wyznacz wartość oczekiwaną, macierz kowariancji i wariancję wektora(X, Y ).

e) Wyznacz rozkład zmiennej Z = X + Y .

Odpowiedź.

a)k 1 2 3 4

P (X = k) 0, 25 0, 25 0, 25 0, 25k 2 4 6

P (Y = k) 0, 375 0, 5 0, 125

b) Nie są niezależne, ani nieskorelowane.

c) P (X = Y ) = 0, 5.

d) E(X, Y ) = (2, 5; 3, 5), Σ =(

1, 25 0, 750, 75 1, 75

), Var(X, Y ) = 3.

e)k 3 4 5 7 8 9

P (X + Y = k) 0, 125 0, 25 0, 125 0, 125 0, 25 0, 125

Zadanie 2.10. Dana jest funkcja

f(x, y) ={Cxy, 1 ¬ x ¬ 2, 2 ¬ y ¬ 4,0, w p. w.

50

Page 51: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wyznacz stałą C tak, aby funkcja ta była gęstością dwuwymiarowego wek-tora losowego. Podaj rozkłady brzegowe i dystrybuantę. Czy wektor z takzdefiniowaną gęstością ma składowe niezależne? Czy ma składowe nieskore-lowane? Wyznacz współczynnik korelacji. Oblicz P (Y > 2X).

Odpowiedź. C = 1/9, fX(x) =23x1(1,2)(x), fY (y) =

y

61(2,4)(y),

F(X,Y )(s, t) =

0, s < 1 ∨ t < 2(s2 − 1)(t2 − 4)

36, 1 ¬ s < 2 ∧ 2 ¬ t < 4

t2 − 412

, s ­ 2 ∧ 2 ¬ t < 4

s2 − 13

, 1 ¬ s < 2 ∧ t ­ 4

1, s ­ 2 ∧ t ­ 4Wektor ma składowe niezależne i nieskorelowane. ρ(X, Y ) = 0.P (Y > 2X) = 1/2.

Zadanie 2.11. Niech (X, Y ) będzie wektorem losowym o gęstości

f(x, y) =127

(x2 + y2)1A(x, y),

gdzie A jest trójkątem o wierzchołkach (0, 0), (3, 0), (3, 3). Wyznacz rozkładybrzegowe zmiennych X i Y oraz oblicz kowariancję wektora (X, Y ). ObliczP (X + 2Y > 3).

Odpowiedź. fX(x) =4x3

811(0,3)(x), fY (y) =

−4y3 + 9y2 + 2781

1(0,3)(y),

Cov(X, Y ) = 27/200, P (X + 2Y > 3) = 47/54.

Zadanie 2.12. Zmienne losowe X i Y są niezależne i mają rozkład N(0, 1).Czy zmienne losowe 2X+Y ,X+2Y są niezależne? (Wskazówka: sprawdź, czywartość oczekiwana iloczynu tych zmiennych jest równa iloczynowi wartościoczekiwanych).

Odpowiedź. Nie.

51

Page 52: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

52

Page 53: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozdział 3.

Estymacja punktowa

3.1. Ćwiczenia

Ćwiczenie 3.1. [4, Przykład 2.1.2. str. 117] Producent bada n swoich wy-robów i zapisuje 0, gdy trafi na wyrób prawidłowy, a 1, gdy trafi na wyróbwadliwy, by móc oszacować odsetek wyrobów wadliwych. Podaj model prze-strzeni statystycznej.

Rozwiązanie. X = {(x1, x2, . . . , xn); xi ∈ {0, 1}, i = 1, 2, . . . , n} = {0, 1}n.θ = p ∈ Θ = [0, 1].

Pp(X1 = x1, X2 = x2, . . . , Xn = xn) = p∑n

i=1 xi(1− p)n−∑n

i=1 xi .

Ćwiczenie 3.2. [4, Przykład 2.1.5. str. 117] Powtarzamy niezależnie n ra-zy pomiar pewnej wielkości fizycznej. Zakładamy, że każdy z pomiarów marozkład normalny o tych samych, ale nieznanych parametrach a i σ2. Podajmodel przestrzeni statystycznej.

Rozwiązanie. X = {(x1, x2, . . . , xn); xi ∈ R, i = 1, 2, . . . , n} = Rn.θ = (a, σ2) ∈ Θ = R× (0,+∞).

fθ(x1, x2, . . . , xn) = fθ(x1) · fθ(x2) · . . . · fθ(xn) =

=1√2πσ

e−(x1−a)2

2σ2 · 1√2πσ

e−(x2−a)2

2σ2 · . . . · 1√2πσ

e−(xn−a)2

2σ2 =

=1

(√

2πσ)ne−∑n

i=1(xi−a)2

2σ2 .

53

Page 54: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 3.3. [3, Zad. 2.34 str. 71] W celu oszacowania wartości prze-ciętnego czasu bezawaryjnej pracy maszyny z partii tych maszyn wybranolosowo 7 maszyn i mierzono czas ich pracy do pierwszej awarii. Uszkodzeniawystąpiły w chwilach: 51, 115, 150, 190, 217, 228, 351. Wiedząc, że czas bez-awaryjnej pracy maszyny ma rozkład wykładniczy E(λ), wyznacz estymatorwartości oczekiwanej czasu bezawaryjnej pracy oraz oszacuj parametr λ.

Rozwiązanie. Estymatorem wartości oczekiwanej jest średnia z próbki:

x =51 + 115 + 150 + 190 + 217 + 228 + 351

7=

13027

= 186, 0.

Ponieważ w rozkładzie wykładniczym EX = 1/λ, to

λ =1x

=1

186.

Ćwiczenie 3.4. [3, Zad. 2.36 str. 71] W celu wyznaczenia dokładności przy-rządu pomiarowego dokonano 8 niezależnych pomiarów pewnej stałej wiel-kości, uzyskując rezultaty: 171, 175, 182, 178, 173, 180, 179, 174. Wyznaczestymator wariancji błędów tego przyrządu, jeśli

a) wartość mierzonej wielkości jest znana i równa 176,

b) wartość mierzonej wielkości nie jest znana.

Rozwiązanie.

a) Jeśli wartość oczekiwana jest znana i równa a, estymatorem wariancji jest

∗s2 =1n

n∑i=1

(xi − a)2.

Obliczamy wartość tego estymatora w tabeli:

xi xi − 176 (xi − 176)2

171 −5 25175 −1 1182 6 36178 2 4173 −3 9180 4 16179 3 9174 −2 4Σ 104

54

Page 55: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Stąd∗s2 =

1048

= 13.

b) W przypadku nieznanej wartości oczekiwanej wartość a zastępujemy śred-nią x. Do dyspozycji mamy dwa estymatory wariancji:

s2 =1n

n∑i=1

(xi − x)2, s2 =1

n− 1

n∑i=1

(xi − x)2.

Średnia wynosi

x =1412

8= 176, 5.

Estymatory wariancji wyznaczamy, korzystając z tabeli:

xi xi − 176, 5 (xi − 176, 5)2

171 −5, 5 30, 25175 −1, 5 2, 25182 5, 5 30, 25178 1, 5 2, 25173 −3, 5 12, 25180 3, 5 12, 25179 2, 5 6, 25174 −2, 5 6, 25Σ 102

Stąd

s2 =1028

= 12, 75, s2 =1027≈ 14, 57.

Ćwiczenie 3.5. [3, Zad. 2.26 str. 70] Niech X1, . . . , Xn będzie próbą prostąz rozkładu wykładniczego E(λ). Pokaż, że statystyka

Tn =1

2n

n∑i=1

X2i

jest nieobciążonym estymatorem wariancji rozkładu wykładniczego E(λ).Czy jest to estymator mocno zgodny?

Rozwiązanie. Estymowanym parametrem jest

T = VarX1 =1λ2.

55

Page 56: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Badamy nieobciążoność estymatora, czyli sprawdzamy, czy ETn = T.

ETn = E(

12n

n∑i=1

X2i

)=

12n

n∑i=1

EX2i =

12n· n · EX2

1 =

=12

(VarX1 + (EX1)2) =12

(1λ2

+(1λ

)2)

=1λ2

= T.

Mocna zgodność estymatora oznacza zbieżność Tn −−−→n→∞

T prawie wszę-dzie. Zbieżność tę sprawdzamy, korzystając z mocnego prawa wielkich liczb.X2

1 , X22 , . . . , X

2n – niezależne, o jednakowym rozkładzie.

E|X21 | = EX2

1 = VarX1 + (EX1)2 = 1λ2 + 1

λ2 = 2λ2 <∞.

Zatem na mocy MPWL

X21 +X2

2 + . . .+X2n

n

p.w.−−−→n→∞

EX21 =

2λ2,

a stąd

Tn =1

2n

n∑i=1

X2i

p.w.−−−→n→∞

1λ2

= T.

Ćwiczenie 3.6. Niech θn : Rn → [0, 1],

θn =n−∑n

i=1 1{m}(Xi)n

będzie estymatorem parametru θ = 1−pm rozkładu dwumianowego B(m, p),gdzie m jest znane. Sprawdź, czy θn jest nieobciążonym i zgodnym estyma-torem parametru θ.

Rozwiązanie. Zmienne mają rozkład dwumianowy B(m, p), co oznacza, że

P (Xi = k) =(m

k

)pk(1− p)m−k, k = 0, 1, . . . ,m.

Badamy nieobciążoność estymatora:

Eθn = E(n−∑n

i=1 1{m}(Xi)n

)= 1− 1

n

n∑i=1

E1{m}(Xi) =

= 1− 1n· n · E1{m}(X1) = 1− E1{m}(X1) =

= 1− P (X1 = m) = 1− pm = θ.

56

Page 57: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Badamy mocną zgodność.1{m}(X1),1{m}(X2), . . . ,1{m}(Xn) – niezależne o jednakowym rozkładzie.E|1{m}(X1)| = E1{m}(X1) = P (X1 = m) = pm <∞.Zatem na mocy MPWL

1{m}(X1) + 1{m}(X2) + . . .+ 1{m}(Xn)n

p.w.−−−→n→∞

E1{m}(X1) = pm,

a stąd

θn = 1−1{m}(X1) + 1{m}(X2) + . . .+ 1{m}(Xn)

n

p.w.−−−→n→∞

1− pm = θ.

Ćwiczenie 3.7. Pokaż, że ciąg {θn}, gdzie

θn : (0,∞)n → (0,∞), θn = exp(− n∑n

i=1 Xi

),

jest mocno zgodnym estymatorem parametru θ = P (X > 1) zmiennej losowejo rozkładzie wykładniczym.

Rozwiązanie. Estymowanym parametrem jest

θ = P (X > 1) =∫ ∞

1λe−λx dx = −e−λx

∣∣∣∞1

= e−λ.

Rozważamy próbę losową prostą X1, X2, . . . , Xn. E|X1| = EX1 = 1λ< ∞.

Zatem na mocy MPWL

X1 +X2 + . . .+Xn

n

p.w.−−−→n→∞

EX1 =1λ.

Z ciągłości funkcji e−1/x otrzymujemy zbieżność

θn = exp(− n∑n

i=1 Xi

)p.w.−−−→n→∞

e−λ = θ.

Ćwiczenie 3.8. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładugeometrycznego G(p), p ∈ (0, 1). Wyznacz estymator największej wiarogod-ności parametru

a) p,

b) θ =√p.

57

Page 58: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozwiązanie.

a) Rozważamy próbę prostą z rozkładu geometrycznego G(p), co oznacza,że

Pp(Xi = k) = p(1− p)k−1, k = 1, 2, . . .

Niech x1, x2, . . . , xn ∈ {1, 2, . . .}. Funkcją wiarogodności dla podanej pró-by jest

L(p) = Pp(X1 = x1, . . . , Xn = xn) =

= p(1− p)x1−1 · . . . · p(1− p)xn−1 = pn(1− p)∑n

i=1 xi−n.

Musimy wyznaczyć taką wartość parametru p, przy której funkcja wia-rogodności osiąga największą wartość. W tym celu należałoby zróżnicz-kować funkcję L(p). Może to jednak nie być łatwe, gdyż ma ona postaćiloczynu. Warto zlogarytmować rozważaną funkcję. Logarytm iloczynujest sumą logarytmów, która jest znacznie łatwiejsza do różniczkowania.Z drugiej strony funkcja logarytmiczna jest niemalejąca, co gwarantujenam, że funkcja lnL(p) będzie osiągała maksimum w tym samym punk-cie, w którym osiąga je funkcja L(p).

lnL(p) = n ln p+(

n∑i=1

xi − n)

ln(1− p).

Różniczkujemy podaną funkcję po zmiennej p:

d

dplnL(p) =

n

p−∑ni=1 xi − n1− p

=n(1− p)− p (

∑ni=1 xi − n)

p(1− p)=

=n− p∑n

i=1 xip(1− p)

=(−∑n

i=1 xi)(p− n∑n

i=1 xi

)p(1− p)

.

Pochodna zeruje się w punkcien∑ni=1 xi

= 1/x i przechodząc przez ten

punkt zmienia znak z dodatniego na ujemny, co oznacza, że funkcja L(p)osiąga w punkcie 1/x maksimum.

Tak więcENW (p) =

n∑ni=1 Xi

.

b) Ponieważ funkcja g(x) =√x jest ciągła, więc

ENW (√p) =

√ENW (p) =

√n∑n

i=1 Xi

.

�58

Page 59: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 3.9. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładuWeibulla We(2, β) o gęstości

f(x) = 2β−2xe−(x/β)21(0,∞)(x), β > 0.

Wyznacz estymator największej wiarogodności parametru β.

Rozwiązanie. Funkcja wiarogodności ma postać

L(β) = fβ(x1, . . . , xn) = fβ(x1) · . . . · fβ(xn) =

= 2β−2x1e−(x1/β)2

1(0,∞)(x1) · . . . · 2β−2xne−(xn/β)2

1(0,∞)(xn) =

= 2nβ−2n(x1 · . . . · xn)e−(x21+...+x2

n)/β21(0,∞)(min(x1, . . . , xn)).

Dla x1, . . . , xn > 0 wyznaczamy największą wartość funkcji wiarogodności.Najpierw funkcję logarytmujemy:

lnL(β) = n ln 2− 2n ln β + ln(x1 · . . . · xn)− (x21 + . . .+ x2

n)/β2,

następnie różniczkujemy po β:

d

dβlnL(β) = −2n

β+

2(x21 + . . .+ x2

n)β3

=−2nβ2 + 2(x2

1 + . . .+ x2n)

β3=

=−2n

(β2 − x2

1+...+x2n

n

)β3

=−2n

(β −

√x2

1+...+x2n

n

)(β +

√x2

1+...+x2n

n

)β3

.

Wyznaczona pochodna zeruje się i zmienia znak z dodatniego na ujemnyw punkcie

√x2

1+...+x2n

n. Oznacza to, że w punkcie tym funkcja wiarogodności

osiąga swoją największą wartość. Stąd

ENW (β) =

√X2

1 + . . .+X2n

n.

Ćwiczenie 3.10. Niech X1, . . . , Xn będzie próbą prostą z rozkładu E(λ).Rozważmy dwa estymatory parametru θ = 1

λ:

Rn = nX(1), Sn =X1 + . . .+Xn

n.

Wykaż, że oba są estymatorami nieobciążonymi. Który z nich jest estyma-torem o mniejszej wariancji? Czy jest to estymator nieobciążony minimalnejwariancji?

59

Page 60: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozwiązanie. Wyznaczamy dystrybuantę zmiennej X(1):

FX(1)(t) = P (X(1) ¬ t) = P (min(X1, X2, . . . , Xn) ¬ t) =

= 1− P (min(X1, X2, . . . , Xn) > t) == 1− P (X1 > t,X2 > t, . . . , Xn > t) == 1− P (X1 > t)P (X2 > t) · . . . · P (Xn > t) =

= 1− (P (X1 > t))n = 1−(∫ ∞

tλe−λx1(0,∞)(x) dx

)n=

=

0, t ¬ 0

1−(−e−λx

∣∣∣∞t

)n, t > 0

=

0, t ¬ 01− (e−λt)n, t > 0

=

= (1− e−nλt)1(0,∞)(t).

Gęstość tej zmiennej ma zatem postać

fX(1)(t) = F ′X(1)(t) = nλe−nλt1(0,∞)(t),

czyli zmienna X(1) ma rozkład wykładniczy E(nλ). Korzystając z tego faktu,sprawdzamy nieobciążoność estymatora Rn parametru θ = 1/λ:

ERn = E(nX(1)) = nEX(1) = n · 1nλ

=1λ

= θ.

Estymator Sn jest nieobciążony, gdyż jest średnią arytmetyczną, którajak wiadomo jest nieobciążonym estymatorem wartości oczekiwanej.

Wariancje podanych estymatorów wynoszą:

VarRn = Var(nX(1)) = n2VarX(1) = n2 · 1n2λ2

=1λ2,

VarSn = Var(X1 + . . .+Xn

n

)=

1n2

(VarX1 + VarX2 + . . .+ VarXn) =

=1n2· nVarX1 =

1n· 1λ2

=1nλ2

,

co oznacza, że estymator Sn jest estymatorem o mniejszej wariancji.Powstaje pytanie czy Sn ma najmniejszą wariancję spośród wszystkich

estymatorów nieobciążonych.Rozkład wykładniczy ma gęstość postaci

f(x) = λe−λx1(0,∞)(x) = e−λx+lnλ1(0,∞)(x).

Oznaczmy T1(x) = x, c1 = −λ. Zbiór wszystkich możliwych wartości para-metru c1 jest jednowymiarowy, to oznacza, że f należy do rodziny rozkładówwykładniczych. Estymator Sn jest funkcją statystyki

∑ni=1 T1(Xi) i jest nie-

obciążonym estymatorem wartości oczekiwanej, a zatem jest estymatoremnieobciążonym minimalnej wariancji. �

60

Page 61: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 3.11. Wykaż, że rodzina rozkładów logarytmicznie normalnych,tj. rozkładów o gęstościach

f(x) =1√

2πσxe−

(ln x−a)2

2σ2 1(0,∞)(x), a ∈ R, σ > 0,

jest rodziną wykładniczą. Znajdź estymator nieobciążony minimalnej warian-cji parametru a.

Rozwiązanie. Przekształcamy podaną gęstość:

f(x) =1√

2πσxe−

(ln x−a)2

2σ2 1(0,∞)(x) =

= eln 1√

2πσx− (ln x−a)2

2σ2 1(0,∞)(x) =

= e− ln(√

2πσ)−lnx− ln2 x2σ2 + 2a ln x

2σ2 −a2

2σ2 1(0,∞)(x) =

= e−1

2σ2 ln2 x+( aσ2−1) lnx−ln(

√2πσ)− a2

2σ2 1(0,∞)(x).

Oznaczamy

T1(x) = ln2 x, T2(x) = ln x, c1 = − 12σ2

, c2 =a

σ2− 1.

Funkcje T1(x) i T2(x) są liniowo niezależne, a zbiór wszystkich możliwychwartości parametrów (c1, c2) jest 2-wymiarowy. Stąd rodzina rozkładów lo-garytmicznie normalnych jest rodziną wykładniczą.

Dla takiej rodziny estymatory nieobciążone minimalnej wariancji są funk-cjami statystyki

T =(

n∑i=1

T1(Xi),n∑i=1

T2(Xi))

=(

n∑i=1

ln2Xi,n∑i=1

lnXi

).

Zauważmy, że

E ln(Xi) =∫ ∞

0lnx

1√2πσx

e−(ln x−a)2

2σ2 dx =(podstawiamy t = lnx, dt =

1xdx)

=∫ ∞−∞

t1√2πσ

e−(t−a)2

2σ2 dt = a,

gdyż ostatnie wyrażenie całkowe jest definicją wartości oczekiwanej zmiennejo rozkładzie N (a, σ2).

Tak więc an =∑ni=1 lnXi

nbędzie estymatorem nieobciążonym parametru

a, a jako funkcja statystyki T będzie estymatorem nieobciążonym minimalnejwariancji. �

61

Page 62: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 3.12. [6, Przykład 11. str. 30] Niech X1, . . . , Xn będzie próbąz rozkładu gamma Γ(α, λ) z parametrem kształtu α > −1 i skali λ > 0o gęstości

fα,λ(x) =1

λαΓ(α)xα−1e−x/λ1(0,∞)(x).

Wykaż, że rodzina rozkładów gamma jest rodziną wykładniczą. Udowodnij,że Sn =

∑ni=1 Xi/n jest ENMW parametru αλ. (Wskazówka: Γ(α + 1) =

αΓ(α)).

Rozwiązanie. Przekształcamy podaną gęstość:

fα,λ(x) =1

λαΓ(α)xα−1e−x/λ1(0,∞)(x) =

= eln( 1λαΓ(α)x

α−1)− xλ1(0,∞)(x) =

= e− ln(λαΓ(α))+(α−1) lnx− xλ1(0,∞)(x) =

= e(α−1) lnx− 1λx−ln(λαΓ(α))

1(0,∞)(x).

Oznaczamy

T1(x) = ln x, T2(x) = x, c1 = α− 1, c2 =1λ.

Funkcje T1 i T2 są liniowo niezależne, a parametry (c1, c2) tworzą zbiór 2-wy-miarowy. Zatem rodzina rozkładów gamma jest rodziną wykładniczą. Esty-matory nieobciążone minimalnej wariancji są funkcjami statystyki

T =(

n∑i=1

T1(Xi),n∑i=1

T2(Xi))

=(

n∑i=1

lnXi,n∑i=1

Xi

).

Podany w zadaniu estymator Sn jest funkcją statystyki T , wystarczysprawdzić jego nieobciążoność, żeby wiedzieć, że jest on estymatorem nieob-ciążonym minimalnej wariancji. Jako średnia arytmetyczna próby estymatorSn jest estymatorem nieobciążonym wartości oczekiwanej. Wystarczy spraw-dzić, ile wynosi wartość oczekiwana w rozkładzie gamma.

EX =∫ ∞

0x

1λαΓ(α)

xα−1e−x/λ dx =

=∫ ∞

0

1λαΓ(α)

xαe−x/λ dx =

= γΓ(α + 1)

Γ(α)

∫ ∞0

1λα+1Γ(α + 1)

xαe−x/λ dx =

= γΓ(α + 1)

Γ(α)· 1 = γ

αΓ(α)Γ(α)

= λα,

przy czym ostatnie wyrażenie całkowe jest równe 1 jako całka z gęstościrozkładu Γ(α + 1, λ). �

62

Page 63: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

3.2. Ćwiczenia praktyczne

Ćwiczenie 3.13. W pliku estymacja.sav (dostępnym na platformie Moodle)poza numerem obserwacji znajdują się zmienne o rozkładach odpowiedniowykładniczym E(λ), dwumianowym B(5, p), geometrycznym G(p) i WeibullaWe(2, β). Dla podanych zmiennych wyznacz wartości estymatorów opisanychbądź skonstruowanych w ćwiczeniach 3.5-3.9. Porównaj wartości wyznaczo-nych estymatorów z rzeczywistymi wartościami estymowanych parametrów,wiedząc, że wykorzystane do generowania obserwacji rozkłady to E(1/2),B(5, 1/2), G(1/4) i We(2, 2).

Rozwiązanie. Ponieważ estymatory z ćwiczeń 3.5 i 3.9 są funkcjami kwadra-tów zmiennych losowych, wyznaczamy kwadraty tych zmiennych, otrzymujączmienne wykladnicza kw i weibulla kw. Wybieramy z menu Przekształ-cenia –> Oblicz wartości... W pole Zmienna wynikowa wpisujemynazwę nowej zmiennej, a w poleWyrażenie numeryczne wzór.

Zmienną o rozkładzie dwumianowym rekodujemy (Przekształcenia–> Rekoduj na inne zmienne...) na zmienną czy5, o wartościach 1, jeślidwumianowa ma wartość 5, a 0 w pozostałych przypadkach.

Wyznaczamy średnie arytmetyczne zmiennych wykladnicza kw, czy5, wy-kladnicza, geometryczna, weibulla kw. Korzystamy w tym celu z poleceniaagregacji Dane –> Agreguj... Pole Zmienna grupująca pozostawia-my puste. W polu Podsumowania zmiennych umieszczamy wspomnianezmienne. Zapisujemy nowy plik danych estymacja aggr.sav zawierający tylkozagregowane zmienne.

• Estymator T z ćwiczenia 3.5 jest średnią arytmetyczną zmiennej wy-kladnicza kw podzieloną przez 2. Jego wartość wynosi 2, 49, podczasgdy wartość estymowanego parametru to 4.

• Estymator θ z ćwiczenia 3.6 jest różnicą liczby 1 i średniej arytmetycz-nej zmiennej czy5. Jego wartość to 0, 98, podczas gdy wartość estymo-wanego parametru to 0, 96875.

• Estymator θ z ćwiczenia 3.7 wyraża się wzorem exp(−1/x), a jego war-tość wynosi 0, 54, podczas gdy wartość estymowanego parametru tow przybliżeniu 0, 61.

• ENW (p) z ćwiczenia 3.8 jest odwrotnością średniej zmiennej geome-tryczna i wynosi 0, 23, podczas gdy wartość estymowanego parametruto 0, 25.

63

Page 64: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

• ENW (β) z ćwiczenia 3.9 jest pierwiastkiem ze średniej zmiennej we-ibulla kw i jego wartość wynosi 1, 90, podczas gdy wartość estymowa-nego parametru to 2.

Ćwiczenie 3.14. Utworzono 10 grup (W1-W10) zawierających po 20 ob-serwacji wygenerowanych z rozkładu wykładniczego E(1). Dane znajdują sięw pliku ENMW.sav (dostępnym na platformie Moodle). Dla każdej z grupwyznacz wartości estymatorów parametru 1/λ opisanych w ćwiczeniu 3.10,tj. średniej i 20·minimum, odpowiednio agregując zmienną wykładnicza. Po-równaj otrzymane wartości estymatorów z rzeczywistą wartością tego para-metru równą 1. Wyznacz wariancję otrzymanych estymatorów i sprawdź, dlaktórego z nich ma ona mniejszą wartość.

Rozwiązanie. Wybieramy z menuDane –> Agreguj...W polu Zmiennegrupujące umieszczamy zmienną Grupa. W polu Podsumowania zmien-nych umieszczamy 2-krotnie zmienną wykładnicza, przy czym raz zmieniamyjej funkcję podsumowującą na minimum. Zagregowane zmienne zapisujemyw pliku ENMW aggr.sav.

Wybieramy z menuPrzekształcenia –> Oblicz wartości... i zmien-ną wykładnicza min mnożymy przez 20, otrzymując zmienną wyk min razy20.

Wyznaczamy wariancję otrzymanych estymatorów. Analiza –> Opisstatystyczny –> Statystyki opisowe. W polu Zmienne umieszczamyzmienne wykładnicza mean i wyk min razy20. W opcjach zaznaczamy średniąoraz wariancję.

64

Page 65: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

3.3. Zadania

Zadanie 3.1. [4, Przykład 2.1.3. str. 117] Liczba wypadków drogowychw ciągu tygodnia ma w przybliżeniu rozkład Poissona. Zakładamy, że ob-serwacji dokonujemy przez okres n tygodni, w których ogólne warunki niezmieniają się. Podaj model przestrzeni statystycznej.

Odpowiedź.X = {(x1, . . . , xn); xi ∈ {0, 1, 2, . . .}, i = 1, . . . , n} = (N ∪ {0})n.θ = λ ∈ Θ = (0,∞).

Pλ(X1 = x1, X2 = x2, . . . , Xn = xn) = e−nλλx1+...+xn

x1! · . . . · xn!.

Zadanie 3.2. [4, Przykład 2.1.4. str. 117] Producent bada partię n żarówek,przy czym interesuje go czas życia żarówki. Przy założeniu, że pojedynczeczasy życia mają rozkład wykładniczy, podaj opis przestrzeni statystycznej.

Odpowiedź.X = {(x1, . . . , xn); xi ∈ (0,∞), i = 1, . . . , n} = (0,∞)n.θ = λ ∈ Θ = (0,∞).fλ(x1, x2, . . . , xn) = λne−λ(x1+...+xn)

1(0,∞)(min(x1, . . . , xn)).

Zadanie 3.3. [3, Zad. 2.33 str. 71] Z partii kondensatorów wybrano losowo12 sztuk i zmierzono ich pojemności, otrzymując (w pF):

4, 45 4, 40 4, 42 4, 38 4, 44 4, 36 4, 40 4, 39 4, 45 4, 35 4, 40 4, 36.

a) Znajdź oszacowanie nieznanej wartości przeciętnej pojemności kondensa-tora pochodzącego z danej partii.

b) Znajdź nieobciążone oszacowanie wariancji pojemności tych kondensato-rów.

65

Page 66: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Odpowiedź. a) x = 4, 40, b) s2 = 0, 0012.

Zadanie 3.4. [3, Zad. 2.25 str. 70] Zmienne losowe X1, . . . , Xn mają rozkłado tej samej wartości oczekiwanej EXi = a. Wykaż, że estymatory postaci

Tn =a1X1 + · · ·+ anXn

a1 + · · ·+ an,

n∑i=1

ai 6= 0, ai ∈ R,

są nieobciążonymi estymatorami parametru a.

Zadanie 3.5. Niech X1, X2, . . . , Xn będzie próbą prostą z rozkładu o gęstości

f(x) = 12a sin

(xa

)1(0,aπ)(x).

Wykaż, że an =2π·∑ni=1Xi

njest mocno zgodnym i nieobciążonym estyma-

torem parametru a.

Zadanie 3.6. Rozważmy estymator

θn = 1− 1n

n∑i=1

1(0,1)(Xi)

parametru θ = P (X > 1) zmiennej losowej o rozkładzie E(λ). Czy θn jestnieobciążonym lub mocno zgodnym estymatorem parametru θ?

Odpowiedź. Jest nieobciążony i mocno zgodny.

Zadanie 3.7. Niech pn : Rn → R,

pn =1n

n∑i=1

1{1}(Xi).

Pokaż, że pn jest mocno zgodnym estymatorem parametru p rozkładu geo-metrycznego z parametrem p ∈ (0, 1). Czy jest to estymator nieobciążony?

Odpowiedź. Podany estymator jest nieobciążony.

Zadanie 3.8. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu dwu-mianowego B(m, p), p ∈ (0, 1). Wyznacz estymator największej wiarogodno-ści parametru

a) p,

b) θ = p2.

66

Page 67: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Odpowiedź.

a) ENW (p) =X1 + . . .+Xn

nm,

b) ENW (p2) =(X1 + . . .+Xn

nm

)2

.

Zadanie 3.9. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu gam-ma G(2, λ) o gęstości

f(x) =λ2

Γ(2)xe−λx1(0,∞)(x), λ > 0.

Wyznacz estymator największej wiarogodności parametru λ.

Odpowiedź. ENW (λ) =2n

X1 + . . .+Xn

.

Zadanie 3.10. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu La-place’a La(0, 1

λ) o gęstości

f(x) =λ

2e−λ|x|, λ > 0.

Wyznacz estymator największej wiarogodności parametru λ.

Odpowiedź. ENW (λ) =n

|X1|+ . . .+ |Xn|.

67

Page 68: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

68

Page 69: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozdział 4.

Estymacja przedziałowa

Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu Pθ, θ ∈ Θ, orazα ∈ (0, 1).

Definicja 4.1. Estymatorem przedziałowym parametru θ ∈ Θ na poziomieufności 1−α nazywamy parę

(θ = θ(X1, . . . , Xn), θ = θ(X1, . . . , Xn)

), gdzie

θ, θ : X n → R są funkcjami mierzalnymi oraz

∀θ∈Θ P (θ ∈ [θ, θ]) ­ 1− α.

Przedział losowy [θ, θ] nazywamy przedziałem ufności. Liczbę 1−α nazywamytakże współczynnikiem ufności.

1. Przedziały ufności dla wartości oczekiwanej a rozkładu normalnegoN (a, σ2).

a) Parametr σ2 znany.Przedziałem ufności dla a na poziomie ufności 1− α jest

[a, a] =[x− z1−α/2

σ√n, x+ z1−α/2

σ√n

],

gdzie z1−α/2 = Φ−1(1− α2 ), a Φ jest dystrybuantą rozkładu normalnego

N (0, 1).

b) Parametr σ2 nieznany.Przedziałem ufności dla a na poziomie ufności 1− α jest

[a, a] =[x− t(n−1)

1−α/2s√n, x+ t

(n−1)1−α/2

s√n

],

gdzie t(n−1)1−α/2 = F−1

tn−1(1− α2 ), a Ftn−1 jest dystrybuantą rozkładu t-Stu-

denta z n− 1 stopniami swobody.Uwaga. Jeżeli n > 30, to Φ ≈ Ftn i w powyższym wzorze na przedziałufności t(n−1)

1−α/2 można zastąpić przez z1−α/2.

69

Page 70: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

2. Asymptotyczne przedziały ufności dla wartości oczekiwanej a dowolnegorozkładu o niezerowej wariancji.

Przedziałem ufności dla a na poziomie ufności 1− α jest

[a, a] =[x− z1−α/2

s√n, x+ z1−α/2

s√n

]oraz

[a, a] =[x− z1−α/2

s√n, x+ z1−α/2

s√n

],

gdzie z1−α/2 = Φ−1(1 − α2 ), a Φ jest dystrybuantą rozkładu normalnego

N (0, 1).

Oznaczenia: s =√

1n−1

∑ni=1(xi − x)2, n ­ 2,

s =√

1n

∑ni=1(xi − x)2.

Tablice rozkładów normalnego i t-Studenta są powszechnie dostępne, moż-na je znaleźć np. w [3].

Uwaga: Wyznaczając przedział ufności, będziemy stosować następują-cą zasadę zaokrąglania: wartość z1−α/2

σ√n

czy t(n−1)1−α/2

s√n

zaokrąglamy zawszew górę z dokładnością do 1 cyfry znaczącej, jeśli wspomniana wartość nieprzekracza 10% średniej, a z dokładnością do 2 cyfr znaczących, jeśli prze-kracza 10% średniej. Cyfry znaczące to wszystkie cyfry danej liczby pozapoczątkowymi zerami. Np. pierwszą cyfrą znaczącą liczby 1020 jest cyfra ty-sięcy, a drugą cyfra setek, pierwszą cyfrą znaczącą liczby 0, 02005 jest cyfrasetnych, a drugą cyfra tysięcznych.

4.1. Ćwiczenia

Ćwiczenie 4.1. Przypuśćmy, że waga noworodka ma rozkład normalny o wa-riancji 0, 25 kg2. Zważono 100 noworodków i okazało się, że średnia wagawyniosła 3,5 kg. Wyznacz przedział ufności dla wartości oczekiwanej waginoworodka na poziomie ufności 95%.

Rozwiązanie.Dane: X – waga noworodka,

X ∼ N (a, σ2),σ2 = 0, 25 kg2,n = 100,x = 3, 5 kg,1− α = 0, 95.

70

Page 71: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Mamy model 1a), tj. rozkład normalny ze znaną wariancją. Obliczamy:

z1−α/2σ√n

= 1, 96 · 0, 510

= 0, 098 ≈ 0, 10.

Ponieważ wyznaczona wartość nie przekraczała 10%x, to zaokrąglenia do-konano w górę z dokładnością do 1 cyfry znaczącej. Przedział ufności mapostać

[a, a] = [3, 50− 0, 10; 3, 50 + 0, 10] = [3, 40; 3, 60].

Ćwiczenie 4.2. [3, na podstawie zad. 2.43 str. 73] W centrali telefonicznejdokonano 17 pomiarów długości rozmów w ciągu pewnego dnia i otrzymano(w min.): x = 5, 48, s = 1, 16. Przy założeniu, że długości rozmów mająrozkład normalny, wyznacz przedział ufności dla średniej długości rozmowyna poziomie ufności 0,95.

Rozwiązanie.Dane: X – długość rozmowy,

X ∼ N (a, σ2),n = 17,x = 5, 48,s = 1, 16,1− α = 0, 95.

Mamy model 1b), tj. rozkład normalny o nieznanej wariancji, n ¬ 30.Wyznaczamy najpierw wartość s:

s2 = s2 n

n− 1= 1, 162 · 17

16.

Stąd

t(n−1)1−α/2 ·

s√n

= t(16)0,975

√1, 162 · 17

16√17

= 2, 120 · 1, 164

= 0, 6149 ≈ 0, 62.

Wyznaczona wartość przekraczała 10%x, więc zaokrąglenia dokonano w góręz dokładnością do 2 cyfr znaczących. Przedział ufności ma postać

[a, a] = [5, 48− 0, 62; 5, 48 + 0, 62] = [4, 86; 6, 10].

Ćwiczenie 4.3. Z partii bawełny pobrano próbkę złożoną z 31 włókien,a następnie zmierzono długości tych włókien (w mm). Otrzymano następu-jące wyniki:

71

Page 72: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

23 8 15 35 21 20 10 4 28 12 9 5 24 25 31 2623 17 13 33 29 27 24 22 32 16 9 29 22 20 8.

Zakładając, że długość włókien bawełny ma rozkład normalny, wyznacz prze-dział ufności dla średniej na poziomie ufności 0,99.

Rozwiązanie.Dane: X – długość włókna,

X ∼ N (a, σ2),n = 31,1− α = 0, 99.

Mamy model 1b), tj. rozkład normalny o nieznanej wariancji, ale n > 30,co pozwala stosować tablice rozkładu normalnego zamiast t-Studenta. Wy-znaczamy średnią oraz wariancję z próby.

xi xi − x (xi − x)2 xi xi − x (xi − x)2

23 3 9 23 3 98 −12 144 17 −3 9

15 −5 25 13 −7 4935 15 225 33 13 16921 1 1 29 9 8120 0 0 27 7 4910 −10 100 24 4 164 −16 256 22 2 4

28 8 64 32 12 14412 −8 64 16 −4 169 −11 121 9 −11 1215 −15 225 29 9 81

24 6 36 22 2 425 5 25 20 0 031 11 121 8 −12 14426 6 36 620 ← Σ→ 2348

x =62031

= 20, 0,

s =

√234830

.

Wyznaczamy

z1−α/2s√n

= z0,995

√234830√31

= 4, 07442 ≈ 4, 1.

72

Page 73: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wyznaczona wartość przekraczała 10%x, więc zaokrąglenia dokonano w góręz dokładnością do 2 cyfr znaczących. Przedział ufności ma postać

[a, a] = [20, 0− 4, 1; 20, 0 + 4, 1] = [15, 9; 24, 1].

Ćwiczenie 4.4. [5, na podstawie zad. 8. str. 274] Przeprowadzono obserwa-cje dotyczące opóźnień w ruchu pociągów. Stwierdzono, że spośród 1000 loso-wo wybranych pociągów 160 przyjechało z opóźnieniem. Zakładając, że opóź-nienia poszczególnych pociągów są niezależne od siebie i jednakowo prawdo-podobne dla każdego pociągu, znajdź przedział ufności dla prawdopodobień-stwa występowania opóźnienia na poziomie ufności 0,9.

Rozwiązanie. X – czy pociąg był opóźniony.Zmienna ta ma rozkład dwupunktowy

k 1 (tak) 0 (nie)P (X = k) p 1− p

Zaobserwowano 160 pociągów spóźnionych i 840 takich, które przyjechałyo czasie.

Zauważmy, że dla zmiennej o rozkładzie dwupunktowym

EX = 1 · p+ 0 · (1− p) = p,

a więc wartość oczekiwana zmiennej X jest równa nieznanemu odsetkowipociągów opóźnionych. Przedział ufności dla prawdopodobieństwa występo-wania opóźnienia wyznaczamy, korzystając z wzorów na przedział ufnościdla wartości oczekiwanej. Mamy model 2., tj. rozkład inny niż normalny, alepróba o dużej liczebności.

x =1 · 160 + 0 · 840

1000= 0, 16,

s2 =1n

n∑i=1

x2i − (x)2 =

1n

n∑i=1

xi − (x)2 = x− (x)2 = x(1− x) =

= 0, 16 · 0, 84 = 0, 1344,

s =√

0, 1344.

Obliczamy

z1−α/2s√n

= 1, 645 ·√

0, 1344√1000

= 0, 019070 ≈ 0, 020.

73

Page 74: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wyznaczona wartość przekraczała 10%x, więc zaokrąglenia dokonano w góręz dokładnością do 2 cyfr znaczących. Przedział ufności ma postać

[p, p] = [0, 16− 0, 020; 0, 16 + 0, 020] = [0, 140; 0, 180].

Ćwiczenie 4.5. [3, Zad. 2.55 str. 74] Wyznacz niezbędną liczbę pomiarów,jakie należy wykonać w celu wyznaczenia 95% przedziału ufności o długościnieprzekraczającej 0, 08 mm dla wartości przeciętnej grubości tkaniny, wie-dząc, że cecha ta ma rozkład normalny o odchyleniu standardowym 0, 1 mm.

Rozwiązanie.Dane: X – grubość tkaniny,

X ∼ N (a, σ2),σ = 0, 1 mm,1− α = 0, 95.

Mamy model 1a), tj. rozkład normalny o znanej wariancji. Długość prze-działu ufności wynosi

2z1−α/2σ√n

= 2z0,9750, 1√n

=0, 392√

n.

Rozwiązujemy nierówność0, 392√

n¬ 0, 08,

otrzymując n ­ 24, 01.W celu wyznaczenia żądanego przedziału ufności należy więc dokonać co

najmniej 25 pomiarów. �

Ćwiczenie 4.6. Jak liczna powinna być próba, aby na poziomie ufności0,95 ustalić procent wyrobów wadliwych, zakładając, że błąd oszacowanianie powinien przekraczać 0,03?

Rozwiązanie. X – czy wyrób jest wadliwy.Zmienna ta ma rozkład dwupunktowy

k 1 (tak) 0 (nie)P (X = k) p 1− p

Argumentując podobnie jak w ćwiczeniu 4.4, przedział ufności dla nieznanegoodsetka wyrobów wadliwych wyznaczamy z wzoru na przedział ufności dlawartości oczekiwanej zmiennej X. Błąd oszacowania jest równy

z1−α/2s√n

= z0,975

√x(1− x)√n

.

74

Page 75: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wartość średniej x nie jest nam znana, ale wartość x(1−x) możemy oszacowaćz góry przez 1/4 (wielomian x(1−x) ma dwa miejsca zerowe: 0 i 1, a w punkcie1/2 osiąga wartość największą równą 1/4). Tak więc

z1−α/2s√n¬ 1, 96

√0, 25√n

=0, 98√n.

Rozwiązujemy nierówność0, 98√n¬ 0, 03,

otrzymując n ­ 1067, 109. Próba powinna mieć zatem liczebność co najmniej1068 obserwacji. �

Ćwiczenie 4.7. Z jakim prawdopodobieństwem oczekiwać można, że prze-dział liczbowy [52, 8%, 67, 2%] zawiera odsetek studentów uczęszczającychna wykłady profesora X, jeżeli na losowo wybranym wykładzie prowadzo-nym przez tego profesora w zeszłym semestrze stwierdzono obecność 300studentów na 500 zapisanych?

Rozwiązanie. X – czy student był na wykładzie.Zmienna ta ma rozkład dwupunktowy

k 1 (tak) 0 (nie)P (X = k) p 1− p

Mamy model 2., tj. rozkład inny niż normalny, ale próba liczna (n = 500).

Zauważmy, że x =300500

= 0, 6 jest środkiem podanego w zadaniu prze-

działu ufności. s =√x(1− x) =

√0, 24. Długość podanego przedziału to

0, 672− 0, 528 = 0, 144. Stąd

z1−αs√n

= 0, 072.

Rozwiązujemy to równanie:

z1−α/2 =√

0, 24√500

z1−α/2 = 3, 28633531− α/2 = 0, 9995

α = 0, 0011− α = 0, 999.

75

Page 76: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

4.2. Ćwiczenia praktyczne

Ćwiczenie 4.8. Wykonaj ćwiczenie 4.3 w programie IBM SPSS Statistics.Dane znajdują się w pliku włókna.sav (dostępnym na platformie Moodle).

Rozwiązanie. Wybieramy z menu Analiza –> Opis statystyczny–> Eksploracja...W polu Zmienne zależne umieszczamy zmienną dlu-gosc wlokna. Pod przyciskiem Statystyki można wpisać poziom ufności(0, 99 zamiast domyślnego 0, 95). Otrzymujemy tabelę ze statystykami, wśródktórych jest dolna i górna granica przedziału ufności. Wynik różni się od tego,który otrzymaliśmy w ćwiczeniu 4.3, gdyż program pobrał wartość dokładnąstatystyki z tablic t-Studenta, a my użyliśmy przybliżenia wartością z tablicrozkładu normalnego.

Ćwiczenie 4.9. Wykonaj ćwiczenie 4.4 w programie IBM SPSS Statistics.Dane znajdują się w pliku pociagi.sav (dostępnym na platformie Moodle).

Rozwiązanie. Sprawdzamy, czy zmienna opoznienie ma wartości 0 i 1 (jeślinie, trzeba ją rekodować na inną zmienną o takich wartościach). Wybieramy

76

Page 77: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

z menu Analiza –> Opis statystyczny –> Eksploracja... W poluZmienne zależne umieszczamy zmienną opoznienie. Pod przyciskiem Sta-tystyki sprawdzamy, czy poziom ufności wynosi 0, 9. Otrzymujemy tabelęze statystykami, wśród których jest dolna i górna granica przedziału ufności.

Są one identyczne z wyznaczonymi przez nas w ćwiczeniu 4.4. �

Ćwiczenie 4.10. W pliku ufnosc.sav (dostępnym na platformie Moodle)znajdują się dane wygenerowane z rozkładu normalnego, podzielone na 20grup po 10 obserwacji w każdej. Dla każdej z grup wyznacz 90% przedziałufności dla wartości oczekiwanej. Sprawdź, w ilu przypadkach otrzymanyprzedział nie pokrywa rzeczywistej wartości oczekiwanej, wiedząc, że danebyły generowane z rozkładu N (5, 1).

Rozwiązanie. Wybieramy Analiza –> Opis statystyczny –> Eks-ploracja.... W polu Zmienne zależne umieszczamy zmienną z wygene-rowanymi danymi. W polu Lista czynników umieszczamy zmienną Grupa.Pod przyciskiem Statystyki ustawiamy poziom ufności na 90%. Wykonu-jemy analizę, wybierając opcję Pokaż statystyki. Wyniki analizy podanesą poniżej w uproszczonej tabeli. Na niebiesko zaznaczono przedziały ufnościniezawierające estymowanego parametru, który był równy 5.

77

Page 78: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

4.3. Zadania

Zadanie 4.1. [3, Zad. 2.46 str. 73] W losowo wybranej grupie 10 samocho-dów marki Skoda przeprowadzono badanie zużycia benzyny. Okazało się, żeśrednia zużycia benzyny (w l/100 km) dla tej grupy wyniosła 8,1. Zakładając,że badana cecha ma rozkład normalny o odchyleniu standardowym równym0,8, wyznacz przedział ufności dla wartości oczekiwanej na poziomie ufności99%.

Odpowiedź. [7, 4; 8, 8].

Zadanie 4.2. Zważono 10 torebek z nasionami nasturcji i otrzymano nastę-pujące wyniki (w gramach): 7, 8, 9, 9, 10, 10, 11, 11, 12, 13. Na podstawiepowyższych wyników, na poziomie ufności 0,9, skonstruuj przedział ufnościdla średniej wagi torebek z nasionami. Zakładamy, że rozkład wagi torebekjest normalny.

Odpowiedź. [8, 9; 11, 1].

Zadanie 4.3. [3, Zad. 2.52 str. 74] Zmierzono średnice 51 drzew wybranychlosowo w lesie sosnowym i otrzymano średnią średnicę równą 37,3 cm orazwariancję z próby s2 = 13, 5 cm2. Zakładając, że średnice drzew mają rozkład

78

Page 79: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

normalny, wyznacz 90% przedział ufności dla wartości oczekiwanej średnicydrzewa w tym lesie.

Odpowiedź. [36, 4; 38, 2].

Zadanie 4.4. [5, Zad. 4. str. 273] Zużycie wody w fabryce podlega losowymwahaniom w kolejnych dniach roku. Na podstawie 365 obserwacji stwierdzo-no, że średnie dzienne zużycie wody wynosi 102 hl, a wariancja s2 = 81 hl2.Zakładając, że zużycie wody ma rozkład normalny, wyznacz przedział ufnościdla wartości oczekiwanej na poziomie ufności 0,98.

Odpowiedź. [100; 104].

Zadanie 4.5. [3, Zad. 2.50 str. 74] W pewnej przychodni lekarskiej wśródlosowo wybranych 980 osób poddanych prześwietleniu małoobrazkowemustwierdzono zmiany chorobowe u 10 osób. Na poziomie ufności 0,95 wyznaczprzedział ufności dla frakcji osób chorych wśród wszystkich osób obsługiwa-nych przez tę przychodnię.

Odpowiedź. [0, 0039; 0, 0165].

Zadanie 4.6. [3, na podstawie zad. 2.59 str. 75] W celu wyznaczenia war-tości przeciętnej długości drogi hamowania samochodu przeprowadzono 12prób i otrzymano odchylenie standardowe s = 1, 33. Zakładając, że drogahamowania ma rozkład normalny, zbadaj, czy liczba prób jest wystarczającado znalezienia 90% przedziału ufności dla wartości przeciętnej o długości niewiększej niż 0,5 m. Jeśli nie, jaką liczbę prób należy jeszcze przeprowadzić?

Odpowiedź. Nie jest to liczba wystarczająca. Trzeba jeszcze przeprowadzić65 prób.

Zadanie 4.7. Jak liczna powinna być próba, jeżeli przy współczynniku ufno-ści 0,99 chcemy oszacować, jaka część gospodarstw wiejskich posiada przynaj-mniej jedną żniwiarkę? Z poprzednich badań wiadomo, że frakcja ta wynosiła0,4. Zakładamy, że błąd szacunku nie powinien być większy niż 0,01.

Odpowiedź. Próba powinna mieć liczność 15 926.

Zadanie 4.8. Jak liczną należy wziąć próbę, aby określić udział osób po-siadających telefony komórkowe w populacji generalnej, zakładając, że błądszacunku powinien wynosić maksymalnie 6%, a poziom ufności 0,99?

Odpowiedź. Należy wziąć próbę o liczności 461 obserwacji.

79

Page 80: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

80

Page 81: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozdział 5.

Testy statystyczne

Podstawą teoretyczną podanych dalej ćwiczeń i zadań będzie poniższe ze-stawienie najbardziej popularnych testów statystycznych przygotowane wrazz dr Agnieszką Goroncy na potrzebę wspólnie prowadzonych zajęć.

Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu Pθ, θ ∈ Θ orazniech α ∈ (0, 1) będzie poziomem istotności (najczęściej 0,1, 0,05, czy 0,01).

Oznaczenia:Φ – dystrybuanta rozkładu N(0, 1),z1−α = Φ−1(1− α),Ft(n−1) – dystrybuanta rozkładu t-Studenta z n− 1 stopniami swobody,tn−11−α = F−1

t(n−1)(1− α),ni, nij – liczebności empiryczne (zaobserwowane),n0i , n

0ij – liczebności teoretyczne,

Fχ2(k−1) – dystrybuanta rozkładu χ2 z k − 1 stopniami swobody,

uk−11−α = F−1

χ2(k−1)(1− α).

Jeżeli statystyka testowa należy do obszaru krytycznego, to hipotezę ze-rową odrzucamy i przyjmujemy hipotezę alternatywną. Jeżeli statystyka te-stowa nie należy do obszaru krytycznego, to nie ma podstaw do odrzuceniahipotezy zerowej.

W programie IBM SPSS Statistics zadeklarowany poziom istotności nale-ży porównać z istotnością wyliczaną przez program (tzw. p-wartość). Jest tominimalny poziom istotności, przy którym zaobserwowana wartość statystykitestowej prowadzi do odrzucenia hipotezy zerowej. W związku z tym hipote-zę zerową odrzucamy, gdy p-wartość jest mniejsza niż deklarowany przez naspoziom istotności, a nie mamy podstaw do odrzucenia, gdy jest większa.

81

Page 82: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

1. Test Studenta dla jednej średniejHipoteza zerowa: Średnia wartość zmiennej jest równa określonej war-tości a0 (a = a0).Hipoteza alternatywna 1.: Średnia wartość zmiennej jest różna odokreślonej wartości a0 (a 6= a0).Hipoteza alternatywna 2.: Średnia wartość zmiennej jest mniejsza odokreślonej wartości a0 (a < a0).Hipoteza alternatywna 3.: Średnia wartość zmiennej jest większa odokreślonej wartości a0 (a > a0).

a) X ma rozkład normalny o znanej wariancji σ2.

Statystyka testowa: Tn =√nx− a0

σ.

Obszar krytyczny 1.: K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞),Obszar krytyczny 2.: K = (−∞,−z1−α),Obszar krytyczny 3.: K = (z1−α,+∞).

b) X ma rozkład normalny o nieznanej wariancji σ2.

Statystyka testowa: Tn =√nx− a0

s.

Obszar krytyczny 1.: K = (−∞,−tn−11−α/2) ∪ (tn−1

1−α/2,+∞)dla n ¬ 30,K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞)dla n > 30,

Obszar krytyczny 2.: K = (−∞,−tn−11−α) dla n ¬ 30,

K = (−∞,−z1−α) dla n > 30,

Obszar krytyczny 3.: K = (tn−11−α,+∞) dla n ¬ 30,

K = (z1−α,+∞) dla n > 30.

c) X ma rozkład dowolny, istnieje VarX, n > 30.

Statystyka testowa: Tn =√nx− a0

σ0lub Tn =

√nx− a0

s,

lub Tn =√nx− a0

s,

gdzie σ0 jest odchyleniem standardowym rozkładu przy założeniu praw-dziwości hipotezy zerowej, o ile wariancja rozważanego rozkładu jestfunkcją jego wartości oczekiwanej (np. w rozkładzie ”0-1”, dwumiano-wym, Poissona, geometrycznym itp.).Obszar krytyczny 1.: K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞),Obszar krytyczny 2.: K = (−∞,−z1−α),Obszar krytyczny 3.: K = (z1−α,+∞).

82

Page 83: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

2. Test dla dwóch średnich i prób niezależnychHipoteza zerowa: Średnie wartości zmiennej są takie same w dwóch róż-nych populacjach (a1 = a2).Hipoteza alternatywna 1.: Średnie wartości zmiennej są różne w ba-danych populacjach (a1 6= a2).Hipoteza alternatywna 2.: Średnia wartość zmiennej w pierwszej po-pulacji jest mniejsza od średniej wartości zmiennej w drugiej populacji(a1 < a2).Hipoteza alternatywna 3.: Średnia wartość zmiennej w pierwszej po-pulacji jest większa od średniej wartości zmiennej w drugiej populacji(a1 > a2).

a) X ma w obu populacjach rozkład normalny o znanych wariancjach σ21

i σ22.

Statystyka testowa: Tn =x1 − x2√σ2

1

n1+σ2

2

n2

.

Obszar krytyczny 1.: K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞),

Obszar krytyczny 2.: K = (−∞,−z1−α),

Obszar krytyczny 3.: K = (z1−α,+∞).

b) X ma w obu populacjach rozkład normalny o nieznanych, ale równychwariancjach σ2

1 i σ22.

Statystyka testowa: Tn =x1 − x2√

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2· n1 + n2

n1n2

.

Obszar krytyczny 1.: K = (−∞,−tn1+n2−21−α/2 ) ∪ (tn1+n2−2

1−α/2 ,+∞),

Obszar krytyczny 2.: K = (−∞,−tn1+n2−21−α ),

Obszar krytyczny 3.: K = (tn1+n2−21−α ,+∞).

c) X ma w obu populacjach rozkład normalny o nieznanych wariancjachσ2

1 i σ22.

Statystyka testowa: Cn =x1 − x2√s2

1

n1+s2

2

n2

(Cochrana i Coxa).

Obszar krytyczny 1.: K = (−∞,−cn1,n21−α/2) ∪ (cn1,n2

1−α/2,+∞),

Obszar krytyczny 2.: K = (−∞,−cn1,n21−α ),

Obszar krytyczny 3.: K = (cn1,n21−α ,+∞),

83

Page 84: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

gdzie

cn1,n21−α ≈

(s2

1

n1tn1−11−α +

s22

n2tn2−11−α

):(s2

1

n1+s2

2

n2

).

d) X ma w obu populacjach rozkład o nieznanych wariancjach σ21 i σ2

2,próby mają liczebności większe bądź równe 100.

Statystyka testowa: Tn =x1 − x2√s2

1

n1+s2

2

n2

.

Obszar krytyczny 1.: K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞),

Obszar krytyczny 2.: K = (−∞,−z1−α),

Obszar krytyczny 3.: K = (z1−α,+∞).

3. Test dla dwóch średnich i prób zależnychHipoteza zerowa: Dwie zmienne zależne (o rozkładach normalnych) ma-ją jednakowe średnie (inaczej: różnica D = X −Y odpowiadających sobiewartości zmiennych ma średnią równą 0).Hipoteza alternatywna 1.: Zmienne zależne mają różne średnie (ina-czej: różnica D = X − Y odpowiadających sobie wartości zmiennych maśrednią różną od 0).Hipoteza alternatywna 2.: Pierwsza ze zmiennych ma średnią mniejsząniż druga (inaczej: różnica D = X − Y odpowiadających sobie wartościzmiennych ma średnią ujemną).Hipoteza alternatywna 3.: Pierwsza ze zmiennych ma średnią większąniż druga (inaczej: różnica D = X − Y odpowiadających sobie wartościzmiennych ma średnią dodatnią).

Statystyka testowa: Tn =d

sd

√n.

Obszar krytyczny 1.: K = (−∞,−tn−11−α/2) ∪ (tn−1

1−α/2,+∞) dla n ¬ 30,K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞) dla n > 30,

Obszar krytyczny 2.: K = (−∞,−tn−11−α) dla n ¬ 30,

K = (−∞,−z1−α) dla n > 30,

Obszar krytyczny 3.: K = (tn−11−α,+∞) dla n ¬ 30,

K = (z1−α,+∞) dla n > 30.

4. Test chi-kwadrat zgodnościZałożenia testu: Zmienna ma rozkład dyskretny, przyjmuje tylko war-tości l1, . . . , lk z prawdopodobieństwami odpowiednio p1, . . . , pk, które niesą znane.

84

Page 85: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Hipoteza zerowa: Zmienna ma rozkład dyskretny z określonymi praw-dopodobieństwami p0

1, . . . , p0k.

Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodo-bieństwami niż zadane.

Statystyka testowa: χ2 =∑ki=1

(ni − n0i )

2

n0i

=∑ki=1

(ni − np0i )

2

np0i

.

Obszar krytyczny: K = (uk−11−α,+∞).

Uwagi:

• Jeżeli rozkład teoretyczny zależy od d nieznanych parametrów, to pa-rametry te wyznaczamy metodą największej wiarogodności, a liczbęstopni swobody zmniejszamy o d.

• Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczalne, gdynp0

i ­ 5, i = 1, . . . , k, a za dobre, gdy np0i ­ 10, i = 1, . . . , k. Jeśli

liczba kategorii jest duża (> 6), to zgadzamy się stosować przybli-żenie rozkładem chi-kwadrat także wtedy, gdy dla jednej lub dwóchkategorii 1 ¬ np0

i < 5. Mało liczne kategorie można również łą-czyć z kategoriami sąsiednimi, redukując wówczas odpowiednio liczbęstopni swobody.

• W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane gru-pujemy w k (10k ¬ n) klas. Prawdopodobieństwa teoretyczne wyli-czamy z dystrybuanty. Klasy staramy się dobrać tak, aby prawdo-podobieństwa znalezienia się w klasie były równe 1/k, a liczebnościteoretyczne były co najmniej równe 5. Testujemy wówczas hipotezęzerową: Zmienna ma rozkład o podanej dystrybuancie.

5. Test KołmogorowaHipoteza zerowa: Zmienna ma rozkład o zadanej dystrybuancie F .Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dys-trybuancie.Wymagania testu: Ciągłość dystrybuanty.

a) n ¬ 100Statystyka testu: Dn = max{D+

n , D−n },

gdzie D+n = max1¬i¬n

∣∣∣∣ in − F (x(i))∣∣∣∣, D−n = max1¬i¬n

∣∣∣∣F (x(i))−i− 1n

∣∣∣∣.Obszar krytyczny: (dn(1−α), 1] (odczytujemy z tablic Kołmogorowa-Smirnowa, jest to taka wartość, dla której P (Dn ­ dn(1− α)) = α).

b) n > 100.Statystyka testu:

√nDn =

√nmax{D+

n , D−n }

85

Page 86: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

(czasem (√n+ 0, 12 + 0, 11/

√n)Dn),

gdzie D+n = max1¬i¬n

∣∣∣∣ in − F (x(i))∣∣∣∣, D−n = max1¬i¬n

∣∣∣∣F (x(i))−i− 1n

∣∣∣∣.Obszar krytyczny: (λ1−α,+∞), gdzie λ1−α jest kwantylem rzędu1− α granicznego rozkładu Kołmogorowa.

Uwaga: W przypadku danych zgrupowanych w klasy bierzemy pod uwa-gę prawy koniec każdej z klas i zamiast podanych statystyk wyznaczamywartość maksymalną statystyki |Fn(xi) − F (xi)|, gdzie Fn jest dystrybu-antą empiryczną.

6. Test chi-kwadrat niezależnościZałożenia testu: Cechy X, Y są jakościowe (nominalne lub o wartościachuporządkowanych).Hipoteza zerowa: X, Y są zmiennymi niezależnymi.Hipoteza alternatywna: X, Y są zależne.

Statystyka testowa: χ2 =k∑j=1

r∑i=1

(nij − n0ij)

2

n0ij

, gdzie

r – liczba kategorii zmiennej X (liczba wierszy w tablicy kontyngencji),k – liczba kategorii zmiennej Y (liczba kolumn w tablicy kontyngencji),

nij – liczba wystąpień w próbie par obserwacji (xi, yj),

n0ij =

k∑j=1

nij ·r∑i=1

nij

n,

n =r∑i=1

k∑j=1

nij.

Obszar krytyczny: K = (u(r−1)(k−1)1−α ,+∞).

Uwagi:

• Podobnie jak w teście chi-kwadrat zgodności, przybliżenie statystykitestowej rozkładem chi-kwadrat stosujemy, gdy liczebności teoretycz-ne prób w polach tabeli są stosunkowo duże (n0

ij ­ 5).

• Gdy tablica kontyngencji ma rozmiar 2× 2 i liczebności próby w po-lach tabeli są zbyt małe, można oprzeć się na tzw. dokładnym teścieFishera (którego tu nie będziemy omawiać).

• W przypadku pary cech o uporządkowanych kategoriach test nieza-leżności może okazać się zwodniczy. Może wówczas zajść potrzebawprowadzenia odpowiedniej miary zależności między cechami (tegonie będziemy tu omawiać).

86

Page 87: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Do rozwiązania zadań potrzebny będzie zestaw tablic statystycznych. Za-sadniczo odwoływać się będziemy do tablic dostępnych w [3], w szczególnościchodzi o tablice:

• Tablica 5.Wartości φ(u) dystrybuanty rozkładu normalnego N (0, 1),strona 286,

• Tablica 7. Kwantyle t(p, ν) rzędu p rozkładu Studenta o ν stopniachswobody, strony 287-288,

• Tablica 8. Kwantyle χ2(p, ν) rzędu p rozkładu χ2 o ν stopniach swo-body, strony 289-290,

• Tablica 12. Kwantyle dn(1− α) statystyki Dn Kołmogorowa, strona198,

• Tablica 13. Wartości K(y) dystrybuanty K statystyki√nDn Koł-

mogorowa przy n→∞, strona 299.

87

Page 88: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

5.1. Ćwiczenia

Ćwiczenie 5.1. Według normy technicznej wykonanie obróbki mechanicznejjednego pierścienia stalowego powinno zajmować szlifierzowi 22 minuty. Wy-losowano 16 stanowisk roboczych, dla których średni czas obróbki wynosił 24minuty. Jednocześnie z przeprowadzonego badania generalnego wiadomo, żeodchylenie standardowe σ czasu obróbki wynosi 4 minuty. Zakładając, że czasobróbki ma rozkład normalny, zweryfikuj na poziomie istotności α = 0, 05hipotezę H0 : a = 22 wobec hipotezy alternatywnej H1 : a 6= 22. Wyznaczp-wartość dla tego testu.

Rozwiązanie.Dane: X – czas obróbki,

X ∼ N (a, σ2),n = 16,x = 24,σ = 4,α = 0, 05.

Hipoteza zerowa: Średni czas obróbki pierścienia stalowego wynosi 22 minuty(a = 22).Hipoteza alternatywna: Średni czas obróbki pierścienia stalowego jest różnyod 22 minut (a 6= 22).

Wykonujemy test Studenta dla jednej średniej (model 1a). Statystykatestowa ma postać

Tn =√nx− a0

σ=√

1624− 22

4= 2.

Odczytujemy z tablic rozkładu normalnego

z1−α/2 = z0,975 = 1, 96.

Obszar krytyczny ma postać

K = (−∞; ,−1, 96) ∪ (1, 96; +∞) 3 2 = Tn,

a zatem odrzucamy hipotezę zerową, a przyjmujemy hipotezę alternatywną.W celu wyznaczenia p-wartości testu przyrównujemy wartość statystyki

Tn do teoretycznego krańca obszaru krytycznego i znajdujemy istotność α:

z1−α/2 = 21− α/2 = 0, 9772

α = 0, 0456.

88

Page 89: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

p-wartość testu wynosi 0, 0456 i jest mniejsza od zakładanego poziomu istot-ności, co również prowadzi do odrzucenia hipotezy zerowej i przyjęcia alter-natywnej. �

Ćwiczenie 5.2. Liczbę sprzedanych biletów MZK w Toruniu w kolejnychniedzielach maja i czerwca przedstawia tabelka.

Numer niedzieli 1 2 3 4 5 6 7 8Liczba biletów w tys. 2,9 3,3 3,2 3,2 3,2 3,0 2,9 3,1

Na podstawie tych danych, na poziomie istotności α = 0, 1, przetestuj hipo-tezę, że średnia liczba sprzedawanych biletów w niedziele jest równa 3, 2 tys.przeciw hipotezie, że średnia sprzedawanych biletów jest

a) różna od 3, 2 tys.,

b) mniejsza niż 3, 2 tys.,

jeżeli wiadomo, że liczba sprzedawanych biletów ma rozkład normalny.

Rozwiązanie.Dane: X – liczba biletów sprzedawanych w niedzielę,

X ∼ N (a, σ2),n = 8,α = 0, 1.

Wyznaczamy najpierw średnią i odchylenie standardowe dla podanej próbki.

i xi xi − x (xi − x)2

1 2, 9 −0, 2 0, 042 3, 3 0, 2 0, 043 3, 2 0, 1 0, 014 3, 2 0, 1 0, 015 3, 2 0, 1 0, 016 3, 0 −0, 1 0, 017 2, 9 −0, 2 0, 048 3, 1 0 0Σ 24, 8 0, 16

x =24, 8

8= 3, 10, s =

√0, 16

7.

Wykonujemy test Studenta dla jednej próby (model 1b, n ¬ 30).

89

Page 90: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

a) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jestrówna 3, 2 tys. (a = 3, 2).Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w niedzielejest różna od 3, 2 tys. (a 6= 3, 2).

Statystyka testowa

Tn =√nx− a0

s=√

83, 1− 3, 2√

0,167

= −1, 87.

Z tablic rozkładu Studenta o 7 stopniach swobody odczytujemy

tn−11−α/2 = t70,95 = 1, 89458.

Obszar krytyczny ma postać

K = (−∞;−1, 89458) ∪ (1, 89458; +∞) 63 −1, 87 = Tn,

co oznacza, że nie mamy podstaw do odrzucenia hipotezy zerowej na rzeczhipotezy alternatywnej, że średnia liczba sprzedawanych biletów jest różnaod 3, 2 tys.

b) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jestrówna 3, 2 tys. (a = 3, 2).Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w niedzielejest mniejsza od 3, 2 tys. (a < 3, 2).

Statystyka testowa jest tak jak poprzednio równa Tn = −1, 87. Z tablicrozkładu Studenta o 7 stopniach swobody odczytujemy

tn−11−α = t70,9 = 1, 41492.

Obszar krytyczny ma postać

K = (−∞;−1, 41492) 3 −1, 87 = Tn,

co oznacza, że odrzucamy hipotezę zerową na rzecz hipotezy alternatyw-nej, że średnia liczba sprzedawanych biletów jest mniejsza od 3, 2 tys.

Ćwiczenie 5.3. [5, na podstawie zad. 2. str. 291] Na pudełkach zapałekjest napisane „średnio 64 zapałki”. Wylosowano 1000 pudełek, dla którychśrednia liczba zapałek wyniosła 65 sztuk, a wariancja s2 wynosiła 625. Zwe-ryfikuj na poziomie istotności α = 0, 05 hipotezę H0 : a = 64 wobec hipotezyalternatywnej H1 : a > 64. Wyznacz p-wartość dla tego testu.

90

Page 91: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozwiązanie.Dane: X – liczba zapałek w pudełku,

n = 1000,x = 65,s2 = 625⇒ s = 25,α = 0, 05.

Hipoteza zerowa: Średnio w pudełku znajdują się 64 zapałki (a = 64).Hipoteza alternatywna: Średnio w pudełku znajduje się więcej niż 64 zapałki(a > 64).

Wykonujemy test Studenta dla jednej średniej (model 1c). Rozkład zmien-nej jest nieznany, ale próba jest liczna. Statystyka testowa ma postać

Tn =√nx− a0

s=√

100065− 64

25≈ 1, 265.

Odczytujemy z tablic rozkładu normalnego

z1−α = z0,95 = 1, 645.

Obszar krytyczny ma postać

K = (1, 645; +∞) 63 1, 265 ≈ Tn,

a zatem nie mamy podstaw do odrzucenia hipotezy zerowej.W celu wyznaczenia p-wartości testu przyrównujemy wartość statystyki

Tn do teoretycznego krańca obszaru krytycznego i znajdujemy istotność α:

z1−α = 1, 2651− α = 0, 898

α = 0, 102.

p-wartość testu wynosi 0, 102 i jest większa od zakładanego poziomu istot-ności, co również nie daje podstaw do odrzucenia hipotezy zerowej. �

Ćwiczenie 5.4. [3, na podstawie zad. 3.11 str. 94] Producent płatków my-dlanych wysunął hipotezę, że stopień wyprania tkaniny wełnianej płatka-mi mydlanymi jest wyższy od stopnia wyprania płynem do prania. W celusprawdzenia tej hipotezy wykonano pomiary stopnia wyprania 10 wycinkówtkaniny pranej płatkami, otrzymując w procentach wyniki

74, 4, 75, 1, 73, 0, 72, 8, 76, 2, 74, 6, 76, 0, 73, 4, 72, 9, 71, 6,

oraz 7 wycinków pranych płynem do prania, otrzymując

56, 8, 57, 8, 54, 6, 59, 0, 57, 1, 58, 2, 57, 6.

91

Page 92: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Zakładając, że stopień wyprania tkaniny ma rozkład normalny i wiedząc,że test równości wariancji wykonany dla powyższych próbek nie pozwoliłna odrzucenie hipotezy zerowej, na poziomie istotności α = 0, 05 zweryfikujhipotezę wysuniętą przez producenta.

Rozwiązanie.Dane: X1 – stopień wyprania tkaniny w płatkach,

X2 – stopień wyprania tkaniny w płynie do prania,X1 ∼ N (a1, σ

21),

X2 ∼ N (a2, σ22),

σ21 = σ2

2,n1 = 10,n2 = 7,α = 0, 05.

Hipoteza zerowa: Średni stopień wyprania tkaniny w płatkach jest taki samjak średni stopień wyprania tkaniny w płynie do prania (a1 = a2).Hipoteza alternatywna: Średni stopień wyprania tkaniny w płatkach jest wyż-szy od średniego stopnia wyprania tkaniny w płynie do prania (a1 > a2).

Wyznaczamy najpierw średnie i wariancje dla obu próbek.

x1i x1i − x1 (x1i − x1)2 x2i x2i − x2 (x2i − x2)2

74, 4 0, 4 0, 16 56, 8 −0, 5 0, 2575, 1 1, 1 1, 21 57, 8 0, 5 0, 2573, 0 −1, 0 1, 00 54, 6 −2, 7 7, 2972, 8 −1, 2 1, 44 59, 0 1, 7 2, 8976, 2 2, 2 4, 84 57, 1 −0, 2 0, 0474, 6 0, 6 0, 36 58, 2 0, 9 0, 8176, 0 2, 0 4, 00 57, 6 0, 3 0, 0973, 4 −0, 6 0, 3672, 9 −1, 1 1, 2171, 6 −2, 4 5, 76

740, 0 20,34 401,1 11,62

x1 =74010

= 74, 00, s21 =

20, 349

, x2 =401, 1

7= 57, 30, s2

2 =11, 62

6.

Wykonujemy test Studenta dla dwóch prób niezależnych (model 2b). War-tość statystyki Tn jest równa

Tn =x1 − x2√

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2· n1 + n2

n1n2

=74− 57, 3√

9· 20,349 +6· 11,62

610+7−2 · 10+7

10·7

≈ 23, 21577.

92

Page 93: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Z tablic rozkładu Studenta odczytujemy wartość

tn1+n2−21−α = t15

0,95 = 1, 75305.

Obszar krytyczny ma postać

K = (1, 75305; +∞) 3 23, 21577 ≈ Tn,

odrzucamy więc hipotezę zerową na korzyść hipotezy alternatywnej. �

Ćwiczenie 5.5. [3, na podstawie zad. 3.13 str. 96] Średnia prędkość tram-waju (w km/h) obliczona na podstawie zmierzonych w środę prędkości 200tramwajów była równa 15, 1, natomiast średnia prędkość obliczona dla 120tramwajów w niedzielę wynosiła 16, 4. Wariancja prędkości wynosiła odpo-wiednio s2

1 = 6, 8, s22 = 4, 2. Na podstawie uzyskanych danych zweryfikuj

na poziomie istotności α = 0, 05 hipotezę, że średnia prędkość tramwajóww środę jest mniejsza niż w niedzielę.

Rozwiązanie.Dane: X1 – prędkość tramwaju w środę,

X2 – prędkość tramwaju w niedzielę,n1 = 200,n2 = 120,x1 = 15, 1,x2 = 16, 4,s2

1 = 6, 8,s2

2 = 4, 2,α = 0, 05.

Hipoteza zerowa: Średnia prędkość tramwajów w środę jest taka sama jakw niedzielę (a1 = a2).Hipoteza alternatywna: Średnia prędkość tramwajów w środę jest mniejszaniż w niedzielę (a1 < a2).

Wykonujemy test Studenta dla dwóch średnich i prób niezależnych (model2d). Obliczamy wartość statystyki testowej

Tn =x1 − x2√s21n1

+ s22n2

=15, 1− 16, 4√

6,8200 + 4,2

120

≈ −4, 95.

Z tablic rozkładu normalnego odczytujemy wartość

z1−α = z0,95 = 1, 645.

Obszar krytyczny ma postać

K = (−∞,−1, 645) 3 −4, 95 ≈ Tn,

93

Page 94: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

a zatem odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej.Możemy wyznaczyć również p-wartość testu:

Tn = −z1−α

−4, 95 = −z1−α

4, 95 = z1−α

1− α ≈ 1α ≈ 0.

p-wartość testu jest w przybliżeniu równa 0, co pozwala na odrzucenie hipo-tezy zerowej na rzecz hipotezy alternatywnej. �

Ćwiczenie 5.6. [3, na podstawie 3.14 str. 97] Zmierzono ciśnienie tętniczewśród losowo wybranej grupy chorych na pewną chorobę przed i po podaniutakiego samego leku każdemu z badanych pacjentów. Otrzymano następującewyniki:

Nr pacjenta 1 2 3 4 5 6 7 8Ciśnienie przed 210 180 260 270 190 250 180 200Ciśnienie po 180 160 220 260 200 230 180 190

Na poziomie istotności α = 0, 05 zweryfikuj hipotezę, że stosowany lek niepowoduje zmiany ciśnienia u pacjentów, wobec hipotezy alternatywnej, żewartość przeciętna ciśnienia przed podaniem leku jest wyższa niż po jegopodaniu, wiedząc, że ciśnienie tętnicze ma rozkład normalny.

Rozwiązanie.Dane: X – wartość ciśnienia pacjenta przed podaniem leku,

Y – wartość ciśnienia pacjenta po podaniu leku,X ∼ N (a1, σ

21),

Y ∼ N (a2, σ22),

α = 0, 05.Hipoteza zerowa: Średnia wartość ciśnienia przed podaniem leku pacjentomjest taka sama jak po jego podaniu (a1 = a2).Hipoteza alternatywna: Średnia wartość ciśnienia pacjentów przed podaniemleku jest wyższa niż po jego podaniu (a1 > a2).

Korzystamy z testu Studenta dla dwóch średnich i prób zależnych (mo-del 3). Wyznaczamy najpierw średnią i odchylenie standardowe zmiennejD = X − Y .

94

Page 95: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

di = xi − yi di − d (di − d)2

30 15 22520 5 2540 25 62510 −5 25−10 −25 625

20 5 250 −15 225

10 −5 25120 1800

d =1208

= 15, s2d =

18007

.

Wartość statystyki testowej wynosi

Tn =d

sd

√n =

15√1800

7

·√

8 ≈ 2, 64575.

Z tablic rozkładu Studenta odczytujemy wartość

tn−11−α = t70,95 = 1, 89458.

Obszar krytyczny ma postać

K = (1, 89458; +∞) 3 2, 64575 = Tn,

co oznacza, że odrzucamy hipotezę zerową na rzecz alternatywnej. �

Ćwiczenie 5.7. W czasie sondażu przeprowadzonego przez pracownię ba-dania opinii społecznej spośród 1100 ankietowanych dorosłych Polaków 1090odpowiedziało, że w ubiegłym miesiącu nie przeczytali żadnej książki, a po-zostali potwierdzili, że przeczytali przynajmniej jedną książkę. Na podstawietych danych, na poziomie istotności 0, 01, przetestuj hipotezę, że odsetek do-rosłych Polaków, którzy nie przeczytali w ubiegłym miesiącu żadnej książkiwynosi 99%, przeciw hipotezie, że odsetek ten jest inny. Użyj testu dla jednejśredniej oraz testu chi-kwadrat zgodności.

Rozwiązanie. X – czy respondent przeczytał w ubiegłym miesiącu przynaj-mniej jedną książkę.

Zmienna ta ma rozkład dwupunktowy

k 1 (nie) 0 (tak)P (X = k) p 1− p

95

Page 96: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Spośród respondentów 10 odpowiedziało „tak”, a 1090 „nie”.Zmienna o podanym rozkładzie ma wartość oczekiwaną EX = p, co ozna-

cza, że średnia z populacji jest równa odsetkowi osób, które odpowiedziały„nie”. Możemy zatem do testowania tego odsetka użyć testu Studenta dlajednej średniej. Zmienna nie ma co prawda rozkładu normalnego, ale liczeb-ność próby jest duża (model 1c).Hipoteza zerowa: Średnia wartość zmiennej X wynosi 0, 99.Hipoteza alternatywna: Średnia wartość zmiennej X jest różna od 0, 99.

Obliczamy średnią z próby:

x =1090 · 1 + 10 · 0

1100=

109110

.

Odchylenie standardowe jest równe (wzór tylko dla rozkładu dwupunktowe-go)

s =√x(1− x) =

√109110· 1

110=

√109

110.

Wartość statystyki testowej

Tn =√nx− a0

s=√

1100109110 −

99100√

109110

≈ 0, 32.

Z tablic rozkładu normalnego odczytujemy

z1−α/2 = z0,995 = 2, 576.

Obszar krytyczny ma postać

K = (−∞;−2, 576) ∪ (2, 576,+∞) 63 0, 32,

co nie daje podstaw do odrzucenia hipotezy zerowej.Możemy również wyznaczyć p-wartość tego testu

z1−α/2 = Tn

z1−α/2 = 0, 321− α/2 = 0, 6255

α = 0, 7490.

p-wartość testu wynosi 0, 7490 i jest większa od zakładanego poziomu istot-ności, co nie daje podstaw do odrzucenia hipotezy zerowej.

Podaną w zadaniu hipotezę możemy przetestować również testem chi-kwadrat.

96

Page 97: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Hipoteza zerowa: Zmienna X przyjmuje wartości 0 i 1 z prawdopodobień-stwami odpowiednio 0, 99 i 0, 01.Hipoteza alternatywna: Zmienna X przyjmuje wartości 0 i 1 z prawdopodo-bieństwami innymi niż podane.

Wykonujemy tabelę dla testu chi-kwadrat.

xi ni p0i n0

i = p0in (ni − n0

i )2/n0

i

1 1090 0,99 1089 1/10890 10 0,01 11 1/11

Wartość statystyki

χ2 =1

1089+

111

=1001089

= 0, 092.

Z tablic rozkładu chi-kwadrat odczytujemy

uk−11−α = u1

0,99 = 6, 635.

Obszar krytycznyK = (6, 635; +∞) 63 χ2,

nie mamy zatem podstaw do odrzucenia hipotezy zerowej.p-wartość testu wynosi

uk−11−α = χ2

u11−α = 0, 092

1− α ≈ 0, 25α ≈ 0, 75

i jest większa od zakładanego poziomu istotności, co nie daje podstaw doodrzucenia hipotezy zerowej. �

Ćwiczenie 5.8. Tabela przedstawia dane dotyczące liczby roślin ostu napoletkach doświadczalnych.

Liczba roślin ostu 0 1 2 3 4 5 6 i więcejLiczba poletek 24 57 65 35 10 6 3

Na poziomie istotności 0,05 zweryfikuj hipotezę, że rozkład ten jest rozkłademPoissona.

97

Page 98: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozwiązanie. X – liczba roślin ostu na poletku.W związku z tym, że parametr λ rozkładu Poissona jest nieznany, przy-

bliżamy go średnią z próbki (jako wartość oczekiwaną tego rozkładu):

λ ≈ x =0 · 24 + 1 · 57 + 2 · 65 + 3 · 35 + 4 · 10 + 5 · 6 + 4 · 3

200= 1, 9.

Testujemy hipotezy:Hipoteza zerowa: Rozkład liczby roślin ostu na poletku jest rozkładem Pois-sona z parametrem 1, 9.Hipoteza alternatywna: Rozkład liczby roślin ostu na poletku jest inny.

Wykonujemy tabelę dla testu chi-kwadrat, obliczając prawdopodobień-stwa oczekiwane p0

i z wzoru definiującego rozkład Poissona z podanym para-

metrem, tj. p0i = e−1,9 1, 9xi

xi!.

xi ni p0i n0

i = np0i (zaokrąglone)

0 24 0, 149569 301 57 0, 284180 572 65 0, 269971 543 35 0, 170982 344 10 0, 081216 165 6 0, 030862 6

6 i więcej 3 0, 01322 3

Prawdopodobieństwo wystąpienia 6 i więcej roślin na poletku, obliczyliśmy,odejmując od 1 wyznaczone wcześniej prawdopodobieństwa. Zauważmy, żew ostatnich dwóch klasach liczebności oczekiwane są mniejsze niż 10, łączymyje zatem z klasą poprzednią, tworząc klasę „4 i więcej”.

xi ni n0i (ni − n0

i )2/n0

i

0 24 30 36/30 ≈ 1, 201 57 57 02 65 54 121/54 ≈ 2, 243 35 34 1/340, 03

4 i więcej 19 25 36/25 ≈ 1, 44χ2 = 4, 91

Odczytujemy z tablic rozkładu chi-kwadrat

uk−1−r1−α = u5−1−1

0,95 = 7, 815,

pamiętając o zmniejszeniu liczby stopni swobody o 1 ze względu na 1 para-metr wyliczony dodatkowo z próbki. Obszar krytyczny ma postać

K = (7, 815; +∞) 63 χ2,

98

Page 99: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

a więc nie mamy podstaw do odrzucenia hipotezy zerowej.p-wartość testu wynosi

uk−1−r1−α = χ2

u31−α = 4, 91

1− α ≈ 0, 8α ≈ 0, 2,

co jest większe od zakładanego poziomu istotności i nie daje podstaw doodrzucenia hipotezy zerowej. �

Ćwiczenie 5.9. Generator liczb losowych wygenerował 20 liczb z rozkładuwykładniczego E(2). Liczby są uporządkowane niemalejąco:

0, 02 0, 03 0, 04 0, 04 0, 06 0, 11 0, 110, 18 0, 22 0, 26 0, 27 0, 44 0, 46 0, 600, 65 0, 80 0, 85 0, 95 1, 20 2, 00

Za pomocą testu χ2 oraz testu Kołmogorowa na poziomie istotności 0,05przetestuj zgodność tych danych z rozkładem E(2).

Rozwiązanie. Wykonujemy najpierw test chi-kwadrat. Dzielimy próbkę nak klas takich, że 10k ¬ 20, czyli k ¬ 2. Decydujemy się na k = 2. Wyzna-czamy punkt podziału a z równości P ((0, a)) = 1/2. Ponieważ

P ((0, a)) =∫ a

02e−2x dx = 1− e−2a,

to mamy do rozwiązania równanie

1− e−2a = 1/2,

które daje a = ln 2/2 ≈ 0, 35.Hipoteza zerowa: Badany rozkład jest rozkładem wykładniczym z parame-trem λ = 2.Hipoteza alternatywna: Badany rozkład jest inny.

Po dokonaniu podziału na klasy mamy

nr klasy klasa ni pi n0i (ni − n0

i )2/n0

i

1 (0; 0, 35) 11 1/2 10 1/102 (0, 35; +∞) 9 1/2 10 1/10

99

Page 100: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Sumując wyrażenia znajdujące się w ostatniej kolumnie, otrzymujemy

χ2 =110

+110

= 0, 2.

Z tablic rozkładu chi-kwadrat odczytujemy

u10,95 = 3, 841.

Obszar krytyczny ma zatem postać

K = (3, 841; +∞) 63 χ2,

co oznacza, że nie mamy podstaw do odrzucenia hipotezy o zgodności bada-nego rozkładu z rozkładem wykładniczym E(2).

Tę samą hipotezę możemy przetestować testem Kołmogorowa. Wiedząc,że dystrybuanta rozkładu wykładniczego E(2) dana jest wzorem

F (t) = (1− e−2t)1(0,+∞)(t),

tworzymy tabelę

i xii

n

i− 1n

F (xi)∣∣∣∣ in − F (xi)

∣∣∣∣ ∣∣∣F (xi)− i−1n

∣∣∣1 0, 02 0, 05 0, 00 0, 039 0, 011 0, 0392 0, 03 0, 10 0, 05 0, 058 0, 042 0, 0083 0, 04 0, 15 0, 10 0, 077 0, 073 0, 0334 0, 04 0, 20 0, 15 0, 077 0, 123 0, 0735 0, 06 0, 25 0, 20 0, 113 0, 137 0, 0876 0, 11 0, 30 0, 25 0, 197 0, 103 0, 0537 0, 11 0, 35 0, 30 0, 197 0, 153 0, 1038 0, 18 0, 40 0, 35 0, 302 0, 098 0, 0489 0, 22 0, 45 0, 40 0, 356 0, 094 0, 04410 0, 26 0, 50 0, 45 0, 405 0, 095 0, 04511 0, 27 0, 55 0, 50 0, 417 0, 133 0, 08312 0, 44 0, 60 0, 55 0, 585 0, 015 0, 03513 0, 46 0, 65 0, 60 0, 601 0, 049 0, 00114 0, 60 0, 70 0, 65 0, 699 0, 001 0, 04915 0, 65 0, 75 0, 70 0, 727 0, 023 0, 02716 0, 80 0, 80 0, 75 0, 798 0, 002 0, 04817 0, 85 0, 85 0, 80 0, 817 0, 033 0, 01718 0, 95 0, 90 0, 85 0, 850 0, 050 0, 00019 1, 20 0, 95 0, 90 0, 909 0, 041 0, 00920 2, 00 1, 00 0, 95 0, 982 0, 018 0, 032

100

Page 101: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Największą wartością wyrażenia∣∣∣∣ in − F (xi)

∣∣∣∣ jest D+n = 0, 153, a wyrażenia∣∣∣F (xi)− i−1

n

∣∣∣ jest D−n = 0, 103. Stąd Dn = max{D+n , D

−n } = 0, 153. Z tablic

Kołmogorowa-Smirnowa odczytujemy wartość

dn(1− α) = d20(1− 0, 05) = 0, 287.

Obszar krytyczny ma postać

K = (0, 287; 1] 63 0, 153 = Dn.

Oznacza to, że nie mamy podstaw do odrzucenia hipotezy o zgodności z roz-kładem wykładniczym E(2). �

Ćwiczenie 5.10. [3, Zad. 3.85 str. 142] Z populacji pobrano 1000 elementowąpróbkę. Wyniki jej badania ze względu na cechę X przedstawia tabelka

Przedział [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8)Liczność 120 273 280 192 92 34 7 2

Na poziomie istotności 0,01 testem Kołmogorowa zweryfikuj hipotezę, że ce-cha X ma rozkład o dystrybuancie

F (x) =

0, x ¬ 0,1− e−x2/2, x > 0.

Rozwiązanie. Hipoteza zerowa: Cecha X ma rozkład o dystrybuancie F .Hipoteza alternatywna: Cecha X ma rozkład o innej dystrybuancie.

Tworzymy tabelę do testu Kołmogorowa, wpisując jako xi prawe graniceklas.

xi ni ni/1000 Fn(xi) F (xi) |Fn(xi)− F (xi)|1 120 0, 120 0, 120 0, 393 0, 2732 273 0, 273 0, 393 0, 865 0, 4723 280 0, 280 0, 673 0, 989 0, 3164 192 0, 192 0, 865 1, 000 0, 1355 92 0, 092 0, 957 1, 000 0, 0436 34 0, 034 0, 991 1, 000 0, 0097 7 0, 007 0, 998 1, 000 0, 0028 2 0, 002 1, 000 1, 000 0, 000

Największą wartością różnicy |Fn(xi)−F (xi)| jest Dn = 0, 472. Ze względu nadużą liczebność próby obliczamy statystykę

√nDn =

√1000·0, 472 ≈ 14, 926.

Z tablicy wartości dystrybuanty statystyki√nDn Kołmogorowa odczytujemy

λ1−α = λ0,99 = 1, 628.

101

Page 102: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Obszar krytyczny ma zatem postać

K = (1, 628; +∞) 3 14, 926 ≈√nDn,

co oznacza, że odrzucamy hipotezę zerową. �

Ćwiczenie 5.11. Wybrano losowo 780 mieszkańców Torunia, których za-pytano o najchętniej oglądany rodzaj seriali. Poniższa tabela przedstawiawyniki sondażu. Za pomocą testu chi-kwadrat niezależności, przyjmując po-ziom istotności 0,05, zbadaj czy płeć telewidza i rodzaj seriali przez niegooglądanych są niezależne.

Rodzaj serialiPłeć telenowele seriale kryminalne seriale komediowe Razem

Kobieta 210 90 160 460Mężczyzna 50 150 120 320

Razem 260 240 280 780

Rozwiązanie. Hipoteza zerowa: Płeć telewidza i rodzaj oglądanych przezniego seriali są niezależne.Hipoteza alternatywna: Płeć telewidza i rodzaj oglądanych przez niego serialisą zależne.

Tabelę zapisujemy w postaci

Płeć Rodzaj seriali nij n0ij (nij − n0

ij)2/n0

ij

kobieta telenowele 210 460780 ·

260780 · 780 ≈ 153 (210−153)2

153 = 21, 24kryminalne 90 460

780 ·240780 · 780 ≈ 142 (90−142)2

142 = 19, 04komediowe 160 460

780 ·280780 · 780 ≈ 165 (160−165)2

165 = 0, 15mężczyzna telenowele 50 320

780 ·260780 · 780 ≈ 107 (50−107)2

107 = 30, 36kryminalne 150 320

780 ·240780 · 780 ≈ 98 (150−98)2

98 = 27, 59komediowe 120 320

780 ·280780 · 780 ≈ 115 (120−115)2

115 = 0, 22

Sumując wartości zapisane w ostatniej kolumnie, otrzymujemy

χ2 = 98, 6.

Z tablic rozkładu chi-kwadrat odczytujemy wartość

u(r−1)(k−1)1−α = u1·2

0,95 = 5, 991.

Obszar krytyczny ma postać

K = (5, 991; +∞) 3 χ2,

a więc odrzucamy hipotezę zerową, a przyjmujemy hipotezę o zależności ro-dzaju oglądanych seriali od płci telewidza. �

102

Page 103: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 5.12. Spytano 1000 respondentów o średni dzienny czas spędza-ny przed telewizorem. Na podstawie wyników przedstawionych w poniższejtabeli kontyngencji, przetestuj na poziomie istotności 0,025 niezależność licz-by godzin spędzanych dziennie przed telewizorem od wykształcenia telewi-dzów.

WykształcenieLiczba h podstawowe zas. zawodowe średnie wyższe

0-2 65 57 63 552-4 68 70 62 604-6 78 82 68 72

powyżej 6 53 60 43 44

Rozwiązanie. Sumujemy wartości podane w wierszach i kolumnach tabeli

WykształcenieLiczba h podstawowe zas. zawodowe średnie wyższe Razem

0-2 65 57 63 55 2402-4 68 70 62 60 2604-6 78 82 68 72 300

powyżej 6 53 60 43 44 200Razem 264 269 236 231 1000

Hipoteza zerowa: Liczba godzin spędzanych dziennie przed telewizorem i wy-kształcenie telewidzów są niezależne.Hipoteza alternatywna: Liczba godzin spędzanych dziennie przed telewizo-rem i wykształcenie telewidzów są zależne.

Wykonujemy tabelę dla testu chi-kwadrat.

Liczba h Wykształcenie nij n0ij (nij − n0

ij)2/n0

ij

0-2 podstawowe 65 0, 240 · 0, 264 · 1000 ≈ 63 (65−63)2

63 = 0, 0635zawodowe 57 0, 240 · 0, 269 · 1000 ≈ 65 (57−65)2

65 = 0, 9846średnie 63 0, 240 · 0, 236 · 1000 ≈ 57 (63−57)2

57 = 0, 6316wyższe 55 0, 240 · 0, 231 · 1000 ≈ 55 (55−55)2

55 = 0, 00002-4 podstawowe 68 0, 260 · 0, 264 · 1000 ≈ 69 (68−69)2

69 = 0, 0145zawodowe 70 0, 260 · 0, 269 · 1000 ≈ 70 (70−70)2

70 = 0, 0000średnie 62 0, 260 · 0, 236 · 1000 ≈ 61 (62−61)2

61 = 0, 0164wyższe 60 0, 260 · 0, 231 · 1000 ≈ 60 (60−60)2

60 = 0, 0000

103

Page 104: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

4-6 podstawowe 78 0, 300 · 0, 264 · 1000 ≈ 79 (78−79)2

79 = 0, 0127zawodowe 82 0, 300 · 0, 269 · 1000 ≈ 81 (82−81)2

81 = 0, 0123średnie 68 0, 300 · 0, 236 · 1000 ≈ 71 (68−71)2

71 = 0, 1268wyższe 72 0, 300 · 0, 231 · 1000 ≈ 69 (72−69)2

69 = 0, 1304powyżej 6 podstawowe 53 0, 200 · 0, 264 · 1000 ≈ 53 (53−53)2

53 = 0, 0000zawodowe 60 0, 200 · 0, 269 · 1000 ≈ 54 (60−54)2

54 = 0, 6667średnie 43 0, 200 · 0, 236 · 1000 ≈ 47 (43−47)2

47 = 0, 3404wyższe 44 0, 200 · 0, 231 · 1000 ≈ 46 (44−46)2

46 = 0, 0870

Sumując wartości zapisane w ostatniej kolumnie, otrzymujemy

χ2 = 3, 0869.

Z tablic rozkładu chi-kwadrat odczytujemy wartość

u(r−1)(k−1)1−α = u3·3

0,975 = 19, 023.

Obszar krytyczny ma postać

K = (19, 023; +∞) 63 χ2,

a więc nie mamy podstaw do odrzucenia hipotezy o niezależności liczby go-dzin spędzanych przed telewizorem od wykształcenia telewidza. �

5.2. Ćwiczenia praktyczne

Program IBM SPSS Statistics udostępnia omówione testy statystyczne w na-stępujących polach menu:

• test Studenta dla jednej średniej:Analiza –> Porównywanie śred-nich –> Test t dla jednej próby...,

• test dla dwóch średnich i prób niezależnych: Analiza –> Porówny-wanie średnich –> Test t dla prób niezależnych...

• test dla dwóch średnich i prób zależnych: Analiza –> Porównywa-nie średnich –> Test t dla prób zależnych...

• test chi-kwadrat zgodności:Analiza –> Testy nieparametryczne–> Testy tradycyjne –> Chi-kwadrat... (podajemy proporcjekategorii zmiennej ustawionych rosnąco) lub Analiza –> Testy nie-parametryczne –> Jedna próba... (podajemy prawdopodobień-stwa występowania poszczególnych kategorii),

104

Page 105: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

• test Kołmogorowa: Analiza –> Testy nieparametryczne –>Testy tradycyjne –> K-S dla jednej próby... (zgodność z roz-kładem o parametrach szacowanych na podstawie próby) lub Anali-za –> Testy nieparametryczne –> Jedna próba... (dodatko-wo w menu Analiza –> Opis statystyczny –> Eksploracja...jest możliwość zbadania normalności rozkładu testami Kołmogorowa-Smirnowa z poprawką istotności Lillieforsa oraz Shapiro-Wilka),

• test chi-kwadrat niezależności: Analiza –> Opis statystyczny –>Tabele krzyżowe...

Ćwiczenie 5.13. Wykonaj ćwiczenie 5.2 w programie IBM SPSS Statistics.Dane znajdują się w pliku bilety.sav (dostępnym na platformie Moodle).

Rozwiązanie. Wybieramy z menu Analiza –> Porównywanie śred-nich –> Test t dla jednej próby... W polu Zmienne testowaneumieszczamy liczbę sprzedanych biletów, a w pole Wartość testowanawpisujemy 3, 2.

a) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jestrówna 3, 2 tys. (a = 3, 2).Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w niedzielejest różna od 3, 2 tys.

Istotność (czyli p-wartość) testu wyliczoną przez program porównujemyz zakładanym poziomem istotności równym 0, 1. Ponieważ 0, 104 > 0, 1,to nie mamy podstaw do odrzucenia hipotezy zerowej na rzecz hipotezyalternatywnej, że liczba sprzedawanych biletów jest różna od 3, 2 tys.

105

Page 106: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

b) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jestrówna 3, 2 tys. (a = 3, 2).Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w niedzielejest mniejsza od 3, 2 tys.

W przypadku jednostronnej hipotezy alternatywnej p-wartość testu jestpołową p-wartości testu z hipotezą dwustronną. Porównujemy zatem po-łowę istotności wyliczonej przez program z zakładanym poziomem istot-ności równym 0, 1. Ponieważ 0, 052 < 0, 1, to odrzucamy hipotezę zerowąna rzecz hipotezy alternatywnej jednostronnej. Ujemna wartość statystkit pozwala przyjąć hipotezę, że liczba biletów sprzedawanych w niedzielejest mniejsza od 3, 2 tys. W obu przypadkach obowiązuje założenie, żerozkład liczby biletów jest normalny, co pozwala uznać wyniki testów zawiarygodne.

Ćwiczenie 5.14. Wykonaj ćwiczenie 5.4 w programie IBM SPSS Statistics.Dane znajdują się w pliku pranie.sav (dostępnym na platformie Moodle).

Rozwiązanie. Hipoteza zerowa: Średni stopień wyprania tkaniny w płat-kach jest taki sam jak średni stopień wyprania tkaniny w płynie do prania.Hipoteza alternatywna: Średni stopień wyprania tkaniny w płatkach jest wyż-szy od średniego stopnia wyprania tkaniny w płynie do prania.

Założenie o normalności rozkładów pozwala uznać wyniki wykonanychniżej testów za wiarygodne.

Wybieramy z menu Analiza –> Porównywanie średnich –> Testt dla prób niezależnych... Zmienną testowaną jest stopień wypraniatkaniny, a zmienną grupującą rodzaj środka do prania. Definiujemy grupy,wpisując jako grupę 1. wartość 1 (płatki), a jako grupę 2. wartość 2 (płyn doprania).

Test Levene’a jednorodności wariancji sprawdza hipotezę o równości wa-riancji stopnia wyprania tkaniny w grupach wyróżnionych ze względu narodzaj środka do prania. Jego wynik sugeruje, że należy raczej zakładać rów-ność wariancji i wynik testu średnich odczytywać z 2., a nie 3. kolumnydrugiej tabeli.

106

Page 107: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ze względu na jednostronną hipotezę alternatywną połowę istotności wy-liczonej przez program w teście średnich, tj. wartość 0, 000, porównujemyz zakładanym poziomem istotności 0, 05. Ponieważ 0, 000 < 0, 05, więc od-rzucamy hipotezę zerową na rzecz hipotezy alternatywnej jednostronnej. Do-datnia wartość statystyki t pozwala przyjąć hipotezę, że średnia w pierwszejgrupie (czyli przy stosowaniu płatków) jest wyższa niż w drugiej (czyli przystosowaniu płynu do prania). �

Ćwiczenie 5.15. Wykonaj ćwiczenie 5.6 w programie IBM SPSS Statistics.Dane znajdują się w pliku cisnienie.sav (dostępnym na platformie Moodle).

Rozwiązanie. Hipoteza zerowa: Średnia wartość ciśnienia przed podaniemleku pacjentom jest taka sama jak po jego podaniu.Hipoteza alternatywna: Średnia wartość ciśnienia pacjentów przed podaniemleku jest wyższa niż po jego podaniu.

Wybieramy z menu Analiza –> Porównywanie średnich –> Testt dla prób zależnych... Definiujemy 1 parę zmiennych, podając jakozmienną 1. ciśnienie przed podaniem leku, a jako zmienną 2. ciśnienie popodaniu leku.

107

Page 108: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wysoka wartość współczynnika korelacji potwierdza zależność zmiennych.Ze względu na jednostronny charakter hipotezy zerowej istotność testu wy-nosi 0, 033/2 i jest mniejsza od zakładanego poziomu istotności wynoszącego0, 05, co oznacza, że odrzucamy hipotezę zerową na rzecz hipotezy alterna-tywnej jednostronnej. Dodatnia wartość statystyki t pozwala przyjąć hipote-zę, że średnia wartość ciśnienia przed podaniem leku jest wyższa niż po jegopodaniu. Wynik testu można uznać za wiarygodny dzięki założeniu o nor-malności rozkładu. �

Ćwiczenie 5.16. Wykonaj ćwiczenie 5.7 w programie IBM SPSS Statistics.Dane znajdują się w pliku czytanie.sav (dostępnym na platformie Moodle).

Rozwiązanie. Zadanie możemy rozwiązać testem dla jednej średniej bądź te-stem chi-kwadrat. W celu zastosowania tego pierwszego musimy się upewnić,czy mamy zmienną o wartościach 0 i 1, przy czym 1 powinny być oznaczoneosoby, których odsetek nas interesuje, tj. nieczytający (jeśli zmienna ma inne

108

Page 109: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

wartości, musimy ją rekodować na zmienną o podanych własnościach), orazczy próba ma odpowiednio dużą liczebność (bo rozkład na pewno nie jestrozkładem normalnym).Hipoteza zerowa: Zmienna czytanie ma średnią wartość równą 0, 99 (odseteknieczytających wynosi 0, 99).Hipoteza alternatywna: Zmienna czytanie ma średnią wartość różną od 0, 99(odsetek nieczytających jest różny od 0, 99).

Wybieramy z menu Analiza –> Porównywanie średnich –> Testt dla jednej próby... Testujemy zmienną czytanie, a jako wartość testo-waną wpisujemy 0, 99.

Istotność testu wynosi 0, 751 i jest większa od zakładanego poziomu wy-noszącego 0, 01, zatem nie mamy podstaw do odrzucenia hipotezy zerowej.

Test chi-kwadrat testuje hipotezęHipoteza zerowa: Kategorie czytał i nie czytał występują w stosunku 1:99(inaczej: kategorie czytał i nie czytał występują z prawdopodobieństwamiodpowiednio 0, 01 i 0, 99).Hipoteza alternatywna: Kategorie czytał i nie czytał występują w innym sto-sunku (inaczej: z innymi prawdopodobieństwami).

Pierwszy sposób wykonania testu chi-kwadrat polega na wybraniu z me-nu Analiza –> Testy nieparametryczne –> Testy tradycyjne –>Chi-kwadrat... Testujemy zmienną czytanie, w pole Wartości oczeki-wane wpisujemy odpowiednią proporcję zgodnie z oznaczeniami wartościzmiennej w pliku, tj. najpierw dla wartości 0 (czytał), a potem 1 (nie czy-tał).

109

Page 110: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Istotność testu wynosi 0, 762, co jest większe od zakładanego poziomu0, 01 i nie daje podstaw do odrzucenia hipotezy zerowej. Wynik testu jestwiarygodny, gdyż liczebności oczekiwane klas są większe od 10.

Drugi sposób polega na wybraniu Analiza –> Testy nieparame-tryczne –> Jedna próba... W zakładce Zmienne sprawdzamy, że te-stowaną zmienną jest zmienna czytanie. W zakładce Ustawienia spośródtestów niestandardowych wybieramy chi-kwadrat i w jego opcjach podaje-my wartości zmiennej i odpowiadające im prawdopodobieństwa. W Opcjetestów możemy podać zakładany poziom istotności.

110

Page 111: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Otrzymaną tabelę można aktywować, by otrzymać podgląd modelu.

Ćwiczenie 5.17. Wykonaj ćwiczenie 5.9 w programie IBM SPSS Statistics,używając testu Kołmogorowa. Dane znajdują się w pliku wykladniczy.sav(dostępnym na platformie Moodle).

Rozwiązanie. Testujemy hipotezyHipoteza zerowa: Zmienna ma rozkład wykładniczy E(2).Hipoteza alternatywna: Zmienna ma rozkład inny niż podany.

Wybieramy z menu Analiza –> Testy nieparametryczne –> Te-sty tradycyjne –> K-S dla jednej próby... Testujemy zmienną za-mieszczoną w pliku, a jako testowany rozkład wybieramy wykładniczy.

111

Page 112: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Otrzymujemy istotność 0, 834, która jest większa od zakładanego poziomuistotności i nie daje podstaw do odrzucenia hipotezy zerowej. Zauważmyjednak, że test sprawdził zgodność nie z rozkładem E(2), tylko z rozkłademwykładniczym o średniej 0, 4645, czyli E(2, 153).

Drugi sposób wykonania testu pozwala sprawdzić hipotezę zerową w do-kładnie takiej postaci jak podaliśmy. Wybieramy Analiza –> Testy nie-parametryczne –> Jedna próba... W zakładce Zmienne sprawdzamy,że testowaną zmienną jest zmienna dane. W zakładce Ustawienia spo-śród testów niestandardowych wybieramy Kołmogorowa-Smirnowa i w je-go opcjach zaznaczamy jako testowany rozkład wykładniczy ze średnią 0, 5.W Opcje testów możemy podać zakładany poziom istotności.

Otrzymaną tabelę można aktywować, by otrzymać podgląd modelu.

112

Page 113: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Ćwiczenie 5.18. Wykonaj ćwiczenie 5.11 w programie IBM SPSS Statistics.Dane znajdują się w pliku seriale.sav (dostępnym na platformie Moodle).

Rozwiązanie. Testujemy hipotezy:Hipoteza zerowa: Płeć telewidza i rodzaj oglądanych przez niego seriali sąniezależne.Hipoteza alternatywna: Płeć telewidza i rodzaj oglądanych przez niego serialisą zależne.

Ponieważ dane nie są danymi surowymi, tylko są pogrupowane, musi-my dokonać ważenia. Wybieramy z menu Dane –> Ważenie obserwa-cji... i podajemy, że liczba respondentów jest zmienną ważącą. Następniewykonujemy test. Wybieramy Analiza –> Opis statystyczny –> Ta-bele krzyżowe... Płeć respondenta umieszczamy w wierszach, a rodzajoglądanych seriali w kolumnach. Zaznaczamy opcję Pokaż zgrupowanewykresy słupkowe, a pod przyciskiem Statystyki... zaznaczamy Chi-kwadrat.

113

Page 114: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

114

Page 115: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Istotność testu chi-kwadrat wynosi 0, 000, co jest mniejsze od zakładanegopoziomu istotności i pozwala na odrzucenie hipotezy o niezależności rodzajuoglądanych seriali od płci respondenta. �

5.3. Zadania

Zadanie 5.1. [3, Zad. 3.48 str. 136] Dzienne zużycie wody w fabryce podlegawahaniom losowym zgodnie z rozkładem normalnym o wariancji σ2 = 196 m6.Na podstawie obserwacji n = 315 dni roku stwierdzono, że średnie dziennezużycie wody wynosi x = 1029 m3. Zweryfikuj hipotezę H0 : a = 1000 m3,przyjmując poziom istotności α = 0, 01 i hipotezę alternatywną a > 1000 m3.

Odpowiedź. Odrzucamy hipotezę zerową, przyjmujemy alternatywną.

Zadanie 5.2. [3, Zad. 3.49 str. 136] Zbadano 10 kawałków stali ze względuna granicę plastyczności (w kG/cm2) i otrzymano następujące wyniki: 3570,3700, 3650, 3590, 3720, 3710, 3550, 3720, 3580, 3630. Zakładając, że granicaplastyczności stali ma rozkład normalny, zweryfikuj na poziomie istotnościα = 0, 05 hipotezę H0, że wartość przeciętna granicy plastyczności jest równa3600, jeśli hipotezą alternatywną jest H1 : a 6= 3600.

Odpowiedź. Brak podstaw do odrzucenia hipotezy zerowej.

Zadanie 5.3. [1, Zad. 2.2.6 str. 123] Utargi dzienne firmy mają rozkładnormalny z nieznaną wartością oczekiwaną i nieznaną wariancją. Sprawdźhipotezę H0 : a = 1000 wobec H1 : a 6= 1000 na poziomie istotności 0,01.Próba losowa o liczebności n = 101 dni dała średnią arytmetyczną utargów999 zł i wariancję s2 rzędu 25 zł2.

Odpowiedź. Brak podstaw do odrzucenia hipotezy zerowej.

Zadanie 5.4. [1, Zad. 2.2.15 str. 126] Na losowo dobranej próbie 150 sa-mochodów marki „Seat Ibiza” zbadano zużycie benzyny po przejechaniu naszosie trasy 100 km. Średnie zużycie benzyny dla tej próby samochodów wy-nosiło 7,5 litra przy odchyleniu standardowym 0,9 litra. Norma fabrycznawynosi 7,01 litra na 100 km. Czy rzeczywiste zużycie benzyny różni się istot-nie od normy fabrycznej na poziomie istotności 0,03?

Odpowiedź. Tak.

Zadanie 5.5. [3, Zad. 3.10 str. 93] Na dwóch różnych wagach zważono po10 odcinków 100 m przędzy i uzyskano rezultaty w g na 1. wadze: 5,25; 5,98;5,83; 5,58; 5,35; 5,59; 5,41; 5,81; 5,95; 5,72, na 2. wadze: 5,31; 5,13; 5,64; 5,89;

115

Page 116: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

5,17; 5,18; 5,27; 5,73; 5,08; 5,24. Wiadomo, że wariancja mas stumetrowychodcinków przędzy dla 1. wagi jest równa σ2

1 = 0, 06, a dla 2. wagi σ22 = 0, 07.

Zakładając, że rozpatrywana cecha (masa stumetrowego odcinka) ma rozkładnormalny, na poziomie istotności α = 0, 05 zweryfikuj hipotezę, że wartościprzeciętne mas odcinków przędzy uzyskiwane przez te wagi są jednakowe,wobec hipotezy alternatywnej, że są różne.

Odpowiedź. Odrzucamy hipotezę zerową, przyjmujemy alternatywną.

Zadanie 5.6. [1, Zad. 2.2.30 str. 131] Spośród firm handlowych zatrudnia-jących do 5 pracowników, funkcjonujących na terenie Szczecina w 1992 roku,wylosowano niezależnie 10 firm. Otrzymano następujące dane statystycznedotyczące całorocznych kosztów i obrotów (w tys. zł):

Koszty 53,93 61,29 24,61 30,31 9,51 35,40 54,61 68,64 3,18 13,05Obroty 58,59 59,53 24,26 35,83 10,30 41,79 58,05 71,97 3,11 13,55

Zakładając, że koszty i obroty mają rozkład normalny, sprawdź, czy moż-na uogólnić tezę, że firmy te były dochodowe, przyjmując poziom istotności0,02.

Odpowiedź. Nie można.

Zadanie 5.7. [3, Zad. 3.73 str. 140] Na egzaminie wstępnym z matematyki nawyższą uczelnię spośród 705 absolwentów techników 450 nie rozwiązało pew-nego zadania, natomiast na 1320 absolwentów liceów ogólnokształcących nierozwiązało tego zadania 517 kandydatów. Na poziomie istotności α = 0, 05zweryfikuj hipotezę o jednakowym stopniu opracowania tej części materiału,której dotyczyło zadanie, przez absolwentów obu typów szkół, jeżeli hipoteząalternatywną jest, że absolwenci techników byli słabiej przygotowani z tejpartii materiału.

Odpowiedź. Odrzucamy hipotezę zerową, przyjmujemy alternatywną.

Zadanie 5.8. W celu zbadania popularności pewnego teleturnieju telewizyj-nego przeprowadzono ankietę wśród widzów. Wybrano 1600 osób i zapytanoje, czy oglądają teleturniej. Spośród ankietowanych 500 osób udzieliło odpo-wiedzi twierdzącej, a pozostałe zaprzeczyły. Na podstawie tych danych, napoziomie istotności 0,02, przetestuj hipotezę, że teleturniej ogląda 30% wi-dzów przeciw hipotezie, że odsetek oglądających jest inny, używając najpierwtestu t dla jednej średniej, a następnie testu chi-kwadrat.

Odpowiedź. W obu przypadkach brak podstaw do odrzucenia hipotezy ze-rowej.

116

Page 117: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Zadanie 5.9. Przeprowadzono badanie jakości jajek kurzych pochodzącychz pewnej fermy. Zakłada się z góry, że 2% jajek jest złej jakości. Wylosowano1200 jajek do zbadania i wśród nich 16 okazało się złej jakości. Na poziomieistotności 0,05 zweryfikuj hipotezę, że frakcja jajek złej jakości jest równazakładanej, przeciw hipotezie, że frakcja ta jest inna, używając najpierw testut dla jednej średniej, a następnie testu chi-kwadrat.

Odpowiedź. Test t odrzuca hipotezę zerową, a test chi-kwadrat nie dajepodstaw do odrzucenia tej hipotezy.

Zadanie 5.10. Wykonano 100 prób polegających na rzucaniu monetą dochwili otrzymania pierwszego orła. Poniższa tabela przedstawia otrzymanewyniki.

Liczba rzutów 1 2 3 4 5 6 7 i więcejLiczba prób 44 27 10 9 3 4 3

Wykaż, że otrzymane wyniki potwierdzają hipotezę, że czas oczekiwania napierwszy sukces w schemacie prób Bernoulliego polegających na rzucie mone-tą ma rozkład geometryczny z parametrem p = 1

2 . Przyjmij poziom istotnościα = 0, 01.

Zadanie 5.11. [1, Zad. 2.3.14 str. 153] W 1995 roku badanie liczby osóbobjęło 14 067 gospodarstw domowych. Otrzymane wyniki przedstawione sąw poniższej tabeli.

Liczba osób 0 1 2 3 4 5 6 i więcejLiczba gospodarstw domowych 0 701 2218 3690 4682 1827 949

Na poziomie istotności 0,01 testem chi-kwadrat zweryfikuj hipotezę, żerozkład osób w gospodarstwach domowych w 1995 roku był rozkładem Po-issona z parametrem 3,6.

Odpowiedź. Postawioną hipotezę należy odrzucić.

Zadanie 5.12. [3, Zad. 3.20 str. 105] Z populacji, w której badana cechama nieznaną dystrybuantę F , pobrano próbkę o liczności 200. Otrzymanewyniki po podziale na 10 równych klas podano poniżej. Na poziomie istotno-ści α = 0, 05, korzystając z testu chi-kwadrat, zweryfikuj hipotezę, że F jestdystrybuantą rozkładu jednostajnego na przedziale (45, 50).

Środek klasy 45,25 45,75 46,25 46,75 47,25 47,75 48,25 48,75 49,25 49,75Liczebność 23 19 25 18 17 24 16 22 20 16

117

Page 118: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Odpowiedź. Postawioną hipotezę należy odrzucić.

Zadanie 5.13. [3, Zad. 3.28 str. 113] Korzystając z testu Kołmogorowa,zweryfikuj hipotezę, że następujące dane:

x1 = 0, 18, x2 = 0, 56, x3 = 0, 87, x4 = 1, 37, x5 = 2, 46

pochodzą z rozkładu wykładniczegoE(1). Przyjmij poziom istotności α = 0, 05.

Odpowiedź. Brak podstaw do odrzucenia postawionej hipotezy.

Zadanie 5.14. Ekonomista analizujący dochody supermarketu zakłada, żesą one zgodne z rozkładem Pareto Pa(2, 2) o dystrybuancie 1 − (2/x)2 dlax > 2. Przyjmując poziom istotności 0,1, sprawdź jego założenie o modeluna podstawie danych:

5, 2 8, 8 12, 9 5, 3 9, 5 13, 2 3, 1 15, 3 4, 1 2, 4 11, 0 2, 9.

Odpowiedź. Założenie jest błędne.

Zadanie 5.15. [1, Zad. 2.3.34 str. 159] W pewnym przedsiębiorstwie zbada-no rozkład wieku pracowników (w latach) i otrzymano wyniki

Wiek [0, 20) [20, 25) [25, 30) [30, 35) [35, 40) [40, 45) [45, 50) [50, 55) [55,∞)Liczba 6 40 24 25 18 28 25 10 24

Na poziomie istotności 0, 01 testem Kołmogorowa zweryfikuj hipotezę, że pró-ba pochodzi z rozkładu jednostajnego na przedziale (18, 65).

Odpowiedź. Odrzucamy hipotezę zerową.

Zadanie 5.16. [1, Zad. 3.2.41 str. 222] Struktura ankietowanych według celupodróży w zależności od płci przedstawia się następująco:

Cel podróżyPłeć prywatny służbowy

Kobiety 276 117Mężczyźni 283 247

Czy słuszne jest stwierdzenie, że cel podróży można wytłumaczyć płcią an-kietowanych (α = 0, 01)?

Odpowiedź. Tak.

118

Page 119: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Zadanie 5.17. [1, Zad. 3.2.43 str. 223] W pewnym szpitalu w celu zbadania,czy okres trwania dolegliwości u pacjentów przed operacją wpływa na sposóboperowania wyrostka robaczkowego, wylosowano 100 pacjentów operowanychkonwencjonalnie oraz 100 pacjentów operowanych laparoskopią. Wyniki ba-dań przedstawiono w tabeli:

Sposób operowaniaCzas trwania dolegliwości laparoskopia konwencjonalny

jednodniowe 48 65dłuższe 52 35

Na poziomie istotności 0,02 sprawdź, czy sposób operowania wyrostka ro-baczkowego zależy od okresu trwania dolegliwości pacjenta.

Odpowiedź. Tak.

Zadanie 5.18. [1, Zad. 3.2.44 str. 224] Firma X w celu dokonania selekcjikandydatów ubiegających się o pracę przeprowadziła test kwalifikacyjny, napodstawie którego stwierdzano, czy kandydat nadaje się do pracy, czy nie.Dla 100 losowo wybranych kandydatów wyniki testu były następujące:

Ukończone studia wyższeWynik testu techniczne ekonomiczne prawnicze

Nadaje się do pracy 14 10 16Nie nadaje się do pracy 16 25 19

Na podstawie tych wyników sprawdź hipotezę, że między rodzajem wykształ-cenia a wynikiem testu nie ma związku (α = 0, 05).

Odpowiedź. Brak podstaw do odrzucenia podanej hipotezy.

119

Page 120: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

120

Page 121: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozdział 6.

Analiza regresji

6.1. Ćwiczenia

W tym rozdziale wykonamy tylko jedno ćwiczenie. Ma ono na celu ilustracjęmetody, wykonywanie większej liczby ćwiczeń bez użycia oprogramowaniastatystycznego jest w praktyce mało kształcące, a czasochłonne.

Ćwiczenie 6.1. Korzystając z danych podanych w tabeli, zbuduj model re-gresji liniowej dla zależności wagi 11-latków od ich wzrostu. Wyznacz współ-czynnik dobroci dopasowania modelu.

Wzrost i waga 11-latkówImię Wzrost w cm Waga w kg

Adam 120 38Bartek 135 40Kamil 125 42Wojtek 150 44Tomek 145 46

Rozwiązanie.

121

Page 122: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wykonany wykres rozrzutu sugeruje istnienie prostej, wokół której koncen-trują się umieszczone na wykresie punkty. Wyznaczamy jej równanie postaciy = b1x+ b0, korzystając z wzorów

b1 =(x1y1 + x2y2 + . . .+ xNyN)−Nxy

(x21 + x2

2 + . . .+ x2N)−Nx2

,

b0 = y − b1x.

Wykonujemy w tym celu tabelkę

Imię xi yi xiyi x2i y2

i

Adam 120 38 4 560 14 400 1 444Bartek 135 40 5 400 18 225 1 600Kamil 125 42 5 250 15 625 1 764Wojtek 150 44 6 600 22 500 1 936Tomek 145 46 6 670 21 025 2 116suma 675 210 28 480 91 775 8 860

N = 5,x = 675/5 = 135,y = 210/5 = 42,

b1 =28 480− 5 · 135 · 42

91 775− 5 · 1352=

130650

= 0, 2;

b0 = 42− 0, 2 · 135 = 15.

Prosta ma zatem równanie y = 0, 2x+ 15.

Miarą dobroci dopasowania jest kwadrat współczynnika korelacji danegowzorem

rxy =x · y − x · ysx · sy

.

122

Page 123: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

r2xy jest nazywany współczynnikiem determinacji.

Dla danych z naszego zadania obliczamy

xy = 28 480/5 = 5 696,

sx =

√x2

1 + . . .+ x25

5− x2 =

√91 775

5− 1352 =

√130,

sy =

√y2

1 + . . .+ y25

5− y2 =

√8 860

5− 422 =

√8,

r =5 696− 135 · 42√

130 · 8=

26√1 040

≈ 0, 806,

r2 =262

1 040= 0, 65.

Wartość tego współczynnika oznacza, że w 65% zmienność wagi chłopcówdaje się wyjaśnić regresją liniową wagi od wzrostu chłopców. �

6.2. Ćwiczenia praktyczne

W programie IBM SPSS Statistics analizę regresji liniowej można wykonaćdwojako:

• Analiza –> Regresja –> Estymacja krzywej.... Podajemy zmien-ne zależną i niezależną oraz zaznaczamy model liniowy. Istnieje możli-wość uzyskania współczynników równania y = b0+b1x, jeśli zaznaczymyUwzględnij stałą w równaniu lub y = b1x, jeśli tego nie zrobi-my. W wyniku otrzymujemy tabelę ze współczynnikami oraz wykres.W tabeli podawany jest również współczynnik R-kwadrat (r2

xy).

• Analiza –> Regresja –> Liniowa.... Nie uzyskamy wtedy wykre-su, ale możemy wybrać Wykresy –> Wykresy tradycyjne –>Rozrzutu/Punktowy –> Prosty i stworzyć wykres rozrzutu. Pouaktywnieniu edytora wykresów, kliknięciu prawym klawiszem myszkii wybraniu Dodaj Linia dopasowania w Ogółem mamy możliwośćnarysowania prostej regresji.

Ćwiczenie 6.2. Wyznacz prostą regresji dla danych z pliku wiek wzrost.sav(dostępnego na platformie Moodle). Następnie dodaj jedną obserwację, wpi-sując 20 jako wiek, a 210 jako wzrost badanej osoby. Wykonaj jeszcze razanalizę regresji. Jak zmieniło się równanie prostej i jej dopasowanie do mo-delu?

123

Page 124: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozwiązanie. WybieramyAnaliza –> Regresja –> Estymacja krzy-wej.... Podajemy wzrost jako zmienną zależną, a wiek jako niezależną orazzaznaczamy model liniowy.

Z tabeli odczytujemy równanie postaci wzrost = 4, 305 · wiek + 88, 689.Współczynnik R-kwadrat wynosi 0, 994, co świadczy o prawie idealnym do-pasowaniu. Model jest istotny statystycznie, gdyż istotność wynosi 0, 000 (copozawala na odrzucenie hipotezy o liniowej niezależności zmiennych).

Po dodaniu wspomnianej obserwacji, otrzymujemy

124

Page 125: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Równanie ma teraz postać wzrost = 5, 173 · wiek + 79, 002, a współczynnikR-kwadrat uległ pogorszeniu i jego wartość wynosi 0, 873. �

W celu wykluczenia przypadków odstających, które mogą niekorzystniewpłynąć na przeprowadzaną analizę, należy zrobić wykresy skrzynkowe roz-ważanych zmiennych. Na wykresach tych kółkiem i gwiazdką zaznaczone sąprzypadki odstające, odpowiednio nietypowe i skrajne. Przypadki te usuwa-my, a w przypadku dużej ich liczby analizujemy osobno.

Ćwiczenie 6.3. Wykonaj wykresy skrzynkowe dla zmiennych zawartychw pliku cinema.sav (dostępnym na platformie Moodle) zawierającym danedotyczące liczby kobiet i mężczyzn na kolejnych seansach filmowych, a na-stępnie wykonaj analizę regresji i narysuj wykres rozrzutu. Czy widzisz przy-padek odstający, którego nie wychwyciły wykresy skrzynkowe? Usuń go z dal-szej analizy i powtórz ją. Porównaj wyniki.

Rozwiązanie. Wybieramy z menu Wykresy –> Wykresy tradycyj-ne –> Skrzynkowy... Zaznaczamy opcję Podsumowania oddzielnychzmiennych. Obie zmienne umieszczamy w polu Skrzynki przedstawia-ją.

125

Page 126: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Wykonujemy analizę regresji: Analiza –> Regresja –> Estymacjakrzywej.... Podajemy liczbę mężczyzn jako zmienną zależną, a kobiet jakoniezależną oraz zaznaczamy model liniowy.

126

Page 127: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Na wykresie rozrzutu można zauważyć jedną obserwację odstającą ze wzglę-du na nietypowe zestawienie liczby kobiet i mężczyzn na seansie. Jest toobserwacja nr 11. Usuwamy ją z pliku i powtarzamy analizę.

Jak widać zmieniło się równanie prostej, a współczynnik R-kwadrat zwiększyłswą wartość z 0, 479 na 0, 755. �

Ćwiczenie 6.4. Wykonaj analizę regresji liniowej dla par zmiennych x i yz pliku anscombe.sav (dostępnego na platformie Moodle). Porównaj wynikiotrzymane w tabelach oraz wykresy rozrzutu. Czy we wszystkich przypad-kach prosta regresji dobrze oddaje zależność między zmiennymi?

Dane zostały stworzone przez Johna Francisa Anscombe’a (1918-2001),statystyka angielskiego. Mają one na celu zwrócenie uwagi na fakt, że samewspółczynniki liczbowe nie wystarczą do oceny modelu regresji. Niezbędnejest zwrócenie uwagi na wykresy rozrzutu.

Rozwiązanie. Wykonujemy 4-krotnie analizę regresji: Analiza –> Re-gresja –> Estymacja krzywej.... Podajemy za każdym razem y jakozmienną zależną, a x jako niezależną oraz zaznaczamy model liniowy.

127

Page 128: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

128

Page 129: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

129

Page 130: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

130

Page 131: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Rozdział 7.

Projekty

Niniejszy rozdział zawiera przykładowe zadania polegające na wykonaniuanalizy zbioru danych. Jednym z jej elementów jest sprawdzenie wszystkichzałożeń wykorzystywanych procedur. Każdy wynik należy opatrzyć komen-tarzem. Wszystkie testy statystyczne powinny być wykonane na poziomieistotności 0, 05. Ważnym punktem jest również zadbanie o estetykę tworzo-nego raportu.

7.1. Projekt 1.

Wczytaj do programu IBM SPSS Statistics plik property assess.sav (plikprzykładowy programu). Zawiera on dane dotyczące wybranych przykładówwyceny nieruchomości wykonanych przez pewną firmę działającą w tej bran-ży na terenie jednego z miast USA, przy czym poszczególne zmienne ozna-czają:

• propid – identyfikator wyceny,

• town – jedną z pięciu dzielnic miasta (Eastern – wschodnią, Central –śródmieście, Southern – południową, Northern – północną, Western –zachodnią),

• asesor – numer identyfikacyjny osoby dokonującej wyceny,

• saleval – cenę domu w momencie sprzedaży (w tys. dolarów),

• lastval – wysokość ostatniej wyceny (w tys. dolarów),

• time – liczbę lat, które upłynęły od ostatniej wyceny.

Wykonaj następujące polecenia.

131

Page 132: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

1. Wyznacz podstawowe statystyki opisowe (średnia, mediana, minimum,maksimum, rozstęp, kwartyle, odchylenie standardowe, skośność, kurtoza)dla ceny domów oraz dla wartości ich ostatniej wyceny. Wykonaj histo-gramy oraz wykresy skrzynkowe. Omów otrzymane wyniki.

2. Utwórz nową zmienną, która zaklasyfikuje każdy z domów do jednej z dwóchklas: domów tanich, których cena nie przekroczyła 160 tys. dolarów, orazdomów drogich o cenie powyżej 160 tys. dolarów. Wyznacz rozkład łącz-ny oraz rozkłady brzegowe utworzonej zmiennej oraz zmiennej zawiera-jącej informację o dzielnicy, w której dom się znajduje. Zilustruj rozkładłączny, wykonując zgrupowane wykresy słupkowe oraz wykres słupkowy3-wymiarowy. Czy poszczególne dzielnice wyróżniają się pod względem ce-ny nieruchomości stojących na ich terenie? Jaka byłaby liczebność domówtanich i drogich w każdej dzielnicy, gdyby badane zmienne były niezależ-ne?

3. Wyznacz 95% przedział ufności dla odsetka domów trafiających do wyce-ny z dzielnicy południowej. Wykonując test t dla jednej próby oraz testchi-kwadrat sprawdź, czy spośród domów trafiających do wyceny 20% tonieruchomości znajdujące się na terenie dzielnicy południowej. Jak wyja-śnisz możliwość użycia w tym miejscu testu t?

4. Wykonaj analizę regresji liniowej ceny domów w zależności od wartościostatniej wyceny. Czy wyceny domów trafnie przewidują ich cenę w mo-mencie sprzedaży? Powtórz analizę regresji, wybierając tylko obserwacje,dla których wycena została dokonana nie dawniej niż 5 lat temu. Jak terazocenisz trafność wyceny w stosunku do ceny domu w momencie sprzedaży?

7.2. Projekt 2.

W celu zbadania zależności pomiędzy długościami skoków w pierwszej i dru-giej serii zawodów w skokach narciarskich zebrano dane podsumowujące Pu-char Świata w sezonie 2005/06. Zbiór Dane skoki.sav (dostepny na platformieMoodle) zawiera zmienne:

• skoczek – nazwisko i imię zawodnika,

• kraj – kraj zawodnika,

• seria 1 mean – średnia odległość uzyskana przez zawodnika w pierwszejserii wszystkich konkursów, w których brał udział,

132

Page 133: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

• seria 2 mean – średnia odległość uzyskana przez zawodnika w drugiejserii wszystkich konkursów, w których brał udział,

• pkt mean – średnia punktów uzyskanych przez zawodnika we wszyst-kich konkursach.

Wykonaj następujące polecenia.

1. Porównaj wyniki osiągane przez skoczków w pierwszej i drugiej serii sko-ków. Oblicz podstawowe statystyki (średnia, odchylenie standardowe, mi-nimum, maksimum, rozstęp, kwartyle, skośność i kurtoza), wykonaj hi-stogramy (zadbaj o jednakowy dobór jednostek i długości osi) i wykresyskrzynkowe.

2. Wyznacz 95% przedział ufności dla wartości oczekiwanej średniej zdoby-wanych punktów. Następnie zmienną pkt mean podziel na 5 klas równejdługości. W tabeli krzyżowej przedstaw zależność wartości nowej zmiennejod kraju pochodzenia skoczka. Zilustruj tę zależność, wykonując3-wymiarowy wykres słupkowy.

3. Wykonując odpowiedni test, sprawdź, czy prawdziwa jest hipoteza, żew drugiej serii skoczkowie oddają dłuższe skoki niż w pierwszej.

4. Wykonując analizę regresji, wyznacz równanie prostej, która najlepiej opi-suje zależność długości skoków oddawanych w drugiej serii od długościskoków w pierwszej serii. Usuń przypadki odstające i powtórz analizę.W jakim stopniu różnice w długości skoków z drugiej serii dają się wytłu-maczyć różnicami w długości skoków z pierwszej serii? Czy wyznaczonerównanie może być używane do prognozowania długości skoków z drugiejserii na podstawie wyników z serii pierwszej?

7.3. Projekt 3.

W celu zbadania opinii obywateli na temat funkcjonowania polskiej gospo-darki, przeprowadzono sondaż. Zbiór Dane wzrost cen.sav (dostępny na plat-formie Moodle) zawiera zmienne:

• wzrost wstecz – odpowiedź na pytanie „O ile procent według Pana(i)odczucia wzrosły ceny w ciągu ostatnich 12 miesięcy?”,

• wzrost prognoza – odpowiedź na pytanie „O ile procent według Pana(i)będą wyższe ceny za 12 miesięcy?”,

133

Page 134: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

• oprocentowanie – odpowiedź na pytanie „Ile musiałoby wynosić opro-centowanie złotówek w banku ulokowanych na 12 miesięcy, aby niestraciły one na wartości?”

Wykonaj następujące polecenia.

1. Porównaj odczucia respondentów dotyczące wzrostu cen w ciągu ostat-nich 12 miesięcy i prognozowanego wzrostu cen w czasie kolejnych 12miesięcy. Oblicz podstawowe statystyki (średnia, odchylenie standardowe,minimum, maksimum, rozstęp, kwartyle, skośność i kurtoza), wykonaj hi-stogramy (zadbaj o jednakowy dobór jednostek i długości osi) i wykresyskrzynkowe.

2. Wykonując odpowiedni test, sprawdź, czy prawdziwa jest hipoteza o nie-znajomości bieżących wskaźników bankowych, tzn. czy jest prawdą, żeoczekiwane przez Polaków oprocentowanie 12-miesięcznych lokat jest po-nad 3-krotnie wyższe od inflacji (w badanym okresie inflacja nie prze-kraczała 10%). Wyznacz 95% przedział ufności dla wartości oczekiwanejpostulowanego przez Polaków oprocentowania lokat.

3. Wykonując odpowiedni test, sprawdź, czy prawdziwa jest hipoteza, żePolacy są nastawieni raczej pesymistycznie, tzn. prognozowany przez nichwzrost cen w czasie najbliższych 12 miesięcy jest wyższy niż podawanyprzez nich wzrost cen czasie poprzednich 12 miesięcy.

4. Wykonując analizę regresji, wyznacz równanie prostej, która najlepiej opi-suje zależność prognozowanego wzrostu cen na najbliższe 12 miesięcy odpodawanego wzrostu cen w czasie mijających 12 miesięcy. Usuń przypad-ki odstające i powtórz analizę. W jakim stopniu różnice w prognozie dająsię wytłumaczyć różnicami w zauważanym przez respondentów wzrościecen w ubiegłym okresie? Czy wyznaczone równanie może być używane doprzewidywania odpowiedzi na drugie pytanie na podstawie odpowiedzi napierwsze?

7.4. Projekt 4.

W celu zbadania kondycji polskich gospodarstw domowych wybrano do ba-dania 100 z nich. Zbiór Dane wydatki.sav zawiera zmienne:

• nrgtext – tekstowy numer gospodarstwa,

• dochg – dochód gospodarstwa wg GUS,

134

Page 135: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

• wydg – wydatki gospodarstwa według GUS,

• g1 – gotówka na końcu miesiąca.

Wykonaj następujące polecenia.

1. Porównaj dochody i wydatki gospodarstw domowych. Oblicz podstawowestatystyki (średnia, odchylenie standardowe, minimum, maksimum, roz-stęp, kwartyle, skośność i kurtoza), wykonaj histogramy (zadbaj o jedna-kowy dobór jednostek i długości osi) i wykresy skrzynkowe.

2. Wyznacz 95% przedziały ufności dla wartości oczekiwanych dochodówi wydatków gospodarstw domowych. Wykonując odpowiedni test, sprawdź,czy prawdziwa jest hipoteza, że Polacy rozsądnie planują budżet swoichgospodarstw domowych, tzn. ich wydatki są niższe niż dochody.

3. Zdefiniuj nową zmienną, która podzieli respondentów na osoby o oszczęd-nościach:

a) małych, jeśli na koniec miesiąca dysponują gotówką nieprzekraczającą500 zł,

b) średnich, jeśli na koniec miesiąca dysponują gotówką w granicach od500 do 2000 zł,

c) dużych, jeśli na koniec miesiąca dysponują gotówką powyżej 2000 zł.

Wykonując odpowiedni test sprawdź, czy stosunek liczby osób o oszczęd-nościach małych, średnich i dużych wynosi 5:4:1.

4. Wykonując analizę regresji, wyznacz równanie prostej, która najlepiej opi-suje zależność wydatków gospodarstw domowych od ich dochodów. Usuńprzypadki odstające i powtórz analizę. W jakim stopniu różnice w wysoko-ści wydatków dają się wytłumaczyć różnicami w dochodach gospodarstwdomowych? Czy wyznaczone równanie może być używane do prognozo-wania wydatków na podstawie informacji o dochodach gospodarstwa?

135

Page 136: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

136

Page 137: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Bibliografia

[1] Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K.: Statysty-ka w zadaniach. Część II: Statystyka matematyczna. Warszawa, Wydaw-nictwa Naukowo-Techniczne, 2001.

[2] Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasi-lewski M.: Rachunek prawdopodobieństwa i statystyka matematycznaw zadaniach. Część I: Rachunek prawdopodobieństwa. Warszawa, PWN,wyd. IV, 1995.

[3] Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasi-lewski M.: Rachunek prawdopodobieństwa i statystyka matematycznaw zadaniach. Część II: Statystyka matematyczna. Warszawa, PWN, wyd.VIII, 2006.

[4] Niemiro W.: Rachunek prawdopodobieństwa i statystyka matematyczna.Warszawa, Szkoła Nauk Ścisłych, 1999.

[5] Plucińska A., Pluciński E.: Probabilistyka. Warszawa, WydawnictwaNaukowo-Techniczne, 2000.

[6] Zieliński R.: Siedem wykładów wprowadzających do statystyki matema-tycznej. Warszawa, PWN, 1990.

137

Page 138: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia
Page 139: Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja danych Ćwiczenia i zadania Joanna Karłowska-Pik Wersja z dnia 17 maja 2012 ... ćwiczenia

Spis treści

1. Podstawy pracy w programie IBM SPSS Statistics 51.1. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 6

2. Podstawy teorii prawdopodobieństwa 172.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 352.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3. Estymacja punktowa 533.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 633.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4. Estymacja przedziałowa 694.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 764.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5. Testy statystyczne 815.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 885.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 1045.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

6. Analiza regresji 1216.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1216.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 123

7. Projekty 1317.1. Projekt 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1317.2. Projekt 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1327.3. Projekt 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1337.4. Projekt 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

Bibliografia 137

139