Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja...

Post on 28-Feb-2019

219 views 0 download

Transcript of Statystyka i eksploracja danych - joanka/zajecia/skryptSED/SED.pdf · Statystyka i eksploracja...

Projekt pn. „Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych”

realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki

Statystykai eksploracja danych

Ćwiczenia i zadania

Joanna Karłowska-Pik

Wersja z dnia 17 maja 2012

UMK Toruń 2011

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Wstęp

Skrypt Statystyka i eksploracja danych. Ćwiczenia i zadania powstał na po-trzeby zajęć prowadzonych na I roku studiów II stopnia na kierunku Informa-tyka. Ćwiczenia z tego przedmiotu mają charakter rachunkowo-praktyczny.Pojęcia i twierdzenia omawiane na wykładzie są ilustrowane zadaniami ra-chunkowymi oraz poleceniami do wykonania w programie IBM SPSS Stati-stics.

Zasadniczo każdy z rozdziałów tego skryptu składa się z ćwiczeń opatrzo-nych pełnymi rozwiązaniami, ćwiczeń praktycznych oraz zadań z odpowie-dziami. Zadania służą do pracy samodzielnej i są odpowiednikami ćwiczeńwykonywanych na zajęciach. Ćwiczenia praktyczne nie mają swoich odpo-wiedników do pracy samodzielnej. Zamiast tego w ostatnim rozdziale znaj-duje się zestaw projektów podsumowujących umiejętności praktyczne, którestudent powinien nabyć w trakcie kursu.

Pliki do pracy są albo plikami przykładowymi programu IBM SPSS Sta-tistics, albo są udostępnione studentom na platformie Moodle.

3

Rozdział 1.

Podstawy pracy w programieIBM SPSS Statistics

Ćwiczenia z przedmiotu Statystyka i eksploracja danych są wspomagane pro-gramem IBM SPSS Statistics, który jest jednym z kilku najbardziej popu-larnych programów do analizy statystycznej. Dzięki udziałowi UniwersytetuMikołaja Kopernika w programie Ariadna polegającym na współpracy fir-my Predictive Solutions (dawniej SPSS Polska) z jednostkami akademickimi,posiadamy licencję, która pozwala wszystkim studentom na instalację wspo-mnianego oprogramowania na komputerach domowych oraz na używanie gorównież w celach komercyjnych. Płyty z oprogramowaniem oraz aktualnekody autoryzacyjne są dostępne u osób prowadzących zajęcia. Niezbędne in-formacje na temat oprogramowania i warunków licencji można znaleźć nastronach

http://www.spss.pl/ i http://www.ariadna.edu.pl/

Absolwenci studiów licencjackich na kierunku Informatyka Wydziału Ma-tematyki i Informatyki UMK zetknęli się już z programem IBM SPSS Stati-stics w czasie ćwiczeń laboratoryjnych z przedmiotu Wstęp do statystycznejanalizy danych. Podane niżej ćwiczenie wstępne ma pozwolić im na przy-pomnienie sobie zasad pracy w tym programie. Pozostałe osoby będą miałymożliwość szybkiego zapoznanie się z jego możliwościami. Zasadniczo treśććwiczenia zawiera elementy niezbędnej znajomości programu na poziomie,który pozwoli na realizację założonych treści programowych, tj. z zakresu

• instalacji oprogramowania,

• uruchamiania oprogramowania,

• ustawiania opcji użytkownika,

5

• importu danych,

• zarządzania danymi,

• przekształcania zmiennych,

• wyznaczania podstawowych statystyk,

• analizy danych w podgrupach,

• tworzenia wykresów,

• eksportu raportów.

Jako materiał pomocniczy w tym zakresie może służyć kurs

http://www.mat.umk.pl/˜joanka/zajecia/kursSPSS/index.php

1.1. Ćwiczenia praktyczne

Podane niżej rozwiązanie zostało wykonane z użyciem programu w wersji19.0.1 (aktualnie dostępne są już nowsze wersje oprogramowania).

Ćwiczenie 1.1. Plik domy.txt (dostępny na platformie Moodle) zawieradane firmy pośredniczącej w sprzedaży domów w stanie Kalifornia. Zmien-ne w tym pliku są rozdzielone tabulatorami, nazwy zmiennych znajdują sięw pierwszym wierszu. Kolejne zmienne to:

• price – cena (w dolarach),

• sqm – powierzchnia (w metrach kwadratowych),

• bedrooms – liczba sypialni,

• baths – liczba łazienek,

• age – wiek domu,

• occupancy – liczba mieszkańców,

• pool – basen (0 – nie, 1 – tak),

• fireplace – kominek (0 – nie, 1 – tak),

• waterfront – na nabrzeżu (0 – nie, 1 – tak),

6

• lday – liczba dni w sprzedaży.

Zaimportuj plik do programu IBM SPSS Statistics i wyspecyfikuj odpowied-nio zmienne. Przeprowadź analizę danych i sporządź raport zawierający opi-sane niżej elementy. Zadbaj o czytelność wykonanej prezentacji i uatrakcyjnijją graficznie.

a) Wykonaj podstawową analizę statystyczną cen domów (statystyki, wykresskrzynkowy, histogram). Jaki jest rozkład tych cen?

b) Utwórz zmienną będącą ceną 1 m2 każdego z domów. Jak wygląda rozkładtych cen?

c) Na wykresie słupkowym porównaj średnie ceny domów zlokalizowanych nanabrzeżu i ceny pozostałych. Jaki jest procentowy udział domów stojącychna nabrzeżu w ofercie firmy? Zaprezentuj ten udział na wykresie kołowym.

d) Dom jest uważany za luksusowy, jeśli jest położony na nabrzeżu, ma conajmniej 3000 m2, posiada co najmniej tyle łazienek ile sypialni oraz ba-sen. Ile średnio kosztuje dom uważany za luksusowy? Porównaj ceny do-mów luksusowych na wykresie słupkowym.

e) Na trójwymiarowym wykresie słupkowym zaprezentuj zależność pomię-dzy posiadaniem basenu oraz kominka. Wyróżnij domy stojące na na-brzeżu.

f) Eksportuj raport do formatu PDF.

Rozwiązanie. Otwieramy program IBM SPSS Statistics. W celu wczyta-nia danych tekstowych wybieramy Plik –> Czytaj dane tekstowe...W oknie dialogowym wskazujemy plik domy.txt i klikamy Otwórz.

Uruchamia się kreator importu tekstu, w kolejnych jego krokach zazna-czamy, że wczytywany plik nie ma predefiniowanego formatu, ma separowanezmienne, nazwy zapisane na początku pliku, pierwszą obserwację rozpoczy-nającą się w wierszu 2., każdy jego wiersz zawiera tylko jedną obserwacjęi zamierzamy wszystkie te obserwacje zaimportować. W dalszych etapachzaznaczamy, że separatorem zmiennych jest tabulator, a w pliku nie wystę-puje kwalifikator tekstu. W kroku 5. mamy możliwość zaznaczenia każdejzmiennej na podglądzie, a następnie dokonania (ewentualnie) zmiany jej na-zwy lub formatu. W ostatnim kroku 6. kończymy wczytywanie.

Specyfikacji zmiennych dokonujemy, przełączając się w oknie danych nadole na zakładkę Zmienne. W kolumnie

• Nazwa możemy skorygować nazwę zmiennej (nazwa nie może zawieraćspacji),

7

• Typ ustawiamy typ zmiennej (np. numeryczny, tekstowy czy daty),

• Szerokość podajemy maksymalną liczbę znaków danej zmiennej,

• Dziesiętne podajemy liczbę miejsc dziesiętnych dla danych numerycz-nych,

• Etykieta wpisujemy etykiety zmiennych podane w zadaniu,

• Wartości definiujemy wartości dla zmiennych pool, fireplace i water-front, wpisując 1 – tak, 0 – nie,

• Braki deklarujemy, które wartości zmiennych program ma traktowaćjako braki danych, w naszym pliku takich wartości nie ma,

• Kolumny ustawiamy szerokość kolumn w pliku danych,

• Wyrównanie ustawiamy sposób wyrównania zmiennych,

• Poziom pomiaru ustawiamy poziom pomiaru zmiennych: dla zmien-nych price, sqm, bedrooms, baths, age, occupancy i ld poziom ilościowy,a dla pozostałych nominalny,

• Rola ustawiamy rolę zmiennej, zasadniczo możemy zostawić rolę Wej-ście, inne role okazują się być przydatne przy zaawansowanych ana-lizach i mają za zadanie tylko usprawnienie pracy, nie wpływają nawyniki analiz.

Wykonujemy analizę danych.

a) Wybieramy z menu Analiza –> Opis statystyczny –> Eksplo-racja... W oknie dialogowym w polu Zmienne zależne umieszczamyzmienną price. Klikamy Wykresy... i zamiast wykresu łodyga-i-liściezaznaczamy histogram. Klikamy Dalej i OK. Otrzymujemy raport.

8

9

W analizie uwzględniono 1080 obserwacji. Średnia cena badanych domówwynosiła 154 863,18 dolarów przy odchyleniu standardowym 122 912,807dolarów. Ceny połowy domów nie przekroczyły 130 000 dolarów. Najtań-szy dom kosztował 22 000 dolarów, a najdroższy 1 580 000 dolarów, codaje różnicę w ich cenie równą 1 558 000 dolarów. Rozkład cen domówjest prawostronnie skośny (skośność = 6, 301) z wieloma wartościami od-stającymi. Poza tym charakteryzuje się dużą koncentracją wokół wartościśredniej (kurtoza = 58, 225).

b) Tworzymy nową zmienną price m. Wybieramy z menu Przekształce-nia –> Oblicz wartości.... W oknie dialogowym w polu Zmiennawynikowa wpisujemy price m. W poluWyrażenie numeryczne wpi-sujemy wzór definiujący nową zmienną: price / sqm. Klikamy OK. W pli-ku pojawiła się nowa zmienna. Podobnie jak wcześniej wykonujemy ana-lizę tej zmiennej, otrzymując raport.

10

11

Rozkład cen za metr kwadratowy domu jest dużo bardziej symetryczny,choć dalej prawostronnie skośny (skośność = 1, 546) z licznymi wartościa-mi odstającymi. Charakteryzuje się również mniejszym skoncentrowaniemwokół średniej (kurtoza = 6, 970).

c)

Wybieramy z menu Wykresy –> Kreator wykresów... W okniedialogowym klikamy OK, potwierdzając poprawną specyfikację zmien-

12

nych. Wybieramy prosty wykres słupkowy. Na osi poziomej umieszczamyzmienną waterfront a na pionowej price. Klikamy OK.

Z wykresu odczytujemy, że średnia cena domów usytuowanych na na-brzeżu jest w przybliżeniu dwukrotnie wyższa od średniej ceny domówusytuowanych poza nabrzeżem.

Wybieramy z menu Wykresy –> Kreator wykresów... W okniekreatora wybieramy wykres kołowy. Jako kolor umieszczamy zmienną wa-terfront. W oknie właściwości elementu zamieniamy statystykę z liczeb-ność na procent. Klikamy Zastosuj i OK.

Domów stojących na nabrzeżu jest znacznie mniej od pozostałych, ichodsetek wynosi 7, 22%.

d) Wybieramy obserwacje, które spełniają warunek bycia luksusowym. Da-ne –> Wybierz obserwacje... Zaznaczamy opcję Jeśli spełnionyjest warunek. Klikamy Jeżeli... i w oknie dialogowym, które się po-jawi, zapisujemy warunek

waterfront = 1 & sqm >= 3000 & baths >= bedrooms & pool = 1.

Obserwacje niewybrane zostaną odfiltrowane.

13

Wyznaczamy średnią cenę wybranych domów:Analiza –> Opis staty-styczny –> Statystyki opisowe... W polu Zmienne umieszczamyzmienną price. Klikamy Opcje... i zaznaczamy średnią.

Średnia cena 3 luksusowych domów wynosi 934 000 dolarów.

Wykonujemy wykres słupkowy.Wykresy –> Wykresy tradycyjne–> Słupkowy... Rysujemy wykres słupkowy prosty z zaznaczoną opcjąWartości poszczególnych obserwacji. W polu Słupki przedsta-wiają umieszczamy zmienną price.

Mamy 3 domy luksusowe, z których pierwszy (według kolejności wystę-powania w pliku danych) jest znacznie droższy od dwóch pozostałych.

14

e) Cofamy wybieranie obserwacji: Dane –> Wybierz obserwacje... Za-znaczamy opcjęWszystkie obserwacje.

Wykonujemy trójwymiarowy wykres słupkowy:Wykresy –> Kreatorwykresów... Wybieramy zestawiony wykres słupkowy 3W. Następniena osi kategorii X umieszczamy zmienną pool, na osi kategorii Z zmiennąfireplace, a jako zestawienie zmienną waterfront.

Na wykresie nie widać zależności pomiędzy posiadaniem basenu i kominka.Wśród domów wyposażonych i niewyposażonych w basen przeważają te,które mają kominek.

f) Otrzymany raport zapisujemy, a następnie eksportujemy do formatu PDF:Plik –> Eksportuj... Jako typ wybieramy Portable DocumentFormat. Warto jest zaznaczyć opcjęWszystkie widoczne.

15

16

Rozdział 2.

Podstawy teoriiprawdopodobieństwa

2.1. Ćwiczenia

Ćwiczenie 2.1. Przez Bn oznaczamy σ-algebrę generowaną przez wszyst-kie zbiory otwarte w przestrzeni Rn, tj. najmniejszą σ-algebrę zawierającąwszystkie zbiory otwarte. Elementy Bn nazywamy zbiorami borelowskimi.

Czy następujące zbiory są zbiorami borelowskimi: zbiór domknięty, zbiórjednopunktowy, zbiór liczb wymiernych w przestrzeni R1, zbiór liczb niewy-miernych w przestrzeni R1?

Rozwiązanie. Korzystamy z definicji σ-algebry. Zbiór domknięty jest bore-lowski, ponieważ jest dopełnieniem zbioru otwartego. Zbiór jednopunktowyjest borelowski, ponieważ jest domknięty. Zbiór liczb wymiernych jest bo-relowski, ponieważ jest przeliczalną sumą zbiorów jednopunktowych. Zbiórliczb niewymiernych jest borelowski, ponieważ jest dopełnieniem zbioru liczbwymiernych. �

Ćwiczenie 2.2. Wiadomo, że P (A) = 0, 8, P (B) = 0, 7, P (A \ B) = 0, 2.Oblicz P (A ∩B), P (A ∪B), P (A′ \B).

Rozwiązanie.

P (A ∩B) = P (A \ (A \B)) = P (A)− P (A \B) = 0, 8− 0, 2 = 0, 6,P (A ∪B) = P (A) + P (B)− P (A ∩B) = 0, 8 + 0, 7− 0, 6 = 0, 9,P (A′ \B) = P ((A ∪B)′) = 1− P (A ∪B) = 1− 0, 9 = 0, 1.

17

Ćwiczenie 2.3. Na przestrzeni ([0, 1],B) zdefiniowano prawdopodobieństwo

wzorem P ([0, a]) = a2 dla a ∈ Q ∩ [0, 1]. Oblicz P([

12,

√2

2

]).

Rozwiązanie.

P

([12,

√2

2

])= P

([0,

√2

2

]\[0,

12

)).

Niech an ↘√

22

, an ∈ Q∩ [0, 1]. Prawdopodobieństwo ma własność ciągłościz góry, więc

P

([0,

√2

2

])= P

( ∞⋂n=1

[0, an])

= limn→∞

P ([0, an]) = limn→∞

a2n =

(√2

2

)2

=12.

Z kolei z własności ciągłości z dołu

P([

0,12

))= P

( ∞⋃n=1

[0,

12− 1

2n

] )= lim

n→∞P([

0,12− 1

2n

])=

= limn→∞

(12− 1

2n

)2

=14.

Zatem

P

([12,

√2

2

])=

14.

Ćwiczenie 2.4. Rozkład zmiennej losowej dany jest tabelą:

k −1 0 1 2P (X = k) 0, 4 0, 3 0, 2 0, 1

Wyznacz dystrybuantę tej zmiennej, wartość oczekiwaną oraz wariancję. Ob-licz 3. i 4. moment absolutny.

Rozwiązanie. Dystrybuanta:

FX(t) = P (X ¬ t) =

0, t < −10, 4, −1 ¬ t < 00, 7, 0 ¬ t < 10, 9, 1 ¬ t < 21, t ­ 2.

18

Wartość oczekiwana:EX = −1 · P (X = −1) + 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2) =

= −1 · 0, 4 + 1 · 0, 2 + 2 · 0, 1 = 0.

Drugi moment:

EX2 = (−1)2 · P (X=−1) + 02 · P (X=0) + 12 · P (X=1) + 22 · P (X=2) == 1 · 0, 4 + 1 · 0, 2 + 4 · 0, 1 = 1.

Wariancja:VarX = EX2 − (EX)2 = 1− 02 = 1.

3. moment absolutny:

E|X|3 = |−1|3 ·P (X=−1)+|0|3 ·P (X=0)+|1|3 ·P (X=1)+|2|3 ·P (X=2) == 1 · 0, 4 + 1 · 0, 2 + 8 · 0, 1 = 1, 4.

4. moment absolutny:

E|X|4 = |−1|4 ·P (X=−1)+|0|4 ·P (X=0)+|1|4 ·P (X=1)+|2|4 ·P (X=2) == 1 · 0, 4 + 1 · 0, 2 + 16 · 0, 1 = 2, 2.

Ćwiczenie 2.5. Dystrybuanta zmiennej losowej X ma postać

FX(t) =

0, t < −11/4, −1 ¬ t < 1/22/3, 1/2 ¬ t < 31, t ­ 3.

Oblicz P (X ∈ (0, 2]). Wyznacz rozkład zmiennej losowej X, jej wartość ocze-kiwaną, wariancję, medianę oraz 1. kwartyl (tzn. kwantyl rzędu 1/4).

Rozwiązanie.

P (X ∈ (0, 2]) = P (X ∈ (−∞, 2])− P (X ∈ (−∞, 0]) =

= FX(2)− FX(0) =23− 1

4=

512.

Zmienna losowa X przyjmuje wartości −1,12

i 3 z prawdopodobieństwami:

P (X = −1) = FX(−1)− FX(−1−) =14− 0 =

14,

P(X =

12

)= FX

(12

)− FX

(12

−)=

23− 1

4=

512,

P (X = 3) = FX(3)− FX(3−) = 1− 23

=13.

19

Rozkład tej zmiennej możemy podać w tabeli:

k −1 1/2 3P (X = k) 1/4 5/12 1/3

Wartość oczekiwana:

EX = −1 · 14

+12· 5

12+ 3 · 1

3=

2324.

Drugi moment:

EX2 = (−1)2 · 14

+(1

2

)2

· 512

+ 32 · 13

= 31748.

Wariancja:

VarX = EX2 − (EX)2 = 31748−(23

24

)2

=1403576

.

Wyznaczamy medianę rozkładu zmiennej X, tj. szukamy takiej liczbyx1/2, dla której

P (X ¬ x1/2) = FX(x1/2) ­ 12

orazP (X ­ x1/2) = 1− FX(x−1/2) ­ 1− 1

2=

12,

czyli

FX(x−1/2) ¬ 12.

20

Jedyną liczbą spełniającą te warunki jest x1/2 =12.

Wyznaczamy pierwszy kwartyl rozkładu zmiennej X, tj. taką liczbę x1/4,dla której

FX(x1/4) ­ 14

i FX(x−1/4) ¬ 14.

Podane warunki spełniają wszystkie liczby x1/4 ∈ [−1, 1/2]. �

Ćwiczenie 2.6. Rozkład zmiennej losowej X dany jest wzorem

P (X = k) =23k, k = 1, 2, . . .

Wyznacz wartość oczekiwaną, medianę i 3. kwartyl (tzn. kwantyl rzędu 3/4)tej zmiennej.

Rozwiązanie. Wartość oczekiwana:

EX =∞∑k=1

k · 23k

= 2∞∑k=1

k ·(1

3

)k.

Korzystamy z wzoru∞∑k=1

kqk =q

(1− q)2,

otrzymując

EX = 213(

23

)2 =32.

Ponieważ P (X ¬ 1) = 2/3, a P (X ¬ 2) = 2/3 + 2/9 = 8/9, to medianax1/2 = 1, a x3/4 = 2. �

21

Ćwiczenie 2.7. Niech X będzie zmienną losową o gęstości

f(x) =

0, x /∈ [−1, 1],λ(1− x2), x ∈ [−1, 1].

a) Wyznacz λ i narysuj wykres f .

b) Wyznacz dystrybuantę zmiennej X i narysuj jej wykres.

c) Wyznacz P (X > 0, 5 ∨X < −0, 5).

d) Wyznacz medianę.

e) Oblicz EX i VarX oraz 3. i 4. moment absolutny.

Rozwiązanie.

a) Żeby funkcja f była gęstością zmiennej losowej, musi być nieujemna i musicałkować się do 1.∫ 1

−1λ(1− x2) dx = λ

(x− x3

3

) ∣∣∣∣1−1

= λ(

1− 13

+ 1− 13

)=

43λ.

Stąd λ = 3/4.

b) Wyznaczamy dystrybuantę.

FX(t) = P (X ¬ t) =∫ t

−∞f(x) dx =

=

0, t ¬ −1∫ t−1

34(1− x2) dx, t ∈ (−1, 1]

1, t > 1

=

=

0, t ¬ −134

(x− x3

3

) ∣∣∣∣t−1, t ∈ (−1, 1]

1, t > 1

=

22

=

0, t ¬ −134

(t− t3

3 + 1− 13

), t ∈ (−1, 1]

1, t > 1

=

=

0, t ¬ −1− t3

4 + 34t+ 1

2 , t ∈ (−1, 1]1, t > 1

.

c) Obliczamy podane prawdopodobieństwo.

P (X > 0, 5 ∨X < −0, 5) = P (X > 0, 5) + P (X < −0, 5) == 1− P (X ¬ 0, 5) + P (X < −0, 5) == 1− FX(0, 5) + FX(−0, 5) =

= 1−(− 1

32+

38

+12

)+( 1

32− 3

8+

12

)=

516.

d) W celu wyznaczenia mediany dla zmiennej o rozkładzie absolutnie cią-głym rozwiązujemy równanie

FX(t) =12

−t3

4+

34t+

12

=12

−t3

4+

34t = 0

−14t(t2 − 3) = 0

−14t(t−

√3)(t+

√3) = 0.

23

Jedynym rozwiązaniem podanego równania należącym do przedziału[−1, 1] jest t = 0, tak więc x1/2 = 0.

e) Wartość oczekiwana

EX =∫ 1

1xf(x) dx =

∫ 1

−1

34x(1− x2) dx = 0,

gdyż funkcja podcałkowa jest nieparzysta, a przedział, po którym całku-jemy, jest symetryczny względem 0.

Wariancja:

VarX = EX2 − (EX)2 = EX2 =∫ 1

−1x2f(x) dx =

=∫ 1

−1

34x2(1− x2) dx =

34

∫ 1

−1x2 − x4 dx =

34

(x3

3− x5

5

) ∣∣∣∣1−1

=

=34

(13− 1

5+

13− 1

5

)=

34· 4

15=

15.

3. moment:

E|X|3 =∫ 1

−1|x|3f(x) dx =

∫ 1

−1

34|x|3(1− x2) dx =

32

∫ 1

0x3(1− x2) dx =

=32

∫ 1

0x3 − x5 dx =

32

(x4

4− x6

6

) ∣∣∣∣10

=32

(14− 1

6

)=

18.

4. moment:

E|X|4 =∫ 1

−1|x|4f(x) dx =

∫ 1

−1

34|x|4(1− x2) dx =

32

∫ 1

0x4(1− x2) dx =

=32

∫ 1

0x4 − x6 dx =

32

(x5

5− x7

7

) ∣∣∣∣10

=32

(15− 1

7

)=

335.

Ćwiczenie 2.8. [2, Zad. 2.112 str. 118] Dobierz stałe A i B tak, żeby funkcja

F (x) =

A+B arccosx dla |x| < 10 dla x ¬ −11 dla x ­ 1.

była dystrybuantą zmiennej losowej typu ciągłego. Wyznacz gęstość tej zmien-nej.

24

Rozwiązanie. Funkcja F jest dystrybuantą zmiennej losowej typu ciągłe-go, jeśli jest niemalejąca i ciągła. F jest niemalejąca dla B ¬ 0. Ciągłośćgwarantują warunki

A+B arccos(−1) = 0 i A+B arccos 1 = 1.

Z pierwszego równania otrzymujemy A + πB = 0, a z drugiego A = 1. StądB = −1/π, a dystrybuanta ma postać

F (x) =

1− 1

πarccosx dla |x| < 1

0 dla x ¬ −11 dla x ­ 1.

Gęstość otrzymujemy, różniczkując dystrybuantę:

f(x) =1

π√

1− x21(−1,1)(x).

Sprawdzamy, że

∫ 1

−1f(x) dx =

∫ 1

−1

1√1− x2

dx = − 1π

arccosx∣∣∣∣1−1

=1π

(0 + π) = 1.

Ćwiczenie 2.9. Rozkład wektora (X, Y ) dany jest w tabeli:

HHHHHHYX

1 0

1 0, 4 0, 1−1 0, 2 0, 3

1. Znajdź rozkłady zmiennych X i Y .

2. Wyznacz rozkład zmiennej Z = X · Y .

3. Czy X i Y są niezależne? Czy są nieskorelowane?

4. Wyznacz P (X = Y ).

5. Wyznacz wartość oczekiwaną, macierz kowariancji i wariancję wektora(X, Y ).

25

Rozwiązanie.

a) Rozkład zmiennej X otrzymujemy po zsumowaniu w obrębie każdej z ko-lumn prawdopodobieństw danych w tabeli rozkładu wektora:

k 1 0P (X = k) 0, 6 0, 4

Rozkład zmiennej Y otrzymujemy po zsumowaniu w obrębie każdegoz wierszy prawdopodobieństw danych w tabeli rozkładu wektora:

k 1 −1P (Y = k) 0, 5 0, 5

b) Zmienna XY przyjmuje wartości 0, 1 i −1.

P (XY = 0) = P (X = 0, Y = 1) + P (X = 0, Y = −1) = 0, 4,P (XY = 1) = P (X = 1, Y = 1) = 0, 4,

P (XY = −1) = P (X = 1, Y = −1) = 0, 2.

Rozkład możemy podać w tabeli

k −1 0 1P (XY = k) 0, 2 0, 4 0, 4

c) W przypadku rozkładu dyskretnego niezależność zmiennych losowych Xi Y oznacza, że dla każdego m ∈ {0, 1} i n ∈ {−1, 1} zachodzi równość

P (X = m,Y = n) = P (X = m) · P (Y = n).

Zauważmy jednak, że

P (X = 0, Y = 1) = 0, 1 6= 0, 4 · 0, 5 = P (X = 0) · P (Y = 1),

czyli rozważane zmienne nie są niezależne.

Miarą skorelowania jest współczynnik korelacji

ρ(X, Y ) =Cov(X, Y )√VarX ·VarY

.

Zmienne X i Y są nieskorelowane, gdy ρ(X, Y ) = 0, czyli Cov(X, Y ) = 0.Wyznaczając kowariancję, możemy skorzystać z rozkładu zmiennej XYotrzymanego w poprzednim podpunkcie.

Cov(X, Y ) = E(XY )− EX · EY == (−1) · 0, 2 + 0 · 0, 4 + 1 · 0, 4+− (1 · 0, 6 + 0 · 0, 4)(1 · 0, 5 + (−1) · 0, 5) = 0, 2 6= 0.

Podane zmienne są więc dodatnio skorelowane.

26

d) P (X = Y ) = P (X = 1, Y = 1) = 0, 4.

e) Wartościami oczekiwanymi zmiennych X i Y są

EX = 1 · 0, 6 + 0 · 0, 4 = 0, 6,EY = 1 · 0, 5 + (−1) · 0, 5 = 0.

Wartością oczekiwaną wektora (X, Y ) jest

E(X, Y ) = (EX,EY ) = (0, 6; 0).

Macierz kowariancji to macierz postaci

Σ =(

Cov(X,X) Cov(X, Y )Cov(Y,X) Cov(Y, Y )

).

Dwa z jej współczynników mamy już wyznaczone, gdyż

Cov(X, Y ) = Cov(Y,X) = 0, 2.

Z kolei

Cov(X,X) = VarX = EX2−(EX)2 = (12 ·0, 6+02 ·0, 4)−(0, 6)2 = 0, 24,

a

Cov(Y, Y ) = VarY = EY 2 − (EY )2 = (12 · 0, 5 + (−1)2 · 0, 5)− (0)2 = 1.

Stąd

Σ =(

0, 24 0, 20, 2 1

).

Wariancją wektora jest

Var(X, Y ) = VarX + VarY = 0, 24 + 1 = 1, 24.

Ćwiczenie 2.10. Wektor (X, Y ) ma łączny rozkład zadany wzorem

P((X, Y ) = (m,n)

)=

13m+12n

, m, n ∈ N ∪ {0}.

Wyznacz rozkłady brzegowe. Czy podany wektor ma składowe niezależne?

27

Rozwiązanie. Zmienna losowa X przyjmuje wartości m = 0, 1, 2, . . . Roz-kład brzegowy tej zmiennej otrzymujemy, sumując prawdopodobieństwa okre-ślające rozkład łączny po wszystkich możliwych wartościach zmiennej Y .

P (X = m) =∞∑n=0

P (X = m,Y = n) =∞∑n=0

13m+12n

=

=1

3m+1

∞∑n=0

12n

=1

3m+1· 1

1− 12

=2

3m+1.

Zmienna losowa Y przyjmuje wartości n = 0, 1, 2, . . . Rozkład brzegowytej zmiennej otrzymujemy sumując prawdopodobieństwa określające rozkładłączny po wszystkich możliwych wartościach zmiennej X.

P (Y = n) =∞∑m=0

P (X = m,Y = n) =∞∑m=0

13m+12n

=

=12n

∞∑m=0

13m+1

=12n·

13

1− 13

=1

2n+1.

Badamy niezależność zmiennych X i Y :

P (X = m) · P (Y = n) =2

3m+1· 1

2n+1=

13m+12n

= P((X, Y ) = (m,n)

),

co oznacza niezależność zmiennych X i Y . �

Ćwiczenie 2.11. Funkcja

f(x, y) ={e−y, 0 ¬ x <∞, x ¬ y <∞,0, w p.w.

jest gęstością rozkładu wektora (X, Y ). Znajdź dystrybuantę wektora (X, Y )oraz gęstości brzegowe zmiennych X i Y . Sprawdź, czy X i Y są niezależne.Czy X i Y są nieskorelowane? Oblicz P (X + Y ¬ 2).

Rozwiązanie. Zaznaczmy na płaszczyźnie obszar, na którym podana gęstośćjest niezerowa.

28

Wyznaczyć dystrybuantę wektora (X, Y ) oznacza wyznaczyć dla każdejpary (s, t) wartość funkcji

F(X,Y )(s, t) = P (X ¬ s, Y ¬ t) =∫{(x,y);x¬s,y¬t}

f(x, y) dxdy =

=∫{(x,y);x¬s,y¬t}

e−y1{(x,y); 0¬x¬y}(x, y) dxdy.

Musimy zatem scałkować funkcję e−y po części wspólnej obszaru zaznaczo-nego na rysunku i zbioru {(x, y); x ¬ s, y ¬ t}.

1. s < 0 ∨ t < 0.

Ten przypadek zawiera w sobie każdą z trzech sytuacji przedstawionychna rysunkach poniżej.

Jak widać część wspólna rozważanych obszarów jest zbiorem pustym, a coza tym idzie całka po niej jest równa 0.

2. 0 ¬ s ¬ t.

29

Część wspólna omawianych obszarów jest ograniczona prostymi x = 0,x = s, y = x i y = t. Stąd

F(X,Y )(s, t) =∫ s

0

∫ t

xe−y dydx =

∫ s

0−e−y

∣∣∣txdx =

∫ s

0−e−t + e−x dx =

= (−e−tx− e−x)∣∣∣s0

= −e−ts− e−s + 1.

3. 0 ¬ t < s.

Częścią wspólną omawianych obszarów jest trójkąt ograniczony prostymix = 0, x = t, y = x i y = t. Stąd

F(X,Y )(s, t) =∫ t

0

∫ t

xe−y dydx =

∫ t

0−e−y

∣∣∣txdx =

∫ t

0−e−t + e−x dx =

= (−e−tx− e−x)∣∣∣t0

= −e−tt− e−t + 1.

Reasumując

F(X,Y )(s, t) =

0, s < 0 ∨ t < 0−e−ts− e−s + 1, 0 ¬ s ¬ t

−e−tt− e−t + 1, 0 ¬ t < s.

W celu wyznaczenia rozkładów brzegowych należy scałkować gęstość roz-kładu wektora raz po zmiennej y, a raz po x. Zapiszmy najpierw gęstośćrozważanego wektora dwojako:

f(x, y) = e−y1[0,∞)(x)1[x,∞)(y) = e−y1[0,∞)(y)1[0,y](x).

30

Gęstość zmiennej X wyznaczamy, korzystając z tej pierwszej postaci:

fX(x) =∫ ∞−∞

e−y1[0,∞)(x)1[x,∞)(y) dy =

= 1[0,∞)(x)∫ ∞x

e−y dy = 1[0,∞)(x)(−e−y)∣∣∣∞x

= 1[0,∞)(x)e−x.

Zauważmy, że otrzymaliśmy gęstość rozkładu wykładniczego z parametrem 1.Gęstość zmiennej Y wyznaczamy, korzystając z drugiej.

fY (y) =∫ ∞−∞

e−y1[0,∞)(y)1[0,y](x) dx =

= e−y1[0,∞)(y)∫ y

01 dx = e−y1[0,∞)(y)y.

Zmienne X i Y o rozkładach absolutnie ciągłych są niezależne, jeśli

f(x, y) = fX(x) · fY (y).

Zauważmy jednak, że

fX(x) · fY (y) = e−xe−yy1[0,∞)(x)1[0,∞)(y)

i iloczyn ten jest niezerowy na całym obszarze (0,∞)× (0,∞), podczas gdyf(x, y) jest niezerowa tylko na obszarze zaznaczonym na pierwszym ze spo-rządzonych przez nas rysunków. Tak więc

f(x, y) 6= fX(x) · fY (y),

co oznacza, że zmienne X i Y nie są niezależne.Zmienne X i Y są nieskorelowane, jeśli Cov(X, Y ) = 0. Z kolei

Cov(X, Y ) = E(XY )− EX · EY.

Obliczamy kolejno wymienione wartości oczekiwane:

EX = 1,

bo X ma rozkład E(1).

EY =∫ ∞−∞

yfY (y) dy =∫ ∞

0y2e−y dy =(

całkujemy przez częściu = y2 v′ = e−y

u′ = 2y v = −e−y)

= −y2e−y∣∣∣∞0

+ 2∫ ∞

0ye−y dy = 2,

31

przy czym skorzystaliśmy z faktu, że∫∞

0 ye−y dy jest wartością oczekiwanązmiennej o rozkładzie E(1), więc wynosi 1.

E(XY ) =∫ ∞−∞

∫ ∞−∞

xyf(x, y) dxdy =

=∫ ∞−∞

∫ ∞−∞

xye−y1[0,∞)(x)1[x,∞)(y) dydx =

=∫ ∞

0

∫ ∞x

xye−y dydx =∫ ∞

0x(∫ ∞

xye−y dy

)dx =(

całkujemy przez częściu = y v′ = e−y

u′ = 1 v = −e−y)

=∫ ∞

0x(−ye−y

∣∣∣∞x

+∫ ∞x

e−y dy)dx =

=∫ ∞

0x(xe−x − e−y

∣∣∣∞x

)dx =

=∫ ∞

0x(xe−x + e−x) dx =

=∫ ∞

0x2e−x dx+

∫ ∞0

xe−x dx = 2 + 1 = 3.

ReasumującCov(X, Y ) = 3− 2 · 1 = 1 6= 0,

więc zmienne nie są nieskorelowane.Zanim obliczymy P (X + Y ¬ 2), zaznaczmy obszar {(x, y); x + y ¬ 2}

na rysunku z naniesionym obszarem, na którym gęstość jest niezerowa.

Częścią wspólną jest trójkąt postaci {(x, y); 0 ¬ x ¬ 1, x ¬ y ¬ 2− x}.

P (X + Y ¬ 2) =∫∫{(x,y); x+y¬2}

f(x, y) dxdy =∫ 1

0

∫ 2−x

xe−y dydx =

=∫ 1

0−e−y

∣∣∣2−xx

dx =∫ 1

0−e−2+x + e−x dx =

= (−e−2+x − e−x)∣∣∣10

= −e−1 − e−1 + e−2 + 1 = (1− e−1)2.

32

Ćwiczenie 2.12. Wektor (X, Y ) ma rozkład o gęstości

g(x, y) =52e−x−2y

1(0,2x](y)1(0,∞)(x).

Znajdź gęstości brzegowe zmiennych X i Y oraz sprawdź, czy zmienne sąniezależne.

Rozwiązanie. Zaznaczmy na płaszczyźnie obszar, na którym podana gęstośćjest niezerowa.

Gęstość możemy zapisać dwojako:

g(x, y) =52e−x−2y

1(0,2x](y)1(0,∞)(x) =

=52e−x−2y

1(0,∞)(y)1[ 12y,∞)(x).

Wyznaczając gęstość zmiennejX, korzystamy z pierwszej z wymienionychpostaci gęstości:

gX(x) =∫ ∞−∞

g(x, y) dy =∫ ∞−∞

52e−x−2y

1(0,2x](y)1(0,∞)(x) dy =

=52e−x1(0,∞)(x)

∫ 2x

0e−2y dy =

52e−x1(0,∞)(x)

(−1

2e−2y

∣∣∣∣2x0

)=

=54e−x1(0,∞)(x)(1− e−4x) =

54e−x(1− e−4x)1(0,∞)(x).

33

Wyznaczając gęstość zmiennej Y , korzystamy z drugiej:

gY (y) =∫ ∞−∞

g(x, y) dy =∫ ∞−∞

52e−x−2y

1(0,∞)(y)1[ 12y,∞)(x) dx =

=52e−2y

1(0,∞)(y)∫ ∞

12ye−x dx =

52e−2y

1(0,∞)(y)(−e−x)∣∣∣∣∞1

2y=

=52e−2y

1(0,∞)(y)e−12y =

52e−

52y1(0,∞)(y),

co oznacza, że Y jest zmienną losową o rozkładzie wykładniczym z parame-

trem52

.Zmienne X i Y o rozkładach absolutnie ciągłych są niezależne, jeśli

g(x, y) = gX(x) · gY (y).

Zauważmy jednak, że

gX(x) · gY (y) =54e−x(1− e−4x)

52e−

52y1[0,∞)(x)1[0,∞)(y)

i iloczyn ten jest niezerowy na całym obszarze (0,∞)× (0,∞), podczas gdyg(x, y) jest niezerowa tylko na obszarze zaznaczonym na sporządzonym przeznas rysunku. Tak więc

g(x, y) 6= gX(x) · gY (y),

co oznacza, że zmienne X i Y nie są niezależne. �

Ćwiczenie 2.13. Podaj przykład dwóch wektorów losowych o różnych roz-kładach łącznych, które mają te same rozkłady brzegowe.

Rozwiązanie. Wektory o rozkładach dyskretnych:

HHHH

HHYX

0 1

0 3/8 1/8 1/21 1/8 3/8 1/2

1/2 1/2

i

HHHH

HHTS

0 1

0 1/4 1/4 1/21 1/4 1/4 1/2

1/2 1/2

Dla uzyskania przykładu wektorów o rozkładach absolutnie ciągłych wy-starczy zauważyć, że gX i gY z poprzedniego ćwiczenia są gęstościami brze-gowymi i wektora o zależnych składowych, którego gęstością jest g(x, y),i wektora o składowych niezależnych, którego gęstością jest gX(x)gY (y). �

34

2.2. Ćwiczenia praktyczne

Ćwiczenie 2.14. Otwórz plik rozklady.sav z wygenerowanymi liczbami z roz-kładów jednostajnego, normalnego i wykładniczego. Utwórz histogramy po-danych zmiennych i porównaj je z wykresami gęstości rozkładów. Sprawdź,czy dobrze zidentyfikowałeś rozkłady, wykonując wykres prawdopodobieństwo-prawdopodobieństwo. Na wykresie tym przedstawione są pary (x, y) = (F (t), G(t)),gdzie F jest dystrybuantą empiryczną (częstości względne skumulowane), aGteoretyczną. Dystrybuanty są jednakowe, gdy punkty układają się w układziewspółrzędnych XOY na prostej y = x.

Rozwiązanie. Po wczytaniu pliku do programu sprawdzamy, czy zmiennemają ustawiony poziom ilościowy, a następnie wybieramy z menuWykresy–> Kreator wykresów... Decydujemy się na prosty histogram i na osipoziomej umieszczamy kolejno zmienne v1, v2, v3.

Pierwszy histogram odpowiada gęstości rozkładu normalnego, drugi jed-nostajnego, a trzeci wykładniczego.

35

Wykonujemy wykresy prawdopodobieństwo-prawdopodobieństwo: Ana-liza –> Opis statystyczny –> Wykresy P-P... Dla każdej ze zmien-

36

nych v1, v2, v3 testujemy odpowiedni z podanych wyżej rozkładów. WykresyP-P mają postać:

37

38

Wykresy te potwierdzają zgodność z proponowanymi rozkładami. �

39

Ćwiczenie 2.15. Otwórz plik cereal.sav (plik przykładowy programu).

a) Czy zmienne gender i bfast mają rozkład dyskretny, czy absolutnie ciągły?

b) Wykonaj tabelę krzyżową dla podanych zmiennych. Wyznacz liczebnościobserwowane, oczekiwane oraz procenty z całości.

c) Narysuj wykresy słupkowe dla tych zmiennych. Porównaj rozkłady. Nary-suj trójwymiarowy wykres słupkowy dla obu zmiennych. Porównaj z wcze-śniejszymi wykresami.

d) Czy podane zmienne są dodatnio, czy ujemnie skorelowane? Wyznaczwspółczynnik korelacji Pearsona. Czy rysowanie dla tych zmiennych wy-kresu rozrzutu ma sens?

Rozwiązanie.

a) Zmienne mają rozkład dyskretny.

b) Wybieramy z menu Analiza –> Opis statystyczny –> Tabelekrzyżowe... Jedną zmienną umieszczamy w wierszach, a drugą w ko-lumnach. Wybieramy przycisk Komórki... i zaznaczamy liczebności ob-serwowane, oczekiwane oraz procenty z całości.

40

c) Wybieramy z menu Wykresy –> Kreator wykresów.... Rysujemyprosty wykres słupkowy. Na osi kategorii umieszczamy za pierwszym ra-zem zmienną gender, a za drugim bfast.

Z wykresów odczytujemy, że w próbie większość stanowiły kobiety. Naj-częściej wybieranym śniadaniem były płatki zbożowe (cereal), następnieowsianka (oatmeal) i śniadanie w formie bufetu (breakfast bar).

41

Wybieramy z menu Wykresy –> Kreator wykresów... i rysujemyprosty wykres słupkowy 3W. Wprowadzamy na osie żądane zmienne.

Powyższy wykres prezentuje rozkład łączny płci i preferowanego śniada-nia. Widzimy np., że w porównaniu do kobiet mężczyźni rzadziej wybie-rają śniadania w formie bufetu, a częściej owsiankę.

d) Wybieramy z menu Analiza –> Korelacje –> Parami... Przeno-simy zmienne gender i bfast do pola Zmienne i wyznaczamy dla nichwspółczynnik korelacji Pearsona.

42

Wartość współczynnika równa −0, 026 oznacza w praktyce brak korelacjimiędzy zmiennymi.

Rysowanie wykresu rozrzutu dla zmiennych o rozkładach dyskretnych niema sensu.

Ćwiczenie 2.16. Otwórz plik Employee data.sav (plik przykładowy progra-mu).

a) Czy zmienne salary i salbegin mają rozkład dyskretny, czy absolutnieciągły?

b) Wykonaj histogramy dla tych zmiennych i porównaj ich rozkłady. Wyko-naj histogram trójwymiarowy dla rozkładu łącznego.

c) Wykonaj wykres rozrzutu. Czy wybrane zmienne są dodatnio, czy ujemnieskorelowane? Wyznacz współczynnik korelacji Pearsona.

Rozwiązanie.

a) Zmienne mają rozkład absolutnie ciągły.

b) Wybieramy z menu Wykresy –> Kreator wykresów... Rysujemyprosty histogram, umieszczając na osi poziomej kolejno zmienne salaryi salbegin.

43

W celu wykonania histogramu dla rozkładu łącznego wybieramyWykre-sy –> Szablony wizualizacji danych... Trzymając Ctrl zaznaczamyobie zmienne i z galerii dostępnych wykresów wybieramy histogram 3-W.

44

c) Wybieramy Wykresy –> Kreator wykresów... i wykonujemy pro-sty wykres rozrzutu ze zmienną salary na osi Y a salbegin na osi X.

Wykres sugeruje dodatnie skorelowanie. Wyznaczamy współczynnik ko-relacji Pearsona: Analiza –> Korelacje –> Parami...

Współczynnik korelacji wynosi 0, 880, co oznacza silne skorelowanie do-datnie.

45

2.3. Zadania

Zadanie 2.1. Korzystając z faktu, że σ-algebra zbiorów borelowskich B1 jestnajmniejszą σ-algebrą zawierającą wszystkie odcinki otwarte (a, b),a < b, wykaż, że jest ona identyczna z najmniejszą σ-algebrą zawierającąwszystkie półproste postaci [q,+∞), q ∈ Q.

Zadanie 2.2. Wiadomo, że P (A) = 0, 4, P (B) = 0, 8, P (A ∩ B) = 0, 3.Oblicz P (A ∪B), P (A \B), P (A ∪B′).

Odpowiedź. P (A ∪B) = 0, 9, P (A \B) = 0, 1, P (A ∪B′) = 0, 5.

Zadanie 2.3. [2, Zad. 2.3. str. 52] W grupie studentów przeprowadzonosprawdzian. Niech X będzie zmienną losową oznaczającą ocenę losowo wy-branego studenta. Zakładając, że stosunek ocen bdb (5), db (4), dst (3), ndst(2) ma się jak 1 : 3 : 4 : 2, wyznacz:

a) rozkład zmiennej X,

b) dystrybuantę i jej wykres,

c) P (X ¬ 3, 5) oraz P (3 < X ¬ 4, 5), korzystając raz z rozkładu, a razz dystrybuanty,

d) wartość oczekiwaną i wariancję zmiennej X,

e) medianę i kwantyl rzędu 3/5.

Odpowiedź.

a)k 2 3 4 5

P (X = k) 0, 2 0, 4 0, 3 0, 1

b)

FX(t) =

0, t < 20, 2, 2 ¬ t < 30, 6, 3 ¬ t < 40, 9, 4 ¬ t < 51, t ­ 5

46

c) P (X ¬ 3, 5) = 0, 6, P (3 < X ¬ 4, 5) = 0, 3.

d) EX = 3, 3, VarX = 0, 81.

e) x1/2 = 3, x3/5 ∈ [3, 4].

Zadanie 2.4. [2, Zad. 2.4. str. 54] Dystrybuanta zmiennej losowej X mapostać

FX(t) =

0, t < −20, 4, −2 ¬ t < 30, 5, 3 ¬ t < 51, t ­ 5.

Wyznacz rozkład zmiennej X, oblicz wartość oczekiwaną, wariancję i 3. mo-ment absolutny tej zmiennej.

Odpowiedź.

k −2 3 5P (X = k) 0, 4 0, 1 0, 5

EX = 2, VarX = 11, E|X|3 = 68, 4.

Zadanie 2.5. [2, Zad. 2.44. str. 110] Rozkład zmiennej losowej X dany jestw tabeli:

k −5 −2 0 1 3 8P (X = k) 0, 1 0, 2 0, 1 0, 2 c 0, 1

Wyznacz

a) stałą c,

b) dystrybuantę i jej wykres,

47

c) prawdopodobieństwa

P (X = 1), P (X = 2), P (X < 3), P (X < 2), P (X ­ 0), P (−2 ¬ X < 3),

korzystając raz z rozkładu, raz z dystrybuanty,

d) wartość oczekiwaną i wariancję zmiennej X,

e) medianę i kwantyl rzędu 0, 3.

Odpowiedź.

a) c = 0, 3,

b)

FX(t) =

0, t < −50, 1, −5 ¬ t < −20, 3, −2 ¬ t < 00, 4, 0 ¬ t < 10, 6, 1 ¬ t < 30, 9, 3 ¬ t < 81, t ­ 8

c) P (X = 1) = 0, 2, P (X = 2) = 0, P (X < 3) = 0, 6,P (X < 2) = 0, 6, P (X ­ 0) = 0, 7, P (−2 ¬ X < 3) = 0, 5.

d) EX = 1, VarX = 11, 6.

e) x1/2 = 1, x3/10 ∈ [−2, 0].

Zadanie 2.6. Zmienna losowa X ma gęstość f(x) = 4a3 x1(0,3)(x). Wyznacz

parametr a i dystrybuantę tej zmiennej oraz oblicz 3. i 4. moment absolutny,medianę i 1. kwartyl (tzn. kwantyl rzędu 1/4).

48

Odpowiedź. a = 1/6,

FX(t) =

0, t < 0t2/9, 0 ¬ t < 31, t > 3

E|X|3 = 54/5, E|X|4 = 27, x1/2 = 3√

2/2, x1/4 = 3/2.

Zadanie 2.7. [2, Zad. 2.108. str. 117] Dobierz stałą c tak, aby funkcja

f(x) =

c sinx dla 0 ¬ x ¬ π

0 w p. w.

była gęstością. Następnie wyznacz jej dystrybuantę, medianę i 1. kwartyloraz oblicz P (|X| < π/3).

Odpowiedź. c = 1/2,

F (t) =

0, t < 012

(1− cos t), 0 ¬ t < π

1, t ­ π

x1/2 = π/2, x1/4 = π/3, P (|X| < π/3) = 1/4.

Zadanie 2.8. [2, Zad. 2.113. str. 118] Wyznacz tak stałą a, by funkcja

F (x) =

0 dla x < 12(1− 1

x

)dla 1 ¬ x < a

1 dla x ­ a

była dystrybuantą zmiennej losowej X typu ciągłego.

a) Oblicz P (−1 ¬ X ¬ 1, 5).

b) Wyznacz ogólny wzór na kwantyl rzędu p.

c) Wyznacz gęstość tej zmiennej losowej.

d) Oblicz wartość oczekiwaną oraz 3. i 4. moment absolutny tej zmiennej.

Odpowiedź. a = 2,

a) P (−1 ¬ X ¬ 1, 5) = 2/3,

b) xp =2

2− p,

49

c) f(x) =2x21(1,2)(x),

d) EX = 2 ln 2, E|X|3 = 3, E|X|4 = 14/3.

Zadanie 2.9. Rozkład wektora (X, Y ) dany jest tabelką:

HHHHHHY

X1 2 3 4

2 0, 125 0, 25 0 04 0, 125 0 0, 125 0, 256 0 0 0, 125 0

a) Znajdź rozkłady brzegowe zmiennych X i Y .

b) Czy X i Y są niezależne? Czy są nieskorelowane?

c) Wyznacz P (X = Y ).

d) Wyznacz wartość oczekiwaną, macierz kowariancji i wariancję wektora(X, Y ).

e) Wyznacz rozkład zmiennej Z = X + Y .

Odpowiedź.

a)k 1 2 3 4

P (X = k) 0, 25 0, 25 0, 25 0, 25k 2 4 6

P (Y = k) 0, 375 0, 5 0, 125

b) Nie są niezależne, ani nieskorelowane.

c) P (X = Y ) = 0, 5.

d) E(X, Y ) = (2, 5; 3, 5), Σ =(

1, 25 0, 750, 75 1, 75

), Var(X, Y ) = 3.

e)k 3 4 5 7 8 9

P (X + Y = k) 0, 125 0, 25 0, 125 0, 125 0, 25 0, 125

Zadanie 2.10. Dana jest funkcja

f(x, y) ={Cxy, 1 ¬ x ¬ 2, 2 ¬ y ¬ 4,0, w p. w.

50

Wyznacz stałą C tak, aby funkcja ta była gęstością dwuwymiarowego wek-tora losowego. Podaj rozkłady brzegowe i dystrybuantę. Czy wektor z takzdefiniowaną gęstością ma składowe niezależne? Czy ma składowe nieskore-lowane? Wyznacz współczynnik korelacji. Oblicz P (Y > 2X).

Odpowiedź. C = 1/9, fX(x) =23x1(1,2)(x), fY (y) =

y

61(2,4)(y),

F(X,Y )(s, t) =

0, s < 1 ∨ t < 2(s2 − 1)(t2 − 4)

36, 1 ¬ s < 2 ∧ 2 ¬ t < 4

t2 − 412

, s ­ 2 ∧ 2 ¬ t < 4

s2 − 13

, 1 ¬ s < 2 ∧ t ­ 4

1, s ­ 2 ∧ t ­ 4Wektor ma składowe niezależne i nieskorelowane. ρ(X, Y ) = 0.P (Y > 2X) = 1/2.

Zadanie 2.11. Niech (X, Y ) będzie wektorem losowym o gęstości

f(x, y) =127

(x2 + y2)1A(x, y),

gdzie A jest trójkątem o wierzchołkach (0, 0), (3, 0), (3, 3). Wyznacz rozkładybrzegowe zmiennych X i Y oraz oblicz kowariancję wektora (X, Y ). ObliczP (X + 2Y > 3).

Odpowiedź. fX(x) =4x3

811(0,3)(x), fY (y) =

−4y3 + 9y2 + 2781

1(0,3)(y),

Cov(X, Y ) = 27/200, P (X + 2Y > 3) = 47/54.

Zadanie 2.12. Zmienne losowe X i Y są niezależne i mają rozkład N(0, 1).Czy zmienne losowe 2X+Y ,X+2Y są niezależne? (Wskazówka: sprawdź, czywartość oczekiwana iloczynu tych zmiennych jest równa iloczynowi wartościoczekiwanych).

Odpowiedź. Nie.

51

52

Rozdział 3.

Estymacja punktowa

3.1. Ćwiczenia

Ćwiczenie 3.1. [4, Przykład 2.1.2. str. 117] Producent bada n swoich wy-robów i zapisuje 0, gdy trafi na wyrób prawidłowy, a 1, gdy trafi na wyróbwadliwy, by móc oszacować odsetek wyrobów wadliwych. Podaj model prze-strzeni statystycznej.

Rozwiązanie. X = {(x1, x2, . . . , xn); xi ∈ {0, 1}, i = 1, 2, . . . , n} = {0, 1}n.θ = p ∈ Θ = [0, 1].

Pp(X1 = x1, X2 = x2, . . . , Xn = xn) = p∑n

i=1 xi(1− p)n−∑n

i=1 xi .

Ćwiczenie 3.2. [4, Przykład 2.1.5. str. 117] Powtarzamy niezależnie n ra-zy pomiar pewnej wielkości fizycznej. Zakładamy, że każdy z pomiarów marozkład normalny o tych samych, ale nieznanych parametrach a i σ2. Podajmodel przestrzeni statystycznej.

Rozwiązanie. X = {(x1, x2, . . . , xn); xi ∈ R, i = 1, 2, . . . , n} = Rn.θ = (a, σ2) ∈ Θ = R× (0,+∞).

fθ(x1, x2, . . . , xn) = fθ(x1) · fθ(x2) · . . . · fθ(xn) =

=1√2πσ

e−(x1−a)2

2σ2 · 1√2πσ

e−(x2−a)2

2σ2 · . . . · 1√2πσ

e−(xn−a)2

2σ2 =

=1

(√

2πσ)ne−∑n

i=1(xi−a)2

2σ2 .

53

Ćwiczenie 3.3. [3, Zad. 2.34 str. 71] W celu oszacowania wartości prze-ciętnego czasu bezawaryjnej pracy maszyny z partii tych maszyn wybranolosowo 7 maszyn i mierzono czas ich pracy do pierwszej awarii. Uszkodzeniawystąpiły w chwilach: 51, 115, 150, 190, 217, 228, 351. Wiedząc, że czas bez-awaryjnej pracy maszyny ma rozkład wykładniczy E(λ), wyznacz estymatorwartości oczekiwanej czasu bezawaryjnej pracy oraz oszacuj parametr λ.

Rozwiązanie. Estymatorem wartości oczekiwanej jest średnia z próbki:

x =51 + 115 + 150 + 190 + 217 + 228 + 351

7=

13027

= 186, 0.

Ponieważ w rozkładzie wykładniczym EX = 1/λ, to

λ =1x

=1

186.

Ćwiczenie 3.4. [3, Zad. 2.36 str. 71] W celu wyznaczenia dokładności przy-rządu pomiarowego dokonano 8 niezależnych pomiarów pewnej stałej wiel-kości, uzyskując rezultaty: 171, 175, 182, 178, 173, 180, 179, 174. Wyznaczestymator wariancji błędów tego przyrządu, jeśli

a) wartość mierzonej wielkości jest znana i równa 176,

b) wartość mierzonej wielkości nie jest znana.

Rozwiązanie.

a) Jeśli wartość oczekiwana jest znana i równa a, estymatorem wariancji jest

∗s2 =1n

n∑i=1

(xi − a)2.

Obliczamy wartość tego estymatora w tabeli:

xi xi − 176 (xi − 176)2

171 −5 25175 −1 1182 6 36178 2 4173 −3 9180 4 16179 3 9174 −2 4Σ 104

54

Stąd∗s2 =

1048

= 13.

b) W przypadku nieznanej wartości oczekiwanej wartość a zastępujemy śred-nią x. Do dyspozycji mamy dwa estymatory wariancji:

s2 =1n

n∑i=1

(xi − x)2, s2 =1

n− 1

n∑i=1

(xi − x)2.

Średnia wynosi

x =1412

8= 176, 5.

Estymatory wariancji wyznaczamy, korzystając z tabeli:

xi xi − 176, 5 (xi − 176, 5)2

171 −5, 5 30, 25175 −1, 5 2, 25182 5, 5 30, 25178 1, 5 2, 25173 −3, 5 12, 25180 3, 5 12, 25179 2, 5 6, 25174 −2, 5 6, 25Σ 102

Stąd

s2 =1028

= 12, 75, s2 =1027≈ 14, 57.

Ćwiczenie 3.5. [3, Zad. 2.26 str. 70] Niech X1, . . . , Xn będzie próbą prostąz rozkładu wykładniczego E(λ). Pokaż, że statystyka

Tn =1

2n

n∑i=1

X2i

jest nieobciążonym estymatorem wariancji rozkładu wykładniczego E(λ).Czy jest to estymator mocno zgodny?

Rozwiązanie. Estymowanym parametrem jest

T = VarX1 =1λ2.

55

Badamy nieobciążoność estymatora, czyli sprawdzamy, czy ETn = T.

ETn = E(

12n

n∑i=1

X2i

)=

12n

n∑i=1

EX2i =

12n· n · EX2

1 =

=12

(VarX1 + (EX1)2) =12

(1λ2

+(1λ

)2)

=1λ2

= T.

Mocna zgodność estymatora oznacza zbieżność Tn −−−→n→∞

T prawie wszę-dzie. Zbieżność tę sprawdzamy, korzystając z mocnego prawa wielkich liczb.X2

1 , X22 , . . . , X

2n – niezależne, o jednakowym rozkładzie.

E|X21 | = EX2

1 = VarX1 + (EX1)2 = 1λ2 + 1

λ2 = 2λ2 <∞.

Zatem na mocy MPWL

X21 +X2

2 + . . .+X2n

n

p.w.−−−→n→∞

EX21 =

2λ2,

a stąd

Tn =1

2n

n∑i=1

X2i

p.w.−−−→n→∞

1λ2

= T.

Ćwiczenie 3.6. Niech θn : Rn → [0, 1],

θn =n−∑n

i=1 1{m}(Xi)n

będzie estymatorem parametru θ = 1−pm rozkładu dwumianowego B(m, p),gdzie m jest znane. Sprawdź, czy θn jest nieobciążonym i zgodnym estyma-torem parametru θ.

Rozwiązanie. Zmienne mają rozkład dwumianowy B(m, p), co oznacza, że

P (Xi = k) =(m

k

)pk(1− p)m−k, k = 0, 1, . . . ,m.

Badamy nieobciążoność estymatora:

Eθn = E(n−∑n

i=1 1{m}(Xi)n

)= 1− 1

n

n∑i=1

E1{m}(Xi) =

= 1− 1n· n · E1{m}(X1) = 1− E1{m}(X1) =

= 1− P (X1 = m) = 1− pm = θ.

56

Badamy mocną zgodność.1{m}(X1),1{m}(X2), . . . ,1{m}(Xn) – niezależne o jednakowym rozkładzie.E|1{m}(X1)| = E1{m}(X1) = P (X1 = m) = pm <∞.Zatem na mocy MPWL

1{m}(X1) + 1{m}(X2) + . . .+ 1{m}(Xn)n

p.w.−−−→n→∞

E1{m}(X1) = pm,

a stąd

θn = 1−1{m}(X1) + 1{m}(X2) + . . .+ 1{m}(Xn)

n

p.w.−−−→n→∞

1− pm = θ.

Ćwiczenie 3.7. Pokaż, że ciąg {θn}, gdzie

θn : (0,∞)n → (0,∞), θn = exp(− n∑n

i=1 Xi

),

jest mocno zgodnym estymatorem parametru θ = P (X > 1) zmiennej losowejo rozkładzie wykładniczym.

Rozwiązanie. Estymowanym parametrem jest

θ = P (X > 1) =∫ ∞

1λe−λx dx = −e−λx

∣∣∣∞1

= e−λ.

Rozważamy próbę losową prostą X1, X2, . . . , Xn. E|X1| = EX1 = 1λ< ∞.

Zatem na mocy MPWL

X1 +X2 + . . .+Xn

n

p.w.−−−→n→∞

EX1 =1λ.

Z ciągłości funkcji e−1/x otrzymujemy zbieżność

θn = exp(− n∑n

i=1 Xi

)p.w.−−−→n→∞

e−λ = θ.

Ćwiczenie 3.8. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładugeometrycznego G(p), p ∈ (0, 1). Wyznacz estymator największej wiarogod-ności parametru

a) p,

b) θ =√p.

57

Rozwiązanie.

a) Rozważamy próbę prostą z rozkładu geometrycznego G(p), co oznacza,że

Pp(Xi = k) = p(1− p)k−1, k = 1, 2, . . .

Niech x1, x2, . . . , xn ∈ {1, 2, . . .}. Funkcją wiarogodności dla podanej pró-by jest

L(p) = Pp(X1 = x1, . . . , Xn = xn) =

= p(1− p)x1−1 · . . . · p(1− p)xn−1 = pn(1− p)∑n

i=1 xi−n.

Musimy wyznaczyć taką wartość parametru p, przy której funkcja wia-rogodności osiąga największą wartość. W tym celu należałoby zróżnicz-kować funkcję L(p). Może to jednak nie być łatwe, gdyż ma ona postaćiloczynu. Warto zlogarytmować rozważaną funkcję. Logarytm iloczynujest sumą logarytmów, która jest znacznie łatwiejsza do różniczkowania.Z drugiej strony funkcja logarytmiczna jest niemalejąca, co gwarantujenam, że funkcja lnL(p) będzie osiągała maksimum w tym samym punk-cie, w którym osiąga je funkcja L(p).

lnL(p) = n ln p+(

n∑i=1

xi − n)

ln(1− p).

Różniczkujemy podaną funkcję po zmiennej p:

d

dplnL(p) =

n

p−∑ni=1 xi − n1− p

=n(1− p)− p (

∑ni=1 xi − n)

p(1− p)=

=n− p∑n

i=1 xip(1− p)

=(−∑n

i=1 xi)(p− n∑n

i=1 xi

)p(1− p)

.

Pochodna zeruje się w punkcien∑ni=1 xi

= 1/x i przechodząc przez ten

punkt zmienia znak z dodatniego na ujemny, co oznacza, że funkcja L(p)osiąga w punkcie 1/x maksimum.

Tak więcENW (p) =

n∑ni=1 Xi

.

b) Ponieważ funkcja g(x) =√x jest ciągła, więc

ENW (√p) =

√ENW (p) =

√n∑n

i=1 Xi

.

�58

Ćwiczenie 3.9. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładuWeibulla We(2, β) o gęstości

f(x) = 2β−2xe−(x/β)21(0,∞)(x), β > 0.

Wyznacz estymator największej wiarogodności parametru β.

Rozwiązanie. Funkcja wiarogodności ma postać

L(β) = fβ(x1, . . . , xn) = fβ(x1) · . . . · fβ(xn) =

= 2β−2x1e−(x1/β)2

1(0,∞)(x1) · . . . · 2β−2xne−(xn/β)2

1(0,∞)(xn) =

= 2nβ−2n(x1 · . . . · xn)e−(x21+...+x2

n)/β21(0,∞)(min(x1, . . . , xn)).

Dla x1, . . . , xn > 0 wyznaczamy największą wartość funkcji wiarogodności.Najpierw funkcję logarytmujemy:

lnL(β) = n ln 2− 2n ln β + ln(x1 · . . . · xn)− (x21 + . . .+ x2

n)/β2,

następnie różniczkujemy po β:

d

dβlnL(β) = −2n

β+

2(x21 + . . .+ x2

n)β3

=−2nβ2 + 2(x2

1 + . . .+ x2n)

β3=

=−2n

(β2 − x2

1+...+x2n

n

)β3

=−2n

(β −

√x2

1+...+x2n

n

)(β +

√x2

1+...+x2n

n

)β3

.

Wyznaczona pochodna zeruje się i zmienia znak z dodatniego na ujemnyw punkcie

√x2

1+...+x2n

n. Oznacza to, że w punkcie tym funkcja wiarogodności

osiąga swoją największą wartość. Stąd

ENW (β) =

√X2

1 + . . .+X2n

n.

Ćwiczenie 3.10. Niech X1, . . . , Xn będzie próbą prostą z rozkładu E(λ).Rozważmy dwa estymatory parametru θ = 1

λ:

Rn = nX(1), Sn =X1 + . . .+Xn

n.

Wykaż, że oba są estymatorami nieobciążonymi. Który z nich jest estyma-torem o mniejszej wariancji? Czy jest to estymator nieobciążony minimalnejwariancji?

59

Rozwiązanie. Wyznaczamy dystrybuantę zmiennej X(1):

FX(1)(t) = P (X(1) ¬ t) = P (min(X1, X2, . . . , Xn) ¬ t) =

= 1− P (min(X1, X2, . . . , Xn) > t) == 1− P (X1 > t,X2 > t, . . . , Xn > t) == 1− P (X1 > t)P (X2 > t) · . . . · P (Xn > t) =

= 1− (P (X1 > t))n = 1−(∫ ∞

tλe−λx1(0,∞)(x) dx

)n=

=

0, t ¬ 0

1−(−e−λx

∣∣∣∞t

)n, t > 0

=

0, t ¬ 01− (e−λt)n, t > 0

=

= (1− e−nλt)1(0,∞)(t).

Gęstość tej zmiennej ma zatem postać

fX(1)(t) = F ′X(1)(t) = nλe−nλt1(0,∞)(t),

czyli zmienna X(1) ma rozkład wykładniczy E(nλ). Korzystając z tego faktu,sprawdzamy nieobciążoność estymatora Rn parametru θ = 1/λ:

ERn = E(nX(1)) = nEX(1) = n · 1nλ

=1λ

= θ.

Estymator Sn jest nieobciążony, gdyż jest średnią arytmetyczną, którajak wiadomo jest nieobciążonym estymatorem wartości oczekiwanej.

Wariancje podanych estymatorów wynoszą:

VarRn = Var(nX(1)) = n2VarX(1) = n2 · 1n2λ2

=1λ2,

VarSn = Var(X1 + . . .+Xn

n

)=

1n2

(VarX1 + VarX2 + . . .+ VarXn) =

=1n2· nVarX1 =

1n· 1λ2

=1nλ2

,

co oznacza, że estymator Sn jest estymatorem o mniejszej wariancji.Powstaje pytanie czy Sn ma najmniejszą wariancję spośród wszystkich

estymatorów nieobciążonych.Rozkład wykładniczy ma gęstość postaci

f(x) = λe−λx1(0,∞)(x) = e−λx+lnλ1(0,∞)(x).

Oznaczmy T1(x) = x, c1 = −λ. Zbiór wszystkich możliwych wartości para-metru c1 jest jednowymiarowy, to oznacza, że f należy do rodziny rozkładówwykładniczych. Estymator Sn jest funkcją statystyki

∑ni=1 T1(Xi) i jest nie-

obciążonym estymatorem wartości oczekiwanej, a zatem jest estymatoremnieobciążonym minimalnej wariancji. �

60

Ćwiczenie 3.11. Wykaż, że rodzina rozkładów logarytmicznie normalnych,tj. rozkładów o gęstościach

f(x) =1√

2πσxe−

(ln x−a)2

2σ2 1(0,∞)(x), a ∈ R, σ > 0,

jest rodziną wykładniczą. Znajdź estymator nieobciążony minimalnej warian-cji parametru a.

Rozwiązanie. Przekształcamy podaną gęstość:

f(x) =1√

2πσxe−

(ln x−a)2

2σ2 1(0,∞)(x) =

= eln 1√

2πσx− (ln x−a)2

2σ2 1(0,∞)(x) =

= e− ln(√

2πσ)−lnx− ln2 x2σ2 + 2a ln x

2σ2 −a2

2σ2 1(0,∞)(x) =

= e−1

2σ2 ln2 x+( aσ2−1) lnx−ln(

√2πσ)− a2

2σ2 1(0,∞)(x).

Oznaczamy

T1(x) = ln2 x, T2(x) = ln x, c1 = − 12σ2

, c2 =a

σ2− 1.

Funkcje T1(x) i T2(x) są liniowo niezależne, a zbiór wszystkich możliwychwartości parametrów (c1, c2) jest 2-wymiarowy. Stąd rodzina rozkładów lo-garytmicznie normalnych jest rodziną wykładniczą.

Dla takiej rodziny estymatory nieobciążone minimalnej wariancji są funk-cjami statystyki

T =(

n∑i=1

T1(Xi),n∑i=1

T2(Xi))

=(

n∑i=1

ln2Xi,n∑i=1

lnXi

).

Zauważmy, że

E ln(Xi) =∫ ∞

0lnx

1√2πσx

e−(ln x−a)2

2σ2 dx =(podstawiamy t = lnx, dt =

1xdx)

=∫ ∞−∞

t1√2πσ

e−(t−a)2

2σ2 dt = a,

gdyż ostatnie wyrażenie całkowe jest definicją wartości oczekiwanej zmiennejo rozkładzie N (a, σ2).

Tak więc an =∑ni=1 lnXi

nbędzie estymatorem nieobciążonym parametru

a, a jako funkcja statystyki T będzie estymatorem nieobciążonym minimalnejwariancji. �

61

Ćwiczenie 3.12. [6, Przykład 11. str. 30] Niech X1, . . . , Xn będzie próbąz rozkładu gamma Γ(α, λ) z parametrem kształtu α > −1 i skali λ > 0o gęstości

fα,λ(x) =1

λαΓ(α)xα−1e−x/λ1(0,∞)(x).

Wykaż, że rodzina rozkładów gamma jest rodziną wykładniczą. Udowodnij,że Sn =

∑ni=1 Xi/n jest ENMW parametru αλ. (Wskazówka: Γ(α + 1) =

αΓ(α)).

Rozwiązanie. Przekształcamy podaną gęstość:

fα,λ(x) =1

λαΓ(α)xα−1e−x/λ1(0,∞)(x) =

= eln( 1λαΓ(α)x

α−1)− xλ1(0,∞)(x) =

= e− ln(λαΓ(α))+(α−1) lnx− xλ1(0,∞)(x) =

= e(α−1) lnx− 1λx−ln(λαΓ(α))

1(0,∞)(x).

Oznaczamy

T1(x) = ln x, T2(x) = x, c1 = α− 1, c2 =1λ.

Funkcje T1 i T2 są liniowo niezależne, a parametry (c1, c2) tworzą zbiór 2-wy-miarowy. Zatem rodzina rozkładów gamma jest rodziną wykładniczą. Esty-matory nieobciążone minimalnej wariancji są funkcjami statystyki

T =(

n∑i=1

T1(Xi),n∑i=1

T2(Xi))

=(

n∑i=1

lnXi,n∑i=1

Xi

).

Podany w zadaniu estymator Sn jest funkcją statystyki T , wystarczysprawdzić jego nieobciążoność, żeby wiedzieć, że jest on estymatorem nieob-ciążonym minimalnej wariancji. Jako średnia arytmetyczna próby estymatorSn jest estymatorem nieobciążonym wartości oczekiwanej. Wystarczy spraw-dzić, ile wynosi wartość oczekiwana w rozkładzie gamma.

EX =∫ ∞

0x

1λαΓ(α)

xα−1e−x/λ dx =

=∫ ∞

0

1λαΓ(α)

xαe−x/λ dx =

= γΓ(α + 1)

Γ(α)

∫ ∞0

1λα+1Γ(α + 1)

xαe−x/λ dx =

= γΓ(α + 1)

Γ(α)· 1 = γ

αΓ(α)Γ(α)

= λα,

przy czym ostatnie wyrażenie całkowe jest równe 1 jako całka z gęstościrozkładu Γ(α + 1, λ). �

62

3.2. Ćwiczenia praktyczne

Ćwiczenie 3.13. W pliku estymacja.sav (dostępnym na platformie Moodle)poza numerem obserwacji znajdują się zmienne o rozkładach odpowiedniowykładniczym E(λ), dwumianowym B(5, p), geometrycznym G(p) i WeibullaWe(2, β). Dla podanych zmiennych wyznacz wartości estymatorów opisanychbądź skonstruowanych w ćwiczeniach 3.5-3.9. Porównaj wartości wyznaczo-nych estymatorów z rzeczywistymi wartościami estymowanych parametrów,wiedząc, że wykorzystane do generowania obserwacji rozkłady to E(1/2),B(5, 1/2), G(1/4) i We(2, 2).

Rozwiązanie. Ponieważ estymatory z ćwiczeń 3.5 i 3.9 są funkcjami kwadra-tów zmiennych losowych, wyznaczamy kwadraty tych zmiennych, otrzymujączmienne wykladnicza kw i weibulla kw. Wybieramy z menu Przekształ-cenia –> Oblicz wartości... W pole Zmienna wynikowa wpisujemynazwę nowej zmiennej, a w poleWyrażenie numeryczne wzór.

Zmienną o rozkładzie dwumianowym rekodujemy (Przekształcenia–> Rekoduj na inne zmienne...) na zmienną czy5, o wartościach 1, jeślidwumianowa ma wartość 5, a 0 w pozostałych przypadkach.

Wyznaczamy średnie arytmetyczne zmiennych wykladnicza kw, czy5, wy-kladnicza, geometryczna, weibulla kw. Korzystamy w tym celu z poleceniaagregacji Dane –> Agreguj... Pole Zmienna grupująca pozostawia-my puste. W polu Podsumowania zmiennych umieszczamy wspomnianezmienne. Zapisujemy nowy plik danych estymacja aggr.sav zawierający tylkozagregowane zmienne.

• Estymator T z ćwiczenia 3.5 jest średnią arytmetyczną zmiennej wy-kladnicza kw podzieloną przez 2. Jego wartość wynosi 2, 49, podczasgdy wartość estymowanego parametru to 4.

• Estymator θ z ćwiczenia 3.6 jest różnicą liczby 1 i średniej arytmetycz-nej zmiennej czy5. Jego wartość to 0, 98, podczas gdy wartość estymo-wanego parametru to 0, 96875.

• Estymator θ z ćwiczenia 3.7 wyraża się wzorem exp(−1/x), a jego war-tość wynosi 0, 54, podczas gdy wartość estymowanego parametru tow przybliżeniu 0, 61.

• ENW (p) z ćwiczenia 3.8 jest odwrotnością średniej zmiennej geome-tryczna i wynosi 0, 23, podczas gdy wartość estymowanego parametruto 0, 25.

63

• ENW (β) z ćwiczenia 3.9 jest pierwiastkiem ze średniej zmiennej we-ibulla kw i jego wartość wynosi 1, 90, podczas gdy wartość estymowa-nego parametru to 2.

Ćwiczenie 3.14. Utworzono 10 grup (W1-W10) zawierających po 20 ob-serwacji wygenerowanych z rozkładu wykładniczego E(1). Dane znajdują sięw pliku ENMW.sav (dostępnym na platformie Moodle). Dla każdej z grupwyznacz wartości estymatorów parametru 1/λ opisanych w ćwiczeniu 3.10,tj. średniej i 20·minimum, odpowiednio agregując zmienną wykładnicza. Po-równaj otrzymane wartości estymatorów z rzeczywistą wartością tego para-metru równą 1. Wyznacz wariancję otrzymanych estymatorów i sprawdź, dlaktórego z nich ma ona mniejszą wartość.

Rozwiązanie. Wybieramy z menuDane –> Agreguj...W polu Zmiennegrupujące umieszczamy zmienną Grupa. W polu Podsumowania zmien-nych umieszczamy 2-krotnie zmienną wykładnicza, przy czym raz zmieniamyjej funkcję podsumowującą na minimum. Zagregowane zmienne zapisujemyw pliku ENMW aggr.sav.

Wybieramy z menuPrzekształcenia –> Oblicz wartości... i zmien-ną wykładnicza min mnożymy przez 20, otrzymując zmienną wyk min razy20.

Wyznaczamy wariancję otrzymanych estymatorów. Analiza –> Opisstatystyczny –> Statystyki opisowe. W polu Zmienne umieszczamyzmienne wykładnicza mean i wyk min razy20. W opcjach zaznaczamy średniąoraz wariancję.

64

3.3. Zadania

Zadanie 3.1. [4, Przykład 2.1.3. str. 117] Liczba wypadków drogowychw ciągu tygodnia ma w przybliżeniu rozkład Poissona. Zakładamy, że ob-serwacji dokonujemy przez okres n tygodni, w których ogólne warunki niezmieniają się. Podaj model przestrzeni statystycznej.

Odpowiedź.X = {(x1, . . . , xn); xi ∈ {0, 1, 2, . . .}, i = 1, . . . , n} = (N ∪ {0})n.θ = λ ∈ Θ = (0,∞).

Pλ(X1 = x1, X2 = x2, . . . , Xn = xn) = e−nλλx1+...+xn

x1! · . . . · xn!.

Zadanie 3.2. [4, Przykład 2.1.4. str. 117] Producent bada partię n żarówek,przy czym interesuje go czas życia żarówki. Przy założeniu, że pojedynczeczasy życia mają rozkład wykładniczy, podaj opis przestrzeni statystycznej.

Odpowiedź.X = {(x1, . . . , xn); xi ∈ (0,∞), i = 1, . . . , n} = (0,∞)n.θ = λ ∈ Θ = (0,∞).fλ(x1, x2, . . . , xn) = λne−λ(x1+...+xn)

1(0,∞)(min(x1, . . . , xn)).

Zadanie 3.3. [3, Zad. 2.33 str. 71] Z partii kondensatorów wybrano losowo12 sztuk i zmierzono ich pojemności, otrzymując (w pF):

4, 45 4, 40 4, 42 4, 38 4, 44 4, 36 4, 40 4, 39 4, 45 4, 35 4, 40 4, 36.

a) Znajdź oszacowanie nieznanej wartości przeciętnej pojemności kondensa-tora pochodzącego z danej partii.

b) Znajdź nieobciążone oszacowanie wariancji pojemności tych kondensato-rów.

65

Odpowiedź. a) x = 4, 40, b) s2 = 0, 0012.

Zadanie 3.4. [3, Zad. 2.25 str. 70] Zmienne losowe X1, . . . , Xn mają rozkłado tej samej wartości oczekiwanej EXi = a. Wykaż, że estymatory postaci

Tn =a1X1 + · · ·+ anXn

a1 + · · ·+ an,

n∑i=1

ai 6= 0, ai ∈ R,

są nieobciążonymi estymatorami parametru a.

Zadanie 3.5. Niech X1, X2, . . . , Xn będzie próbą prostą z rozkładu o gęstości

f(x) = 12a sin

(xa

)1(0,aπ)(x).

Wykaż, że an =2π·∑ni=1Xi

njest mocno zgodnym i nieobciążonym estyma-

torem parametru a.

Zadanie 3.6. Rozważmy estymator

θn = 1− 1n

n∑i=1

1(0,1)(Xi)

parametru θ = P (X > 1) zmiennej losowej o rozkładzie E(λ). Czy θn jestnieobciążonym lub mocno zgodnym estymatorem parametru θ?

Odpowiedź. Jest nieobciążony i mocno zgodny.

Zadanie 3.7. Niech pn : Rn → R,

pn =1n

n∑i=1

1{1}(Xi).

Pokaż, że pn jest mocno zgodnym estymatorem parametru p rozkładu geo-metrycznego z parametrem p ∈ (0, 1). Czy jest to estymator nieobciążony?

Odpowiedź. Podany estymator jest nieobciążony.

Zadanie 3.8. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu dwu-mianowego B(m, p), p ∈ (0, 1). Wyznacz estymator największej wiarogodno-ści parametru

a) p,

b) θ = p2.

66

Odpowiedź.

a) ENW (p) =X1 + . . .+Xn

nm,

b) ENW (p2) =(X1 + . . .+Xn

nm

)2

.

Zadanie 3.9. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu gam-ma G(2, λ) o gęstości

f(x) =λ2

Γ(2)xe−λx1(0,∞)(x), λ > 0.

Wyznacz estymator największej wiarogodności parametru λ.

Odpowiedź. ENW (λ) =2n

X1 + . . .+Xn

.

Zadanie 3.10. Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu La-place’a La(0, 1

λ) o gęstości

f(x) =λ

2e−λ|x|, λ > 0.

Wyznacz estymator największej wiarogodności parametru λ.

Odpowiedź. ENW (λ) =n

|X1|+ . . .+ |Xn|.

67

68

Rozdział 4.

Estymacja przedziałowa

Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu Pθ, θ ∈ Θ, orazα ∈ (0, 1).

Definicja 4.1. Estymatorem przedziałowym parametru θ ∈ Θ na poziomieufności 1−α nazywamy parę

(θ = θ(X1, . . . , Xn), θ = θ(X1, . . . , Xn)

), gdzie

θ, θ : X n → R są funkcjami mierzalnymi oraz

∀θ∈Θ P (θ ∈ [θ, θ]) ­ 1− α.

Przedział losowy [θ, θ] nazywamy przedziałem ufności. Liczbę 1−α nazywamytakże współczynnikiem ufności.

1. Przedziały ufności dla wartości oczekiwanej a rozkładu normalnegoN (a, σ2).

a) Parametr σ2 znany.Przedziałem ufności dla a na poziomie ufności 1− α jest

[a, a] =[x− z1−α/2

σ√n, x+ z1−α/2

σ√n

],

gdzie z1−α/2 = Φ−1(1− α2 ), a Φ jest dystrybuantą rozkładu normalnego

N (0, 1).

b) Parametr σ2 nieznany.Przedziałem ufności dla a na poziomie ufności 1− α jest

[a, a] =[x− t(n−1)

1−α/2s√n, x+ t

(n−1)1−α/2

s√n

],

gdzie t(n−1)1−α/2 = F−1

tn−1(1− α2 ), a Ftn−1 jest dystrybuantą rozkładu t-Stu-

denta z n− 1 stopniami swobody.Uwaga. Jeżeli n > 30, to Φ ≈ Ftn i w powyższym wzorze na przedziałufności t(n−1)

1−α/2 można zastąpić przez z1−α/2.

69

2. Asymptotyczne przedziały ufności dla wartości oczekiwanej a dowolnegorozkładu o niezerowej wariancji.

Przedziałem ufności dla a na poziomie ufności 1− α jest

[a, a] =[x− z1−α/2

s√n, x+ z1−α/2

s√n

]oraz

[a, a] =[x− z1−α/2

s√n, x+ z1−α/2

s√n

],

gdzie z1−α/2 = Φ−1(1 − α2 ), a Φ jest dystrybuantą rozkładu normalnego

N (0, 1).

Oznaczenia: s =√

1n−1

∑ni=1(xi − x)2, n ­ 2,

s =√

1n

∑ni=1(xi − x)2.

Tablice rozkładów normalnego i t-Studenta są powszechnie dostępne, moż-na je znaleźć np. w [3].

Uwaga: Wyznaczając przedział ufności, będziemy stosować następują-cą zasadę zaokrąglania: wartość z1−α/2

σ√n

czy t(n−1)1−α/2

s√n

zaokrąglamy zawszew górę z dokładnością do 1 cyfry znaczącej, jeśli wspomniana wartość nieprzekracza 10% średniej, a z dokładnością do 2 cyfr znaczących, jeśli prze-kracza 10% średniej. Cyfry znaczące to wszystkie cyfry danej liczby pozapoczątkowymi zerami. Np. pierwszą cyfrą znaczącą liczby 1020 jest cyfra ty-sięcy, a drugą cyfra setek, pierwszą cyfrą znaczącą liczby 0, 02005 jest cyfrasetnych, a drugą cyfra tysięcznych.

4.1. Ćwiczenia

Ćwiczenie 4.1. Przypuśćmy, że waga noworodka ma rozkład normalny o wa-riancji 0, 25 kg2. Zważono 100 noworodków i okazało się, że średnia wagawyniosła 3,5 kg. Wyznacz przedział ufności dla wartości oczekiwanej waginoworodka na poziomie ufności 95%.

Rozwiązanie.Dane: X – waga noworodka,

X ∼ N (a, σ2),σ2 = 0, 25 kg2,n = 100,x = 3, 5 kg,1− α = 0, 95.

70

Mamy model 1a), tj. rozkład normalny ze znaną wariancją. Obliczamy:

z1−α/2σ√n

= 1, 96 · 0, 510

= 0, 098 ≈ 0, 10.

Ponieważ wyznaczona wartość nie przekraczała 10%x, to zaokrąglenia do-konano w górę z dokładnością do 1 cyfry znaczącej. Przedział ufności mapostać

[a, a] = [3, 50− 0, 10; 3, 50 + 0, 10] = [3, 40; 3, 60].

Ćwiczenie 4.2. [3, na podstawie zad. 2.43 str. 73] W centrali telefonicznejdokonano 17 pomiarów długości rozmów w ciągu pewnego dnia i otrzymano(w min.): x = 5, 48, s = 1, 16. Przy założeniu, że długości rozmów mająrozkład normalny, wyznacz przedział ufności dla średniej długości rozmowyna poziomie ufności 0,95.

Rozwiązanie.Dane: X – długość rozmowy,

X ∼ N (a, σ2),n = 17,x = 5, 48,s = 1, 16,1− α = 0, 95.

Mamy model 1b), tj. rozkład normalny o nieznanej wariancji, n ¬ 30.Wyznaczamy najpierw wartość s:

s2 = s2 n

n− 1= 1, 162 · 17

16.

Stąd

t(n−1)1−α/2 ·

s√n

= t(16)0,975

√1, 162 · 17

16√17

= 2, 120 · 1, 164

= 0, 6149 ≈ 0, 62.

Wyznaczona wartość przekraczała 10%x, więc zaokrąglenia dokonano w góręz dokładnością do 2 cyfr znaczących. Przedział ufności ma postać

[a, a] = [5, 48− 0, 62; 5, 48 + 0, 62] = [4, 86; 6, 10].

Ćwiczenie 4.3. Z partii bawełny pobrano próbkę złożoną z 31 włókien,a następnie zmierzono długości tych włókien (w mm). Otrzymano następu-jące wyniki:

71

23 8 15 35 21 20 10 4 28 12 9 5 24 25 31 2623 17 13 33 29 27 24 22 32 16 9 29 22 20 8.

Zakładając, że długość włókien bawełny ma rozkład normalny, wyznacz prze-dział ufności dla średniej na poziomie ufności 0,99.

Rozwiązanie.Dane: X – długość włókna,

X ∼ N (a, σ2),n = 31,1− α = 0, 99.

Mamy model 1b), tj. rozkład normalny o nieznanej wariancji, ale n > 30,co pozwala stosować tablice rozkładu normalnego zamiast t-Studenta. Wy-znaczamy średnią oraz wariancję z próby.

xi xi − x (xi − x)2 xi xi − x (xi − x)2

23 3 9 23 3 98 −12 144 17 −3 9

15 −5 25 13 −7 4935 15 225 33 13 16921 1 1 29 9 8120 0 0 27 7 4910 −10 100 24 4 164 −16 256 22 2 4

28 8 64 32 12 14412 −8 64 16 −4 169 −11 121 9 −11 1215 −15 225 29 9 81

24 6 36 22 2 425 5 25 20 0 031 11 121 8 −12 14426 6 36 620 ← Σ→ 2348

x =62031

= 20, 0,

s =

√234830

.

Wyznaczamy

z1−α/2s√n

= z0,995

√234830√31

= 4, 07442 ≈ 4, 1.

72

Wyznaczona wartość przekraczała 10%x, więc zaokrąglenia dokonano w góręz dokładnością do 2 cyfr znaczących. Przedział ufności ma postać

[a, a] = [20, 0− 4, 1; 20, 0 + 4, 1] = [15, 9; 24, 1].

Ćwiczenie 4.4. [5, na podstawie zad. 8. str. 274] Przeprowadzono obserwa-cje dotyczące opóźnień w ruchu pociągów. Stwierdzono, że spośród 1000 loso-wo wybranych pociągów 160 przyjechało z opóźnieniem. Zakładając, że opóź-nienia poszczególnych pociągów są niezależne od siebie i jednakowo prawdo-podobne dla każdego pociągu, znajdź przedział ufności dla prawdopodobień-stwa występowania opóźnienia na poziomie ufności 0,9.

Rozwiązanie. X – czy pociąg był opóźniony.Zmienna ta ma rozkład dwupunktowy

k 1 (tak) 0 (nie)P (X = k) p 1− p

Zaobserwowano 160 pociągów spóźnionych i 840 takich, które przyjechałyo czasie.

Zauważmy, że dla zmiennej o rozkładzie dwupunktowym

EX = 1 · p+ 0 · (1− p) = p,

a więc wartość oczekiwana zmiennej X jest równa nieznanemu odsetkowipociągów opóźnionych. Przedział ufności dla prawdopodobieństwa występo-wania opóźnienia wyznaczamy, korzystając z wzorów na przedział ufnościdla wartości oczekiwanej. Mamy model 2., tj. rozkład inny niż normalny, alepróba o dużej liczebności.

x =1 · 160 + 0 · 840

1000= 0, 16,

s2 =1n

n∑i=1

x2i − (x)2 =

1n

n∑i=1

xi − (x)2 = x− (x)2 = x(1− x) =

= 0, 16 · 0, 84 = 0, 1344,

s =√

0, 1344.

Obliczamy

z1−α/2s√n

= 1, 645 ·√

0, 1344√1000

= 0, 019070 ≈ 0, 020.

73

Wyznaczona wartość przekraczała 10%x, więc zaokrąglenia dokonano w góręz dokładnością do 2 cyfr znaczących. Przedział ufności ma postać

[p, p] = [0, 16− 0, 020; 0, 16 + 0, 020] = [0, 140; 0, 180].

Ćwiczenie 4.5. [3, Zad. 2.55 str. 74] Wyznacz niezbędną liczbę pomiarów,jakie należy wykonać w celu wyznaczenia 95% przedziału ufności o długościnieprzekraczającej 0, 08 mm dla wartości przeciętnej grubości tkaniny, wie-dząc, że cecha ta ma rozkład normalny o odchyleniu standardowym 0, 1 mm.

Rozwiązanie.Dane: X – grubość tkaniny,

X ∼ N (a, σ2),σ = 0, 1 mm,1− α = 0, 95.

Mamy model 1a), tj. rozkład normalny o znanej wariancji. Długość prze-działu ufności wynosi

2z1−α/2σ√n

= 2z0,9750, 1√n

=0, 392√

n.

Rozwiązujemy nierówność0, 392√

n¬ 0, 08,

otrzymując n ­ 24, 01.W celu wyznaczenia żądanego przedziału ufności należy więc dokonać co

najmniej 25 pomiarów. �

Ćwiczenie 4.6. Jak liczna powinna być próba, aby na poziomie ufności0,95 ustalić procent wyrobów wadliwych, zakładając, że błąd oszacowanianie powinien przekraczać 0,03?

Rozwiązanie. X – czy wyrób jest wadliwy.Zmienna ta ma rozkład dwupunktowy

k 1 (tak) 0 (nie)P (X = k) p 1− p

Argumentując podobnie jak w ćwiczeniu 4.4, przedział ufności dla nieznanegoodsetka wyrobów wadliwych wyznaczamy z wzoru na przedział ufności dlawartości oczekiwanej zmiennej X. Błąd oszacowania jest równy

z1−α/2s√n

= z0,975

√x(1− x)√n

.

74

Wartość średniej x nie jest nam znana, ale wartość x(1−x) możemy oszacowaćz góry przez 1/4 (wielomian x(1−x) ma dwa miejsca zerowe: 0 i 1, a w punkcie1/2 osiąga wartość największą równą 1/4). Tak więc

z1−α/2s√n¬ 1, 96

√0, 25√n

=0, 98√n.

Rozwiązujemy nierówność0, 98√n¬ 0, 03,

otrzymując n ­ 1067, 109. Próba powinna mieć zatem liczebność co najmniej1068 obserwacji. �

Ćwiczenie 4.7. Z jakim prawdopodobieństwem oczekiwać można, że prze-dział liczbowy [52, 8%, 67, 2%] zawiera odsetek studentów uczęszczającychna wykłady profesora X, jeżeli na losowo wybranym wykładzie prowadzo-nym przez tego profesora w zeszłym semestrze stwierdzono obecność 300studentów na 500 zapisanych?

Rozwiązanie. X – czy student był na wykładzie.Zmienna ta ma rozkład dwupunktowy

k 1 (tak) 0 (nie)P (X = k) p 1− p

Mamy model 2., tj. rozkład inny niż normalny, ale próba liczna (n = 500).

Zauważmy, że x =300500

= 0, 6 jest środkiem podanego w zadaniu prze-

działu ufności. s =√x(1− x) =

√0, 24. Długość podanego przedziału to

0, 672− 0, 528 = 0, 144. Stąd

z1−αs√n

= 0, 072.

Rozwiązujemy to równanie:

z1−α/2 =√

0, 24√500

z1−α/2 = 3, 28633531− α/2 = 0, 9995

α = 0, 0011− α = 0, 999.

75

4.2. Ćwiczenia praktyczne

Ćwiczenie 4.8. Wykonaj ćwiczenie 4.3 w programie IBM SPSS Statistics.Dane znajdują się w pliku włókna.sav (dostępnym na platformie Moodle).

Rozwiązanie. Wybieramy z menu Analiza –> Opis statystyczny–> Eksploracja...W polu Zmienne zależne umieszczamy zmienną dlu-gosc wlokna. Pod przyciskiem Statystyki można wpisać poziom ufności(0, 99 zamiast domyślnego 0, 95). Otrzymujemy tabelę ze statystykami, wśródktórych jest dolna i górna granica przedziału ufności. Wynik różni się od tego,który otrzymaliśmy w ćwiczeniu 4.3, gdyż program pobrał wartość dokładnąstatystyki z tablic t-Studenta, a my użyliśmy przybliżenia wartością z tablicrozkładu normalnego.

Ćwiczenie 4.9. Wykonaj ćwiczenie 4.4 w programie IBM SPSS Statistics.Dane znajdują się w pliku pociagi.sav (dostępnym na platformie Moodle).

Rozwiązanie. Sprawdzamy, czy zmienna opoznienie ma wartości 0 i 1 (jeślinie, trzeba ją rekodować na inną zmienną o takich wartościach). Wybieramy

76

z menu Analiza –> Opis statystyczny –> Eksploracja... W poluZmienne zależne umieszczamy zmienną opoznienie. Pod przyciskiem Sta-tystyki sprawdzamy, czy poziom ufności wynosi 0, 9. Otrzymujemy tabelęze statystykami, wśród których jest dolna i górna granica przedziału ufności.

Są one identyczne z wyznaczonymi przez nas w ćwiczeniu 4.4. �

Ćwiczenie 4.10. W pliku ufnosc.sav (dostępnym na platformie Moodle)znajdują się dane wygenerowane z rozkładu normalnego, podzielone na 20grup po 10 obserwacji w każdej. Dla każdej z grup wyznacz 90% przedziałufności dla wartości oczekiwanej. Sprawdź, w ilu przypadkach otrzymanyprzedział nie pokrywa rzeczywistej wartości oczekiwanej, wiedząc, że danebyły generowane z rozkładu N (5, 1).

Rozwiązanie. Wybieramy Analiza –> Opis statystyczny –> Eks-ploracja.... W polu Zmienne zależne umieszczamy zmienną z wygene-rowanymi danymi. W polu Lista czynników umieszczamy zmienną Grupa.Pod przyciskiem Statystyki ustawiamy poziom ufności na 90%. Wykonu-jemy analizę, wybierając opcję Pokaż statystyki. Wyniki analizy podanesą poniżej w uproszczonej tabeli. Na niebiesko zaznaczono przedziały ufnościniezawierające estymowanego parametru, który był równy 5.

77

4.3. Zadania

Zadanie 4.1. [3, Zad. 2.46 str. 73] W losowo wybranej grupie 10 samocho-dów marki Skoda przeprowadzono badanie zużycia benzyny. Okazało się, żeśrednia zużycia benzyny (w l/100 km) dla tej grupy wyniosła 8,1. Zakładając,że badana cecha ma rozkład normalny o odchyleniu standardowym równym0,8, wyznacz przedział ufności dla wartości oczekiwanej na poziomie ufności99%.

Odpowiedź. [7, 4; 8, 8].

Zadanie 4.2. Zważono 10 torebek z nasionami nasturcji i otrzymano nastę-pujące wyniki (w gramach): 7, 8, 9, 9, 10, 10, 11, 11, 12, 13. Na podstawiepowyższych wyników, na poziomie ufności 0,9, skonstruuj przedział ufnościdla średniej wagi torebek z nasionami. Zakładamy, że rozkład wagi torebekjest normalny.

Odpowiedź. [8, 9; 11, 1].

Zadanie 4.3. [3, Zad. 2.52 str. 74] Zmierzono średnice 51 drzew wybranychlosowo w lesie sosnowym i otrzymano średnią średnicę równą 37,3 cm orazwariancję z próby s2 = 13, 5 cm2. Zakładając, że średnice drzew mają rozkład

78

normalny, wyznacz 90% przedział ufności dla wartości oczekiwanej średnicydrzewa w tym lesie.

Odpowiedź. [36, 4; 38, 2].

Zadanie 4.4. [5, Zad. 4. str. 273] Zużycie wody w fabryce podlega losowymwahaniom w kolejnych dniach roku. Na podstawie 365 obserwacji stwierdzo-no, że średnie dzienne zużycie wody wynosi 102 hl, a wariancja s2 = 81 hl2.Zakładając, że zużycie wody ma rozkład normalny, wyznacz przedział ufnościdla wartości oczekiwanej na poziomie ufności 0,98.

Odpowiedź. [100; 104].

Zadanie 4.5. [3, Zad. 2.50 str. 74] W pewnej przychodni lekarskiej wśródlosowo wybranych 980 osób poddanych prześwietleniu małoobrazkowemustwierdzono zmiany chorobowe u 10 osób. Na poziomie ufności 0,95 wyznaczprzedział ufności dla frakcji osób chorych wśród wszystkich osób obsługiwa-nych przez tę przychodnię.

Odpowiedź. [0, 0039; 0, 0165].

Zadanie 4.6. [3, na podstawie zad. 2.59 str. 75] W celu wyznaczenia war-tości przeciętnej długości drogi hamowania samochodu przeprowadzono 12prób i otrzymano odchylenie standardowe s = 1, 33. Zakładając, że drogahamowania ma rozkład normalny, zbadaj, czy liczba prób jest wystarczającado znalezienia 90% przedziału ufności dla wartości przeciętnej o długości niewiększej niż 0,5 m. Jeśli nie, jaką liczbę prób należy jeszcze przeprowadzić?

Odpowiedź. Nie jest to liczba wystarczająca. Trzeba jeszcze przeprowadzić65 prób.

Zadanie 4.7. Jak liczna powinna być próba, jeżeli przy współczynniku ufno-ści 0,99 chcemy oszacować, jaka część gospodarstw wiejskich posiada przynaj-mniej jedną żniwiarkę? Z poprzednich badań wiadomo, że frakcja ta wynosiła0,4. Zakładamy, że błąd szacunku nie powinien być większy niż 0,01.

Odpowiedź. Próba powinna mieć liczność 15 926.

Zadanie 4.8. Jak liczną należy wziąć próbę, aby określić udział osób po-siadających telefony komórkowe w populacji generalnej, zakładając, że błądszacunku powinien wynosić maksymalnie 6%, a poziom ufności 0,99?

Odpowiedź. Należy wziąć próbę o liczności 461 obserwacji.

79

80

Rozdział 5.

Testy statystyczne

Podstawą teoretyczną podanych dalej ćwiczeń i zadań będzie poniższe ze-stawienie najbardziej popularnych testów statystycznych przygotowane wrazz dr Agnieszką Goroncy na potrzebę wspólnie prowadzonych zajęć.

Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu Pθ, θ ∈ Θ orazniech α ∈ (0, 1) będzie poziomem istotności (najczęściej 0,1, 0,05, czy 0,01).

Oznaczenia:Φ – dystrybuanta rozkładu N(0, 1),z1−α = Φ−1(1− α),Ft(n−1) – dystrybuanta rozkładu t-Studenta z n− 1 stopniami swobody,tn−11−α = F−1

t(n−1)(1− α),ni, nij – liczebności empiryczne (zaobserwowane),n0i , n

0ij – liczebności teoretyczne,

Fχ2(k−1) – dystrybuanta rozkładu χ2 z k − 1 stopniami swobody,

uk−11−α = F−1

χ2(k−1)(1− α).

Jeżeli statystyka testowa należy do obszaru krytycznego, to hipotezę ze-rową odrzucamy i przyjmujemy hipotezę alternatywną. Jeżeli statystyka te-stowa nie należy do obszaru krytycznego, to nie ma podstaw do odrzuceniahipotezy zerowej.

W programie IBM SPSS Statistics zadeklarowany poziom istotności nale-ży porównać z istotnością wyliczaną przez program (tzw. p-wartość). Jest tominimalny poziom istotności, przy którym zaobserwowana wartość statystykitestowej prowadzi do odrzucenia hipotezy zerowej. W związku z tym hipote-zę zerową odrzucamy, gdy p-wartość jest mniejsza niż deklarowany przez naspoziom istotności, a nie mamy podstaw do odrzucenia, gdy jest większa.

81

1. Test Studenta dla jednej średniejHipoteza zerowa: Średnia wartość zmiennej jest równa określonej war-tości a0 (a = a0).Hipoteza alternatywna 1.: Średnia wartość zmiennej jest różna odokreślonej wartości a0 (a 6= a0).Hipoteza alternatywna 2.: Średnia wartość zmiennej jest mniejsza odokreślonej wartości a0 (a < a0).Hipoteza alternatywna 3.: Średnia wartość zmiennej jest większa odokreślonej wartości a0 (a > a0).

a) X ma rozkład normalny o znanej wariancji σ2.

Statystyka testowa: Tn =√nx− a0

σ.

Obszar krytyczny 1.: K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞),Obszar krytyczny 2.: K = (−∞,−z1−α),Obszar krytyczny 3.: K = (z1−α,+∞).

b) X ma rozkład normalny o nieznanej wariancji σ2.

Statystyka testowa: Tn =√nx− a0

s.

Obszar krytyczny 1.: K = (−∞,−tn−11−α/2) ∪ (tn−1

1−α/2,+∞)dla n ¬ 30,K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞)dla n > 30,

Obszar krytyczny 2.: K = (−∞,−tn−11−α) dla n ¬ 30,

K = (−∞,−z1−α) dla n > 30,

Obszar krytyczny 3.: K = (tn−11−α,+∞) dla n ¬ 30,

K = (z1−α,+∞) dla n > 30.

c) X ma rozkład dowolny, istnieje VarX, n > 30.

Statystyka testowa: Tn =√nx− a0

σ0lub Tn =

√nx− a0

s,

lub Tn =√nx− a0

s,

gdzie σ0 jest odchyleniem standardowym rozkładu przy założeniu praw-dziwości hipotezy zerowej, o ile wariancja rozważanego rozkładu jestfunkcją jego wartości oczekiwanej (np. w rozkładzie ”0-1”, dwumiano-wym, Poissona, geometrycznym itp.).Obszar krytyczny 1.: K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞),Obszar krytyczny 2.: K = (−∞,−z1−α),Obszar krytyczny 3.: K = (z1−α,+∞).

82

2. Test dla dwóch średnich i prób niezależnychHipoteza zerowa: Średnie wartości zmiennej są takie same w dwóch róż-nych populacjach (a1 = a2).Hipoteza alternatywna 1.: Średnie wartości zmiennej są różne w ba-danych populacjach (a1 6= a2).Hipoteza alternatywna 2.: Średnia wartość zmiennej w pierwszej po-pulacji jest mniejsza od średniej wartości zmiennej w drugiej populacji(a1 < a2).Hipoteza alternatywna 3.: Średnia wartość zmiennej w pierwszej po-pulacji jest większa od średniej wartości zmiennej w drugiej populacji(a1 > a2).

a) X ma w obu populacjach rozkład normalny o znanych wariancjach σ21

i σ22.

Statystyka testowa: Tn =x1 − x2√σ2

1

n1+σ2

2

n2

.

Obszar krytyczny 1.: K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞),

Obszar krytyczny 2.: K = (−∞,−z1−α),

Obszar krytyczny 3.: K = (z1−α,+∞).

b) X ma w obu populacjach rozkład normalny o nieznanych, ale równychwariancjach σ2

1 i σ22.

Statystyka testowa: Tn =x1 − x2√

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2· n1 + n2

n1n2

.

Obszar krytyczny 1.: K = (−∞,−tn1+n2−21−α/2 ) ∪ (tn1+n2−2

1−α/2 ,+∞),

Obszar krytyczny 2.: K = (−∞,−tn1+n2−21−α ),

Obszar krytyczny 3.: K = (tn1+n2−21−α ,+∞).

c) X ma w obu populacjach rozkład normalny o nieznanych wariancjachσ2

1 i σ22.

Statystyka testowa: Cn =x1 − x2√s2

1

n1+s2

2

n2

(Cochrana i Coxa).

Obszar krytyczny 1.: K = (−∞,−cn1,n21−α/2) ∪ (cn1,n2

1−α/2,+∞),

Obszar krytyczny 2.: K = (−∞,−cn1,n21−α ),

Obszar krytyczny 3.: K = (cn1,n21−α ,+∞),

83

gdzie

cn1,n21−α ≈

(s2

1

n1tn1−11−α +

s22

n2tn2−11−α

):(s2

1

n1+s2

2

n2

).

d) X ma w obu populacjach rozkład o nieznanych wariancjach σ21 i σ2

2,próby mają liczebności większe bądź równe 100.

Statystyka testowa: Tn =x1 − x2√s2

1

n1+s2

2

n2

.

Obszar krytyczny 1.: K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞),

Obszar krytyczny 2.: K = (−∞,−z1−α),

Obszar krytyczny 3.: K = (z1−α,+∞).

3. Test dla dwóch średnich i prób zależnychHipoteza zerowa: Dwie zmienne zależne (o rozkładach normalnych) ma-ją jednakowe średnie (inaczej: różnica D = X −Y odpowiadających sobiewartości zmiennych ma średnią równą 0).Hipoteza alternatywna 1.: Zmienne zależne mają różne średnie (ina-czej: różnica D = X − Y odpowiadających sobie wartości zmiennych maśrednią różną od 0).Hipoteza alternatywna 2.: Pierwsza ze zmiennych ma średnią mniejsząniż druga (inaczej: różnica D = X − Y odpowiadających sobie wartościzmiennych ma średnią ujemną).Hipoteza alternatywna 3.: Pierwsza ze zmiennych ma średnią większąniż druga (inaczej: różnica D = X − Y odpowiadających sobie wartościzmiennych ma średnią dodatnią).

Statystyka testowa: Tn =d

sd

√n.

Obszar krytyczny 1.: K = (−∞,−tn−11−α/2) ∪ (tn−1

1−α/2,+∞) dla n ¬ 30,K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞) dla n > 30,

Obszar krytyczny 2.: K = (−∞,−tn−11−α) dla n ¬ 30,

K = (−∞,−z1−α) dla n > 30,

Obszar krytyczny 3.: K = (tn−11−α,+∞) dla n ¬ 30,

K = (z1−α,+∞) dla n > 30.

4. Test chi-kwadrat zgodnościZałożenia testu: Zmienna ma rozkład dyskretny, przyjmuje tylko war-tości l1, . . . , lk z prawdopodobieństwami odpowiednio p1, . . . , pk, które niesą znane.

84

Hipoteza zerowa: Zmienna ma rozkład dyskretny z określonymi praw-dopodobieństwami p0

1, . . . , p0k.

Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodo-bieństwami niż zadane.

Statystyka testowa: χ2 =∑ki=1

(ni − n0i )

2

n0i

=∑ki=1

(ni − np0i )

2

np0i

.

Obszar krytyczny: K = (uk−11−α,+∞).

Uwagi:

• Jeżeli rozkład teoretyczny zależy od d nieznanych parametrów, to pa-rametry te wyznaczamy metodą największej wiarogodności, a liczbęstopni swobody zmniejszamy o d.

• Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczalne, gdynp0

i ­ 5, i = 1, . . . , k, a za dobre, gdy np0i ­ 10, i = 1, . . . , k. Jeśli

liczba kategorii jest duża (> 6), to zgadzamy się stosować przybli-żenie rozkładem chi-kwadrat także wtedy, gdy dla jednej lub dwóchkategorii 1 ¬ np0

i < 5. Mało liczne kategorie można również łą-czyć z kategoriami sąsiednimi, redukując wówczas odpowiednio liczbęstopni swobody.

• W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane gru-pujemy w k (10k ¬ n) klas. Prawdopodobieństwa teoretyczne wyli-czamy z dystrybuanty. Klasy staramy się dobrać tak, aby prawdo-podobieństwa znalezienia się w klasie były równe 1/k, a liczebnościteoretyczne były co najmniej równe 5. Testujemy wówczas hipotezęzerową: Zmienna ma rozkład o podanej dystrybuancie.

5. Test KołmogorowaHipoteza zerowa: Zmienna ma rozkład o zadanej dystrybuancie F .Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dys-trybuancie.Wymagania testu: Ciągłość dystrybuanty.

a) n ¬ 100Statystyka testu: Dn = max{D+

n , D−n },

gdzie D+n = max1¬i¬n

∣∣∣∣ in − F (x(i))∣∣∣∣, D−n = max1¬i¬n

∣∣∣∣F (x(i))−i− 1n

∣∣∣∣.Obszar krytyczny: (dn(1−α), 1] (odczytujemy z tablic Kołmogorowa-Smirnowa, jest to taka wartość, dla której P (Dn ­ dn(1− α)) = α).

b) n > 100.Statystyka testu:

√nDn =

√nmax{D+

n , D−n }

85

(czasem (√n+ 0, 12 + 0, 11/

√n)Dn),

gdzie D+n = max1¬i¬n

∣∣∣∣ in − F (x(i))∣∣∣∣, D−n = max1¬i¬n

∣∣∣∣F (x(i))−i− 1n

∣∣∣∣.Obszar krytyczny: (λ1−α,+∞), gdzie λ1−α jest kwantylem rzędu1− α granicznego rozkładu Kołmogorowa.

Uwaga: W przypadku danych zgrupowanych w klasy bierzemy pod uwa-gę prawy koniec każdej z klas i zamiast podanych statystyk wyznaczamywartość maksymalną statystyki |Fn(xi) − F (xi)|, gdzie Fn jest dystrybu-antą empiryczną.

6. Test chi-kwadrat niezależnościZałożenia testu: Cechy X, Y są jakościowe (nominalne lub o wartościachuporządkowanych).Hipoteza zerowa: X, Y są zmiennymi niezależnymi.Hipoteza alternatywna: X, Y są zależne.

Statystyka testowa: χ2 =k∑j=1

r∑i=1

(nij − n0ij)

2

n0ij

, gdzie

r – liczba kategorii zmiennej X (liczba wierszy w tablicy kontyngencji),k – liczba kategorii zmiennej Y (liczba kolumn w tablicy kontyngencji),

nij – liczba wystąpień w próbie par obserwacji (xi, yj),

n0ij =

k∑j=1

nij ·r∑i=1

nij

n,

n =r∑i=1

k∑j=1

nij.

Obszar krytyczny: K = (u(r−1)(k−1)1−α ,+∞).

Uwagi:

• Podobnie jak w teście chi-kwadrat zgodności, przybliżenie statystykitestowej rozkładem chi-kwadrat stosujemy, gdy liczebności teoretycz-ne prób w polach tabeli są stosunkowo duże (n0

ij ­ 5).

• Gdy tablica kontyngencji ma rozmiar 2× 2 i liczebności próby w po-lach tabeli są zbyt małe, można oprzeć się na tzw. dokładnym teścieFishera (którego tu nie będziemy omawiać).

• W przypadku pary cech o uporządkowanych kategoriach test nieza-leżności może okazać się zwodniczy. Może wówczas zajść potrzebawprowadzenia odpowiedniej miary zależności między cechami (tegonie będziemy tu omawiać).

86

Do rozwiązania zadań potrzebny będzie zestaw tablic statystycznych. Za-sadniczo odwoływać się będziemy do tablic dostępnych w [3], w szczególnościchodzi o tablice:

• Tablica 5.Wartości φ(u) dystrybuanty rozkładu normalnego N (0, 1),strona 286,

• Tablica 7. Kwantyle t(p, ν) rzędu p rozkładu Studenta o ν stopniachswobody, strony 287-288,

• Tablica 8. Kwantyle χ2(p, ν) rzędu p rozkładu χ2 o ν stopniach swo-body, strony 289-290,

• Tablica 12. Kwantyle dn(1− α) statystyki Dn Kołmogorowa, strona198,

• Tablica 13. Wartości K(y) dystrybuanty K statystyki√nDn Koł-

mogorowa przy n→∞, strona 299.

87

5.1. Ćwiczenia

Ćwiczenie 5.1. Według normy technicznej wykonanie obróbki mechanicznejjednego pierścienia stalowego powinno zajmować szlifierzowi 22 minuty. Wy-losowano 16 stanowisk roboczych, dla których średni czas obróbki wynosił 24minuty. Jednocześnie z przeprowadzonego badania generalnego wiadomo, żeodchylenie standardowe σ czasu obróbki wynosi 4 minuty. Zakładając, że czasobróbki ma rozkład normalny, zweryfikuj na poziomie istotności α = 0, 05hipotezę H0 : a = 22 wobec hipotezy alternatywnej H1 : a 6= 22. Wyznaczp-wartość dla tego testu.

Rozwiązanie.Dane: X – czas obróbki,

X ∼ N (a, σ2),n = 16,x = 24,σ = 4,α = 0, 05.

Hipoteza zerowa: Średni czas obróbki pierścienia stalowego wynosi 22 minuty(a = 22).Hipoteza alternatywna: Średni czas obróbki pierścienia stalowego jest różnyod 22 minut (a 6= 22).

Wykonujemy test Studenta dla jednej średniej (model 1a). Statystykatestowa ma postać

Tn =√nx− a0

σ=√

1624− 22

4= 2.

Odczytujemy z tablic rozkładu normalnego

z1−α/2 = z0,975 = 1, 96.

Obszar krytyczny ma postać

K = (−∞; ,−1, 96) ∪ (1, 96; +∞) 3 2 = Tn,

a zatem odrzucamy hipotezę zerową, a przyjmujemy hipotezę alternatywną.W celu wyznaczenia p-wartości testu przyrównujemy wartość statystyki

Tn do teoretycznego krańca obszaru krytycznego i znajdujemy istotność α:

z1−α/2 = 21− α/2 = 0, 9772

α = 0, 0456.

88

p-wartość testu wynosi 0, 0456 i jest mniejsza od zakładanego poziomu istot-ności, co również prowadzi do odrzucenia hipotezy zerowej i przyjęcia alter-natywnej. �

Ćwiczenie 5.2. Liczbę sprzedanych biletów MZK w Toruniu w kolejnychniedzielach maja i czerwca przedstawia tabelka.

Numer niedzieli 1 2 3 4 5 6 7 8Liczba biletów w tys. 2,9 3,3 3,2 3,2 3,2 3,0 2,9 3,1

Na podstawie tych danych, na poziomie istotności α = 0, 1, przetestuj hipo-tezę, że średnia liczba sprzedawanych biletów w niedziele jest równa 3, 2 tys.przeciw hipotezie, że średnia sprzedawanych biletów jest

a) różna od 3, 2 tys.,

b) mniejsza niż 3, 2 tys.,

jeżeli wiadomo, że liczba sprzedawanych biletów ma rozkład normalny.

Rozwiązanie.Dane: X – liczba biletów sprzedawanych w niedzielę,

X ∼ N (a, σ2),n = 8,α = 0, 1.

Wyznaczamy najpierw średnią i odchylenie standardowe dla podanej próbki.

i xi xi − x (xi − x)2

1 2, 9 −0, 2 0, 042 3, 3 0, 2 0, 043 3, 2 0, 1 0, 014 3, 2 0, 1 0, 015 3, 2 0, 1 0, 016 3, 0 −0, 1 0, 017 2, 9 −0, 2 0, 048 3, 1 0 0Σ 24, 8 0, 16

x =24, 8

8= 3, 10, s =

√0, 16

7.

Wykonujemy test Studenta dla jednej próby (model 1b, n ¬ 30).

89

a) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jestrówna 3, 2 tys. (a = 3, 2).Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w niedzielejest różna od 3, 2 tys. (a 6= 3, 2).

Statystyka testowa

Tn =√nx− a0

s=√

83, 1− 3, 2√

0,167

= −1, 87.

Z tablic rozkładu Studenta o 7 stopniach swobody odczytujemy

tn−11−α/2 = t70,95 = 1, 89458.

Obszar krytyczny ma postać

K = (−∞;−1, 89458) ∪ (1, 89458; +∞) 63 −1, 87 = Tn,

co oznacza, że nie mamy podstaw do odrzucenia hipotezy zerowej na rzeczhipotezy alternatywnej, że średnia liczba sprzedawanych biletów jest różnaod 3, 2 tys.

b) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jestrówna 3, 2 tys. (a = 3, 2).Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w niedzielejest mniejsza od 3, 2 tys. (a < 3, 2).

Statystyka testowa jest tak jak poprzednio równa Tn = −1, 87. Z tablicrozkładu Studenta o 7 stopniach swobody odczytujemy

tn−11−α = t70,9 = 1, 41492.

Obszar krytyczny ma postać

K = (−∞;−1, 41492) 3 −1, 87 = Tn,

co oznacza, że odrzucamy hipotezę zerową na rzecz hipotezy alternatyw-nej, że średnia liczba sprzedawanych biletów jest mniejsza od 3, 2 tys.

Ćwiczenie 5.3. [5, na podstawie zad. 2. str. 291] Na pudełkach zapałekjest napisane „średnio 64 zapałki”. Wylosowano 1000 pudełek, dla którychśrednia liczba zapałek wyniosła 65 sztuk, a wariancja s2 wynosiła 625. Zwe-ryfikuj na poziomie istotności α = 0, 05 hipotezę H0 : a = 64 wobec hipotezyalternatywnej H1 : a > 64. Wyznacz p-wartość dla tego testu.

90

Rozwiązanie.Dane: X – liczba zapałek w pudełku,

n = 1000,x = 65,s2 = 625⇒ s = 25,α = 0, 05.

Hipoteza zerowa: Średnio w pudełku znajdują się 64 zapałki (a = 64).Hipoteza alternatywna: Średnio w pudełku znajduje się więcej niż 64 zapałki(a > 64).

Wykonujemy test Studenta dla jednej średniej (model 1c). Rozkład zmien-nej jest nieznany, ale próba jest liczna. Statystyka testowa ma postać

Tn =√nx− a0

s=√

100065− 64

25≈ 1, 265.

Odczytujemy z tablic rozkładu normalnego

z1−α = z0,95 = 1, 645.

Obszar krytyczny ma postać

K = (1, 645; +∞) 63 1, 265 ≈ Tn,

a zatem nie mamy podstaw do odrzucenia hipotezy zerowej.W celu wyznaczenia p-wartości testu przyrównujemy wartość statystyki

Tn do teoretycznego krańca obszaru krytycznego i znajdujemy istotność α:

z1−α = 1, 2651− α = 0, 898

α = 0, 102.

p-wartość testu wynosi 0, 102 i jest większa od zakładanego poziomu istot-ności, co również nie daje podstaw do odrzucenia hipotezy zerowej. �

Ćwiczenie 5.4. [3, na podstawie zad. 3.11 str. 94] Producent płatków my-dlanych wysunął hipotezę, że stopień wyprania tkaniny wełnianej płatka-mi mydlanymi jest wyższy od stopnia wyprania płynem do prania. W celusprawdzenia tej hipotezy wykonano pomiary stopnia wyprania 10 wycinkówtkaniny pranej płatkami, otrzymując w procentach wyniki

74, 4, 75, 1, 73, 0, 72, 8, 76, 2, 74, 6, 76, 0, 73, 4, 72, 9, 71, 6,

oraz 7 wycinków pranych płynem do prania, otrzymując

56, 8, 57, 8, 54, 6, 59, 0, 57, 1, 58, 2, 57, 6.

91

Zakładając, że stopień wyprania tkaniny ma rozkład normalny i wiedząc,że test równości wariancji wykonany dla powyższych próbek nie pozwoliłna odrzucenie hipotezy zerowej, na poziomie istotności α = 0, 05 zweryfikujhipotezę wysuniętą przez producenta.

Rozwiązanie.Dane: X1 – stopień wyprania tkaniny w płatkach,

X2 – stopień wyprania tkaniny w płynie do prania,X1 ∼ N (a1, σ

21),

X2 ∼ N (a2, σ22),

σ21 = σ2

2,n1 = 10,n2 = 7,α = 0, 05.

Hipoteza zerowa: Średni stopień wyprania tkaniny w płatkach jest taki samjak średni stopień wyprania tkaniny w płynie do prania (a1 = a2).Hipoteza alternatywna: Średni stopień wyprania tkaniny w płatkach jest wyż-szy od średniego stopnia wyprania tkaniny w płynie do prania (a1 > a2).

Wyznaczamy najpierw średnie i wariancje dla obu próbek.

x1i x1i − x1 (x1i − x1)2 x2i x2i − x2 (x2i − x2)2

74, 4 0, 4 0, 16 56, 8 −0, 5 0, 2575, 1 1, 1 1, 21 57, 8 0, 5 0, 2573, 0 −1, 0 1, 00 54, 6 −2, 7 7, 2972, 8 −1, 2 1, 44 59, 0 1, 7 2, 8976, 2 2, 2 4, 84 57, 1 −0, 2 0, 0474, 6 0, 6 0, 36 58, 2 0, 9 0, 8176, 0 2, 0 4, 00 57, 6 0, 3 0, 0973, 4 −0, 6 0, 3672, 9 −1, 1 1, 2171, 6 −2, 4 5, 76

740, 0 20,34 401,1 11,62

x1 =74010

= 74, 00, s21 =

20, 349

, x2 =401, 1

7= 57, 30, s2

2 =11, 62

6.

Wykonujemy test Studenta dla dwóch prób niezależnych (model 2b). War-tość statystyki Tn jest równa

Tn =x1 − x2√

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2· n1 + n2

n1n2

=74− 57, 3√

9· 20,349 +6· 11,62

610+7−2 · 10+7

10·7

≈ 23, 21577.

92

Z tablic rozkładu Studenta odczytujemy wartość

tn1+n2−21−α = t15

0,95 = 1, 75305.

Obszar krytyczny ma postać

K = (1, 75305; +∞) 3 23, 21577 ≈ Tn,

odrzucamy więc hipotezę zerową na korzyść hipotezy alternatywnej. �

Ćwiczenie 5.5. [3, na podstawie zad. 3.13 str. 96] Średnia prędkość tram-waju (w km/h) obliczona na podstawie zmierzonych w środę prędkości 200tramwajów była równa 15, 1, natomiast średnia prędkość obliczona dla 120tramwajów w niedzielę wynosiła 16, 4. Wariancja prędkości wynosiła odpo-wiednio s2

1 = 6, 8, s22 = 4, 2. Na podstawie uzyskanych danych zweryfikuj

na poziomie istotności α = 0, 05 hipotezę, że średnia prędkość tramwajóww środę jest mniejsza niż w niedzielę.

Rozwiązanie.Dane: X1 – prędkość tramwaju w środę,

X2 – prędkość tramwaju w niedzielę,n1 = 200,n2 = 120,x1 = 15, 1,x2 = 16, 4,s2

1 = 6, 8,s2

2 = 4, 2,α = 0, 05.

Hipoteza zerowa: Średnia prędkość tramwajów w środę jest taka sama jakw niedzielę (a1 = a2).Hipoteza alternatywna: Średnia prędkość tramwajów w środę jest mniejszaniż w niedzielę (a1 < a2).

Wykonujemy test Studenta dla dwóch średnich i prób niezależnych (model2d). Obliczamy wartość statystyki testowej

Tn =x1 − x2√s21n1

+ s22n2

=15, 1− 16, 4√

6,8200 + 4,2

120

≈ −4, 95.

Z tablic rozkładu normalnego odczytujemy wartość

z1−α = z0,95 = 1, 645.

Obszar krytyczny ma postać

K = (−∞,−1, 645) 3 −4, 95 ≈ Tn,

93

a zatem odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej.Możemy wyznaczyć również p-wartość testu:

Tn = −z1−α

−4, 95 = −z1−α

4, 95 = z1−α

1− α ≈ 1α ≈ 0.

p-wartość testu jest w przybliżeniu równa 0, co pozwala na odrzucenie hipo-tezy zerowej na rzecz hipotezy alternatywnej. �

Ćwiczenie 5.6. [3, na podstawie 3.14 str. 97] Zmierzono ciśnienie tętniczewśród losowo wybranej grupy chorych na pewną chorobę przed i po podaniutakiego samego leku każdemu z badanych pacjentów. Otrzymano następującewyniki:

Nr pacjenta 1 2 3 4 5 6 7 8Ciśnienie przed 210 180 260 270 190 250 180 200Ciśnienie po 180 160 220 260 200 230 180 190

Na poziomie istotności α = 0, 05 zweryfikuj hipotezę, że stosowany lek niepowoduje zmiany ciśnienia u pacjentów, wobec hipotezy alternatywnej, żewartość przeciętna ciśnienia przed podaniem leku jest wyższa niż po jegopodaniu, wiedząc, że ciśnienie tętnicze ma rozkład normalny.

Rozwiązanie.Dane: X – wartość ciśnienia pacjenta przed podaniem leku,

Y – wartość ciśnienia pacjenta po podaniu leku,X ∼ N (a1, σ

21),

Y ∼ N (a2, σ22),

α = 0, 05.Hipoteza zerowa: Średnia wartość ciśnienia przed podaniem leku pacjentomjest taka sama jak po jego podaniu (a1 = a2).Hipoteza alternatywna: Średnia wartość ciśnienia pacjentów przed podaniemleku jest wyższa niż po jego podaniu (a1 > a2).

Korzystamy z testu Studenta dla dwóch średnich i prób zależnych (mo-del 3). Wyznaczamy najpierw średnią i odchylenie standardowe zmiennejD = X − Y .

94

di = xi − yi di − d (di − d)2

30 15 22520 5 2540 25 62510 −5 25−10 −25 625

20 5 250 −15 225

10 −5 25120 1800

d =1208

= 15, s2d =

18007

.

Wartość statystyki testowej wynosi

Tn =d

sd

√n =

15√1800

7

·√

8 ≈ 2, 64575.

Z tablic rozkładu Studenta odczytujemy wartość

tn−11−α = t70,95 = 1, 89458.

Obszar krytyczny ma postać

K = (1, 89458; +∞) 3 2, 64575 = Tn,

co oznacza, że odrzucamy hipotezę zerową na rzecz alternatywnej. �

Ćwiczenie 5.7. W czasie sondażu przeprowadzonego przez pracownię ba-dania opinii społecznej spośród 1100 ankietowanych dorosłych Polaków 1090odpowiedziało, że w ubiegłym miesiącu nie przeczytali żadnej książki, a po-zostali potwierdzili, że przeczytali przynajmniej jedną książkę. Na podstawietych danych, na poziomie istotności 0, 01, przetestuj hipotezę, że odsetek do-rosłych Polaków, którzy nie przeczytali w ubiegłym miesiącu żadnej książkiwynosi 99%, przeciw hipotezie, że odsetek ten jest inny. Użyj testu dla jednejśredniej oraz testu chi-kwadrat zgodności.

Rozwiązanie. X – czy respondent przeczytał w ubiegłym miesiącu przynaj-mniej jedną książkę.

Zmienna ta ma rozkład dwupunktowy

k 1 (nie) 0 (tak)P (X = k) p 1− p

95

Spośród respondentów 10 odpowiedziało „tak”, a 1090 „nie”.Zmienna o podanym rozkładzie ma wartość oczekiwaną EX = p, co ozna-

cza, że średnia z populacji jest równa odsetkowi osób, które odpowiedziały„nie”. Możemy zatem do testowania tego odsetka użyć testu Studenta dlajednej średniej. Zmienna nie ma co prawda rozkładu normalnego, ale liczeb-ność próby jest duża (model 1c).Hipoteza zerowa: Średnia wartość zmiennej X wynosi 0, 99.Hipoteza alternatywna: Średnia wartość zmiennej X jest różna od 0, 99.

Obliczamy średnią z próby:

x =1090 · 1 + 10 · 0

1100=

109110

.

Odchylenie standardowe jest równe (wzór tylko dla rozkładu dwupunktowe-go)

s =√x(1− x) =

√109110· 1

110=

√109

110.

Wartość statystyki testowej

Tn =√nx− a0

s=√

1100109110 −

99100√

109110

≈ 0, 32.

Z tablic rozkładu normalnego odczytujemy

z1−α/2 = z0,995 = 2, 576.

Obszar krytyczny ma postać

K = (−∞;−2, 576) ∪ (2, 576,+∞) 63 0, 32,

co nie daje podstaw do odrzucenia hipotezy zerowej.Możemy również wyznaczyć p-wartość tego testu

z1−α/2 = Tn

z1−α/2 = 0, 321− α/2 = 0, 6255

α = 0, 7490.

p-wartość testu wynosi 0, 7490 i jest większa od zakładanego poziomu istot-ności, co nie daje podstaw do odrzucenia hipotezy zerowej.

Podaną w zadaniu hipotezę możemy przetestować również testem chi-kwadrat.

96

Hipoteza zerowa: Zmienna X przyjmuje wartości 0 i 1 z prawdopodobień-stwami odpowiednio 0, 99 i 0, 01.Hipoteza alternatywna: Zmienna X przyjmuje wartości 0 i 1 z prawdopodo-bieństwami innymi niż podane.

Wykonujemy tabelę dla testu chi-kwadrat.

xi ni p0i n0

i = p0in (ni − n0

i )2/n0

i

1 1090 0,99 1089 1/10890 10 0,01 11 1/11

Wartość statystyki

χ2 =1

1089+

111

=1001089

= 0, 092.

Z tablic rozkładu chi-kwadrat odczytujemy

uk−11−α = u1

0,99 = 6, 635.

Obszar krytycznyK = (6, 635; +∞) 63 χ2,

nie mamy zatem podstaw do odrzucenia hipotezy zerowej.p-wartość testu wynosi

uk−11−α = χ2

u11−α = 0, 092

1− α ≈ 0, 25α ≈ 0, 75

i jest większa od zakładanego poziomu istotności, co nie daje podstaw doodrzucenia hipotezy zerowej. �

Ćwiczenie 5.8. Tabela przedstawia dane dotyczące liczby roślin ostu napoletkach doświadczalnych.

Liczba roślin ostu 0 1 2 3 4 5 6 i więcejLiczba poletek 24 57 65 35 10 6 3

Na poziomie istotności 0,05 zweryfikuj hipotezę, że rozkład ten jest rozkłademPoissona.

97

Rozwiązanie. X – liczba roślin ostu na poletku.W związku z tym, że parametr λ rozkładu Poissona jest nieznany, przy-

bliżamy go średnią z próbki (jako wartość oczekiwaną tego rozkładu):

λ ≈ x =0 · 24 + 1 · 57 + 2 · 65 + 3 · 35 + 4 · 10 + 5 · 6 + 4 · 3

200= 1, 9.

Testujemy hipotezy:Hipoteza zerowa: Rozkład liczby roślin ostu na poletku jest rozkładem Pois-sona z parametrem 1, 9.Hipoteza alternatywna: Rozkład liczby roślin ostu na poletku jest inny.

Wykonujemy tabelę dla testu chi-kwadrat, obliczając prawdopodobień-stwa oczekiwane p0

i z wzoru definiującego rozkład Poissona z podanym para-

metrem, tj. p0i = e−1,9 1, 9xi

xi!.

xi ni p0i n0

i = np0i (zaokrąglone)

0 24 0, 149569 301 57 0, 284180 572 65 0, 269971 543 35 0, 170982 344 10 0, 081216 165 6 0, 030862 6

6 i więcej 3 0, 01322 3

Prawdopodobieństwo wystąpienia 6 i więcej roślin na poletku, obliczyliśmy,odejmując od 1 wyznaczone wcześniej prawdopodobieństwa. Zauważmy, żew ostatnich dwóch klasach liczebności oczekiwane są mniejsze niż 10, łączymyje zatem z klasą poprzednią, tworząc klasę „4 i więcej”.

xi ni n0i (ni − n0

i )2/n0

i

0 24 30 36/30 ≈ 1, 201 57 57 02 65 54 121/54 ≈ 2, 243 35 34 1/340, 03

4 i więcej 19 25 36/25 ≈ 1, 44χ2 = 4, 91

Odczytujemy z tablic rozkładu chi-kwadrat

uk−1−r1−α = u5−1−1

0,95 = 7, 815,

pamiętając o zmniejszeniu liczby stopni swobody o 1 ze względu na 1 para-metr wyliczony dodatkowo z próbki. Obszar krytyczny ma postać

K = (7, 815; +∞) 63 χ2,

98

a więc nie mamy podstaw do odrzucenia hipotezy zerowej.p-wartość testu wynosi

uk−1−r1−α = χ2

u31−α = 4, 91

1− α ≈ 0, 8α ≈ 0, 2,

co jest większe od zakładanego poziomu istotności i nie daje podstaw doodrzucenia hipotezy zerowej. �

Ćwiczenie 5.9. Generator liczb losowych wygenerował 20 liczb z rozkładuwykładniczego E(2). Liczby są uporządkowane niemalejąco:

0, 02 0, 03 0, 04 0, 04 0, 06 0, 11 0, 110, 18 0, 22 0, 26 0, 27 0, 44 0, 46 0, 600, 65 0, 80 0, 85 0, 95 1, 20 2, 00

Za pomocą testu χ2 oraz testu Kołmogorowa na poziomie istotności 0,05przetestuj zgodność tych danych z rozkładem E(2).

Rozwiązanie. Wykonujemy najpierw test chi-kwadrat. Dzielimy próbkę nak klas takich, że 10k ¬ 20, czyli k ¬ 2. Decydujemy się na k = 2. Wyzna-czamy punkt podziału a z równości P ((0, a)) = 1/2. Ponieważ

P ((0, a)) =∫ a

02e−2x dx = 1− e−2a,

to mamy do rozwiązania równanie

1− e−2a = 1/2,

które daje a = ln 2/2 ≈ 0, 35.Hipoteza zerowa: Badany rozkład jest rozkładem wykładniczym z parame-trem λ = 2.Hipoteza alternatywna: Badany rozkład jest inny.

Po dokonaniu podziału na klasy mamy

nr klasy klasa ni pi n0i (ni − n0

i )2/n0

i

1 (0; 0, 35) 11 1/2 10 1/102 (0, 35; +∞) 9 1/2 10 1/10

99

Sumując wyrażenia znajdujące się w ostatniej kolumnie, otrzymujemy

χ2 =110

+110

= 0, 2.

Z tablic rozkładu chi-kwadrat odczytujemy

u10,95 = 3, 841.

Obszar krytyczny ma zatem postać

K = (3, 841; +∞) 63 χ2,

co oznacza, że nie mamy podstaw do odrzucenia hipotezy o zgodności bada-nego rozkładu z rozkładem wykładniczym E(2).

Tę samą hipotezę możemy przetestować testem Kołmogorowa. Wiedząc,że dystrybuanta rozkładu wykładniczego E(2) dana jest wzorem

F (t) = (1− e−2t)1(0,+∞)(t),

tworzymy tabelę

i xii

n

i− 1n

F (xi)∣∣∣∣ in − F (xi)

∣∣∣∣ ∣∣∣F (xi)− i−1n

∣∣∣1 0, 02 0, 05 0, 00 0, 039 0, 011 0, 0392 0, 03 0, 10 0, 05 0, 058 0, 042 0, 0083 0, 04 0, 15 0, 10 0, 077 0, 073 0, 0334 0, 04 0, 20 0, 15 0, 077 0, 123 0, 0735 0, 06 0, 25 0, 20 0, 113 0, 137 0, 0876 0, 11 0, 30 0, 25 0, 197 0, 103 0, 0537 0, 11 0, 35 0, 30 0, 197 0, 153 0, 1038 0, 18 0, 40 0, 35 0, 302 0, 098 0, 0489 0, 22 0, 45 0, 40 0, 356 0, 094 0, 04410 0, 26 0, 50 0, 45 0, 405 0, 095 0, 04511 0, 27 0, 55 0, 50 0, 417 0, 133 0, 08312 0, 44 0, 60 0, 55 0, 585 0, 015 0, 03513 0, 46 0, 65 0, 60 0, 601 0, 049 0, 00114 0, 60 0, 70 0, 65 0, 699 0, 001 0, 04915 0, 65 0, 75 0, 70 0, 727 0, 023 0, 02716 0, 80 0, 80 0, 75 0, 798 0, 002 0, 04817 0, 85 0, 85 0, 80 0, 817 0, 033 0, 01718 0, 95 0, 90 0, 85 0, 850 0, 050 0, 00019 1, 20 0, 95 0, 90 0, 909 0, 041 0, 00920 2, 00 1, 00 0, 95 0, 982 0, 018 0, 032

100

Największą wartością wyrażenia∣∣∣∣ in − F (xi)

∣∣∣∣ jest D+n = 0, 153, a wyrażenia∣∣∣F (xi)− i−1

n

∣∣∣ jest D−n = 0, 103. Stąd Dn = max{D+n , D

−n } = 0, 153. Z tablic

Kołmogorowa-Smirnowa odczytujemy wartość

dn(1− α) = d20(1− 0, 05) = 0, 287.

Obszar krytyczny ma postać

K = (0, 287; 1] 63 0, 153 = Dn.

Oznacza to, że nie mamy podstaw do odrzucenia hipotezy o zgodności z roz-kładem wykładniczym E(2). �

Ćwiczenie 5.10. [3, Zad. 3.85 str. 142] Z populacji pobrano 1000 elementowąpróbkę. Wyniki jej badania ze względu na cechę X przedstawia tabelka

Przedział [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8)Liczność 120 273 280 192 92 34 7 2

Na poziomie istotności 0,01 testem Kołmogorowa zweryfikuj hipotezę, że ce-cha X ma rozkład o dystrybuancie

F (x) =

0, x ¬ 0,1− e−x2/2, x > 0.

Rozwiązanie. Hipoteza zerowa: Cecha X ma rozkład o dystrybuancie F .Hipoteza alternatywna: Cecha X ma rozkład o innej dystrybuancie.

Tworzymy tabelę do testu Kołmogorowa, wpisując jako xi prawe graniceklas.

xi ni ni/1000 Fn(xi) F (xi) |Fn(xi)− F (xi)|1 120 0, 120 0, 120 0, 393 0, 2732 273 0, 273 0, 393 0, 865 0, 4723 280 0, 280 0, 673 0, 989 0, 3164 192 0, 192 0, 865 1, 000 0, 1355 92 0, 092 0, 957 1, 000 0, 0436 34 0, 034 0, 991 1, 000 0, 0097 7 0, 007 0, 998 1, 000 0, 0028 2 0, 002 1, 000 1, 000 0, 000

Największą wartością różnicy |Fn(xi)−F (xi)| jest Dn = 0, 472. Ze względu nadużą liczebność próby obliczamy statystykę

√nDn =

√1000·0, 472 ≈ 14, 926.

Z tablicy wartości dystrybuanty statystyki√nDn Kołmogorowa odczytujemy

λ1−α = λ0,99 = 1, 628.

101

Obszar krytyczny ma zatem postać

K = (1, 628; +∞) 3 14, 926 ≈√nDn,

co oznacza, że odrzucamy hipotezę zerową. �

Ćwiczenie 5.11. Wybrano losowo 780 mieszkańców Torunia, których za-pytano o najchętniej oglądany rodzaj seriali. Poniższa tabela przedstawiawyniki sondażu. Za pomocą testu chi-kwadrat niezależności, przyjmując po-ziom istotności 0,05, zbadaj czy płeć telewidza i rodzaj seriali przez niegooglądanych są niezależne.

Rodzaj serialiPłeć telenowele seriale kryminalne seriale komediowe Razem

Kobieta 210 90 160 460Mężczyzna 50 150 120 320

Razem 260 240 280 780

Rozwiązanie. Hipoteza zerowa: Płeć telewidza i rodzaj oglądanych przezniego seriali są niezależne.Hipoteza alternatywna: Płeć telewidza i rodzaj oglądanych przez niego serialisą zależne.

Tabelę zapisujemy w postaci

Płeć Rodzaj seriali nij n0ij (nij − n0

ij)2/n0

ij

kobieta telenowele 210 460780 ·

260780 · 780 ≈ 153 (210−153)2

153 = 21, 24kryminalne 90 460

780 ·240780 · 780 ≈ 142 (90−142)2

142 = 19, 04komediowe 160 460

780 ·280780 · 780 ≈ 165 (160−165)2

165 = 0, 15mężczyzna telenowele 50 320

780 ·260780 · 780 ≈ 107 (50−107)2

107 = 30, 36kryminalne 150 320

780 ·240780 · 780 ≈ 98 (150−98)2

98 = 27, 59komediowe 120 320

780 ·280780 · 780 ≈ 115 (120−115)2

115 = 0, 22

Sumując wartości zapisane w ostatniej kolumnie, otrzymujemy

χ2 = 98, 6.

Z tablic rozkładu chi-kwadrat odczytujemy wartość

u(r−1)(k−1)1−α = u1·2

0,95 = 5, 991.

Obszar krytyczny ma postać

K = (5, 991; +∞) 3 χ2,

a więc odrzucamy hipotezę zerową, a przyjmujemy hipotezę o zależności ro-dzaju oglądanych seriali od płci telewidza. �

102

Ćwiczenie 5.12. Spytano 1000 respondentów o średni dzienny czas spędza-ny przed telewizorem. Na podstawie wyników przedstawionych w poniższejtabeli kontyngencji, przetestuj na poziomie istotności 0,025 niezależność licz-by godzin spędzanych dziennie przed telewizorem od wykształcenia telewi-dzów.

WykształcenieLiczba h podstawowe zas. zawodowe średnie wyższe

0-2 65 57 63 552-4 68 70 62 604-6 78 82 68 72

powyżej 6 53 60 43 44

Rozwiązanie. Sumujemy wartości podane w wierszach i kolumnach tabeli

WykształcenieLiczba h podstawowe zas. zawodowe średnie wyższe Razem

0-2 65 57 63 55 2402-4 68 70 62 60 2604-6 78 82 68 72 300

powyżej 6 53 60 43 44 200Razem 264 269 236 231 1000

Hipoteza zerowa: Liczba godzin spędzanych dziennie przed telewizorem i wy-kształcenie telewidzów są niezależne.Hipoteza alternatywna: Liczba godzin spędzanych dziennie przed telewizo-rem i wykształcenie telewidzów są zależne.

Wykonujemy tabelę dla testu chi-kwadrat.

Liczba h Wykształcenie nij n0ij (nij − n0

ij)2/n0

ij

0-2 podstawowe 65 0, 240 · 0, 264 · 1000 ≈ 63 (65−63)2

63 = 0, 0635zawodowe 57 0, 240 · 0, 269 · 1000 ≈ 65 (57−65)2

65 = 0, 9846średnie 63 0, 240 · 0, 236 · 1000 ≈ 57 (63−57)2

57 = 0, 6316wyższe 55 0, 240 · 0, 231 · 1000 ≈ 55 (55−55)2

55 = 0, 00002-4 podstawowe 68 0, 260 · 0, 264 · 1000 ≈ 69 (68−69)2

69 = 0, 0145zawodowe 70 0, 260 · 0, 269 · 1000 ≈ 70 (70−70)2

70 = 0, 0000średnie 62 0, 260 · 0, 236 · 1000 ≈ 61 (62−61)2

61 = 0, 0164wyższe 60 0, 260 · 0, 231 · 1000 ≈ 60 (60−60)2

60 = 0, 0000

103

4-6 podstawowe 78 0, 300 · 0, 264 · 1000 ≈ 79 (78−79)2

79 = 0, 0127zawodowe 82 0, 300 · 0, 269 · 1000 ≈ 81 (82−81)2

81 = 0, 0123średnie 68 0, 300 · 0, 236 · 1000 ≈ 71 (68−71)2

71 = 0, 1268wyższe 72 0, 300 · 0, 231 · 1000 ≈ 69 (72−69)2

69 = 0, 1304powyżej 6 podstawowe 53 0, 200 · 0, 264 · 1000 ≈ 53 (53−53)2

53 = 0, 0000zawodowe 60 0, 200 · 0, 269 · 1000 ≈ 54 (60−54)2

54 = 0, 6667średnie 43 0, 200 · 0, 236 · 1000 ≈ 47 (43−47)2

47 = 0, 3404wyższe 44 0, 200 · 0, 231 · 1000 ≈ 46 (44−46)2

46 = 0, 0870

Sumując wartości zapisane w ostatniej kolumnie, otrzymujemy

χ2 = 3, 0869.

Z tablic rozkładu chi-kwadrat odczytujemy wartość

u(r−1)(k−1)1−α = u3·3

0,975 = 19, 023.

Obszar krytyczny ma postać

K = (19, 023; +∞) 63 χ2,

a więc nie mamy podstaw do odrzucenia hipotezy o niezależności liczby go-dzin spędzanych przed telewizorem od wykształcenia telewidza. �

5.2. Ćwiczenia praktyczne

Program IBM SPSS Statistics udostępnia omówione testy statystyczne w na-stępujących polach menu:

• test Studenta dla jednej średniej:Analiza –> Porównywanie śred-nich –> Test t dla jednej próby...,

• test dla dwóch średnich i prób niezależnych: Analiza –> Porówny-wanie średnich –> Test t dla prób niezależnych...

• test dla dwóch średnich i prób zależnych: Analiza –> Porównywa-nie średnich –> Test t dla prób zależnych...

• test chi-kwadrat zgodności:Analiza –> Testy nieparametryczne–> Testy tradycyjne –> Chi-kwadrat... (podajemy proporcjekategorii zmiennej ustawionych rosnąco) lub Analiza –> Testy nie-parametryczne –> Jedna próba... (podajemy prawdopodobień-stwa występowania poszczególnych kategorii),

104

• test Kołmogorowa: Analiza –> Testy nieparametryczne –>Testy tradycyjne –> K-S dla jednej próby... (zgodność z roz-kładem o parametrach szacowanych na podstawie próby) lub Anali-za –> Testy nieparametryczne –> Jedna próba... (dodatko-wo w menu Analiza –> Opis statystyczny –> Eksploracja...jest możliwość zbadania normalności rozkładu testami Kołmogorowa-Smirnowa z poprawką istotności Lillieforsa oraz Shapiro-Wilka),

• test chi-kwadrat niezależności: Analiza –> Opis statystyczny –>Tabele krzyżowe...

Ćwiczenie 5.13. Wykonaj ćwiczenie 5.2 w programie IBM SPSS Statistics.Dane znajdują się w pliku bilety.sav (dostępnym na platformie Moodle).

Rozwiązanie. Wybieramy z menu Analiza –> Porównywanie śred-nich –> Test t dla jednej próby... W polu Zmienne testowaneumieszczamy liczbę sprzedanych biletów, a w pole Wartość testowanawpisujemy 3, 2.

a) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jestrówna 3, 2 tys. (a = 3, 2).Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w niedzielejest różna od 3, 2 tys.

Istotność (czyli p-wartość) testu wyliczoną przez program porównujemyz zakładanym poziomem istotności równym 0, 1. Ponieważ 0, 104 > 0, 1,to nie mamy podstaw do odrzucenia hipotezy zerowej na rzecz hipotezyalternatywnej, że liczba sprzedawanych biletów jest różna od 3, 2 tys.

105

b) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jestrówna 3, 2 tys. (a = 3, 2).Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w niedzielejest mniejsza od 3, 2 tys.

W przypadku jednostronnej hipotezy alternatywnej p-wartość testu jestpołową p-wartości testu z hipotezą dwustronną. Porównujemy zatem po-łowę istotności wyliczonej przez program z zakładanym poziomem istot-ności równym 0, 1. Ponieważ 0, 052 < 0, 1, to odrzucamy hipotezę zerowąna rzecz hipotezy alternatywnej jednostronnej. Ujemna wartość statystkit pozwala przyjąć hipotezę, że liczba biletów sprzedawanych w niedzielejest mniejsza od 3, 2 tys. W obu przypadkach obowiązuje założenie, żerozkład liczby biletów jest normalny, co pozwala uznać wyniki testów zawiarygodne.

Ćwiczenie 5.14. Wykonaj ćwiczenie 5.4 w programie IBM SPSS Statistics.Dane znajdują się w pliku pranie.sav (dostępnym na platformie Moodle).

Rozwiązanie. Hipoteza zerowa: Średni stopień wyprania tkaniny w płat-kach jest taki sam jak średni stopień wyprania tkaniny w płynie do prania.Hipoteza alternatywna: Średni stopień wyprania tkaniny w płatkach jest wyż-szy od średniego stopnia wyprania tkaniny w płynie do prania.

Założenie o normalności rozkładów pozwala uznać wyniki wykonanychniżej testów za wiarygodne.

Wybieramy z menu Analiza –> Porównywanie średnich –> Testt dla prób niezależnych... Zmienną testowaną jest stopień wypraniatkaniny, a zmienną grupującą rodzaj środka do prania. Definiujemy grupy,wpisując jako grupę 1. wartość 1 (płatki), a jako grupę 2. wartość 2 (płyn doprania).

Test Levene’a jednorodności wariancji sprawdza hipotezę o równości wa-riancji stopnia wyprania tkaniny w grupach wyróżnionych ze względu narodzaj środka do prania. Jego wynik sugeruje, że należy raczej zakładać rów-ność wariancji i wynik testu średnich odczytywać z 2., a nie 3. kolumnydrugiej tabeli.

106

Ze względu na jednostronną hipotezę alternatywną połowę istotności wy-liczonej przez program w teście średnich, tj. wartość 0, 000, porównujemyz zakładanym poziomem istotności 0, 05. Ponieważ 0, 000 < 0, 05, więc od-rzucamy hipotezę zerową na rzecz hipotezy alternatywnej jednostronnej. Do-datnia wartość statystyki t pozwala przyjąć hipotezę, że średnia w pierwszejgrupie (czyli przy stosowaniu płatków) jest wyższa niż w drugiej (czyli przystosowaniu płynu do prania). �

Ćwiczenie 5.15. Wykonaj ćwiczenie 5.6 w programie IBM SPSS Statistics.Dane znajdują się w pliku cisnienie.sav (dostępnym na platformie Moodle).

Rozwiązanie. Hipoteza zerowa: Średnia wartość ciśnienia przed podaniemleku pacjentom jest taka sama jak po jego podaniu.Hipoteza alternatywna: Średnia wartość ciśnienia pacjentów przed podaniemleku jest wyższa niż po jego podaniu.

Wybieramy z menu Analiza –> Porównywanie średnich –> Testt dla prób zależnych... Definiujemy 1 parę zmiennych, podając jakozmienną 1. ciśnienie przed podaniem leku, a jako zmienną 2. ciśnienie popodaniu leku.

107

Wysoka wartość współczynnika korelacji potwierdza zależność zmiennych.Ze względu na jednostronny charakter hipotezy zerowej istotność testu wy-nosi 0, 033/2 i jest mniejsza od zakładanego poziomu istotności wynoszącego0, 05, co oznacza, że odrzucamy hipotezę zerową na rzecz hipotezy alterna-tywnej jednostronnej. Dodatnia wartość statystyki t pozwala przyjąć hipote-zę, że średnia wartość ciśnienia przed podaniem leku jest wyższa niż po jegopodaniu. Wynik testu można uznać za wiarygodny dzięki założeniu o nor-malności rozkładu. �

Ćwiczenie 5.16. Wykonaj ćwiczenie 5.7 w programie IBM SPSS Statistics.Dane znajdują się w pliku czytanie.sav (dostępnym na platformie Moodle).

Rozwiązanie. Zadanie możemy rozwiązać testem dla jednej średniej bądź te-stem chi-kwadrat. W celu zastosowania tego pierwszego musimy się upewnić,czy mamy zmienną o wartościach 0 i 1, przy czym 1 powinny być oznaczoneosoby, których odsetek nas interesuje, tj. nieczytający (jeśli zmienna ma inne

108

wartości, musimy ją rekodować na zmienną o podanych własnościach), orazczy próba ma odpowiednio dużą liczebność (bo rozkład na pewno nie jestrozkładem normalnym).Hipoteza zerowa: Zmienna czytanie ma średnią wartość równą 0, 99 (odseteknieczytających wynosi 0, 99).Hipoteza alternatywna: Zmienna czytanie ma średnią wartość różną od 0, 99(odsetek nieczytających jest różny od 0, 99).

Wybieramy z menu Analiza –> Porównywanie średnich –> Testt dla jednej próby... Testujemy zmienną czytanie, a jako wartość testo-waną wpisujemy 0, 99.

Istotność testu wynosi 0, 751 i jest większa od zakładanego poziomu wy-noszącego 0, 01, zatem nie mamy podstaw do odrzucenia hipotezy zerowej.

Test chi-kwadrat testuje hipotezęHipoteza zerowa: Kategorie czytał i nie czytał występują w stosunku 1:99(inaczej: kategorie czytał i nie czytał występują z prawdopodobieństwamiodpowiednio 0, 01 i 0, 99).Hipoteza alternatywna: Kategorie czytał i nie czytał występują w innym sto-sunku (inaczej: z innymi prawdopodobieństwami).

Pierwszy sposób wykonania testu chi-kwadrat polega na wybraniu z me-nu Analiza –> Testy nieparametryczne –> Testy tradycyjne –>Chi-kwadrat... Testujemy zmienną czytanie, w pole Wartości oczeki-wane wpisujemy odpowiednią proporcję zgodnie z oznaczeniami wartościzmiennej w pliku, tj. najpierw dla wartości 0 (czytał), a potem 1 (nie czy-tał).

109

Istotność testu wynosi 0, 762, co jest większe od zakładanego poziomu0, 01 i nie daje podstaw do odrzucenia hipotezy zerowej. Wynik testu jestwiarygodny, gdyż liczebności oczekiwane klas są większe od 10.

Drugi sposób polega na wybraniu Analiza –> Testy nieparame-tryczne –> Jedna próba... W zakładce Zmienne sprawdzamy, że te-stowaną zmienną jest zmienna czytanie. W zakładce Ustawienia spośródtestów niestandardowych wybieramy chi-kwadrat i w jego opcjach podaje-my wartości zmiennej i odpowiadające im prawdopodobieństwa. W Opcjetestów możemy podać zakładany poziom istotności.

110

Otrzymaną tabelę można aktywować, by otrzymać podgląd modelu.

Ćwiczenie 5.17. Wykonaj ćwiczenie 5.9 w programie IBM SPSS Statistics,używając testu Kołmogorowa. Dane znajdują się w pliku wykladniczy.sav(dostępnym na platformie Moodle).

Rozwiązanie. Testujemy hipotezyHipoteza zerowa: Zmienna ma rozkład wykładniczy E(2).Hipoteza alternatywna: Zmienna ma rozkład inny niż podany.

Wybieramy z menu Analiza –> Testy nieparametryczne –> Te-sty tradycyjne –> K-S dla jednej próby... Testujemy zmienną za-mieszczoną w pliku, a jako testowany rozkład wybieramy wykładniczy.

111

Otrzymujemy istotność 0, 834, która jest większa od zakładanego poziomuistotności i nie daje podstaw do odrzucenia hipotezy zerowej. Zauważmyjednak, że test sprawdził zgodność nie z rozkładem E(2), tylko z rozkłademwykładniczym o średniej 0, 4645, czyli E(2, 153).

Drugi sposób wykonania testu pozwala sprawdzić hipotezę zerową w do-kładnie takiej postaci jak podaliśmy. Wybieramy Analiza –> Testy nie-parametryczne –> Jedna próba... W zakładce Zmienne sprawdzamy,że testowaną zmienną jest zmienna dane. W zakładce Ustawienia spo-śród testów niestandardowych wybieramy Kołmogorowa-Smirnowa i w je-go opcjach zaznaczamy jako testowany rozkład wykładniczy ze średnią 0, 5.W Opcje testów możemy podać zakładany poziom istotności.

Otrzymaną tabelę można aktywować, by otrzymać podgląd modelu.

112

Ćwiczenie 5.18. Wykonaj ćwiczenie 5.11 w programie IBM SPSS Statistics.Dane znajdują się w pliku seriale.sav (dostępnym na platformie Moodle).

Rozwiązanie. Testujemy hipotezy:Hipoteza zerowa: Płeć telewidza i rodzaj oglądanych przez niego seriali sąniezależne.Hipoteza alternatywna: Płeć telewidza i rodzaj oglądanych przez niego serialisą zależne.

Ponieważ dane nie są danymi surowymi, tylko są pogrupowane, musi-my dokonać ważenia. Wybieramy z menu Dane –> Ważenie obserwa-cji... i podajemy, że liczba respondentów jest zmienną ważącą. Następniewykonujemy test. Wybieramy Analiza –> Opis statystyczny –> Ta-bele krzyżowe... Płeć respondenta umieszczamy w wierszach, a rodzajoglądanych seriali w kolumnach. Zaznaczamy opcję Pokaż zgrupowanewykresy słupkowe, a pod przyciskiem Statystyki... zaznaczamy Chi-kwadrat.

113

114

Istotność testu chi-kwadrat wynosi 0, 000, co jest mniejsze od zakładanegopoziomu istotności i pozwala na odrzucenie hipotezy o niezależności rodzajuoglądanych seriali od płci respondenta. �

5.3. Zadania

Zadanie 5.1. [3, Zad. 3.48 str. 136] Dzienne zużycie wody w fabryce podlegawahaniom losowym zgodnie z rozkładem normalnym o wariancji σ2 = 196 m6.Na podstawie obserwacji n = 315 dni roku stwierdzono, że średnie dziennezużycie wody wynosi x = 1029 m3. Zweryfikuj hipotezę H0 : a = 1000 m3,przyjmując poziom istotności α = 0, 01 i hipotezę alternatywną a > 1000 m3.

Odpowiedź. Odrzucamy hipotezę zerową, przyjmujemy alternatywną.

Zadanie 5.2. [3, Zad. 3.49 str. 136] Zbadano 10 kawałków stali ze względuna granicę plastyczności (w kG/cm2) i otrzymano następujące wyniki: 3570,3700, 3650, 3590, 3720, 3710, 3550, 3720, 3580, 3630. Zakładając, że granicaplastyczności stali ma rozkład normalny, zweryfikuj na poziomie istotnościα = 0, 05 hipotezę H0, że wartość przeciętna granicy plastyczności jest równa3600, jeśli hipotezą alternatywną jest H1 : a 6= 3600.

Odpowiedź. Brak podstaw do odrzucenia hipotezy zerowej.

Zadanie 5.3. [1, Zad. 2.2.6 str. 123] Utargi dzienne firmy mają rozkładnormalny z nieznaną wartością oczekiwaną i nieznaną wariancją. Sprawdźhipotezę H0 : a = 1000 wobec H1 : a 6= 1000 na poziomie istotności 0,01.Próba losowa o liczebności n = 101 dni dała średnią arytmetyczną utargów999 zł i wariancję s2 rzędu 25 zł2.

Odpowiedź. Brak podstaw do odrzucenia hipotezy zerowej.

Zadanie 5.4. [1, Zad. 2.2.15 str. 126] Na losowo dobranej próbie 150 sa-mochodów marki „Seat Ibiza” zbadano zużycie benzyny po przejechaniu naszosie trasy 100 km. Średnie zużycie benzyny dla tej próby samochodów wy-nosiło 7,5 litra przy odchyleniu standardowym 0,9 litra. Norma fabrycznawynosi 7,01 litra na 100 km. Czy rzeczywiste zużycie benzyny różni się istot-nie od normy fabrycznej na poziomie istotności 0,03?

Odpowiedź. Tak.

Zadanie 5.5. [3, Zad. 3.10 str. 93] Na dwóch różnych wagach zważono po10 odcinków 100 m przędzy i uzyskano rezultaty w g na 1. wadze: 5,25; 5,98;5,83; 5,58; 5,35; 5,59; 5,41; 5,81; 5,95; 5,72, na 2. wadze: 5,31; 5,13; 5,64; 5,89;

115

5,17; 5,18; 5,27; 5,73; 5,08; 5,24. Wiadomo, że wariancja mas stumetrowychodcinków przędzy dla 1. wagi jest równa σ2

1 = 0, 06, a dla 2. wagi σ22 = 0, 07.

Zakładając, że rozpatrywana cecha (masa stumetrowego odcinka) ma rozkładnormalny, na poziomie istotności α = 0, 05 zweryfikuj hipotezę, że wartościprzeciętne mas odcinków przędzy uzyskiwane przez te wagi są jednakowe,wobec hipotezy alternatywnej, że są różne.

Odpowiedź. Odrzucamy hipotezę zerową, przyjmujemy alternatywną.

Zadanie 5.6. [1, Zad. 2.2.30 str. 131] Spośród firm handlowych zatrudnia-jących do 5 pracowników, funkcjonujących na terenie Szczecina w 1992 roku,wylosowano niezależnie 10 firm. Otrzymano następujące dane statystycznedotyczące całorocznych kosztów i obrotów (w tys. zł):

Koszty 53,93 61,29 24,61 30,31 9,51 35,40 54,61 68,64 3,18 13,05Obroty 58,59 59,53 24,26 35,83 10,30 41,79 58,05 71,97 3,11 13,55

Zakładając, że koszty i obroty mają rozkład normalny, sprawdź, czy moż-na uogólnić tezę, że firmy te były dochodowe, przyjmując poziom istotności0,02.

Odpowiedź. Nie można.

Zadanie 5.7. [3, Zad. 3.73 str. 140] Na egzaminie wstępnym z matematyki nawyższą uczelnię spośród 705 absolwentów techników 450 nie rozwiązało pew-nego zadania, natomiast na 1320 absolwentów liceów ogólnokształcących nierozwiązało tego zadania 517 kandydatów. Na poziomie istotności α = 0, 05zweryfikuj hipotezę o jednakowym stopniu opracowania tej części materiału,której dotyczyło zadanie, przez absolwentów obu typów szkół, jeżeli hipoteząalternatywną jest, że absolwenci techników byli słabiej przygotowani z tejpartii materiału.

Odpowiedź. Odrzucamy hipotezę zerową, przyjmujemy alternatywną.

Zadanie 5.8. W celu zbadania popularności pewnego teleturnieju telewizyj-nego przeprowadzono ankietę wśród widzów. Wybrano 1600 osób i zapytanoje, czy oglądają teleturniej. Spośród ankietowanych 500 osób udzieliło odpo-wiedzi twierdzącej, a pozostałe zaprzeczyły. Na podstawie tych danych, napoziomie istotności 0,02, przetestuj hipotezę, że teleturniej ogląda 30% wi-dzów przeciw hipotezie, że odsetek oglądających jest inny, używając najpierwtestu t dla jednej średniej, a następnie testu chi-kwadrat.

Odpowiedź. W obu przypadkach brak podstaw do odrzucenia hipotezy ze-rowej.

116

Zadanie 5.9. Przeprowadzono badanie jakości jajek kurzych pochodzącychz pewnej fermy. Zakłada się z góry, że 2% jajek jest złej jakości. Wylosowano1200 jajek do zbadania i wśród nich 16 okazało się złej jakości. Na poziomieistotności 0,05 zweryfikuj hipotezę, że frakcja jajek złej jakości jest równazakładanej, przeciw hipotezie, że frakcja ta jest inna, używając najpierw testut dla jednej średniej, a następnie testu chi-kwadrat.

Odpowiedź. Test t odrzuca hipotezę zerową, a test chi-kwadrat nie dajepodstaw do odrzucenia tej hipotezy.

Zadanie 5.10. Wykonano 100 prób polegających na rzucaniu monetą dochwili otrzymania pierwszego orła. Poniższa tabela przedstawia otrzymanewyniki.

Liczba rzutów 1 2 3 4 5 6 7 i więcejLiczba prób 44 27 10 9 3 4 3

Wykaż, że otrzymane wyniki potwierdzają hipotezę, że czas oczekiwania napierwszy sukces w schemacie prób Bernoulliego polegających na rzucie mone-tą ma rozkład geometryczny z parametrem p = 1

2 . Przyjmij poziom istotnościα = 0, 01.

Zadanie 5.11. [1, Zad. 2.3.14 str. 153] W 1995 roku badanie liczby osóbobjęło 14 067 gospodarstw domowych. Otrzymane wyniki przedstawione sąw poniższej tabeli.

Liczba osób 0 1 2 3 4 5 6 i więcejLiczba gospodarstw domowych 0 701 2218 3690 4682 1827 949

Na poziomie istotności 0,01 testem chi-kwadrat zweryfikuj hipotezę, żerozkład osób w gospodarstwach domowych w 1995 roku był rozkładem Po-issona z parametrem 3,6.

Odpowiedź. Postawioną hipotezę należy odrzucić.

Zadanie 5.12. [3, Zad. 3.20 str. 105] Z populacji, w której badana cechama nieznaną dystrybuantę F , pobrano próbkę o liczności 200. Otrzymanewyniki po podziale na 10 równych klas podano poniżej. Na poziomie istotno-ści α = 0, 05, korzystając z testu chi-kwadrat, zweryfikuj hipotezę, że F jestdystrybuantą rozkładu jednostajnego na przedziale (45, 50).

Środek klasy 45,25 45,75 46,25 46,75 47,25 47,75 48,25 48,75 49,25 49,75Liczebność 23 19 25 18 17 24 16 22 20 16

117

Odpowiedź. Postawioną hipotezę należy odrzucić.

Zadanie 5.13. [3, Zad. 3.28 str. 113] Korzystając z testu Kołmogorowa,zweryfikuj hipotezę, że następujące dane:

x1 = 0, 18, x2 = 0, 56, x3 = 0, 87, x4 = 1, 37, x5 = 2, 46

pochodzą z rozkładu wykładniczegoE(1). Przyjmij poziom istotności α = 0, 05.

Odpowiedź. Brak podstaw do odrzucenia postawionej hipotezy.

Zadanie 5.14. Ekonomista analizujący dochody supermarketu zakłada, żesą one zgodne z rozkładem Pareto Pa(2, 2) o dystrybuancie 1 − (2/x)2 dlax > 2. Przyjmując poziom istotności 0,1, sprawdź jego założenie o modeluna podstawie danych:

5, 2 8, 8 12, 9 5, 3 9, 5 13, 2 3, 1 15, 3 4, 1 2, 4 11, 0 2, 9.

Odpowiedź. Założenie jest błędne.

Zadanie 5.15. [1, Zad. 2.3.34 str. 159] W pewnym przedsiębiorstwie zbada-no rozkład wieku pracowników (w latach) i otrzymano wyniki

Wiek [0, 20) [20, 25) [25, 30) [30, 35) [35, 40) [40, 45) [45, 50) [50, 55) [55,∞)Liczba 6 40 24 25 18 28 25 10 24

Na poziomie istotności 0, 01 testem Kołmogorowa zweryfikuj hipotezę, że pró-ba pochodzi z rozkładu jednostajnego na przedziale (18, 65).

Odpowiedź. Odrzucamy hipotezę zerową.

Zadanie 5.16. [1, Zad. 3.2.41 str. 222] Struktura ankietowanych według celupodróży w zależności od płci przedstawia się następująco:

Cel podróżyPłeć prywatny służbowy

Kobiety 276 117Mężczyźni 283 247

Czy słuszne jest stwierdzenie, że cel podróży można wytłumaczyć płcią an-kietowanych (α = 0, 01)?

Odpowiedź. Tak.

118

Zadanie 5.17. [1, Zad. 3.2.43 str. 223] W pewnym szpitalu w celu zbadania,czy okres trwania dolegliwości u pacjentów przed operacją wpływa na sposóboperowania wyrostka robaczkowego, wylosowano 100 pacjentów operowanychkonwencjonalnie oraz 100 pacjentów operowanych laparoskopią. Wyniki ba-dań przedstawiono w tabeli:

Sposób operowaniaCzas trwania dolegliwości laparoskopia konwencjonalny

jednodniowe 48 65dłuższe 52 35

Na poziomie istotności 0,02 sprawdź, czy sposób operowania wyrostka ro-baczkowego zależy od okresu trwania dolegliwości pacjenta.

Odpowiedź. Tak.

Zadanie 5.18. [1, Zad. 3.2.44 str. 224] Firma X w celu dokonania selekcjikandydatów ubiegających się o pracę przeprowadziła test kwalifikacyjny, napodstawie którego stwierdzano, czy kandydat nadaje się do pracy, czy nie.Dla 100 losowo wybranych kandydatów wyniki testu były następujące:

Ukończone studia wyższeWynik testu techniczne ekonomiczne prawnicze

Nadaje się do pracy 14 10 16Nie nadaje się do pracy 16 25 19

Na podstawie tych wyników sprawdź hipotezę, że między rodzajem wykształ-cenia a wynikiem testu nie ma związku (α = 0, 05).

Odpowiedź. Brak podstaw do odrzucenia podanej hipotezy.

119

120

Rozdział 6.

Analiza regresji

6.1. Ćwiczenia

W tym rozdziale wykonamy tylko jedno ćwiczenie. Ma ono na celu ilustracjęmetody, wykonywanie większej liczby ćwiczeń bez użycia oprogramowaniastatystycznego jest w praktyce mało kształcące, a czasochłonne.

Ćwiczenie 6.1. Korzystając z danych podanych w tabeli, zbuduj model re-gresji liniowej dla zależności wagi 11-latków od ich wzrostu. Wyznacz współ-czynnik dobroci dopasowania modelu.

Wzrost i waga 11-latkówImię Wzrost w cm Waga w kg

Adam 120 38Bartek 135 40Kamil 125 42Wojtek 150 44Tomek 145 46

Rozwiązanie.

121

Wykonany wykres rozrzutu sugeruje istnienie prostej, wokół której koncen-trują się umieszczone na wykresie punkty. Wyznaczamy jej równanie postaciy = b1x+ b0, korzystając z wzorów

b1 =(x1y1 + x2y2 + . . .+ xNyN)−Nxy

(x21 + x2

2 + . . .+ x2N)−Nx2

,

b0 = y − b1x.

Wykonujemy w tym celu tabelkę

Imię xi yi xiyi x2i y2

i

Adam 120 38 4 560 14 400 1 444Bartek 135 40 5 400 18 225 1 600Kamil 125 42 5 250 15 625 1 764Wojtek 150 44 6 600 22 500 1 936Tomek 145 46 6 670 21 025 2 116suma 675 210 28 480 91 775 8 860

N = 5,x = 675/5 = 135,y = 210/5 = 42,

b1 =28 480− 5 · 135 · 42

91 775− 5 · 1352=

130650

= 0, 2;

b0 = 42− 0, 2 · 135 = 15.

Prosta ma zatem równanie y = 0, 2x+ 15.

Miarą dobroci dopasowania jest kwadrat współczynnika korelacji danegowzorem

rxy =x · y − x · ysx · sy

.

122

r2xy jest nazywany współczynnikiem determinacji.

Dla danych z naszego zadania obliczamy

xy = 28 480/5 = 5 696,

sx =

√x2

1 + . . .+ x25

5− x2 =

√91 775

5− 1352 =

√130,

sy =

√y2

1 + . . .+ y25

5− y2 =

√8 860

5− 422 =

√8,

r =5 696− 135 · 42√

130 · 8=

26√1 040

≈ 0, 806,

r2 =262

1 040= 0, 65.

Wartość tego współczynnika oznacza, że w 65% zmienność wagi chłopcówdaje się wyjaśnić regresją liniową wagi od wzrostu chłopców. �

6.2. Ćwiczenia praktyczne

W programie IBM SPSS Statistics analizę regresji liniowej można wykonaćdwojako:

• Analiza –> Regresja –> Estymacja krzywej.... Podajemy zmien-ne zależną i niezależną oraz zaznaczamy model liniowy. Istnieje możli-wość uzyskania współczynników równania y = b0+b1x, jeśli zaznaczymyUwzględnij stałą w równaniu lub y = b1x, jeśli tego nie zrobi-my. W wyniku otrzymujemy tabelę ze współczynnikami oraz wykres.W tabeli podawany jest również współczynnik R-kwadrat (r2

xy).

• Analiza –> Regresja –> Liniowa.... Nie uzyskamy wtedy wykre-su, ale możemy wybrać Wykresy –> Wykresy tradycyjne –>Rozrzutu/Punktowy –> Prosty i stworzyć wykres rozrzutu. Pouaktywnieniu edytora wykresów, kliknięciu prawym klawiszem myszkii wybraniu Dodaj Linia dopasowania w Ogółem mamy możliwośćnarysowania prostej regresji.

Ćwiczenie 6.2. Wyznacz prostą regresji dla danych z pliku wiek wzrost.sav(dostępnego na platformie Moodle). Następnie dodaj jedną obserwację, wpi-sując 20 jako wiek, a 210 jako wzrost badanej osoby. Wykonaj jeszcze razanalizę regresji. Jak zmieniło się równanie prostej i jej dopasowanie do mo-delu?

123

Rozwiązanie. WybieramyAnaliza –> Regresja –> Estymacja krzy-wej.... Podajemy wzrost jako zmienną zależną, a wiek jako niezależną orazzaznaczamy model liniowy.

Z tabeli odczytujemy równanie postaci wzrost = 4, 305 · wiek + 88, 689.Współczynnik R-kwadrat wynosi 0, 994, co świadczy o prawie idealnym do-pasowaniu. Model jest istotny statystycznie, gdyż istotność wynosi 0, 000 (copozawala na odrzucenie hipotezy o liniowej niezależności zmiennych).

Po dodaniu wspomnianej obserwacji, otrzymujemy

124

Równanie ma teraz postać wzrost = 5, 173 · wiek + 79, 002, a współczynnikR-kwadrat uległ pogorszeniu i jego wartość wynosi 0, 873. �

W celu wykluczenia przypadków odstających, które mogą niekorzystniewpłynąć na przeprowadzaną analizę, należy zrobić wykresy skrzynkowe roz-ważanych zmiennych. Na wykresach tych kółkiem i gwiazdką zaznaczone sąprzypadki odstające, odpowiednio nietypowe i skrajne. Przypadki te usuwa-my, a w przypadku dużej ich liczby analizujemy osobno.

Ćwiczenie 6.3. Wykonaj wykresy skrzynkowe dla zmiennych zawartychw pliku cinema.sav (dostępnym na platformie Moodle) zawierającym danedotyczące liczby kobiet i mężczyzn na kolejnych seansach filmowych, a na-stępnie wykonaj analizę regresji i narysuj wykres rozrzutu. Czy widzisz przy-padek odstający, którego nie wychwyciły wykresy skrzynkowe? Usuń go z dal-szej analizy i powtórz ją. Porównaj wyniki.

Rozwiązanie. Wybieramy z menu Wykresy –> Wykresy tradycyj-ne –> Skrzynkowy... Zaznaczamy opcję Podsumowania oddzielnychzmiennych. Obie zmienne umieszczamy w polu Skrzynki przedstawia-ją.

125

Wykonujemy analizę regresji: Analiza –> Regresja –> Estymacjakrzywej.... Podajemy liczbę mężczyzn jako zmienną zależną, a kobiet jakoniezależną oraz zaznaczamy model liniowy.

126

Na wykresie rozrzutu można zauważyć jedną obserwację odstającą ze wzglę-du na nietypowe zestawienie liczby kobiet i mężczyzn na seansie. Jest toobserwacja nr 11. Usuwamy ją z pliku i powtarzamy analizę.

Jak widać zmieniło się równanie prostej, a współczynnik R-kwadrat zwiększyłswą wartość z 0, 479 na 0, 755. �

Ćwiczenie 6.4. Wykonaj analizę regresji liniowej dla par zmiennych x i yz pliku anscombe.sav (dostępnego na platformie Moodle). Porównaj wynikiotrzymane w tabelach oraz wykresy rozrzutu. Czy we wszystkich przypad-kach prosta regresji dobrze oddaje zależność między zmiennymi?

Dane zostały stworzone przez Johna Francisa Anscombe’a (1918-2001),statystyka angielskiego. Mają one na celu zwrócenie uwagi na fakt, że samewspółczynniki liczbowe nie wystarczą do oceny modelu regresji. Niezbędnejest zwrócenie uwagi na wykresy rozrzutu.

Rozwiązanie. Wykonujemy 4-krotnie analizę regresji: Analiza –> Re-gresja –> Estymacja krzywej.... Podajemy za każdym razem y jakozmienną zależną, a x jako niezależną oraz zaznaczamy model liniowy.

127

128

129

130

Rozdział 7.

Projekty

Niniejszy rozdział zawiera przykładowe zadania polegające na wykonaniuanalizy zbioru danych. Jednym z jej elementów jest sprawdzenie wszystkichzałożeń wykorzystywanych procedur. Każdy wynik należy opatrzyć komen-tarzem. Wszystkie testy statystyczne powinny być wykonane na poziomieistotności 0, 05. Ważnym punktem jest również zadbanie o estetykę tworzo-nego raportu.

7.1. Projekt 1.

Wczytaj do programu IBM SPSS Statistics plik property assess.sav (plikprzykładowy programu). Zawiera on dane dotyczące wybranych przykładówwyceny nieruchomości wykonanych przez pewną firmę działającą w tej bran-ży na terenie jednego z miast USA, przy czym poszczególne zmienne ozna-czają:

• propid – identyfikator wyceny,

• town – jedną z pięciu dzielnic miasta (Eastern – wschodnią, Central –śródmieście, Southern – południową, Northern – północną, Western –zachodnią),

• asesor – numer identyfikacyjny osoby dokonującej wyceny,

• saleval – cenę domu w momencie sprzedaży (w tys. dolarów),

• lastval – wysokość ostatniej wyceny (w tys. dolarów),

• time – liczbę lat, które upłynęły od ostatniej wyceny.

Wykonaj następujące polecenia.

131

1. Wyznacz podstawowe statystyki opisowe (średnia, mediana, minimum,maksimum, rozstęp, kwartyle, odchylenie standardowe, skośność, kurtoza)dla ceny domów oraz dla wartości ich ostatniej wyceny. Wykonaj histo-gramy oraz wykresy skrzynkowe. Omów otrzymane wyniki.

2. Utwórz nową zmienną, która zaklasyfikuje każdy z domów do jednej z dwóchklas: domów tanich, których cena nie przekroczyła 160 tys. dolarów, orazdomów drogich o cenie powyżej 160 tys. dolarów. Wyznacz rozkład łącz-ny oraz rozkłady brzegowe utworzonej zmiennej oraz zmiennej zawiera-jącej informację o dzielnicy, w której dom się znajduje. Zilustruj rozkładłączny, wykonując zgrupowane wykresy słupkowe oraz wykres słupkowy3-wymiarowy. Czy poszczególne dzielnice wyróżniają się pod względem ce-ny nieruchomości stojących na ich terenie? Jaka byłaby liczebność domówtanich i drogich w każdej dzielnicy, gdyby badane zmienne były niezależ-ne?

3. Wyznacz 95% przedział ufności dla odsetka domów trafiających do wyce-ny z dzielnicy południowej. Wykonując test t dla jednej próby oraz testchi-kwadrat sprawdź, czy spośród domów trafiających do wyceny 20% tonieruchomości znajdujące się na terenie dzielnicy południowej. Jak wyja-śnisz możliwość użycia w tym miejscu testu t?

4. Wykonaj analizę regresji liniowej ceny domów w zależności od wartościostatniej wyceny. Czy wyceny domów trafnie przewidują ich cenę w mo-mencie sprzedaży? Powtórz analizę regresji, wybierając tylko obserwacje,dla których wycena została dokonana nie dawniej niż 5 lat temu. Jak terazocenisz trafność wyceny w stosunku do ceny domu w momencie sprzedaży?

7.2. Projekt 2.

W celu zbadania zależności pomiędzy długościami skoków w pierwszej i dru-giej serii zawodów w skokach narciarskich zebrano dane podsumowujące Pu-char Świata w sezonie 2005/06. Zbiór Dane skoki.sav (dostepny na platformieMoodle) zawiera zmienne:

• skoczek – nazwisko i imię zawodnika,

• kraj – kraj zawodnika,

• seria 1 mean – średnia odległość uzyskana przez zawodnika w pierwszejserii wszystkich konkursów, w których brał udział,

132

• seria 2 mean – średnia odległość uzyskana przez zawodnika w drugiejserii wszystkich konkursów, w których brał udział,

• pkt mean – średnia punktów uzyskanych przez zawodnika we wszyst-kich konkursach.

Wykonaj następujące polecenia.

1. Porównaj wyniki osiągane przez skoczków w pierwszej i drugiej serii sko-ków. Oblicz podstawowe statystyki (średnia, odchylenie standardowe, mi-nimum, maksimum, rozstęp, kwartyle, skośność i kurtoza), wykonaj hi-stogramy (zadbaj o jednakowy dobór jednostek i długości osi) i wykresyskrzynkowe.

2. Wyznacz 95% przedział ufności dla wartości oczekiwanej średniej zdoby-wanych punktów. Następnie zmienną pkt mean podziel na 5 klas równejdługości. W tabeli krzyżowej przedstaw zależność wartości nowej zmiennejod kraju pochodzenia skoczka. Zilustruj tę zależność, wykonując3-wymiarowy wykres słupkowy.

3. Wykonując odpowiedni test, sprawdź, czy prawdziwa jest hipoteza, żew drugiej serii skoczkowie oddają dłuższe skoki niż w pierwszej.

4. Wykonując analizę regresji, wyznacz równanie prostej, która najlepiej opi-suje zależność długości skoków oddawanych w drugiej serii od długościskoków w pierwszej serii. Usuń przypadki odstające i powtórz analizę.W jakim stopniu różnice w długości skoków z drugiej serii dają się wytłu-maczyć różnicami w długości skoków z pierwszej serii? Czy wyznaczonerównanie może być używane do prognozowania długości skoków z drugiejserii na podstawie wyników z serii pierwszej?

7.3. Projekt 3.

W celu zbadania opinii obywateli na temat funkcjonowania polskiej gospo-darki, przeprowadzono sondaż. Zbiór Dane wzrost cen.sav (dostępny na plat-formie Moodle) zawiera zmienne:

• wzrost wstecz – odpowiedź na pytanie „O ile procent według Pana(i)odczucia wzrosły ceny w ciągu ostatnich 12 miesięcy?”,

• wzrost prognoza – odpowiedź na pytanie „O ile procent według Pana(i)będą wyższe ceny za 12 miesięcy?”,

133

• oprocentowanie – odpowiedź na pytanie „Ile musiałoby wynosić opro-centowanie złotówek w banku ulokowanych na 12 miesięcy, aby niestraciły one na wartości?”

Wykonaj następujące polecenia.

1. Porównaj odczucia respondentów dotyczące wzrostu cen w ciągu ostat-nich 12 miesięcy i prognozowanego wzrostu cen w czasie kolejnych 12miesięcy. Oblicz podstawowe statystyki (średnia, odchylenie standardowe,minimum, maksimum, rozstęp, kwartyle, skośność i kurtoza), wykonaj hi-stogramy (zadbaj o jednakowy dobór jednostek i długości osi) i wykresyskrzynkowe.

2. Wykonując odpowiedni test, sprawdź, czy prawdziwa jest hipoteza o nie-znajomości bieżących wskaźników bankowych, tzn. czy jest prawdą, żeoczekiwane przez Polaków oprocentowanie 12-miesięcznych lokat jest po-nad 3-krotnie wyższe od inflacji (w badanym okresie inflacja nie prze-kraczała 10%). Wyznacz 95% przedział ufności dla wartości oczekiwanejpostulowanego przez Polaków oprocentowania lokat.

3. Wykonując odpowiedni test, sprawdź, czy prawdziwa jest hipoteza, żePolacy są nastawieni raczej pesymistycznie, tzn. prognozowany przez nichwzrost cen w czasie najbliższych 12 miesięcy jest wyższy niż podawanyprzez nich wzrost cen czasie poprzednich 12 miesięcy.

4. Wykonując analizę regresji, wyznacz równanie prostej, która najlepiej opi-suje zależność prognozowanego wzrostu cen na najbliższe 12 miesięcy odpodawanego wzrostu cen w czasie mijających 12 miesięcy. Usuń przypad-ki odstające i powtórz analizę. W jakim stopniu różnice w prognozie dająsię wytłumaczyć różnicami w zauważanym przez respondentów wzrościecen w ubiegłym okresie? Czy wyznaczone równanie może być używane doprzewidywania odpowiedzi na drugie pytanie na podstawie odpowiedzi napierwsze?

7.4. Projekt 4.

W celu zbadania kondycji polskich gospodarstw domowych wybrano do ba-dania 100 z nich. Zbiór Dane wydatki.sav zawiera zmienne:

• nrgtext – tekstowy numer gospodarstwa,

• dochg – dochód gospodarstwa wg GUS,

134

• wydg – wydatki gospodarstwa według GUS,

• g1 – gotówka na końcu miesiąca.

Wykonaj następujące polecenia.

1. Porównaj dochody i wydatki gospodarstw domowych. Oblicz podstawowestatystyki (średnia, odchylenie standardowe, minimum, maksimum, roz-stęp, kwartyle, skośność i kurtoza), wykonaj histogramy (zadbaj o jedna-kowy dobór jednostek i długości osi) i wykresy skrzynkowe.

2. Wyznacz 95% przedziały ufności dla wartości oczekiwanych dochodówi wydatków gospodarstw domowych. Wykonując odpowiedni test, sprawdź,czy prawdziwa jest hipoteza, że Polacy rozsądnie planują budżet swoichgospodarstw domowych, tzn. ich wydatki są niższe niż dochody.

3. Zdefiniuj nową zmienną, która podzieli respondentów na osoby o oszczęd-nościach:

a) małych, jeśli na koniec miesiąca dysponują gotówką nieprzekraczającą500 zł,

b) średnich, jeśli na koniec miesiąca dysponują gotówką w granicach od500 do 2000 zł,

c) dużych, jeśli na koniec miesiąca dysponują gotówką powyżej 2000 zł.

Wykonując odpowiedni test sprawdź, czy stosunek liczby osób o oszczęd-nościach małych, średnich i dużych wynosi 5:4:1.

4. Wykonując analizę regresji, wyznacz równanie prostej, która najlepiej opi-suje zależność wydatków gospodarstw domowych od ich dochodów. Usuńprzypadki odstające i powtórz analizę. W jakim stopniu różnice w wysoko-ści wydatków dają się wytłumaczyć różnicami w dochodach gospodarstwdomowych? Czy wyznaczone równanie może być używane do prognozo-wania wydatków na podstawie informacji o dochodach gospodarstwa?

135

136

Bibliografia

[1] Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K.: Statysty-ka w zadaniach. Część II: Statystyka matematyczna. Warszawa, Wydaw-nictwa Naukowo-Techniczne, 2001.

[2] Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasi-lewski M.: Rachunek prawdopodobieństwa i statystyka matematycznaw zadaniach. Część I: Rachunek prawdopodobieństwa. Warszawa, PWN,wyd. IV, 1995.

[3] Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasi-lewski M.: Rachunek prawdopodobieństwa i statystyka matematycznaw zadaniach. Część II: Statystyka matematyczna. Warszawa, PWN, wyd.VIII, 2006.

[4] Niemiro W.: Rachunek prawdopodobieństwa i statystyka matematyczna.Warszawa, Szkoła Nauk Ścisłych, 1999.

[5] Plucińska A., Pluciński E.: Probabilistyka. Warszawa, WydawnictwaNaukowo-Techniczne, 2000.

[6] Zieliński R.: Siedem wykładów wprowadzających do statystyki matema-tycznej. Warszawa, PWN, 1990.

137

Spis treści

1. Podstawy pracy w programie IBM SPSS Statistics 51.1. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 6

2. Podstawy teorii prawdopodobieństwa 172.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 352.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3. Estymacja punktowa 533.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 633.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4. Estymacja przedziałowa 694.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 764.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5. Testy statystyczne 815.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 885.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 1045.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

6. Analiza regresji 1216.1. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1216.2. Ćwiczenia praktyczne . . . . . . . . . . . . . . . . . . . . . . . 123

7. Projekty 1317.1. Projekt 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1317.2. Projekt 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1327.3. Projekt 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1337.4. Projekt 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

Bibliografia 137

139