a)dystrybuanta rozkładu populacji ma b) jak iimif.utp.edu.pl/amusielak/Wyklady/wyk4.pdf · W celu...

29
Wykład 4 Testy zgodności. Testy zgodności służą do weryfikacji hipotez mówiących, że a) dystrybuanta rozkładu populacji ma określoną z góry postać funkcyjną b) dystrybuanty rozkładów dwóch populacji nie różnią się w sposób istotny. Testy te wymagają z reguły dużej próby. Należy zauważyć, że pojęcie zgodności rozkładów obejmuje zarówno rodzaj rozkładu jak i wartości parametrów. Hipotezę o zgodności rozkładów odrzuca się zarówno wtedy, gdy nieodpowiednia jest postać funkcyjna rozkładu, jak i wtedy gdy wartość choćby jednego z parametrów jest różna od zakładanej w H 0 .

Transcript of a)dystrybuanta rozkładu populacji ma b) jak iimif.utp.edu.pl/amusielak/Wyklady/wyk4.pdf · W celu...

Wykład 4

Testy zgodności.

Testy zgodności służą do weryfikacji hipotez

mówiących, że

a) dystrybuanta rozkładu populacji ma

określoną z góry postać funkcyjną

b) dystrybuanty rozkładów dwóch populacji

nie różnią się w sposób istotny.

Testy te wymagają z reguły dużej próby. Należy

zauważyć, że pojęcie zgodności rozkładów

obejmuje zarówno rodzaj rozkładu jak i

wartości parametrów.

Hipotezę o zgodności rozkładów odrzuca się

zarówno wtedy, gdy nieodpowiednia jest postać

funkcyjna rozkładu, jak i wtedy gdy wartość

choćby jednego z parametrów jest różna od

zakładanej w H0.

Wysuwamy hipotezę, że badana cecha ma w

populacji generalnej określony rozkład, który

nazywamy rozkładem teoretycznym. Szacujemy

z próby niezbędne do określenia rozkładu

teoretycznego parametry.

Następnie stosujemy odpowiedni test

zgodności. Jeśli hipoteza zostanie odrzucona na

danym poziomie istotności to możemy wysunąć

hipotezę dotyczącą innego rozkładu

teoretycznego.

Test zgodności (test Pearsona)

1o Stawiamy hipotezę zerową:

Populacja ma dany rozkład teoretyczny

2oNa podstawie wyników dużej próby

obliczamy:

k

i i

iiobl

np

npn

1

2

2

gdzie ni-liczność i-tego przedziału

n∙pi- hipotetyczna liczność i-tego

przedziału

pi-prawdopodobieństwo wyznaczone

przez hipotetyczną dystrybuantę, że

zmienna losowa jest zawarta w przedziale

o liczebności ni

3o Odczytujemy z tablic rozkładu chi-kwadrat

wartość dla ustalonego poziomu istotności i k-1

stopni swobody ( lub k-1-l, gdzie l jest liczbą

szacowanych parametrów).

4o Porównujemy i

tak, że <

to

odrzucamy H0, a gdy jest przeciwna nierówność

mówimy, że nie ma podstaw do odrzucenia.

Uwaga:

Prawdopodobieństwo pi wyznaczamy wg

zależności:

p1=F(x1)

pi= P{xi-1≤X≤xi}=F(xi)-F(xi-1)-i=2,…,k-1

pk=1-F(xk-1)

gdzie k to liczba klas.

Jeśli rozkładem teoretycznym jest rozkład

normalny o nieznanych parametrach to

dokonujemy standaryzacji:

s

xxF

s

xxF

s

xxU

s

xxPp i

Ui

Uii

i11

U ma rozkład N(0,1).

Przykład.

W celu sprawdzenia czy kostka do gry jest

symetryczna wykonano 120 rzutów i otrzymano:

Liczba oczek

Liczba rzutów

1 11

2 30

3 14

4 10

5 33

6 22

Na poziomie istotności =0,05 zweryfikować

hipotezę, że każda liczba oczek w rzucie tą kostką

ma takie samo prawdopodobieństwo wyrzucenia.

Rozwiązanie:

H0: rozkład liczby oczek jest równomierny

Obliczamy prawdopodobieństwo teoretyczne(pi)

oraz liczność teoretyczną (npi):

Liczba oczek

Liczba rzutów (ni)

pi npi

1 11

20

2 30

20

3 14

20

4 10

20

5 33

20

6 22

20

Porównujemy liczność teoretyczną i empiryczną

(ni).

ni npi ni-npi

11 20 -9

30 20 10 14 20 -6

10 20 -10

33 20 13

22 20 2

Wyznaczamy składniki .

ni-npi

-9

10

-6

-10

13

2

Podsumowując ostatnią kolumnę otrzymujemy

=24,5.

Ustalamy teraz liczbę stopni swobody. Skoro k=6

to liczba stopni swobody wynosi k-1=5. Stąd dla

=0,05 wartość krytyczna

Reasumując:

i H0 należy odrzucić (

razem z „felerną” kostką).

Przykład:

Zbadano 300 wybranych losowo 5-sekundowych

odcinków czasowych pracy pewnej centrali

telefonicznej i otrzymano następujący empiryczny

rozkład liczby zgłoszeń:

Liczba zgłoszeń

Liczba odcinków

0 50 1 100

2 80

3 40

4 20

5 10

Na poziomie istotności =0,05 zweryfikować

hipotezę, że rozkład liczby zgłoszeń jest rozkładem

Poissona.

Rozwiązanie:

Ponieważ nie sprecyzowano wartości parametru

dla tego rozkładu a jest on wartością oczekiwaną

to skorzystamy z estymatora .

Obliczamy więc najpierw ów parametr z próby:

Nasza hipoteza zerowa ma postać:

H0: rozkład liczby zgłoszeń jest rozkładem Poissona

z parametrem

Obliczamy teraz prawdopodobieństwa

teoretyczne i teoretyczną liczność:

npi

0,183 54,9 0,311 93,3 0,264 79,2 0,15 45 0,064 19,2 1-(0,183+0,311+0,264+0,15+0,064)=0,028 8,4

Teraz kolej na składniki .

ni npi ni-n∙pi

50 54,9 -4,9

100 93,3 6,7

80 79,2 0,8

40 45 -5

20 19,2 0,8

10 8,4 1,6

Podsumowując ostatnią kolumnę otrzymujemy

=1,81

Ustalamy teraz liczbę stopni swobody. Skoro k=6

oraz oszacowano jeden parametr to liczba stopni

swobody wynosi k-1-1=4. Stąd dla =0,05 wartość

krytyczna

Reasumując:

i nie ma podstaw do

odrzucenia H0.

Rozkład liczby zgłoszeń jest „zbliżony” do rozkładu

Poissona z parametrem Nie oznacza to,

że przyjmujemy H0 !!!!

Przykład:

Koszty materiałowe przy produkcji pewnego

wyrobu były w wylosowanych 120 zakładach

następujące:

koszt Liczba zakładów

150-250 7

250-350 10

350-450 21

450-550 30

550-650 19

650-750 15

750-850 10

850-950 6

950-1050 2

Na poziomie istotności =0,1 zweryfikować

hipotezę, że rozkład kosztów jest N(540,200).

Rozwiązanie:

H0: rozkład kosztów jest N(540,200).

Aby skorzystać ze standaryzacji szukamy wartości

środkowej każdej klasy i „standaryzowanej”:

Koszt (xi)

150-250 200 -1,7

250-350 300 -1,2

350-450 400 -0,7

450-550 500 -0,2

550-650 600 0,3

650-750 700 0,8

750-850 800 1,3

850-950 900 1,8

950-1050 1000 2,3

Teraz obliczamy prawdopodobieństwo

teoretyczne:

F(ui) pi

-1,7 0,04457 0,04457

-1,2 0,1151 0,1151-0,4457=0,07053

-0,7 0,242 0,1269 -0,2 0,4207 0,1787

0,3 0,6179 0,1972

0,8 0,7881 0,1702

1,3 0,9032 0,1151

1,8 0,96407 0,0608

2,3 (1) 1-0,96407=0,03593

oraz składniki :

pi npi

0,04457 120∙0,04457=5,3484 0,5

0,07053 8,4636 0,3

0,1269 15,228 2,2

0,1787 21,444 3,4

0,1972 23,664 0,9

0,1702 20,424 1,4

0,1151 13,812 1

0,0608 7,296 0,2

0,03593 4,3116 1,2

Podsumowując ostatnią kolumnę otrzymujemy

=11,1

Ustalamy teraz liczbę stopni swobody. Skoro k=9

to liczba stopni swobody wynosi k-1=8. Stąd dla

=0,1 wartość krytyczna

Reasumując:

i nie ma podstaw do

odrzucenia H0.

Rozkład kosztów jest „zbliżony” do rozkładu

N(540,200)

Nie oznacza to, że przyjmujemy H0 !!!!

Zmienne losowe wielowymiarowe.

Def.1.

Dana jest przestrzeń probabilistyczna (Ω,S,P).

W tej przestrzeni określone są zmienne

losowe X1, X2,…,Xn.

Uporządkowany układ (wektor) (X1,X2,…,Xn)

nazywamy zmienną losową n-wymiarową.

Def.2.

Rozkładem prawdopodobieństwa zmiennej

losowej (X1,X2,…,Xn) nazywamy

prawdopodobieństwa postaci:

P{(X1,X2,…,Xn)A}, gdy ARn.

Def.3.

Dystrybuantą zmiennej losowej (X1,X2,…,Xn)

nazywamy funkcję F:Rn[0,1] określoną

wzorem:

F(r1,r2,…,rn)=P{X1<r1,…,Xn<rn}.

Zmienną losową (X,Y) nazywamy zmienną

losową dwuwymiarową.

Def.4.

Zmienna losowa (X,Y) ma rozkład typu

skokowego jeśli przyjmuje przeliczalną liczbę

wartości (xi,yk), i,k=1,2,3,… odpowiednio z

prawdopodobieństwami pik, przy czym

1,, ,

ki ki

kiik yYxXPp

Def.5.

Zmienna losowa (X,Y) ma rozkład typu

ciągłego, jeśli istnieje funkcja f(x,y) spełniająca

warunki:

1) f(x,y)≥0, dla każdego (x,y)R2

2) 1),(2

R

dxdyyxf ,

taka, że

b

a

d

c

dxdyyxfdYcbXaP ),(},{

.

Funkcję f(x,y) nazywamy gęstością

prawdopodobieństwa.

Def.6.

Niech F(s,t) jest dystrybuantą zmiennej losowej

(X,Y).

Funkcje:

),()(

),()(

lim

lim

tsFtF

tsFsF

sY

tX

nazywamy dystrybuantami brzegowymi

odpowiednio zmiennej losowej X i zmiennej

losowej Y.

Wyznaczają one jednoznacznie rozkłady

brzegowe.

Jeśli (X,Y) ma rozkład typu skokowego to

prawdopodobieństwa brzegowe określone są

wzorami:

i

ikkk

k

ikii

pyYPp

pxXPp

}{

}{

Jeśli (X,Y) ma rozkład typu ciągłego o gęstości f(x,y)

to gęstości brzegowe określone są wzorami:

dxyxfyf

dyyxfxf

Y

X

),()(

),()(

Przykład:

Rozkład prawdopodobieństwa liczby treningów

drużyn piłkarskich w ciągu tygodnia (X) i liczby

meczów wygranych w sezonie (Y) zawiera tabela:

Y X

0 1 2 3

1 0,04 0,04 0 0 2 0 0,12 0,12 0,16 3 0 0,04 0,18 0,3 Znaleźć dystrybuantę i rozkłady brzegowe.

Rozwiązanie:

Rozkłady brzegowe:

Y X

0 1 2 3 P{X=xi}

1 0,04 0,04 0 0 0,08 2 0 0,12 0,12 0,16 0,4

3 0 0,04 0,18 0,3 0,52

P{Y=yk} 0,04 0,2 0,3 0,46

Dystrybuanta F(s,t)=P{X<s,Y<t}

t s

(,0] (0,1] (1,2] (2,3] (3,]

(-,1] 0 0 0 0 0

(1,2] 0 0,04 0,08 0,08 0,08 (2,3] 0 0,04 0,2 0,32 0,48

(3,) 0 0,04 0,24 0,54 1

Przykład.

Zmienna losowa (X,Y) ma rozkład o gęstości:

]1,0[]1,0[),(0

1,01,0),(

),(

yxgdy

yxgdyAxy

yxf

Znaleźć wartość A i rozkłady brzegowe.

Rozwiązanie:

FX(s)

FY(t)

414

422

1

0

21

0

21

0

1

0

AA

AyxAAxydxdxy

Rozkłady brzegowe:

yx

yxydxyf

y

yf

y

xy

xxydyxf

x

xf

x

Y

Y

X

X

22

44)(

1,0

0)(

1,0

22

44)(

1,0

0)(

1,0

1

0

21

0

1

0

1

0

2

Def.7.(niezależne zmienne losowe)

Zmienne losowe X i Y są niezależne wtedy i tylko

wtedy, gdy dla każdego (s,t)R2

)()(),( tFsFtsF YXXY .

Jeśli (X,Y) jest typu skokowego to X i Y są

niezależne wtedy i tylko wtedy, gdy dla każdego

i,k=1,2,3,…

kiik ppp

Jeśli (X,Y) jest typu ciągłego to X i Y są niezależne

wtedy i tylko wtedy, gdy dla każdego (x,y)R2

)()(),( yfxfyxf YXXY .

Przykład.

Sprawdzić niezależność zmiennych losowych X i Y

o rozkładzie łącznym:

a)

X Y

-1 0 1

-1 0,2 0,3 0

1 0 0,4 0,1

Rozkłady brzegowe:

X Y

-1 0 1 P{Y=yk}

-1 0,2 0,3 0 0,5 1 0 0,4 0,1 0,5 P{X=xi} 0,2 0,7 0,1

Niech X=-1 i Y=-1.

P{X=-1}=0,2

P{Y=-1}=0,5

P{X=-1,Y=-1}=0,2 P{X=-1}P{Y=-1}

Zmienne losowe zależne.

b)

tympoza

yxgdy

yxf

0

]2,0[]2,0[),(4

1

),(

Rozkłady brzegowe:

2,0,2

1

4

1

4

1)(

2,0,2

1

4

1

4

1)(

2

0

2

0

2

0

2

0

yxdxyf

xydyxf

Y

X

Dla każdego (x,y)R2

Stąd zmienne losowe X i Y są niezależne (!)

Parametry dla pary zmiennych losowych.

Def.7.

Kowariancją zmiennych losowych X i Y nazywamy

wyrażenie :

cov(X,Y)=E[(X-EX)(Y-EY)]=E(X∙Y)-EX∙EY,

gdzie

ji

ijji pyxYXE,

)(

lub

2

),()(R

dxdyyxfyxYXE

Def.8.

Współczynnikiem korelacji zmiennych losowych X i

Y nazywamy wyrażenie:

)()(

),cov(),(

YDXD

YXYX

Tw. 1.(własności wartości oczekiwanej) c.d.

Jeśli zmienne losowe X i Y są niezależne i istnieje

E(X∙Y), EX i EY

to E(X∙Y)=EX∙EY.

Uwaga:

Jeśli zmienne losowe są niezależne to cov(X,Y)=0.

Tw. 2.(własności wariancji) c.d.

Jeśli istnieje EX, EY i E[(X-EX)(Y-EY)] to

D2(X+Y)=D2(X)+D2(Y)+2cov(X,Y) oraz

D2(X-Y)=D2(X)+D2(Y)-2cov(X,Y).

Ponadto, gdy zmienne losowe X i Y są niezależne

to

D2(X+Y)=D2(X-Y)=D2(X)+D2(Y).

Tw. 3.(własności współczynnika korelacji)

1.│(X,Y)│=│(aX+b,cY+d)│, a, b, c, d R

2.│(X,Y)│≤1

3.│(X,Y)│=1 wtedy i tylko wtedy, gdy istnieją stałe

a, b takie, że P{Y=aX+b}=1

4. Jeśli zmienne losowe X i Y są niezależne, to

(X,Y)=0.

Przykład.

Wyznaczyć współczynnik korelacji dla zmiennej

losowej (X,Y) o rozkładzie:

a)

X Y

-1 0 1

-1 0,2 0,3 0 1 0 0,4 0,1

Rozwiązanie:

X Y

-1 0 1 P{Y=yk}

-1 0,2 0,3 0 0,5 1 0 0,4 0,1 0,5 P{X=xi} 0,2 0,7 0,1

Obliczamy:

EX=-0,2+0,1=-0,1

EY=-0,5+0,5=0

E(X2)=0,2+0,1=0,3

E(Y2)=0,5+0,5=1

D2(X)=0,3-(-0,1)2=0,29

D2(Y)=1-0=1

E(X∙Y)=(-1)∙(-1)∙0,2+1∙1∙0,1=0,3

cov(X,Y)=E(X∙Y)-EX∙EY=0,3

≈0,56

b)

tympoza

yxgdyyx

yxf

0

]2,0[]1,0[),(25

1

),(

Rozwiązanie:

Sprawdzamy, czy f(x,y) jest gęstością.

110

8

10

2

25

2

25

1

5

2

5

12

5

1

2

0

21

0

2

0

1

0

2

2

0

1

0

2

0

1

0

1

0

2

0

yxy

x

ydydxdyxdxdxdyyx

Gęstości brzegowe:

2,0,5

2

10

12

25

12

5

1)(

1,0,425

1

5

12

5

1)(

1

0

21

0

2

0

2

2

0

yyxyx

dxyxyf

xxyxydyyxxf

Y

X

Parametry:

30

56

5

8

30

8

45

2

310

1

5

2

10

1)(

30

11

15

4

10

1

34

42

5

142

5

1)(

15

19

15

16

5

1

32

22

1

5

1

5

2

10

1

15

8

5

2

15

2

24

32

5

142

5

1

2

0

2

0

4322

1

0

341

0

22

2

0

322

0

1

0

231

0

yydyyyYE

xxdxxxXE

yydyyyEY

xxdxxxEX

06,04336

4

11837

450225

2

),(

225

2

225

152

225

150

15

19

15

8

3

2),cov(

3

2

30

16

30

4

325

2

235

1)2(

5

1)(

450

118

450

23611556

15

19

30

56)(

450

37

450

2641115

15

8

30

11)(

2

0

31

0

22

0

21

0

31

0

2

0

2

2

2

2

YX

YX

yxyxdxdyyxxyYXE

YD

XD