Hipotezy statystyczne

27
Hipotezy statystyczne Definicja, sformułowanie i weryfikacja 1 Autor: Janusz Górczyński

description

Hipotezy statystyczne. Definicja, sformułowanie i weryfikacja. Definicja. Hipotezą statystyczną jest dowolne zdanie orzekające o parametrach populacji lub jej rozkładzie. Prawdziwość hipotezy jest oceniana na podstawie wyników próby losowej . - PowerPoint PPT Presentation

Transcript of Hipotezy statystyczne

Page 1: Hipotezy statystyczne

1

Hipotezy statystyczne

Definicja, sformułowanie i weryfikacja

Autor: Janusz Górczyński

Page 2: Hipotezy statystyczne

2

Definicja

Hipotezą statystyczną jest dowolne zdanie orzekające o parametrach populacji lub jej rozkładzie. Prawdziwość hipotezy jest oceniana na podstawie wyników próby losowej.

Hipoteza statystyczna może orzekać o parametrach populacji i takie hipotezy nazywamy hipotezami parametrycznymi.

Pozostałe hipotezy statystyczne (te, które nie dotyczą parametrów), nazywamy hipotezami nieparametrycznymi.

.

Page 3: Hipotezy statystyczne

3

Hipotezy parametryczne

Przykład 1.Interesuje nas wydajność pracy pracowników pewnego zakładu produkcyjnego. Zakładamy, że modelem tej cechy może być zmienna losowa normalna o nieznanych parametrach m i . Przypuszczamy, że średnia wydajność (w populacji) jest równa znanej wartości m0. Tym samym sformułowaliśmy hipotezę statystyczną dotyczącą parametru m:

H m m0 0:

Page 4: Hipotezy statystyczne

4

Hipotezy nieparametryczne

Przykład 2.

W poprzednim przykładzie założyliśmy, że interesująca nas cecha (wydajność pracy pracowników) może być modelowana zmienną losową normalną. Możemy więc sformułować hipotezę dotyczącą rozkładu tej cechy:

H X N m0: ~ ( ; )

Page 5: Hipotezy statystyczne

5

Weryfikacja hipotezy

Hipoteza statystyczna musi być na podstawie wyników próby zweryfikowana.

Testem statystycznym nazywamy regułę postępowania, która każdej możliwej próbie przyporządkowuje decyzję odrzucenia hipotezy lub nie daje podstaw do podjęcia takiej decyzji.

Proces weryfikacji hipotezy statystycznej obejmuje z jednej strony jej sformułowanie (jako tzw. hipotezy zerowej), z drugiej strony musimy sformułować hipotezę alternatywną oznaczaną z reguły symbolem H1.

Page 6: Hipotezy statystyczne

6

Weryfikacja hipotez statystycznych

H m m H m m0 0 1 0: :

Rozpatrzmy hipotezę parametryczną z przykładu 1, gdzie wypowiadaliśmy się o możliwej wartości średniej generalnej. Odpowiednią hipotezę zerową i alternatywną możemy zapisać jako:

Na podstawie wyników próby losowej chcemy teraz skonstruować taki test statystyczny, który da możliwość podjęcia decyzji co do prawdziwości hipotezy zerowej.

Page 7: Hipotezy statystyczne

7

Weryfikacja hipotez statystycznych

xs

mxt 0

x m 0 0x m

Przy konstrukcji testu skorzystamy z faktu, że statystyka:

ma, przy prawdziwości H0:m=m0, rozkład t-Studenta z liczbą stopni swobody v = n - 1. Załóżmy, że H0:m=m0 jest prawdziwa. Jeżeli tak, to m m0 = 0 oraz (ponieważ ).

Tym samym wartość statystyki t powinna niewiele odbiegać od zera (jeżeli H0 jest prawdziwa).

Page 8: Hipotezy statystyczne

8

Weryfikacja hipotez statystycznych

xs

mxt 0

P t t v( ),

t v ,

W sytuacji, gdy wartości statystyki t będą odbiegać od zera dość znacznie, to powinniśmy zacząć wątpić w prawdziwość naszego założenia (że m = m0).

Pozostaje do rozstrzygnięcia kwestia, kiedy można uznać, że wyniki naszej próby świadczą przeciwko prawdziwości hipotezy zerowej. Wykorzystamy do tego celu fakt, że dla każdego

znajdziemy taką wartość , dla której spełniona jest równość

Page 9: Hipotezy statystyczne

9

Weryfikacja hipotez statystycznycht v ,

( ; ) ( ; ), , t tv v

( ; ), , t tv v

Tym samym wartość wyznacza nam obszar krytyczny dla naszej hipotezy H0:

Jeżeli wartość empiryczna statystyki t znajdzie się w tym obszarze, to H0 musimy odrzucić jako zbyt mało prawdopodobną.Obszar jest obszarem dopuszczalnym dla H0 , mówimy, że wyniki naszej próby nie przeczą hipotezie zerowej. Proszę zauważyć, że nie jest to równoważne zdaniu, że hipoteza zerowa jest prawdziwa! (my jej tylko nie możemy odrzucić).

Page 10: Hipotezy statystyczne

10

Błędy weryfikacjiWyniki próby mogą być takie, że uznamy za

fałszywą i odrzucimy hipotezę H0, która w rzeczywistości jest prawdziwa. Jest to tzw. błąd I rodzaju, a prawdopodobieństwo jego popełnienia jest równe .

Możliwa jest także sytuacja odwrotna: wyniki próby nie pozwoliły na odrzucenie H0 , która w rzeczywistości była fałszywa. Popełniamy wtedy tzw. błąd II rodzaju, a jego prawdopodobieństwo jest równe .

Zwiększenie liczebności próby powoduje zmniejszenie prawdopodobieństwa .

Page 11: Hipotezy statystyczne

11

Błędy weryfikacji cd.

Brak podstaw

do odrzucenia

H0

Odrzucenie

H0

H0

prawdziwa P-stwo

P-stwo Błąd I rodzaju

H0 fałszywa P-stwo Błąd II rodzaju

P-stwo Moc testu

1

1

Page 12: Hipotezy statystyczne

12

Hipoteza o średniej generalnej m

H m m0 0: H m m1 0:

t v n , 1

Niech zmienna losowa X ma rozkład normalny o nieznanych parametrach m i . Na podstawie n-elementowej próby losowej chcemy zweryfikować hipotezę zerową

wobec alternatywy Procedura testowa:1. Ustalamy poziom istotności 2. Obliczamy wartość empiryczną t-Studenta

3. Odczytujemy z tablic statystycznych wartość krytyczną statystyki

xemp S

mxt 0

.

Page 13: Hipotezy statystyczne

13

Hipoteza o średniej generalnej m

Wnioskowanie:

Jeżeli ,

to H0 odrzucamy na korzyść H1.

Jeżeli ,

to nie mamy podstaw do odrzucenia H0.

t temp v. ,

t temp v. ,

Page 14: Hipotezy statystyczne

14

Hipoteza o średniej generalnej m

H m m0 0:

H m m0 0:

H m m1 0: H m m1 0:

H m m1 0: H m m1 0:

( , ), t v2 ( , ),t v2

t temp v 2 , t temp v 2 ,

Hipoteza może być także weryfikowana przy inaczej skonstruowanej hipotezie alternatywnej ( lub ). Procedura weryfikacyjna przebiega podobnie, zmienia się tylko obszar krytyczny:

Hipoteza zerowa Alternatywa (jednostronna)

Obszar krytyczny

H0 odrzucamy, jeżeli:

Page 15: Hipotezy statystyczne

15

Hipoteza o równości dwóch średnich generalnych

Procedura testowa:1. Ustalamy poziom istotności 2. Obliczamy wartość empiryczną statystyki

t-Studenta

3. Odczytujemy z tablic statystycznych wartość krytyczną statystyki

X N m1 1~ ( ; ) X N m2 2~ ( ; )

H m m0 1 2: H m m1 1 2:

tx x

sempr

. 1 2

t v n n , 1 2 2

Niech oraz . Na podstawie odpowiednich prób losowych chcemy zweryfikować hipotezę: wobec

Page 16: Hipotezy statystyczne

16

Hipoteza o równości dwóch średnich generalnych

Wnioskowanie o prawdziwości

wobec

Jeżeli ,

to H0 odrzucamy jako zbyt mało prawdopodobną.

Jeżeli ,

to nie mamy podstaw do odrzucenia H0.

H m m0 1 2: H m m1 1 2:

t temp v. ,

t temp v. ,

Page 17: Hipotezy statystyczne

17

Hipoteza o różnicy średnich generalnych

Niech oraz . Na podstawie odpowiednich prób losowych chcemy zweryfikować hipotezę: Hipoteza alternatywna może być jednostronna ( lub )

Procedura testowa przebiega podobnie jak poprzednio, zmieniają się jedynie obszary krytyczne.Hipoteza zerowa Hipotezy alternatywne

Obszar krytyczny

X N m1 1~ ( ; ) X N m2 2~ ( ; )

H m m0 1 2:

H m m1 1 2: H m m1 1 2:

H m m0 1 2: H m m1 1 2: H m m1 1 2:

( , ), t v2 ( , ),t v2

Page 18: Hipotezy statystyczne

18

Inny sposób weryfikacji hipotezy o równości średnich. NIR

Hipoteza przy jest odrzucana wtedy, gdy:

Iloczyn nazywamy najmniejszą istotną różnicą (least significant difference) i oznaczamy skrótem NIR (LSD).

H m m0 1 2: H m m1 1 2:

t temp v. ,

x x

st

x x

st x x t s

rv

rv v r

1 2 1 21 2

, , ,

t sv r ,

Page 19: Hipotezy statystyczne

19

Najmniejsza istotna różnica

Hipotezę przy alternatywie będziemy odrzucać wtedy, gdy:

NIR (LSD) jest taką różnicą wartości danej cechy w dwóch populacjach, którą jeszcze można uznać za losową (przypadkową). Różnice większe od NIR są już spowodowane własnościami danych populacji (nie są przypadkowe).

H m m0 1 2: H m m1 1 2:

x x NIR1 2

Page 20: Hipotezy statystyczne

20

Test istotności dla frakcji

Niech zmienna X ma w populacji rozkład zero-jedynkowy z prawdopodobieństwem sukcesu p. Parametr ten można interpretować jako wskaźnik struktury w populacji. Interesuje nas weryfikacja hipotezy zerowej: wobec Procedura weryfikacyjna wykorzystuje rozkład N(0, 1):1. Obliczamy gdzie

2. H0 odrzucamy, jeżeli

H p p0 0: H p p1 0:

zp p

p pn

emp.

( )

0

1 pk

n

z zemp.

Page 21: Hipotezy statystyczne

21

Test istotności dla różnicy frakcji

Rozważmy dwie zmienne zero-jedynkowe z parametrami odpowiednio p1 i p2. Interesuje nas weryfikacja przy alternatywie

Niech oraz oznaczają odpowiednio

frakcje elementów wyróżnionych w obu próbach.

Wiadomo, że

Jeżeli jest prawdziwa, to

gdzie p oznacza wspólną wartość dla obu zmiennych.

H p p0 1 2: H p p1 1 2:

pk

n11

1

pk

n22

2

~ ;( ) ( )

p p N p pp p

n

p p

n1 2 1 21 1

1

2 2

2

1 1

H p p p0 1 2:

~ ; ( )p p N p pn n1 2

1 2

0 11 1

Page 22: Hipotezy statystyczne

22

Test istotności dla różnicy frakcji

Jako ocenę wspólnego prawdopodobieństwa sukcesu dla obu zmiennych przyjmuje się wyrażenie:

Ostatecznie statystyka

ma rozkład N(0, 1).Hipotezę przy odrzucamy, jeżeli

pk k

n n

1 2

1 2

zp p

p pn n

emp

( )

1 2

1 2

11 1

H p p0 1 2: H p p1 1 2: z zemp.

Page 23: Hipotezy statystyczne

23

Test istotności dla wariancjiNiech , interesuje nas weryfikacja hipotezy przy alternatywie

W praktyce nie formułuje się H1 jako dwustronnej czy lewostronnej, co wynika z faktu, że duża wariancja jest niekorzystna.

Weryfikację hipotezy zerowej przeprowadzamy w

oparciu o n-elementową próbę wykorzystując fakt, że

statystyka ma rozkład z liczbą stopni

swobody v = n – 1.

X N m~ ( ; ) 2

H02

02: H1

202:

( )n s 1 2

2 2

Page 24: Hipotezy statystyczne

24

Test istotności dla wariancji

Jeżeli prawdziwa jest H0, to statystyka

ma rozkład z liczbą stopni swobody v = n - 1.Wnioskowanie:Jeżeli ,

to H0 odrzucamy na korzyść H1.

Jeżeli ,

to nie mamy podstaw do odrzucenia H0 .

emp

n s22

02

1

( )

2

emp v n2

12 ,

emp v n2

12 ,

Page 25: Hipotezy statystyczne

25

Test istotności dla dwóch wariancji

Niech oraz . Na podstawie odpowiednich prób losowych chcemy zweryfikować przy alternatywie

Statystyka

ma rozkład Fishera-Snedecora z liczbami stopni swobody oraz . .

X N m1 1 1~ ( ; ) X N m2 2 2~ ( ; )

H0 12

22: H1 1

222:

Fs s

12

12

22

22

u n 1 1 v n 2 1

Page 26: Hipotezy statystyczne

26

Test istotności dla dwóch wariancji

Jeżeli jest prawdziwa, to również statystyka

ma rozkład Fishera-Snedecora z liczbami stopni swobody oraz Z uwagi na konstrukcję tablic statystycznych, które zawierają wartości tylko dla prawostronnego obszaru krytycznego, wartość empiryczną statystyki F budujemy tak, aby była większa od 1 (w liczniku umieszczamy większą wariancję z próby).

H0 12

22:

Fs

s 1

2

22

u n 1 1 v n 2 1

Page 27: Hipotezy statystyczne

27

Test istotności dla dwóch wariancji Wnioskowanie:1. Obliczamy wartość empiryczną statystyki

2. Dla ustalonego odczytujemy z tablic wartość krytyczną gdzie u i v są odpowiednio liczbami stopni swobody dla średnich kwadratów w liczniku i mianowniku.

3. Jeżeli , to odrzucamy na korzyść

Fs

semp 12

22

F u v , ,

F Femp u v , , H0 12

22:

H1 12

22: