Podstawowe testy statystyczne i analiza zale żno...

Podstawowe testy statystyczne i analiza zależności zjawisk

2

PODSTAWOWE TESTY

STATYSTYCZNE

Hipotezy statystyczne

� Hipoteza statystyczna – dowolne przypuszczenie dotyczące rozkładu lub jego parametrów

� Hipoteza parametryczna – dotyczy parameterów rozkładu

� Hipoteza nieparametryczna – dotyczy postaci rozkładu

3

Testowanie hipotez - kroki

1) Sformułowanie hipotezy zerowej i alternatywnej

2) Ustalenie poziomu istotności α (najczęściej 5%)

3) Wybranie odpowiedniej statystyki testowej i obszaru krytycznego

4) Wyliczenie statystyki na podstawie próby

5) Podjęcie decyzji

4

5

Test na równość średnich – porównanie z normą

� Założenia:

– Próba z rozkładu normalnego, σ nieznana

� Hipoteza zerowa : µ1= µ0

� Statystyka testowa

)1(~0

__

−−

= ntnS

xT

µ

6

Test na równość średnich - dwie populacje

� Założenia:

– Obie próby z rozkładu normalnego, zmienne są niezależne

– Wariancje w obydwu próbach są sobie równe

� Hipoteza zerowa : µ1= µ2


)2(~

)11

(2

)1()1(21

2121

2

22

2

11

__

2

__

1, 21

−+

+−+

−+−

−= nnt

nnnn

snsn

xxT nn

7

Test na równość wariancji – porównanie z normą

� Założenia

– Próba z rozkładu normalnego

� Hipoteza zerowa: σ12= σ0

2


)1(~)1( 2

2

0

22 −

−= n

Snχ

σχ

8

Test na równość wariancji – dwie populacje

� Założenia

– Obie próby z rozkładu normalnego, zmienne są niezależne

� Hipoteza zerowa: σ12= σ2

2


)1,1(~ 212

2

2

1 −−= nnFS

SF

9

Test na równość proporcji – porównanie z normą

� Założenia:– Próba z rozkładu dwupunktowego

� Hipoteza zerowa: p1=p0

� Statystyka testowa:

∞→−

−= ngdyNn

pp

ppU )1,0(~

)1( 00

0

^

10

Test na równość proporcji – dwie populacje

� Założenia:– Próby z rozkładów dwupunktowych

� Hipoteza zerowa: p1=p2

� Statystyka testowa:

∞→

+−

−= 21

21

**

^

2

^

12,1 ,)1,0(~

)11

()1(

nngdyNn

nnpp

ppU nn

21

21* x

nn

xp

+

+=

11

Test na zgodność z rozkładem

Test zgodności Chi-kwadrat

� Test sumuje w kwadratach wszystkie różnice między otrzymanymi

w badaniach wynikami a oczekiwanymi wynikami zgodnymi z

przyjętym rozkładem hipotetycznym

� Hipoteza zerowa : zmienna x podlega danemu rozkładowi

� Ogólna postać statystyki:

� Test odrzuca H0 jeśli gdzie k to liczba

parametrów rozkładu oszacowana na podstawie próby

∑−

=oczekiwanawielkośi

oczekiwanawielkośiaobserwowanwielkośi

_

)__(2

2

χ

)1(22 −−≥ knχχ

12

Test na zgodność z rozkładem

Test Kołmogorowa-Smirnova

– Założenia: ciągła, ściśle rosnąca dystrybuanta

– Hipoteza zerowa: zmienna x podlega danemu rozkładowi

– Statystyka:

gdzie Fn(t) to dystrybuanta empiryczna

|)()(|sup 0 tFtFD nRt

−=∈

)(|1

|max||max

),max(

:0,..,1,..,1

niiini

nini

n

nnn

xFzn

izDz

n

iD

gdzieDDD

=−

−=−=

=

=

−

=

+

−+

13

Test na normalność rozkładu

� Hipoteza zerowa w testach: normalność rozkładu obserwacji

� Test Shapiro-Wilka – szeregujemy wyniki w ciąg niemalejący a

następnie budujemy statystykę:

oraz ai:n to stablicowane współczynniki

� Test Jarque-Bera – statystyka oparta na wyliczonych z próby

współczynnikach: skośności(Sk) i kurtozie(Ku)

� Inne testy: Shapiro-Francia , Andersona-Darlinga, Lillieforsa

)2(24

)3(

6

222

χ→

−+=

DKuSkNJB

−−

−=

+

=∑

=

−−

ychnieparzystndlan

parzystychndlanngdzie

s

xxa

SW

n

i

iinni

2/)1(

2/]2/[

)(

2

]2/[

1

2

)1(:

14

ANALIZA ZALEŻNOŚCI ZJAWISK

15

Wykres rozproszenia

Analizę zależności między dwoma cechami warto rozpocząć od wykresu rozproszenia (scatterplot). Na wykresie zwykle łatwo możemy określić siłę i rodzaj zależności.

-40

-20

02

04

0

-2 -1 0 1 2

Korelacja liniowa dodatnia

-20

020

40

y2

-2 -1 0 1 2

Korelacja liniowa ujemna

-2-1

01

2

-2 -1 0 1 2

Brak korelacji

-6-4

-20

2

-2 -1 0 1 2

Korelacja krzywoliniowa

16

Współczynnik korelacji Pearsona

� Współczynnik korelacji Pearsona jest unormowanym współczynnikiem kowariancji:

gdzie Sx i Sy oznaczają odchyleniastandardowe.

� Współczynnik ten jest miarą siły związku liniowego między zmiennymi mierzalnymi. Znak współczynnika korelacji informuje nas o kierunku zależności, natomiast jego bezwzględna wartość o sile związku.

� Wartość tego współczynnika wyliczona z próby jest nieobciążonym i zgodnym estymatorem współczynnika korelacji w całej populacji. Konieczna jest zatem ocena istotności statystycznej tak wyliczonego współczynnika z próby.

cov( , )( , ) ,

X Y

X Y

S Sr corr X Y= =

17

Test istotności współczynnika korelacji Pearsona

Założenia testu:

Dysponujemy n-elementową próbką z dwuwymiarowego rozkładu normalnego o nieznanym współczynniku korelacji ρ

Hipotezy:

H0: ρ=0 wobec alternatywy H1: ρ≠0 (lub H1: ρ>0 lub H1: ρ<0)

Statystyka testowa:

Przy założeniu prawdziwości hipotezy zerowej, statystyka

testowa ma rozkład t-Studenta o (n-2) stopniach swobody.

212r

rt n

−= −

18

Uwagi (1)

1. Współczynnik korelacji Pearsona służy do mierzenia liniowych zależności.

-100

-99

-98

-97

-96

-2 -1 0 1 2

rho = - 0.16

19

Uwagi (2)

2. Jest to miara wrażliwa na występowanie obserwacji odstających.

-3-2

-10

12

y

-2 -1 0 1 2x

rho = 0.86

-20

24

y

-2 -1 0 1 2x

rho = 0.3

20

Metody nieparametryczne

� Współczynnik korelacji Pearsona jest wrażliwy na punkty odstające, brak normalności.

� Stosowane, gdy mamy do czynienia z danymi mierzonymi przynajmniej na skali porządkowej.

� Najczęściej stosowane nieparametryczne miary korelacji:

- korelacja rang Spearmana

- korelacja Kendala tau-B

- Gamma

21

Rangi (1)

� Analizujemy zmienne mierzone na skali porządkowej, więc

możliwe jest uporządkowanie w ciąg rosnący, a następnie

przyporządkowanie kolejnym obserwacjom numeru. Jest to

uporządkowanie w kolejności rang.

� Takie postępowanie można zastosować dla zmiennych

mierzalnych nie mających rozkładu normalnego. Zamiana

konkretnych wartości na odpowiadające rangi niweluje negatywny

wpływ obserwacji odstających.

� Ranga i-tej obserwacji:

{ } { }1 # :

2# :

j ij X X

i j iR j X X

+ == < +

22

Rangi (2)

Przykład

Dane wyjściowe:

Rangi:

X 7 4 6 10 7

Y 0 -2 -1 2 3

R(X) 3,5 1 2 5 3,5

R(Y) 3 1 2 4 5

23

Współczynnik korelacji rang Spearmana

� Współczynnik korelacji rang jest miarą współzależności w której wartości zmiennych X i Y zastąpiono rangami tych zmiennych.

� Zamieniając we wzorze na współczynnik korelacji Pearsona konkretne wartości zmiennych ich rangami, otrzymujemy współczynnik korelacji rang Spearmana:

1

2 12 2

1 1

( )( ) 12 3( 1)

( 1) 1( ) ( )

n

ni iiS i iin n

i ii i

R R Q Q nr R Q

n n nR R Q Q

=

=

= =

− − += = −

− −− −

∑∑

∑ ∑

24

Współczynnik rang Kendala tau-B (1)

� W celu obliczenia tego współczynnika, należy zestawić obserwacje z próby we wszystkie możliwe pary, a następnie podzielić te pary na trzy możliwe kategorie:

� pary zgodne – porównywane zmienne w obrębie tych dwóch obserwacji zmieniają się w tę samą stronę, tzn. albo w pierwszej obserwacji obydwie są większe niż w drugiej, albo obydwie mniejsze. Liczba takich par w próbie będzie dalej oznaczana przez P.

� pary niezgodne – zmienne zmieniają się w przeciwną stronę, to znaczy jedna z nich jest większa dla tej obserwacji w parze, dla której druga jest mniejsza. Liczba takich par w próbie będzie oznaczana przez Q.

� pary wiązane – jedna ze zmiennych ma równe wartości w obydwu obserwacjach.

25


( )( 1) ( 1) ( 1) ( 1)

2 2 2 2

sgn( )sgn( )

( )( ) ( )( )

i j i ji j

n n n n n n n n

X X Y Y P Q

t s t sτ

<

− − − −

− − −= =

− − − −

∑

gdzie:

t – liczba par wiązanych dla zmiennej X,

s – liczba par wiązanych dla zmiennej Y,

sgn(z) zdefiniowane jest w następujący sposób:

1 0

sgn( ) 0 0

1 0

dla z

z dla z

dla z

>

= =− <

26


R(X) R(Y)

1 4 X

2 1 -1 X

3,5 2 -1 1 X

3,5 7 1 1 0 X

5 3 -1 1 1 -1 X

6 6 1 1 1 -1 1 X

7 5 1 1 1 -1 1 -1 X

0 5 3 -3 2 -1 6Sumy

7(7 1) 7(7 1)

2 2

60,29

( 1)( 0)τ

− −= ≈

− −

27

Współczynnik Gamma

� Współczynnik ten jest bardziej wskazany niż współczynnik Spearmana i Kendala, gdy dane zawierają wiele obserwacji wiązanych.

� Należy stosować gdy obie zmienne są mierzone na skali porządkowej.

� Przyjmuje wartość z przedziału [-1; 1].

� Wyraża się następującym wzorem:

P Q

P Q

−

+Γ =

28

Tabela wielodzielnicza

29

Analiza zależności

� Kolejny etap to próba weryfikacji hipotezy, że dwie jakościowe cechy w populacji są niezależne.

� Najczęściej stosowane narzędzie to test chi-kwadrat opracowany przez Karla Pearsona w 1900 roku. Test polega na porównaniu częstości zaobserwowanych z częstościami oczekiwanymi przy założeniu prawdziwości hipotezy zerowej o braku zależności między zmiennymi.

� Dwa zdarzenia, A i B, są niezależne, jeśli prawdopodobieństwo ich jednoczesnego wystąpienia jest równe iloczynowi ich prawdopodobieństw brzegowych:

( ) ( ) ( )P A B P A P B∩ =

30

Test niezależności chi-kwadrat (1)

Hipoteza zerowa: zmienne są niezależne

Hipoteza alternatywna: istnieje związek między zmiennymi

Częstości oczekiwane:

E= (suma wiersza)*(suma kolumny) / (suma całkowita)

Statystyka testowa:

gdzie: E – oczekiwana częstość komórki

O – obserwowana częstość komórki

1 1

1 1

p k

ij ijj i

ij k p

iji j

n nE

n

= =

= =

=∑ ∑∑ ∑

( )2

22

1 1

( ) k p ij ij

i jij

n EO E

E Eχ

= =

−−= =∑ ∑ ∑

31


� Przy założeniu prawdziwości hipotezy zerowej, statystyka ma asymptotyczny rozkład chi-kwadrat o (k-1)(p-1) stopniach swobody.

� Duże wartości statystyki testowej oznaczają dużą różnicę pomiędzy częstościami obserwowanymi a oczekiwanymi i jest to potwierdzenie istnienia zależności. Przeciwnie – małe wartości statystyki wskazują na brak powiązania.

Jeżeli to odrzucamy hipotezę zerową.

Jeżeli to brak podstaw do odrzucenia hipotezy

zerowej.

2 2

krytyczneχ χ≥2 2

krytyczneχ χ<

32


Liczebności oczekiwane:

Statystyka testowa:

Tak Nie

Kobieta 12 (18) 28 (22) 40

Mężczyzna 33 (27) 27 (33) 60

Suma 45 55 100

Czy pali papierosy?SumaPłeć

11 12

21 22

40 45 /100 18 40 55 /100 22

45 60 /100 27 55 60 /100 33

E E

E E

= ⋅ = = ⋅ =

= ⋅ = = ⋅ =

2 2 2 2(12 18) (28 22) (33 27) (27 33)2

18 22 27 336,06χ − − − −

= + + + ≈

W nawiasach podano

liczebności oczekiwane.

33

Ocena siły związku

� Statystyka chi-kwadrat sprawdza, czy dwie zmienne są ze sobą powiązane. Oprócz sprawdzenia, czy pomiędzy zmiennymi zachodzi związek, interesuje nas jak silne jest to powiązanie.

� Wartości statystyki chi-kwadrat jako pomiaru siły związku nie możemy stosować, gdyż zależy ona od liczebności próby i rośnie wraz z jej wzrostem.

� Jednakże na bazie tej statystyki zbudowano szereg miar siły związku. Do najpopularniejszych zaliczany jest współczynnik zbieżności V-Cramera.

34

Współczynnik zbieżności V-Cramera

Obliczamy według poniższego wzoru:

V = 0 � zmienne są niezależne – brak korelacji

V = 1 � zmienne są funkcyjnie zależne

0 < V < 1 � przedział możliwych wartościwspółczynnika Cramera

2

min( 1, 1)n K PV

χ

⋅ − −=

35

Korelacja cząstkowa - motywacja

� Jeśli na pewną zmienną oddziałuje więcej niż jedna zmienna, a interesuje nas ścisły związek korelacyjny między dwoma zmiennymi, przy wyłączeniu wpływu pozostałych zmiennych, to powinniśmy posłużyć się współczynnikiem korelacji cząstkowej.

� Jeżeli rozważamy współwystępowanie poziomu sprzedaży i dwóch czynników (np. nakłady na reklamę, nakłady na innowacje), to korelacja cząstkowa ustala siłę i kierunek skorelowania pomiędzy sprzedażą i każdym z czynników oddzielnie, wyłączając ewentualne oddziaływanie drugiego z nich.

� Przy większej liczbie cech wziętych pod uwagę, zależność jest określana zawsze dla dwóch z nich, przy wyeliminowaniu ewentualnego wpływu na nie wszystkich pozostałych.

36

Współczynnik korelacji cząstkowej

Korelacja cząstkowa to korelacja z wyeliminowaniem wpływu

zmiennych pośrednich.

� Pokazuje korelację „czystą” – jeżeli korelacja cząstkowa

między zmiennymi jest bardzo zbliżona do korelacji zwykłej to

możemy powiedzieć, że zmienne pośrednie nie mają wpływu

na zależność między badanymi zmiennymi.

� Pokazuje korelację „pozorną” – jeżeli korelacja cząstkowa

między zmiennymi znacznie różni się od korelacji zwykłej (lub

jest w ekstremalnym przypadku równa 0) to zależność między

badanymi zmiennymi jest w dużym stopniu wyjaśniana przez

zmienne pośrednie.

37

Współczynnik korelacji cząstkowej – trzy zmienne

� Analizujemy trzy zmienne X1, X2 oraz X3. Chcemy

zdefiniować współczynnik korelacji liniowej, mierzący siłę

powiązania między dwiema zmiennymi przy wyłączeniu

oddziaływania trzeciej zmiennej. W przypadku trzech

zmiennych współczynniki korelacji cząstkowej oznaczane są następująco:

� Symbol oznacza korelację między zmiennymi X1 a X2 przy wyłączeniu działania zmiennej X3 i wyraża się następującym wzorem:

gdzie jest współczynnikiem korelacji Pearsona między i-tą a j-tą zmienną.

12.3 13.2 23.1, , .r r r

12.3r

( )( )12 13 23

12.32 2

13 231 1

r r rr

r r

−=

− −

ijr

Podstawowe testy statystyczne i analiza zale żno...

Documents

Transcript of Podstawowe testy statystyczne i analiza zale żno...