Podstawowe testy statystyczne i analiza zale żno...
Transcript of Podstawowe testy statystyczne i analiza zale żno...
Podstawowe testy statystyczne i analiza zależności zjawisk
2
PODSTAWOWE TESTY
STATYSTYCZNE
Hipotezy statystyczne
� Hipoteza statystyczna – dowolne przypuszczenie dotyczące rozkładu lub jego parametrów
� Hipoteza parametryczna – dotyczy parameterów rozkładu
� Hipoteza nieparametryczna – dotyczy postaci rozkładu
3
Testowanie hipotez - kroki
1) Sformułowanie hipotezy zerowej i alternatywnej
2) Ustalenie poziomu istotności α (najczęściej 5%)
3) Wybranie odpowiedniej statystyki testowej i obszaru krytycznego
4) Wyliczenie statystyki na podstawie próby
5) Podjęcie decyzji
4
5
Test na równość średnich – porównanie z normą
� Założenia:
– Próba z rozkładu normalnego, σ nieznana
� Hipoteza zerowa : µ1= µ0
� Statystyka testowa
)1(~0
__
−−
= ntnS
xT
µ
6
Test na równość średnich - dwie populacje
� Założenia:
– Obie próby z rozkładu normalnego, zmienne są niezależne
– Wariancje w obydwu próbach są sobie równe
� Hipoteza zerowa : µ1= µ2
� Statystyka testowa
)2(~
)11
(2
)1()1(21
2121
2
22
2
11
__
2
__
1, 21
−+
+−+
−+−
−= nnt
nnnn
snsn
xxT nn
7
Test na równość wariancji – porównanie z normą
� Założenia
– Próba z rozkładu normalnego
� Hipoteza zerowa: σ12= σ0
2
� Statystyka testowa
)1(~)1( 2
2
0
22 −
−= n
Snχ
σχ
8
Test na równość wariancji – dwie populacje
� Założenia
– Obie próby z rozkładu normalnego, zmienne są niezależne
� Hipoteza zerowa: σ12= σ2
2
� Statystyka testowa
)1,1(~ 212
2
2
1 −−= nnFS
SF
9
Test na równość proporcji – porównanie z normą
� Założenia:– Próba z rozkładu dwupunktowego
� Hipoteza zerowa: p1=p0
� Statystyka testowa:
∞→−
−= ngdyNn
pp
ppU )1,0(~
)1( 00
0
^
10
Test na równość proporcji – dwie populacje
� Założenia:– Próby z rozkładów dwupunktowych
� Hipoteza zerowa: p1=p2
� Statystyka testowa:
∞→
+−
−= 21
21
**
^
2
^
12,1 ,)1,0(~
)11
()1(
nngdyNn
nnpp
ppU nn
21
21* x
nn
xp
+
+=
11
Test na zgodność z rozkładem
Test zgodności Chi-kwadrat
� Test sumuje w kwadratach wszystkie różnice między otrzymanymi
w badaniach wynikami a oczekiwanymi wynikami zgodnymi z
przyjętym rozkładem hipotetycznym
� Hipoteza zerowa : zmienna x podlega danemu rozkładowi
� Ogólna postać statystyki:
� Test odrzuca H0 jeśli gdzie k to liczba
parametrów rozkładu oszacowana na podstawie próby
∑−
=oczekiwanawielkośi
oczekiwanawielkośiaobserwowanwielkośi
_
)__(2
2
χ
)1(22 −−≥ knχχ
12
Test na zgodność z rozkładem
Test Kołmogorowa-Smirnova
– Założenia: ciągła, ściśle rosnąca dystrybuanta
– Hipoteza zerowa: zmienna x podlega danemu rozkładowi
– Statystyka:
gdzie Fn(t) to dystrybuanta empiryczna
|)()(|sup 0 tFtFD nRt
−=∈
)(|1
|max||max
),max(
:0,..,1,..,1
niiini
nini
n
nnn
xFzn
izDz
n
iD
gdzieDDD
=−
−=−=
=
=
−
=
+
−+
13
Test na normalność rozkładu
� Hipoteza zerowa w testach: normalność rozkładu obserwacji
� Test Shapiro-Wilka – szeregujemy wyniki w ciąg niemalejący a
następnie budujemy statystykę:
oraz ai:n to stablicowane współczynniki
� Test Jarque-Bera – statystyka oparta na wyliczonych z próby
współczynnikach: skośności(Sk) i kurtozie(Ku)
� Inne testy: Shapiro-Francia , Andersona-Darlinga, Lillieforsa
)2(24
)3(
6
222
χ→
−+=
DKuSkNJB
−−
−=
+
=∑
=
−−
ychnieparzystndlan
parzystychndlanngdzie
s
xxa
SW
n
i
iinni
2/)1(
2/]2/[
)(
2
]2/[
1
2
)1(:
14
ANALIZA ZALEŻNOŚCI ZJAWISK
15
Wykres rozproszenia
Analizę zależności między dwoma cechami warto rozpocząć od wykresu rozproszenia (scatterplot). Na wykresie zwykle łatwo możemy określić siłę i rodzaj zależności.
-40
-20
02
04
0
-2 -1 0 1 2
Korelacja liniowa dodatnia
-20
020
40
y2
-2 -1 0 1 2
Korelacja liniowa ujemna
-2-1
01
2
-2 -1 0 1 2
Brak korelacji
-6-4
-20
2
-2 -1 0 1 2
Korelacja krzywoliniowa
16
Współczynnik korelacji Pearsona
� Współczynnik korelacji Pearsona jest unormowanym współczynnikiem kowariancji:
gdzie Sx i Sy oznaczają odchyleniastandardowe.
� Współczynnik ten jest miarą siły związku liniowego między zmiennymi mierzalnymi. Znak współczynnika korelacji informuje nas o kierunku zależności, natomiast jego bezwzględna wartość o sile związku.
� Wartość tego współczynnika wyliczona z próby jest nieobciążonym i zgodnym estymatorem współczynnika korelacji w całej populacji. Konieczna jest zatem ocena istotności statystycznej tak wyliczonego współczynnika z próby.
cov( , )( , ) ,
X Y
X Y
S Sr corr X Y= =
17
Test istotności współczynnika korelacji Pearsona
Założenia testu:
Dysponujemy n-elementową próbką z dwuwymiarowego rozkładu normalnego o nieznanym współczynniku korelacji ρ
Hipotezy:
H0: ρ=0 wobec alternatywy H1: ρ≠0 (lub H1: ρ>0 lub H1: ρ<0)
Statystyka testowa:
Przy założeniu prawdziwości hipotezy zerowej, statystyka
testowa ma rozkład t-Studenta o (n-2) stopniach swobody.
212r
rt n
−= −
18
Uwagi (1)
1. Współczynnik korelacji Pearsona służy do mierzenia liniowych zależności.
-100
-99
-98
-97
-96
-2 -1 0 1 2
rho = - 0.16
19
Uwagi (2)
2. Jest to miara wrażliwa na występowanie obserwacji odstających.
-3-2
-10
12
y
-2 -1 0 1 2x
rho = 0.86
-20
24
y
-2 -1 0 1 2x
rho = 0.3
20
Metody nieparametryczne
� Współczynnik korelacji Pearsona jest wrażliwy na punkty odstające, brak normalności.
� Stosowane, gdy mamy do czynienia z danymi mierzonymi przynajmniej na skali porządkowej.
� Najczęściej stosowane nieparametryczne miary korelacji:
- korelacja rang Spearmana
- korelacja Kendala tau-B
- Gamma
21
Rangi (1)
� Analizujemy zmienne mierzone na skali porządkowej, więc
możliwe jest uporządkowanie w ciąg rosnący, a następnie
przyporządkowanie kolejnym obserwacjom numeru. Jest to
uporządkowanie w kolejności rang.
� Takie postępowanie można zastosować dla zmiennych
mierzalnych nie mających rozkładu normalnego. Zamiana
konkretnych wartości na odpowiadające rangi niweluje negatywny
wpływ obserwacji odstających.
� Ranga i-tej obserwacji:
{ } { }1 # :
2# :
j ij X X
i j iR j X X
+ == < +
22
Rangi (2)
Przykład
Dane wyjściowe:
Rangi:
X 7 4 6 10 7
Y 0 -2 -1 2 3
R(X) 3,5 1 2 5 3,5
R(Y) 3 1 2 4 5
23
Współczynnik korelacji rang Spearmana
� Współczynnik korelacji rang jest miarą współzależności w której wartości zmiennych X i Y zastąpiono rangami tych zmiennych.
� Zamieniając we wzorze na współczynnik korelacji Pearsona konkretne wartości zmiennych ich rangami, otrzymujemy współczynnik korelacji rang Spearmana:
1
2 12 2
1 1
( )( ) 12 3( 1)
( 1) 1( ) ( )
n
ni iiS i iin n
i ii i
R R Q Q nr R Q
n n nR R Q Q
=
=
= =
− − += = −
− −− −
∑∑
∑ ∑
24
Współczynnik rang Kendala tau-B (1)
� W celu obliczenia tego współczynnika, należy zestawić obserwacje z próby we wszystkie możliwe pary, a następnie podzielić te pary na trzy możliwe kategorie:
� pary zgodne – porównywane zmienne w obrębie tych dwóch obserwacji zmieniają się w tę samą stronę, tzn. albo w pierwszej obserwacji obydwie są większe niż w drugiej, albo obydwie mniejsze. Liczba takich par w próbie będzie dalej oznaczana przez P.
� pary niezgodne – zmienne zmieniają się w przeciwną stronę, to znaczy jedna z nich jest większa dla tej obserwacji w parze, dla której druga jest mniejsza. Liczba takich par w próbie będzie oznaczana przez Q.
� pary wiązane – jedna ze zmiennych ma równe wartości w obydwu obserwacjach.
25
Współczynnik rang Kendala tau-B (2)
( )( 1) ( 1) ( 1) ( 1)
2 2 2 2
sgn( )sgn( )
( )( ) ( )( )
i j i ji j
n n n n n n n n
X X Y Y P Q
t s t sτ
<
− − − −
− − −= =
− − − −
∑
gdzie:
t – liczba par wiązanych dla zmiennej X,
s – liczba par wiązanych dla zmiennej Y,
sgn(z) zdefiniowane jest w następujący sposób:
1 0
sgn( ) 0 0
1 0
dla z
z dla z
dla z
>
= =− <
26
Współczynnik rang Kendala tau-B (3)
R(X) R(Y)
1 4 X
2 1 -1 X
3,5 2 -1 1 X
3,5 7 1 1 0 X
5 3 -1 1 1 -1 X
6 6 1 1 1 -1 1 X
7 5 1 1 1 -1 1 -1 X
0 5 3 -3 2 -1 6Sumy
7(7 1) 7(7 1)
2 2
60,29
( 1)( 0)τ
− −= ≈
− −
27
Współczynnik Gamma
� Współczynnik ten jest bardziej wskazany niż współczynnik Spearmana i Kendala, gdy dane zawierają wiele obserwacji wiązanych.
� Należy stosować gdy obie zmienne są mierzone na skali porządkowej.
� Przyjmuje wartość z przedziału [-1; 1].
� Wyraża się następującym wzorem:
P Q
P Q
−
+Γ =
28
Tabela wielodzielnicza
29
Analiza zależności
� Kolejny etap to próba weryfikacji hipotezy, że dwie jakościowe cechy w populacji są niezależne.
� Najczęściej stosowane narzędzie to test chi-kwadrat opracowany przez Karla Pearsona w 1900 roku. Test polega na porównaniu częstości zaobserwowanych z częstościami oczekiwanymi przy założeniu prawdziwości hipotezy zerowej o braku zależności między zmiennymi.
� Dwa zdarzenia, A i B, są niezależne, jeśli prawdopodobieństwo ich jednoczesnego wystąpienia jest równe iloczynowi ich prawdopodobieństw brzegowych:
( ) ( ) ( )P A B P A P B∩ =
30
Test niezależności chi-kwadrat (1)
Hipoteza zerowa: zmienne są niezależne
Hipoteza alternatywna: istnieje związek między zmiennymi
Częstości oczekiwane:
E= (suma wiersza)*(suma kolumny) / (suma całkowita)
Statystyka testowa:
gdzie: E – oczekiwana częstość komórki
O – obserwowana częstość komórki
1 1
1 1
p k
ij ijj i
ij k p
iji j
n nE
n
= =
= =
=∑ ∑∑ ∑
( )2
22
1 1
( ) k p ij ij
i jij
n EO E
E Eχ
= =
−−= =∑ ∑ ∑
31
Test niezależności chi-kwadrat (2)
� Przy założeniu prawdziwości hipotezy zerowej, statystyka ma asymptotyczny rozkład chi-kwadrat o (k-1)(p-1) stopniach swobody.
� Duże wartości statystyki testowej oznaczają dużą różnicę pomiędzy częstościami obserwowanymi a oczekiwanymi i jest to potwierdzenie istnienia zależności. Przeciwnie – małe wartości statystyki wskazują na brak powiązania.
Jeżeli to odrzucamy hipotezę zerową.
Jeżeli to brak podstaw do odrzucenia hipotezy
zerowej.
2 2
krytyczneχ χ≥2 2
krytyczneχ χ<
32
Test niezależności chi-kwadrat (3)
Liczebności oczekiwane:
Statystyka testowa:
Tak Nie
Kobieta 12 (18) 28 (22) 40
Mężczyzna 33 (27) 27 (33) 60
Suma 45 55 100
Czy pali papierosy?SumaPłeć
11 12
21 22
40 45 /100 18 40 55 /100 22
45 60 /100 27 55 60 /100 33
E E
E E
= ⋅ = = ⋅ =
= ⋅ = = ⋅ =
2 2 2 2(12 18) (28 22) (33 27) (27 33)2
18 22 27 336,06χ − − − −
= + + + ≈
W nawiasach podano
liczebności oczekiwane.
33
Ocena siły związku
� Statystyka chi-kwadrat sprawdza, czy dwie zmienne są ze sobą powiązane. Oprócz sprawdzenia, czy pomiędzy zmiennymi zachodzi związek, interesuje nas jak silne jest to powiązanie.
� Wartości statystyki chi-kwadrat jako pomiaru siły związku nie możemy stosować, gdyż zależy ona od liczebności próby i rośnie wraz z jej wzrostem.
� Jednakże na bazie tej statystyki zbudowano szereg miar siły związku. Do najpopularniejszych zaliczany jest współczynnik zbieżności V-Cramera.
34
Współczynnik zbieżności V-Cramera
Obliczamy według poniższego wzoru:
V = 0 � zmienne są niezależne – brak korelacji
V = 1 � zmienne są funkcyjnie zależne
0 < V < 1 � przedział możliwych wartościwspółczynnika Cramera
2
min( 1, 1)n K PV
χ
⋅ − −=
35
Korelacja cząstkowa - motywacja
� Jeśli na pewną zmienną oddziałuje więcej niż jedna zmienna, a interesuje nas ścisły związek korelacyjny między dwoma zmiennymi, przy wyłączeniu wpływu pozostałych zmiennych, to powinniśmy posłużyć się współczynnikiem korelacji cząstkowej.
� Jeżeli rozważamy współwystępowanie poziomu sprzedaży i dwóch czynników (np. nakłady na reklamę, nakłady na innowacje), to korelacja cząstkowa ustala siłę i kierunek skorelowania pomiędzy sprzedażą i każdym z czynników oddzielnie, wyłączając ewentualne oddziaływanie drugiego z nich.
� Przy większej liczbie cech wziętych pod uwagę, zależność jest określana zawsze dla dwóch z nich, przy wyeliminowaniu ewentualnego wpływu na nie wszystkich pozostałych.
36
Współczynnik korelacji cząstkowej
Korelacja cząstkowa to korelacja z wyeliminowaniem wpływu
zmiennych pośrednich.
� Pokazuje korelację „czystą” – jeżeli korelacja cząstkowa
między zmiennymi jest bardzo zbliżona do korelacji zwykłej to
możemy powiedzieć, że zmienne pośrednie nie mają wpływu
na zależność między badanymi zmiennymi.
� Pokazuje korelację „pozorną” – jeżeli korelacja cząstkowa
między zmiennymi znacznie różni się od korelacji zwykłej (lub
jest w ekstremalnym przypadku równa 0) to zależność między
badanymi zmiennymi jest w dużym stopniu wyjaśniana przez
zmienne pośrednie.
37
Współczynnik korelacji cząstkowej – trzy zmienne
� Analizujemy trzy zmienne X1, X2 oraz X3. Chcemy
zdefiniować współczynnik korelacji liniowej, mierzący siłę
powiązania między dwiema zmiennymi przy wyłączeniu
oddziaływania trzeciej zmiennej. W przypadku trzech
zmiennych współczynniki korelacji cząstkowej oznaczane są następująco:
� Symbol oznacza korelację między zmiennymi X1 a X2 przy wyłączeniu działania zmiennej X3 i wyraża się następującym wzorem:
gdzie jest współczynnikiem korelacji Pearsona między i-tą a j-tą zmienną.
12.3 13.2 23.1, , .r r r
12.3r
( )( )12 13 23
12.32 2
13 231 1
r r rr
r r
−=
− −
ijr