Wykład Plan Wykład Etapy Podanie planu wykładu Rozwijanie ...
Wykład 11 Analiza wariancji (ANOVA)
description
Transcript of Wykład 11 Analiza wariancji (ANOVA)
Wykład 11Analiza wariancji (ANOVA)
• Sposób analizy danych gdy mamy więcej niż dwa zabiegi lub populacje.
• Omówimy ANOV-ę w najprostszej postaci. • Te same podstawowe założenia/ograniczenia co przy
teście StudentaW każdej populacji badana cecha ma rozkład
normalnyObserwacje są niezależne i losoweBędziemy testowali hipotezy o średnich w populacjach i
Założenie – standardowe odchylenia badanej cechy w każdej populacji są sobie równe (podobne) więc możemy użyć uśrednionego SE
• Uwaga: ANOVA może być stosowana także gdy próby nie są niezależne
• Np. W układzie zrandomizowanym blokowym
• (zasada podobna do testu Studenta dla powiązanych par)
• Nie będziemy tego omawiać. Omówimy tylko układy zupełne zrandomizowane.
• Cel:
• Testujemy hipotezy postaci:
• H0: 1 = 2 = 3 = … = k
• HA: nie wszystkie średnie są równe
Dlaczego nie stosujemy wielu testów Studenta?
• Wielokrotne porównania– P-stwo błędu pierwszego rodzaju (p - stwo
odrzucenia prawdziwej hipotezy) jest trudne do kontrolowania)
Korekta Bonferoniego
– Prosta ale na ogół konserwatywna (p-stwo błędu pierwszego rodzaju mniejsze niż założone – strata mocy).
• Estymacja błędu standardowego– ANOVA wykorzystuje informację zawartą we
wszystkich obserwacjach: zwykle daje większą precyzję
Notacja: k = 3 zabiegi (próby, grupy)
Zabieg 1 Zabieg 2 Zabieg 3
1 48 40 39
2 39 48 30
3 42 44 32
4 43 35
średnia 43 44 34
SS 42 32 46
• Trzy rodzaje rachunków: • Wewnątrz grup, pomiędzy grupami,
całkowite.• Liczymy trzy wartości: SS, df, MS
SS df MS
Between
Within
Total
Notacja:
y440
4011
y
k = # grup (prób, zabiegów) k =
n1, n2, n3, …, nk = rozmiary grup
(# obserwacji)
n1 = , n2 = , n3 =
y1 , y2, … yk = średnie w
grupach
y1= ,y2 = ,
y3=
= całkowita średnia
n* = całkowita liczba obserwacji n* =
• Dwa podstawowe typy rachunków:
(gdzie konieczne, będziemy używali i do indeksowania grup a j do indeksowania obserwacji w każdej grupie : yij )
• Wewnątrz każdej grupy oznacza sumę ``wewnątrz grupy’’
11
1
jyyn
1
48 39 42 43
4y
• Uwzględniające wszystkie grupy
oznacza sumę we wszystkich grupach
np. n* =
i
1
k
i
in n
ijy
yn
172 132 13640
11y
• UWAGA: Gdy rozmiary prób nie są równe
nie jest średnią z k średnich!!!
Ale można ją obliczyć jako
• = (n1y1 + n2y2 + …+n3y3) / n*
y
y
Wewnątrz grup (wypełniamy drugi rząd w tabeli)
Suma kwadratów wewnątrz grup (SSW)
• Liczymy SS wewnątrz każdej grupy
(itd. - SS2, SS3 , …)
SS1 =
SS2 = … = 32, SS3 = … = 46
2
1 1 1jSS y y
• SSW = SS1+SS2+…+SSk=
• SSW = • Stopnie swobody wewnątrz grup:dfw = n* - k dfw = • Średnia suma kwadratów wewnątrz grupMSW = SSW / dfw MSW = To samo co uśredniona wariancja
Dla przypomnienia dla dwóch prób
2
i ij iSS y y
2 1 2
1 2 2c
SS SSs
n n
• Uśrednione standardowe odchylenie
sc =
• Pomiędzy grupami (wypełniamy pierwszy rząd tabeli)
Porównujemy średnie grupowe do średniej całkowitej
Ważone przez rozmiar grupy• Suma kwadratów pomiędzy grupami (SSB)• SSB = SSB =
MSW
2
i in y y
• Stopnie swobody pomiędzy grupami (dfb)
dfb = k – 1 dfb =
• Średnia suma kwadratów pomiędzy grupami (MSB)
MSB = SSB/dfb MSB =
• Całkowite
• Całkowita suma kwadratów (SST)
• SST= SST=82+12+22+…+82+52=348
2
ijy y
• Uwaga: SST = SSW+SSB 348 = 120 + 228
Zwykle nie trzeba liczyć SST z definicji
Całkowita liczba stopni swobody (dft)
dft = n* – 1 dft =
Uwaga: dft = dfb+dfw 10 = 2 + 8
Ta tabela będzie dostępna na kolokwium i egzaminie:
2
i in y y
2
i ij iSS y y
2
ijy y
SS df MS
Pomiędzy SSB= dfb = k – 1 SSB/dfb
Wewnątrz SSW= dfw = n* – k SSW/dfw
Całkowite SST= dft = n* – 1
Test F
• Dane dla k 2 populacji lub zabiegów są niezależne
• Dane w każdej populacji mają rozkład normalny ze średnią i dla populacji i, i tym samym odchyleniem standardowym
• Testujemy H0: 1 = 2 = 3 = … = k (wszystkie średnie są sobie równe)
• vs.
• HA: nie wszystkie średnie są sobie równe
• (HA jest niekierunkowa ale obszar odrzuceń będzie jednostronny)
• Kroki: Obliczenie tabeli ANOV-y Testowanie
Jak opisać F test• Zdefinować wszystkie • H0 podać za pomocą wzoru i słownie
• HA tylko słownie
• Statystyka testowa Fs = MSB/MSW
• przy H0, Fs ma rozkład Snedecora z dfb, dfw stopniami swobody
• Na kolejnych slajdach podane są wartości krytyczne z książki D.S. Moore i G. P. McCabe ``Introduction to the Practice of Statistics’’
• "numerator df" = dfb i
"denominator df" = dfw.
• Odrzucamy H0 gdy zaobserwowane Fs > Fkrytyczne
• Przykładowy wniosek - Na poziomie istotności α (nie) mamy przesłanki aby twierdzić, że grupy różnią się poziomem badanej cechy.
• Przykład: Losową próbę 15 zdrowych mężczyzn podzielono losowo na 3 grupy składające się z 5 mężczyzn. Przez tydzień otrzymywali oni lekarstwo Paxil w dawkach 0, 20 i 40 mg dziennie. Po tym czasie zmierzono im poziom serotoniny.
• Czy Paxil wpływa na poziom serotoniny u zdrowych, młodych mężczyzn ?
Niech 1 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 0 mg Paxilu.
Niech 2 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 20 mg Paxilu.
Niech 3 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 40 mg Paxilu.
• H0: 1 = 2 = 3 ; średni poziom serotoniny nie zależy od dawki Paxilu
• HA: średni poziom serotoniny nie jest ten sam we wszystkich grupach (albo średni poziom serotoniny zależy od dawki Paxilu).
• Zastosujemy F-Test
Dawka 0mg 20mg 40mg
48,62 58,60 68,59
49,85 72,52 78,28
64,22 66,72 82,77
62,81 80,12 76,53
62,51 68,44 72,33 suma
n 5 5 5 15
srednia 57,60 69,28 75,70 67,53
SS(w) 235,87 249,31 119,29 604,47
SS(b) 492,64 15,36 334,03 842,02
Tablica ANOV-y SS df MSBetween Within Total
• Fs = MSB / MSW przy H0 ma rozkład
• Testujemy na poziomie istotności = 0.05. Wartość krytyczna F.05 = .
• Obserwujemy Fs =
• Wniosek:
Na jakiej zasadzie to działa ?
• Dla przypomnienia:
• Test Studenta patrzy na różnicę między średnimi (y1-y2)
• Dzieli ją przez miarę rozrzutu tej różnicy (SEy1-y2 )
• Jeżeli (y1-y2) jest duże w porównaniu do błędu standardowego to statystyka testu Studenta jest duża i odrzucamy H0.
• Dla testu F, Liczymy ``uśredniony kwadrat różnicy
między średnimi’’ (MSB)Dzielimy go przez oszacowanie
zróżnicowania w próbie (MSW)Jeżeli MSB jest duże w porównaniu do
MSW wówczas statystyka testu F jest duża i odrzucamy H0.
Test F jest analogiczny do testu Studenta ale umożliwia jednoczesne porównanie kilku średnich.