Wykład 9 Analiza wariancji (ANOVA)

Wykład 9Analiza wariancji (ANOVA)

• Sposób analizy danych, gdy porównujemy więcej niż dwie populacje/zabiegi.

• Omówimy ANOV-ę w najprostszej postaci. • Te same podstawowe założenia/ograniczenia, co przy

teście Studenta:W każdej populacji badana cecha ma rozkład normalnyObserwacje są niezależne i losoweTestujemy hipotezy o średnich w populacjach: I

• Dodatkowe założenie – standardowe odchylenia badanej cechy w badanych populacjach są sobie równe (podobne) – użyjemy uśrednionego SE

• Uwaga: ANOVA może być stosowana także wtedy, gdy próby nie są niezależne, np. w zrandomizowanym układzie blokowym (zasada podobna do testu Studenta dla par). Tutaj jednak omówimy tylko układy zrandomizowane zupełne (=jednoblokowe).

• Cel: Testujemy hipotezy postaci:

H0: 1 = 2 = 3 = … = k

HA: nie wszystkie średnie są równe

Dlaczego nie stosujemy wielu testów Studenta?

• Wielokrotne porównania: prawdopodo-bieństwo błędu pierwszego rodzaju (odrzucenia prawdziwej hipotezy zerowej) byłoby trudne do kontrolowania.

• Estymacja błędu standardowego: ANOVA wykorzystuje informację zawartą we wszystkich obserwacjach: zwykle daje większą precyzję obliczenia/mniejsze SE niż indywidualne testy Studenta dla par.

• ANOVA automatycznie porównuje konfiguracje populacji większe niż pary.

Korekta Bonferoniego

• Przy k testach na poziomie α, przyjmujemy łączny poziom istotności kα.

• Prosta, ale na ogół konserwatywna: prawdo-podobieństwo błędu pierwszego rodzaju jest mniejsze niż założone kα – w efekcie strata mocy.

• Np. przy porównywaniu 5 populacji testem Studenta dla niezależnych prób Bonferoni daje poziom istotności równy

.102

)14(5

2

5

Notacja: k = 3 zabiegi (grupy)

Zabieg 1 Zabieg 2 Zabieg 3

1 48 40 39

2 39 48 30

3 42 44 32

4 43 35

średnia 43 44 34

SS 42 32 46

• Trzy kategorie: – wewnątrz grup, – pomiędzy grupami, – łącznie.

• W każdej - trzy wartości: SS, df, MS.

SS df MS

wewnątrz

pomiędzy

łącznie

Notacja, cd.:

y440

4011

y

k : # grup (prób, zabiegów), tutaj k =

n1, n2, n3, …, nk : rozmiary grup

(# obserwacji)

n1 = , n2 = ,

n3 =

y1 , y2, … yk = średnie w

grupach

y1= ,y2 = ,

y3=

= całkowita średnia (wszystkich obserwacji)

n* = całkowita liczba obserwacji n* =

• Używamy i do indeksowania grup a j do indeksowania obserwacji w każdej grupie, np: yij .

• oznacza sumę ``wewnątrz grupy’’:

11

1

jyyn

1

48 39 42 43

4y

j

• Uwzględniające wszystkie grupy

oznacza sumę po grupach:

np. ; tutaj n* =

1

k

i

in n

ijy

yn

172 132 13640

11y

*

• UWAGA: Gdy rozmiary prób nie są równe

nie jest średnią z k średnich!

Można ją obliczyć jako

• = (n1y1 + n2y2 + …+n3y3) / n*

y

y

Wewnątrz grup: wypełniamy drugi rząd w tabeli

Suma kwadratów wewnątrz grup (SSW):

Liczymy SS dla każdej grupy

(SS2, SS3 , itd.)

SS1 = .....

SS2 = … = 32, SS3 = … = 46

2

1 1 1jSS y y

• SSW = SS1+SS2+…+SSk

, tutaj SSW =....

• Stopnie swobody wewnątrz grup:dfw = n* - k, tutaj dfw =...

• Średnia suma kwadratów wewnątrz grup:MSW = SSW / dfw , tutaj MSW =...

MSW to uśredniona wariancja, np.(wykład 6):

• Uśrednione odchylenie standardowe

sc = , tutaj sc =...

2

i ij iSS y y

2 1 2

1 2 2c

SS SSs

n n

MSW

Pomiędzy grupami: wypełniamy pierwszy rząd tabeli

• Porównujemy średnie grupowe do całko-witej z wagą daną przez rozmiar grupy.

• Suma kwadratów pomiędzy grupami (SSB)

SSB =

Tutaj SSB =....

2

i in y y

• Stopnie swobody pomiędzy grupami (dfb)

dfb = k – 1, tutaj dfb = ...

• Średnia suma kwadratów pomiędzy grupami (MSB)

MSB = SSB/dfb, tutaj MSB =...

Całkowite: wypełniamy trzeci rząd tabeli

• Całkowita suma kwadratów (SST):

SST=

SST=82+12+22+…+82+52=348

2

ijy y

• Uwaga: SST = SSW+SSB, tu 348 = 120 + 228

Zwykle nie trzeba liczyć SST z definicji!

• Całkowita liczba stopni swobody (dft)

dft = n* – 1 , tutaj dft =

• Uwaga: dft = dfb+dfw , tutaj 10 = 2 + 8

Tablica ANOV-y (ponownie)

SS df MS

Between

Within

Total puste

Ta tabela będzie dostępna na kolokwium i egzaminie:

2

i in y y

2

i ij iSS y y

2

ijy y

SS df MS

Pomiędzy SSB= dfb = k – 1 SSB/dfb

Wewnątrz SSW= dfw = n* – k SSW/dfw

Całkowite SST= dft = n* – 1

Test F (Fishera)

• Założenia (jak w ANOV-ie):• Dane dla k 2 populacji/zabiegów są

niezależne • Dane w każdej populacji mają rozkład

normalny ze średnią i (dla populacji I), oraz z tym samym odchyleniem standardowym

• Testujemy

H0: 1 = 2 = 3 = … = k

(wszystkie średnie są sobie równe)

przeciwko

HA: nie wszystkie średnie są sobie równe

• HA jest niekierunkowa, ale obszar odrzuceń będzie jednostronny (duże dodatnie wartości statystyki)

• Kroki: Obliczenie tabeli ANOV-y Testowanie

Jak opisać F test• Zdefinować wszystkie • H0 podać za pomocą wzoru i słownie

• HA tylko słownie

• Statystyka testowa Fs = MSB/MSW

• Przy H0, Fs ma rozkład F Snedecora ze stopniami swobody (dfb, dfw)

• Na slajdach podane są wartości krytyczne z książki D.S. Moore i G. P. McCabe „Introduction to the Practice of Statistics”

• „numerator df” = dfb, „denominator df” = dfw.

• Odrzucamy H0 , gdy zaobserwowane

Fs > Fkrytyczne

• Przykładowy wniosek: „Na poziomie istotności α (nie) mamy przesłanki, aby twierdzić, że grupy różnią się poziomem badanej cechy.”

• Przykład: Losową próbę 15 zdrowych mężczyzn podzielono losowo na 3 grupy składające się z 5 mężczyzn. Przez tydzień otrzymywali oni lekarstwo Paxil w dawkach 0, 20 i 40 mg dziennie. Po tym czasie zmierzono im poziom serotoniny.

• Czy Paxil wpływa na poziom serotoniny u zdrowych, młodych mężczyzn ?

Niech 1 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 0 mg Paxilu.



• H0: 1 = 2 = 3 ; średni poziom serotoniny nie zależy od dawki Paxilu

• HA: średni poziom serotoniny nie jest ten sam we wszystkich grupach (albo średni poziom serotoniny zależy od dawki Paxilu).

• Zastosujemy F-Test

Dawka 0mg 20mg 40mg

48,62 58,60 68,59

49,85 72,52 78,28

64,22 66,72 82,77

62,81 80,12 76,53

62,51 68,44 72,33 suma

n 5 5 5 15

srednia 57,60 69,28 75,70 67,53

SS(w) 235,87 249,31 119,29 604,47

SS(b) 492,64 15,36 334,03 842,02

Tablica ANOV-y SS df MSBetween Within Total

• Fs = MSB / MSW przy H0 ma rozkład...

• Testujemy na poziomie = 0.05.

• Wartość krytyczna F.05 = ... .

• Obserwujemy Fs =...

• Wniosek:...

Na jakiej zasadzie to działa ?

Dla przypomnienia:

• Statystyka testu Studenta ma w liczniku różnicę między średnimi (y1-y2)

• Tę dzielimy przez miarę rozrzutu tej różnicy (SEy1-y2 )

• Jeżeli (y1-y2) jest duże w porównaniu do błędu standardowego, to statystyka testu Studenta jest duża i odrzucamy H0.

Dla testu F:

• W liczniku mamy „uśredniony kwadrat różnicy między średnimi” (MSB)

• W mianowniku mamy oszacowanie zróżnicowania w obserwacji (MSW)

• Jeżeli MSB jest duże w porównaniu do MSW, to statystyka testu F jest duża i odrzucamy H0.

• Test F jest analogiczny do testu Studenta. Umożliwia jednoczesne porównanie dowolnej liczby średnich.

• Test F można stosować również, gdy mamy tylko dwie próby. Wtedy:

Statystyka testu F dla dwóch prób jest równa kwadratowi statystyki Studenta (przy (U)SE).

Decyzje i p-wartości są dokładnie takie same dla obu testów.

Wykład 9 Analiza wariancji (ANOVA)

Documents

Transcript of Wykład 9 Analiza wariancji (ANOVA)