Wykład 11 Analiza wariancji (ANOVA)

33
Wykład 11 Analiza wariancji (ANOVA) Sposób analizy danych gdy mamy więcej niż dwa zabiegi lub populacje. Omówimy ANOV-ę w najprostszej postaci. Te same podstawowe założenia/ograniczenia co przy teście Studenta W każdej populacji badana cecha ma rozkład normalny Obserwacje są niezależne i losowe Będziemy testowali hipotezy o średnich w populacjach i Założenie – standardowe odchylenia badanej cechy w każdej populacji są sobie równe (podobne) więc możemy użyć uśrednionego SE

description

Wykład 11 Analiza wariancji (ANOVA). Sposób analizy danych gdy mamy więcej niż dwa zabiegi lub populacje. Omówimy ANOV-ę w najprostszej postaci. Te same podstawowe założenia/ograniczenia co przy teście Studenta W każdej populacji badana cecha ma rozkład normalny - PowerPoint PPT Presentation

Transcript of Wykład 11 Analiza wariancji (ANOVA)

Wykład 11Analiza wariancji (ANOVA)

• Sposób analizy danych gdy mamy więcej niż dwa zabiegi lub populacje.

• Omówimy ANOV-ę w najprostszej postaci. • Te same podstawowe założenia/ograniczenia co przy

teście StudentaW każdej populacji badana cecha ma rozkład

normalnyObserwacje są niezależne i losoweBędziemy testowali hipotezy o średnich w populacjach i

Założenie – standardowe odchylenia badanej cechy w każdej populacji są sobie równe (podobne) więc możemy użyć uśrednionego SE

• Uwaga: ANOVA może być stosowana także gdy próby nie są niezależne

• Np. W układzie zrandomizowanym blokowym

• (zasada podobna do testu Studenta dla powiązanych par)

• Nie będziemy tego omawiać. Omówimy tylko układy zupełne zrandomizowane.

• Cel:

• Testujemy hipotezy postaci:

• H0: 1 = 2 = 3 = … = k

• HA: nie wszystkie średnie są równe

Dlaczego nie stosujemy wielu testów Studenta?

• Wielokrotne porównania– P-stwo błędu pierwszego rodzaju (p - stwo

odrzucenia prawdziwej hipotezy) jest trudne do kontrolowania)

Korekta Bonferoniego

– Prosta ale na ogół konserwatywna (p-stwo błędu pierwszego rodzaju mniejsze niż założone – strata mocy).

• Estymacja błędu standardowego– ANOVA wykorzystuje informację zawartą we

wszystkich obserwacjach: zwykle daje większą precyzję

Notacja: k = 3 zabiegi (próby, grupy)

Zabieg 1 Zabieg 2 Zabieg 3

1 48 40 39

2 39 48 30

3 42 44 32

4 43 35

średnia 43 44 34

SS 42 32 46

• Trzy rodzaje rachunków: • Wewnątrz grup, pomiędzy grupami,

całkowite.• Liczymy trzy wartości: SS, df, MS

SS df MS

Between

Within

Total

Notacja:

y440

4011

y

k = # grup (prób, zabiegów) k =

n1, n2, n3, …, nk = rozmiary grup

(# obserwacji)

n1 = , n2 = , n3 =

y1 , y2, … yk = średnie w

grupach

y1= ,y2 = ,

y3=

= całkowita średnia

n* = całkowita liczba obserwacji n* =

• Dwa podstawowe typy rachunków:

(gdzie konieczne, będziemy używali i do indeksowania grup a j do indeksowania obserwacji w każdej grupie : yij )

• Wewnątrz każdej grupy oznacza sumę ``wewnątrz grupy’’

11

1

jyyn

1

48 39 42 43

4y

• Uwzględniające wszystkie grupy

oznacza sumę we wszystkich grupach

np. n* =

i

1

k

i

in n

ijy

yn

172 132 13640

11y

• UWAGA: Gdy rozmiary prób nie są równe

nie jest średnią z k średnich!!!

Ale można ją obliczyć jako

• = (n1y1 + n2y2 + …+n3y3) / n*

y

y

Wewnątrz grup (wypełniamy drugi rząd w tabeli)

Suma kwadratów wewnątrz grup (SSW)

• Liczymy SS wewnątrz każdej grupy

(itd. - SS2, SS3 , …)

SS1 =

SS2 = … = 32, SS3 = … = 46

2

1 1 1jSS y y

• SSW = SS1+SS2+…+SSk=

• SSW = • Stopnie swobody wewnątrz grup:dfw = n* - k dfw = • Średnia suma kwadratów wewnątrz grupMSW = SSW / dfw MSW = To samo co uśredniona wariancja

Dla przypomnienia dla dwóch prób

2

i ij iSS y y

2 1 2

1 2 2c

SS SSs

n n

• Uśrednione standardowe odchylenie

sc =

• Pomiędzy grupami (wypełniamy pierwszy rząd tabeli)

Porównujemy średnie grupowe do średniej całkowitej

Ważone przez rozmiar grupy• Suma kwadratów pomiędzy grupami (SSB)• SSB = SSB =

MSW

2

i in y y

• Stopnie swobody pomiędzy grupami (dfb)

dfb = k – 1 dfb =

• Średnia suma kwadratów pomiędzy grupami (MSB)

MSB = SSB/dfb MSB =

• Całkowite

• Całkowita suma kwadratów (SST)

• SST= SST=82+12+22+…+82+52=348

2

ijy y

• Uwaga: SST = SSW+SSB 348 = 120 + 228

Zwykle nie trzeba liczyć SST z definicji

Całkowita liczba stopni swobody (dft)

dft = n* – 1 dft =

Uwaga: dft = dfb+dfw 10 = 2 + 8

Tablica ANOV-y

SS df MS

Between

Within

Total

Ta tabela będzie dostępna na kolokwium i egzaminie:

2

i in y y

2

i ij iSS y y

2

ijy y

SS df MS

Pomiędzy SSB= dfb = k – 1 SSB/dfb

Wewnątrz SSW= dfw = n* – k SSW/dfw

Całkowite SST= dft = n* – 1

Test F

• Dane dla k 2 populacji lub zabiegów są niezależne

• Dane w każdej populacji mają rozkład normalny ze średnią i dla populacji i, i tym samym odchyleniem standardowym

• Testujemy H0: 1 = 2 = 3 = … = k (wszystkie średnie są sobie równe)

• vs.

• HA: nie wszystkie średnie są sobie równe

• (HA jest niekierunkowa ale obszar odrzuceń będzie jednostronny)

• Kroki: Obliczenie tabeli ANOV-y Testowanie

Jak opisać F test• Zdefinować wszystkie • H0 podać za pomocą wzoru i słownie

• HA tylko słownie

• Statystyka testowa Fs = MSB/MSW

• przy H0, Fs ma rozkład Snedecora z dfb, dfw stopniami swobody

• Na kolejnych slajdach podane są wartości krytyczne z książki D.S. Moore i G. P. McCabe ``Introduction to the Practice of Statistics’’

• "numerator df" = dfb i

"denominator df" = dfw.

• Odrzucamy H0 gdy zaobserwowane Fs > Fkrytyczne

• Przykładowy wniosek - Na poziomie istotności α (nie) mamy przesłanki aby twierdzić, że grupy różnią się poziomem badanej cechy.

• Przykład: Losową próbę 15 zdrowych mężczyzn podzielono losowo na 3 grupy składające się z 5 mężczyzn. Przez tydzień otrzymywali oni lekarstwo Paxil w dawkach 0, 20 i 40 mg dziennie. Po tym czasie zmierzono im poziom serotoniny.

• Czy Paxil wpływa na poziom serotoniny u zdrowych, młodych mężczyzn ?

Niech 1 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 0 mg Paxilu.

Niech 2 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 20 mg Paxilu.

Niech 3 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 40 mg Paxilu.

• H0: 1 = 2 = 3 ; średni poziom serotoniny nie zależy od dawki Paxilu

• HA: średni poziom serotoniny nie jest ten sam we wszystkich grupach (albo średni poziom serotoniny zależy od dawki Paxilu).

• Zastosujemy F-Test

Dawka 0mg 20mg 40mg

48,62 58,60 68,59

49,85 72,52 78,28

64,22 66,72 82,77

62,81 80,12 76,53

62,51 68,44 72,33 suma

n 5 5 5 15

srednia 57,60 69,28 75,70 67,53

SS(w) 235,87 249,31 119,29 604,47

SS(b) 492,64 15,36 334,03 842,02

Tablica ANOV-y SS df MSBetween Within Total

• Fs = MSB / MSW przy H0 ma rozkład

• Testujemy na poziomie istotności = 0.05. Wartość krytyczna F.05 = .

• Obserwujemy Fs =

• Wniosek:

Na jakiej zasadzie to działa ?

• Dla przypomnienia:

• Test Studenta patrzy na różnicę między średnimi (y1-y2)

• Dzieli ją przez miarę rozrzutu tej różnicy (SEy1-y2 )

• Jeżeli (y1-y2) jest duże w porównaniu do błędu standardowego to statystyka testu Studenta jest duża i odrzucamy H0.

• Dla testu F, Liczymy ``uśredniony kwadrat różnicy

między średnimi’’ (MSB)Dzielimy go przez oszacowanie

zróżnicowania w próbie (MSW)Jeżeli MSB jest duże w porównaniu do

MSW wówczas statystyka testu F jest duża i odrzucamy H0.

Test F jest analogiczny do testu Studenta ale umożliwia jednoczesne porównanie kilku średnich.

• Test F można stosować również gdy mamy tylko dwie próby

Statystyka testu F dla dwóch prób jest równa kwadratowi statystyki testu Studenta

Decyzje i p-wartości są dokładnie takie same dla obu testów.