ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze...

17
1 ANOVA wieloczynnikowa Na podstawie pliku anova2_dane.xls Rodzaje analizy wariancji: ANOVA - jednowymiarowa analiza wariancji: o Jednoczynnikowa – wpływ jednego czynnika na jedną zmienną zależną o Wieloczynnikowa – wpływ kilku czynników (zmiennych objaśniających) na jedną zmienną zależną (objaśnianą) MANOVA - wielowymiarowa analiza wariancji o wpływ kilku czynników na kilka zmiennych zależnych Ogólny model wieloczynnikowej analizy wariancji ma postać: yijk = µ + αi + βj + γij + εijk gdzie: µ - ogólna średnia badanej populacji; αi, βj – efekty główne poszczególnych czynników; γij interakcja pomiędzy czynnikami; εijk – błąd eksperymentu Hipoteza zerowa zakłada, że wszystkie poziomy czynnika w jednakowy sposób wpływają na mierzoną cechę (zmienną zależną). Alternatywnie zakładamy natomiast, że przynajmniej jeden poziom analizowanego czynnika wpływa na zmienną zależną inaczej niż pozostałe. Dla każdego czynnika stawiamy oddzielnie hipotezy. Dodatkowo występującą między czynnikami interakcję możemy rozumieć jako łączny (nierozkładalny na osobne efekty czynnika α i β) wpływ obu czynników na badaną zmienną zależną (ciągłą). Istnieje możliwość przeprowadzenia jednoczynnikowej analizy wariancji oddzielnie dla wszystkich zmiennych objaśniających jednak takie postępowanie ma kilka wad: tracimy informacje o zależnościach (interakcjach) między zmiennymi objaśniającymi – interakcje bardzo istotnie wpływają na interpretacje wyników i są ważną częścią analizy zależności mamy większą wariancję w obrębie grup i trudniej jest stwierdzić istotność niektórych zmiennych o w momencie, gdy wariancja jest zbyt duża w obrębie grup to bardzo ciężko wykazać, że są istotne różnice pomiędzy grupami, ponieważ grupy same w sobie są bardzo zmienne o im rozrzut w każdej grupie jest większy tym trudniej wykazać różnice pomiędzy badanymi grupami

Transcript of ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze...

Page 1: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

1

ANOVA wieloczynnikowa Na podstawie pliku anova2_dane.xls

Rodzaje analizy wariancji:

• ANOVA - jednowymiarowa analiza wariancji: o Jednoczynnikowa – wpływ jednego czynnika na jedną zmienną zależną

o Wieloczynnikowa – wpływ kilku czynników (zmiennych objaśniających) na jedną zmienną zależną (objaśnianą)

• MANOVA - wielowymiarowa analiza wariancji o wpływ kilku czynników na kilka zmiennych zależnych

Ogólny model wieloczynnikowej analizy wariancji ma postać:

yijk = µ + αi + βj + γij + εijk

gdzie: µ - ogólna średnia badanej populacji; αi, βj – efekty główne poszczególnych czynników; γij – interakcja pomiędzy czynnikami; εijk – błąd eksperymentu

Hipoteza zerowa zakłada, że wszystkie poziomy czynnika w jednakowy sposób wpływają na mierzoną cechę (zmienną zależną). Alternatywnie zakładamy natomiast, że przynajmniej jeden poziom analizowanego czynnika wpływa na zmienną zależną inaczej niż pozostałe. Dla każdego czynnika stawiamy oddzielnie hipotezy.

Dodatkowo występującą między czynnikami interakcję możemy rozumieć jako łączny (nierozkładalny na osobne efekty czynnika α i β) wpływ obu czynników na badaną zmienną zależną (ciągłą).

Istnieje możliwość przeprowadzenia jednoczynnikowej analizy wariancji oddzielnie dla wszystkich zmiennych objaśniających jednak takie postępowanie ma kilka wad:

• tracimy informacje o zależnościach (interakcjach) między zmiennymi objaśniającymi – interakcje bardzo istotnie wpływają na interpretacje wyników i są ważną częścią analizy zależności

• mamy większą wariancję w obrębie grup i trudniej jest stwierdzić istotność niektórych zmiennych o w momencie, gdy wariancja jest zbyt duża w obrębie grup to bardzo ciężko wykazać, że

są istotne różnice pomiędzy grupami, ponieważ grupy same w sobie są bardzo zmienne o im rozrzut w każdej grupie jest większy tym trudniej wykazać różnice pomiędzy

badanymi grupami

Page 2: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

2

Zmiennych objaśniających nie powinno być zbyt dużo. Wraz ze wzrostem liczby zmiennych maleje dokładność efektów modelu. Idealna sytuacja to minimum 30 obserwacji na każdą kombinację czynników.

Założenia wieloczynnikowej ANOVY:

• zrównoważony układ doświadczenia – równoliczność grup • zgodność z rozkładem normalnym i jednorodność wariancji dotyczy każdej podgrupy – w

momencie, gdy w grupach mamy zbyt mało obserwacji zweryfikowanie założeń będzie niemożliwe

W wieloczynnikowej ANOVA’ie możemy uzyskać dwa typy wyników:

• efekty główne o odnoszą się do różnic pomiędzy średnimi zmiennej zależnej, wyróżnionymi z uwagi na

poziomy jednej zmiennej niezależnej • efekty interakcji - a w celu ich lepszego zrozumienia możemy wykonać testy na efekty główne

proste i porównania parami (testy post hoc) o wzór różnic pomiędzy średnimi zmiennej zależnej na różnych poziomach czynnika 1 jest

różny na poszczególnych poziomach czynnika 2 o główne efekty proste – służą do przyjrzenia się bliżej wynikom efektów interakcji

§ Jednoczynnikowa ANOVA jest dobrym rozwiązaniem do oszacowania efektów prostych, jeżeli występuje istotna interakcja

§ Dokonywanie porównań parami jest najmniejszym z możliwych porównań w naszym schemacie badawczym – możliwe jest tylko w momencie, gdy liczba poziomów czynnika wynosi minimum 3 (wtedy będziemy dokonywać porównań w schemacie 1 z 2, 2 z 3 i 3 z 1)

OGÓLNY SCHEMAT DWUCZYNNIKOWEJ ANOVA’Y – źródło: https://www.spss-tutorials.com/spss-two-way-anova-interaction-significant/

Page 3: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

3

Baza Terapia

PYTANIE: Jaki jest wpływ przyjmowanego leku antydepresyjnego na ocenę samopoczucia pacjenta w zależności od przestrzegania specjalnie przygotowanej diety? W badaniu wzięło udział 60 osób.

Sprawdzamy zatem czy działanie leku zależy od diety.

Krok 1: Sprawdzamy założenia: zrównoważony układ doświadczenia (równoliczne grupy), jednorodność wariancji, normalność rozkładu w każdej podgrupie

SPSS: Dane -> Podziel na podzbiory…

Dobrze jest sobie na tym etapie podzielić nasze dane na podzbiory. Grupy wyróżniamy na podstawie zmiennej DIETA (ma mniej poziomów niż TERAPIA).

Następnie wykonujemy standardową analizę pod kątem zgodności z rozkładem normalnym. Tym razem jednak nie dodajemy zmiennej DIETA do listy czynników (podział na dietę już jest i wyniki pojawią się oddzielnie dla osób stosujących dietę i nie). Dla osób nie będących na diecie: W tabeli z informacją o analizowanych danych mamy informację, że dla każdego testowanego wariantu terapii mamy po 10 obserwacji. Grupy są więc równoliczne – nie trzeba wykonywać testu Chi kwadrat.

Rozkład normalny obserwujemy dla lek1 i dla placebo. Problem mamy z podgrupą dla lek2. Z czego to wynika? -> histogram

Problem ten jest najpewniej generowany przez odstającą wartość.

Page 4: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

4

Ewidentnie w podgrupie lek2 mamy jedną odstającą wartość (obserwacja numer 25). Jest to pojedyncza

obserwacja, którą można skasować bez ryzyka utraty założenia o równoliczności grup. Plus/minus jedna

obserwacja w tym przypadku nie wpłynie na nasze postępowanie.

Wykresy pudełkowe wskazują nam nie tylko na poziom naszej zmiennej, ale też na jej zmienność. Im

pudełko jest dłuższe tym zmienność danej cechy jest większa w naszej próbie. Dla lek1 spodziewamy się,

że zmienność (wariancja) będzie większa niż dla lek2. Innymi słowy osoby, które brały lek1 miały bardziej

zróżnicowane samopoczucie niż osoby z grupy lek2 czy placebo (tam było to bardziej wyrównane).

Później przy analizie wariancji sprawdzimy czy te różnice w zmienności są istotne statystycznie.

Dla osób będących na diecie:

W tabeli z informacją o analizowanych danych również mamy pokazane, że podgrupy liczą po 10 obserwacji.

Test normalności rozkładu już też nie zgłasza żadnych problemów. Dla każdej podgrupy mamy rozkład normalny. Możemy sobie spojrzeć na histogramy i widzimy, że mamy jakieś odstające wartości, ale one nie wpływają nam na normalność rozkładu. Nie ma więc potrzeby usuwania żadnych obserwacji w tym wypadku.

Page 5: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

5

Zmienność w tej grupie jest już bardziej wyrównana niż w przypadku grupy bez diety.

Podobna zmienność dla lek1, lek2 i

placebo (tutaj można powiedzieć, że

jest większa od pozostałych, ale na

podobnym poziomie).

Reasumując naszą eksplorację: Trzeba usunąć jedną obserwację i puścić analizę ponownie, aby sprawdzić czy we wszystkich grupach założenia zostaną spełnione.

Page 6: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

6

Krok 2: ANOVA wieloczynnikowa

Przed przystąpieniem do właściwej analizy wariancji trzeba usunąć podział na podzbiory.

SPSS: Analiza -> Ogólny model liniowy -> Jednej zmiennej…*

*ta jedna zmienna oznacza, że jest to analiza jednowymiarowa (jedna zmienna zależna – zmienna ilościowa – ocena samopoczucia)

W zakładce wykresy tworzymy wykres. Jako oddzielne linie zwykle dodajemy tę zmienną, która ma mniej poziomów. Ponieważ dieta ma tylko dwa poziomy to właśnie ona powinna się tam znaleźć. Klikamy DODAJ i dopiero Dalej.

W zakładce średnie EM poprzenoś czynniki jak poniżej:

Page 7: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

7

W zakładce Zapisz zaznacz odległość Cooka i reszty niestandaryzowane.

W ogólnych modelach liniowych w sytuacji, gdy założenia o jednorodności wariancji i normalności rozkładu nie są spełnione to jeszcze jest możliwość sprawdzenia czy reszty z modelu nie są zgodne z rozkładem normalnym. Jest to „ostatnia deska ratunku” w momencie, gdy nie mamy spełnionych założeń do analizy wariancji, nie możemy dokonać transformacji zmiennych, ale liczebność grup pozwala nam ją jednak przeprowadzić. Jeżeli jednak reszty nie mają rozkładu normalnego to nie pozostaje nic innego jak testy nieparametryczne.

Odległość Cooka – sprawdzenie czy nie ma obserwacji odstających. Już to sprawdzaliśmy na histogramach i boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien być większy niż 0,5 (powyżej 1 – na pewno trzeba obserwację odrzucić).

W Opcjach proszę zaznaczyć jak obok.

Klikamy OK – przeprowadzamy analizę.

Page 8: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

8

Krok 3: Analiza interakcji i interpretacja wyników

Widać, że w każdej podgrupie mamy ok 10 obserwacji. W jednej grupie na skutek usunięcia jednej obserwacji pozostało nam 9. Nie trzeba w tym momencie robić testu na równoliczność grup bo możemy założyć, że jest ona zgodna z rozkładem teoretycznym 1:1:1:1.

Nie mamy problemu z wariancją. Jednorodność wariancji jest zachowana.

Przechodzimy już do naszej analizy właściwej – sprawdzamy istotność naszego modelu i interakcji.

Page 9: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

9

Model skorygowany – istotność 0,000 -> nasz model jest istotny statystycznie

Dieta*Terapia – istotność 0,000 -> interakcja jest istotna statystycznie

Jeżeli nasza interakcja wyszła nam istotna statystycznie to nie powinniśmy już interpretować wpływu efektów głównych!!!

Dieta i terapia mają wpływ na ocenę samopoczucia. Dieta moderuje wpływ terapii (może nasilić lub osłabić działanie leku) i nie możemy interpretować samego działania terapii bez diety.

*cząstkowe Eta kwadrat mówi nam o tym ile % zmienności jest wyjaśniane danym źródłem – na tym etapie jednak nie będziemy brać tego współczynnika pod uwagę.

W momencie, gdy mamy istotny efekt interakcji pomijamy Średnie brzegowe osobno dla diety i terapii. Przechodzimy od razu do interpretacji średnich brzegowych dla dieta*terapia

Na wykresie linie przecinają się to znaczy, że obserwujemy interakcję pomiędzy dwoma czynnikami. Jak stwierdziliśmy wcześniej – jest ona istotna statystycznie. Może się jednak zdarzyć, że zaobserwujemy na wykresie interakcję, ale w modelu okaże się, że nie jest ona istotna statystycznie – wtedy nie możemy jej interpretować.

Page 10: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

10

Przedstawimy sobie średnie na wykresie: SPSS: Wykresy -> Kreator wykresów… Wykres Słupkowy zgrupowany; na osi X – Terapia, na Y – ocena samopoczucia a grupowanie na kolor – Dieta.

Wnioski:

Osoby, które przyjmowały lek1 lepiej czuły się bez diety, natomiast te na lek2 – lepiej czuły się na diecie. Lek1 jest skuteczniejszy bez diety a lek2 skuteczniejszy w momencie diety. Można więc powiedzieć, że dieta modyfikuje działanie leku w tym wypadku, czyli jest moderatorem*.

Nie wiemy jednak jakie działanie mają te czynniki osobno. Jak działa sama dieta i jak działa sam lek1 i lek2. Wiemy tylko, że dieta ma wpływ na terapię. Postaramy się w tym momencie oszacować działanie samych efektów prostych przy użyciu jednoczynnikowej analizy wariancji, ale ponownie w podziale na podzbiory.

*Moderator – taka zmienna niezależna (czynnik), która zmienia efekt innej zmiennej niezależnej (innego czynnika)

Page 11: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

11

Krok 4a: Analiza głównych efektów prostych – jednoczynnikowa ANOVA

Naszą próbę dzielimy ponownie na podzbiory (DIETA). Następnie przy pomocy jednoczynnikowej analizy wariancji postaramy się oszacować efekty proste*.

SPSS: Analiza-> Porównanie średnich -> Jednoczynnikowa ANOVA…

*w pierwszej kolejności trzeba dokonać rekodowania automatycznego zmiennych dieta i terapia, bo program nie przyjmie danych w formie łańcuchowej.

Osoby, które nie były na diecie:

Niejednorodna wariancja. Trzeba więc przeprowadzić analizę jeszcze raz w oknie powyżej zaznaczając poprawkę Welcha (mocniejszy test).

Model jest istotny.

Page 12: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

12

Poprawka Welcha również wskazuje, że rzeczywiście występują istotne różnice pomiędzy grupami. Przechodzimy więc do testów post hoc.

Dla osób, które były na diecie mamy jednorodność wariancji (nie ma więc konieczności przeprowadzania mocniejszego testu).

ANOVA sugeruje, że różnice pomiędzy średnimi występują. W tej grupie również przechodzimy do testów post hoc.

Page 13: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

13

KROK 4b: Porównanie parami - Testy post hoc.

Ze względu na problemy z jednorodnością wariancji grupie bez diety przeprowadzę jeden test post hoc – test Tamhane’a.

W obu podgrupach możemy stwierdzić różnice w zależności od przyjmowanego leku.

Dla osób, które nie były na diecie najlepsze efekty przynosił lek1, natomiast dla osób na diecie – lek2. Najsłabsze efekty osiągnięto w grupach placebo. Aby więc poprawić samopoczucie należy przyjmować leki – w zależności czy stosuje się dietę (lek2) czy nie (lek1). Najlepsze efekty uzyskano w grupie przyjmującej lek1 i nie będących na diecie.

Page 14: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

14

Możemy zrobić jeszcze histogram dla reszt i sprawdzić czy aby na pewno reszty mają rozkład

normalny.

Reszty mają rozkład normalny. Jeżeli

wychodzi coś nie tak w podgrupach to

warto sprawdzać wariancję, rozkład

normalny w podgrupach a jeżeli nadal

mamy wątpliwości – warto również

sprawdzić reszty.

Page 15: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

15

Baza Zęby

Jaki jest wpływ suplementacji diety witaminą C w zależności od jej dawki oraz metody podania

(OJ – sok pomarańczowy, VC – tabletka) na wzrost odontoblastów – komórek wytwarzających

zębinę? W badaniu wzięło udział 60 świnek morskich.

Krok1: Testowanie założeń

Próbę dzielę na podzbiory pod względem metody podania witaminy c – suplement.

W obu przypadkach jest zgodność z rozkładem normalnym w każdej podgrupie.

Jednorodnośc wariancji sprawdzę już podczas właściwej analizy i gdy będzie taka konieczność od razu dokonam koniecznych poprawek.

Krok 2: Wieloczynnikowa ANOVA – istotność interakcji

Analizę przeprowadzam bez podziału na podzbiory. Widać, że nie będzize konieczne stosowanie żadnych poprawek – jednorodność wariancji jest zachowana.

Page 16: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

16

Interakcja jest istotna statystycznie przechodzimy więc do oceniania efektów prostych.

Krok 3: Efekty proste – jednoczynnikowa ANOVA

W obu przypadkach ANOVA wykazała istotne różnice pomiędzy średnimi. Trzeba więc przeprowadzić test post hoc. Ze względu na zachowaną jednorodność wariancji wybieram test Tukey’a.

Długość odontoblastów zależy od sposobu suplementacji witaminy C. Istotne różnice wyszły w obu przypadkach. W przypadku soku pomarańczowego istotne różnice wykazano jedynie w przypadku dawki 0,5 i 1, pomiędzy dawką 1 i 2 tych różnic nie ma.

Page 17: ANOVA wieloczynnikowa - SGGW · 2020. 5. 26. · boxplotach ale na wszelki wypadek można jeszcze dokonać kolejnego testu. Reguła kciuka mówi, że dla żadnej wartości nie powinien

17

Dla tabletek – istotne różnice przy wszystkich dawkach. Ma więc znaczenie czy podamy dawkę 0,5 czy 1 czy 2 w tym przypadku. Trochę inaczej więc działa suplementacja witaminy C w zależności od sposobu jej podania. Literatura:

1. Podstawy statystyki dla psychologów – Wiesław Szymczak, Wydawnictwo Difin, 2010 2. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym – Wanda Olech i Mateusz

Wieczorek, Wydawnictwo SGGW, 2012 3. Statystyczny drogowskaz – Praktyczne wprowadzenie do analizy wariancji – Sylwia Bedyńska i

Marzena Cypryańska , Wydawnictwo Akademickie Sedno, 2013 4. The growth of the odontoblast of the incisor teeth as a criterion of vitamin C intake of the guinea

pig – E. W. Crampton, The Journal of Nutrition, 33(5), 491–504, 1947 5. Interactive Data Analysis – McNeil, New York: Wiley, 1977