Nowy kod Statistica 6.1

Post on 13-Jan-2016

33 views 1 download

description

Nowy kod Statistica 6.1. HEN6EUEKH8. Plan na dziś. Analiza wariancji Podstawy i założenia Kontrasty i analiza post-hoc Przykład – szczury w labiryncie Zadanie. ANOVA – analiza wariancji. Bada hipotezę, że wiele grup ma taką samą średnią. - PowerPoint PPT Presentation

Transcript of Nowy kod Statistica 6.1

Nowy kod Statistica 6.1

HEN6EUEKH8

Plan na dziś

Analiza wariancji

1. Podstawy i założenia

2. Kontrasty i analiza post-hoc

3. Przykład – szczury w labiryncie

4. Zadanie

ANOVA – analiza wariancji

Bada hipotezę, że wiele grup ma taką samą średnią.

Wyróżnia w całkowitej wariancji część, za którą jest odpowiedzialny czynnik grupujący i odnosi do reszty wariancji (test F).

Typowe zadanie

• Czy środowisko (otwarte/ograniczone) ma wpływ na inteligencję?

• Dwa środowiska: – otwarte – zamknięte

• Trzy rasy szczurów:– Inteligentne– Mieszane– Głupie

Błędy w labiryncie

ANOVA i test tJeżeli dwie grupy to ANOVA = test t. Po co

więc ANOVA?

Elastyczna –

- wiele czynników

- interakcje między nimi

- powtarzane pomiary

- wiele zmiennych zależnych (MANOVA)

Więcej czynników – mniejszy błąd!

Wiele czynników

Inteligencja szczura = środowisko + RASA + reszta

• Czynnik RASA zmniejsza RESZTĘ!• Jeżeli czynnik nie ma znaczenia nie powinien być w modelu! • Błędy powinny mieć rozkład normalny!

Badany czynnik

Interakcje

Gdy jeden czynnik jest modyfikowany przez drugi

Np. efekt środowiska może być zależny od rasy

Powtarzane pomiary

...gdy obiekt obserwowany jest dwa lub więcej razy

np. badamy szczura przed i po skarmieniu paszy

Dodatkowy czynnik różnicujący pomiary wewnątrz grup.

Wiele zmiennych zależnych

MANOVA pozwala przetestować hipotezę typu:

Środowisko wpływa na wyniki różnych testów inteligencji szczura.

Założenia - normalność

Zmienna zależna ma rozkład normalny w grupach (normalność reszt)

ANOVA jest odporna, szczególnie przy dużej liczbie obserwacji.

Jednorodność wariancji

We wszystkich grupach wariancja powinna być taka sama.

Małe różnice nie są groźne,ale uwaga na obserwacje odstające!...i korelacje średnia-wariancja

Średnie

1. obserwowane brzegowe, nieważone

2. obserwowane brzegowe ważone

3. najmniejszych kwadratów

Obserwowane średnie nieważone

- samce: 6, 5, 4

- samice 6, 5

( 6 + 5 + 4 ) / 3 = 5

( 6 + 5 ) / 2 = 5,5

( 5 + 5,5 ) / 2 = 5,25

Inteligencja = środowisko + płeć + błąd

Środowisko otwarte

Obserwowane średnie ważone

Środowisko otwarte

- samce: 6, 5, 4

- samice 6, 5

( 6 + 5 + 4 + 6 + 5 ) / 5 = 5,20

Średnie najmniejszych kwadratów

Najbardziej interesujące i te testujemy!

Oczekiwane (przewidywane) średnie brzegowe

Dla niektórych układów równe średnim obserwowanym nieważonym

Średnie najmniejszych kwadratów (błędów/reszt)Inteligencja = środowisko + rasa + błąd

Błąd = Inteligencja – środowisko - rasa

Wyznaczamy średnie dla czynników środowiska i ras tak by suma wszystkich kwadratów błędów była jak najmniejsza!

Kontrasty

Jeżeli hipoteza ‘wszystkie średnie są równe’ jest zbyt prosta

Pozwalają testować złożoną hipotezę, którą przewidujemy, np.

Środowisko otwarte rozwija inteligencję, ale tylko w rasach „inteligentnych”, natomiast środowisko zamknięta obniża inteligencję we wszystkich rasach.

Kontrasty

Np. hipotezę

„Rasa inteligentna różni się od dwóch pozostałych”

testujemy jako

I = μintelig. – 0.5μmieszana – 0.5μgłupia = 0

Porównania post-hocGdy hipotezę formułujemy ‘po’ analizie wariancji

Whooh! Nie wiedziałem, że rasa „inteligentna” tak bardzo się różni od „głupiej”. Czy istotnie?

Wybieramy świadomie dwie ekstremalne grupy, a nie dwie losowe! Chroń się przed błędem I-go rodzaju!

Błąd I – odrzucenie prawdziwej hipotezy H0

Porównania post-hoc(po analizie wariancji)No tak! Rasa ma istotny wpływ na inteligencję.

Które pary są istotnie różne?

Wybieramy świadomie serię testów zamiast jednego! Szansa, że wykryjemy ‘niepodobne’ dwie rasy rośnie!

Chroń się przed błędem I-go rodzaju!

Błąd I – odrzucenie prawdziwej hipotezy H0

Porównania wielokrotne post-hoc

Testy, które próbują kontrolować błąd I-go rodzaju

• najmniejsza istotna różnica Fishera (po tym jak F jest istotne - dużo fałszywie pozytywnych!)

• test Tukeya – zachowawczy

• test Newmana-Keulsa – mocny i mniej zachowawczy niż Tukeya

• test Duncana – bardzo mocny

• test Sheffego (Porównujesz w parach? Zapomnij)

Oba czynniki - środowisko i rasa - są istotne, a interakcja nie!

ŚRODOW; Oczekiwane średnie brzegowe

Bieżący ef ekt: F(1, 18)=5,8225, p=,02670

Dekompozy cja ef ekty wny ch hipotez

Pionowe słupki oznaczają 0,95 przedziały uf ności

WOLNE OGRANICZ

ŚRODOW

20

30

40

50

60

70

80

90

100

110

BŁĘ

DY

: Liczba błęd

ów w

eksperym

encie

Szczury odchowane w ograniczonym środowisku wykonywały więcej błędów!

ŚRODOW*RASA; Oczekiwane średnie brzegowe

Bieżący ef ekt: F(2, 18)=,00843, p=,99160

Dekompozy cja ef ekty wny ch hipotez

Pionowe słupki oznaczają 0,95 przedziały uf ności

ŚRODOW WOLNE ŚRODOW OGRANICZ

INTELIG MIESZANA GŁUPIA

RASA

-40

-20

0

20

40

60

80

100

120

140

160

BŁĘ

DY

: Lic

zba

błę

w w

eksp

ery

men

cie

Wszystkie linie zyskują na stymulującym środowisku!

Post-hoc

Histogram: BŁĘDY: Liczba błędów w ekspery mencie

BŁĘDY = 24*10*normal(x; 64,625; 36,5154)

BŁĘDY

Liczba obs.

0 20 40 60 80 100 120 1400

1

2

3

4

5

6

Ogół grup

Założenia – w obrębie grupy cecha jest normalna

Jednorodność wariancji - cd

Odch.std wzgl. średnich: BŁĘDY: Liczba błędów w ekspery mencie

Y = 7,141+0,3479*x

Ef ekt: "ŚRODOW"*RASA

20 30 40 50 60 70 80 90 100 110

Średnie

10

15

20

25

30

35

40

45

Odchylenia stand.

Istnieje korelacja między średnią i odch. standardowym – groźne! Może lepszy będzie test nieparametryczny?

Jednorodność wariancji

Bez wykresu byśmy nie znaleźli zagrożenia!

Zadaniehttp://lib.stat.cmu.edu/

DASL/Datafiles/Eggs.html

Fat Lab Technician Sample.62 I 1 G.55 I 1 G.34 I 1 H.24 I 1 H.40 II 1 G.33 II 1 H.43 II 1 H.39 II 2 G.40 II 2 G.29 II 2 H

•6 laboratoriów I-VI•Dwóch techników 1,2•Po dwie próbki G, H

Wyniki oznaczeń zawartości tłuszczu w jajach, wg różnych laboratoriów i techników

Jaja - zadanie

1. Czy wyniki oznaczeń zależą od laboratorium?

2. Które laboratoria, jeśli w ogóle, różnią się od siebie?

3. Czy założenia analizy wariancji zostały spełnione?

http://lib.stat.cmu.edu/DASL/Datafiles/Fridaythe13th.html

Zadanie dla chętnych

Piątek 13-tegoCzy przesądy wpływają na nasze zachowania (zakupy)?

Czy w piątki 13-tego możemy się spodziewać więcej nieszczęśliwych wypadków?