Nowy kod Statistica 6.1
description
Transcript of Nowy kod Statistica 6.1
Nowy kod Statistica 6.1
HEN6EUEKH8
Plan na dziś
Analiza wariancji
1. Podstawy i założenia
2. Kontrasty i analiza post-hoc
3. Przykład – szczury w labiryncie
4. Zadanie
ANOVA – analiza wariancji
Bada hipotezę, że wiele grup ma taką samą średnią.
Wyróżnia w całkowitej wariancji część, za którą jest odpowiedzialny czynnik grupujący i odnosi do reszty wariancji (test F).
Typowe zadanie
• Czy środowisko (otwarte/ograniczone) ma wpływ na inteligencję?
• Dwa środowiska: – otwarte – zamknięte
• Trzy rasy szczurów:– Inteligentne– Mieszane– Głupie
Błędy w labiryncie
ANOVA i test tJeżeli dwie grupy to ANOVA = test t. Po co
więc ANOVA?
Elastyczna –
- wiele czynników
- interakcje między nimi
- powtarzane pomiary
- wiele zmiennych zależnych (MANOVA)
Więcej czynników – mniejszy błąd!
Wiele czynników
Inteligencja szczura = środowisko + RASA + reszta
• Czynnik RASA zmniejsza RESZTĘ!• Jeżeli czynnik nie ma znaczenia nie powinien być w modelu! • Błędy powinny mieć rozkład normalny!
Badany czynnik
Interakcje
Gdy jeden czynnik jest modyfikowany przez drugi
Np. efekt środowiska może być zależny od rasy
Powtarzane pomiary
...gdy obiekt obserwowany jest dwa lub więcej razy
np. badamy szczura przed i po skarmieniu paszy
Dodatkowy czynnik różnicujący pomiary wewnątrz grup.
Wiele zmiennych zależnych
MANOVA pozwala przetestować hipotezę typu:
Środowisko wpływa na wyniki różnych testów inteligencji szczura.
Założenia - normalność
Zmienna zależna ma rozkład normalny w grupach (normalność reszt)
ANOVA jest odporna, szczególnie przy dużej liczbie obserwacji.
Jednorodność wariancji
We wszystkich grupach wariancja powinna być taka sama.
Małe różnice nie są groźne,ale uwaga na obserwacje odstające!...i korelacje średnia-wariancja
Średnie
1. obserwowane brzegowe, nieważone
2. obserwowane brzegowe ważone
3. najmniejszych kwadratów
Obserwowane średnie nieważone
- samce: 6, 5, 4
- samice 6, 5
( 6 + 5 + 4 ) / 3 = 5
( 6 + 5 ) / 2 = 5,5
( 5 + 5,5 ) / 2 = 5,25
Inteligencja = środowisko + płeć + błąd
Środowisko otwarte
Obserwowane średnie ważone
Środowisko otwarte
- samce: 6, 5, 4
- samice 6, 5
( 6 + 5 + 4 + 6 + 5 ) / 5 = 5,20
Średnie najmniejszych kwadratów
Najbardziej interesujące i te testujemy!
Oczekiwane (przewidywane) średnie brzegowe
Dla niektórych układów równe średnim obserwowanym nieważonym
Średnie najmniejszych kwadratów (błędów/reszt)Inteligencja = środowisko + rasa + błąd
Błąd = Inteligencja – środowisko - rasa
Wyznaczamy średnie dla czynników środowiska i ras tak by suma wszystkich kwadratów błędów była jak najmniejsza!
Kontrasty
Jeżeli hipoteza ‘wszystkie średnie są równe’ jest zbyt prosta
Pozwalają testować złożoną hipotezę, którą przewidujemy, np.
Środowisko otwarte rozwija inteligencję, ale tylko w rasach „inteligentnych”, natomiast środowisko zamknięta obniża inteligencję we wszystkich rasach.
Kontrasty
Np. hipotezę
„Rasa inteligentna różni się od dwóch pozostałych”
testujemy jako
I = μintelig. – 0.5μmieszana – 0.5μgłupia = 0
Porównania post-hocGdy hipotezę formułujemy ‘po’ analizie wariancji
Whooh! Nie wiedziałem, że rasa „inteligentna” tak bardzo się różni od „głupiej”. Czy istotnie?
Wybieramy świadomie dwie ekstremalne grupy, a nie dwie losowe! Chroń się przed błędem I-go rodzaju!
Błąd I – odrzucenie prawdziwej hipotezy H0
Porównania post-hoc(po analizie wariancji)No tak! Rasa ma istotny wpływ na inteligencję.
Które pary są istotnie różne?
Wybieramy świadomie serię testów zamiast jednego! Szansa, że wykryjemy ‘niepodobne’ dwie rasy rośnie!
Chroń się przed błędem I-go rodzaju!
Błąd I – odrzucenie prawdziwej hipotezy H0
Porównania wielokrotne post-hoc
Testy, które próbują kontrolować błąd I-go rodzaju
• najmniejsza istotna różnica Fishera (po tym jak F jest istotne - dużo fałszywie pozytywnych!)
• test Tukeya – zachowawczy
• test Newmana-Keulsa – mocny i mniej zachowawczy niż Tukeya
• test Duncana – bardzo mocny
• test Sheffego (Porównujesz w parach? Zapomnij)
Oba czynniki - środowisko i rasa - są istotne, a interakcja nie!
ŚRODOW; Oczekiwane średnie brzegowe
Bieżący ef ekt: F(1, 18)=5,8225, p=,02670
Dekompozy cja ef ekty wny ch hipotez
Pionowe słupki oznaczają 0,95 przedziały uf ności
WOLNE OGRANICZ
ŚRODOW
20
30
40
50
60
70
80
90
100
110
BŁĘ
DY
: Liczba błęd
ów w
eksperym
encie
Szczury odchowane w ograniczonym środowisku wykonywały więcej błędów!
ŚRODOW*RASA; Oczekiwane średnie brzegowe
Bieżący ef ekt: F(2, 18)=,00843, p=,99160
Dekompozy cja ef ekty wny ch hipotez
Pionowe słupki oznaczają 0,95 przedziały uf ności
ŚRODOW WOLNE ŚRODOW OGRANICZ
INTELIG MIESZANA GŁUPIA
RASA
-40
-20
0
20
40
60
80
100
120
140
160
BŁĘ
DY
: Lic
zba
błę
dó
w w
eksp
ery
men
cie
Wszystkie linie zyskują na stymulującym środowisku!
Post-hoc
Histogram: BŁĘDY: Liczba błędów w ekspery mencie
BŁĘDY = 24*10*normal(x; 64,625; 36,5154)
BŁĘDY
Liczba obs.
0 20 40 60 80 100 120 1400
1
2
3
4
5
6
Ogół grup
Założenia – w obrębie grupy cecha jest normalna
Jednorodność wariancji - cd
Odch.std wzgl. średnich: BŁĘDY: Liczba błędów w ekspery mencie
Y = 7,141+0,3479*x
Ef ekt: "ŚRODOW"*RASA
20 30 40 50 60 70 80 90 100 110
Średnie
10
15
20
25
30
35
40
45
Odchylenia stand.
Istnieje korelacja między średnią i odch. standardowym – groźne! Może lepszy będzie test nieparametryczny?
Jednorodność wariancji
Bez wykresu byśmy nie znaleźli zagrożenia!
Zadaniehttp://lib.stat.cmu.edu/
DASL/Datafiles/Eggs.html
Fat Lab Technician Sample.62 I 1 G.55 I 1 G.34 I 1 H.24 I 1 H.40 II 1 G.33 II 1 H.43 II 1 H.39 II 2 G.40 II 2 G.29 II 2 H
•6 laboratoriów I-VI•Dwóch techników 1,2•Po dwie próbki G, H
Wyniki oznaczeń zawartości tłuszczu w jajach, wg różnych laboratoriów i techników
Jaja - zadanie
1. Czy wyniki oznaczeń zależą od laboratorium?
2. Które laboratoria, jeśli w ogóle, różnią się od siebie?
3. Czy założenia analizy wariancji zostały spełnione?
http://lib.stat.cmu.edu/DASL/Datafiles/Fridaythe13th.html
Zadanie dla chętnych
Piątek 13-tegoCzy przesądy wpływają na nasze zachowania (zakupy)?
Czy w piątki 13-tego możemy się spodziewać więcej nieszczęśliwych wypadków?