Wykład 10

44
Wykład 10 • Rozważmy populacje i jej podgrupy. • Model dla jednoczynnikowej ANOV-y: y ij = μ+γ i + ij , gdzie ij są niezależne N(0, 2 ) μ- średnia wartość cechy w całej populacji μ i =μ+γ i – średnia dla i-tej grupy: γ i = μ i μ • Hipoteza H 0 : 1 = 2 = 3 = … = k jest równoważna hipotezie H 0 : γ 1 = γ 2 = γ 3 = … = γ k =0

description

Wykład 10. Rozważmy populacje i jej podgrupy. Model dla jednoczynnikowej ANOV-y: y ij = μ + γ i + ij , gdzie  ij są niezależne N(0, 2 ) μ - średnia wartość cechy w całej populacji μ i = μ + γ i – średnia dla i -tej grupy : γ i = μ i – μ Hipoteza - PowerPoint PPT Presentation

Transcript of Wykład 10

Page 1: Wykład 10

Wykład 10• Rozważmy populacje i jej podgrupy.

• Model dla jednoczynnikowej ANOV-y:

yij = μ+γi+ij , gdzie ij są niezależne N(0,2)

μ- średnia wartość cechy w całej populacji

μi=μ+γi– średnia dla i-tej grupy: γi = μi –μ

• Hipoteza

H0: 1 = 2 = 3 = … = k

jest równoważna hipotezie

H0: γ1 = γ2 = γ3 = … = γk=0

Page 2: Wykład 10

Model dwuczynnikowej ANOV-y• Zrandomizowany układ blokowy

• Wpływ zabiegu: γi, wpływ bloku: βj

• Model:– Yijk = μ + γi + βj+ εijk

• Hipoteza– H0 : γ1 = γ2 = γ3 = … = γk=0 (zabieg nie ma

wpływu, nic o blokach)

– H1 : Nie H0 (niektóre γi są różne od zera)

Page 3: Wykład 10

Rozkład SS• Suma kwadratów pomiędzy blokami:

• Tutaj mj jest rozmiarem bloku.• SS(całkowita) = SS(wewnątrz)

+SS(pomiędzy)+SS(blok)• df(całkowita) = df(wewnątrz)

+df(pomiędzy)+df(blok)• df(blok)=b-1 = liczba bloków -1

2

1

)( yymSSBl j

b

jj

Page 4: Wykład 10

Tabela ANOV-y

Source df SS MS Statistics

Between k-1 SSBt MSBt=SSBt/(k-1)

Block b-1 SSBl MSBl= SSBl/(b-1)

Within n-k-b+1 SSW MSW=SSW/(n-k-b+1) F=MSBt/MSW

Total n-1 SST

Page 5: Wykład 10

Przykład (wysokość roślin)

Nawóz I Nawóz II Nawóz III Średnia dla

bloku

Blok1 1.58 1.10 2.47 1.717

Blok2 1.15 1.05 2.15 1.450

Blok3 1.27 0.50 1.46 1.077

Blok4 1.25 1.00 2.36 1.537

Blok5 1.00 1.50 1.00 1.167

n 5 5 5

Średnia dla zabiegu

1.25 1.03 1.888

Page 6: Wykład 10

Budujemy tabelę ANOV-y

• Całkowita średnia =...

• SSBt (SS zabiegu)=...

MSBt =...

• SSBl (SS bloków)=...

MSBl =...

Page 7: Wykład 10

• SSW = SST – SSBt – SSBl = 1.452

• df(SSW) =... , MSW =...

• Fs = MSBt / MSW =...

• df(pomiedzy)=... , df(wewnątrz)=...

• Wartość krytyczna=...

• Decyzja:...

• Wniosek:....

Page 8: Wykład 10

Dane jakościowe

• Obserwacje klasyfikujemy do klas

• Zliczamy liczbę obserwacji w każdej klasie

• Jeżeli są tylko dwie klasy, to jedną z nich możemy nazwać „sukcesem”, a drugą „porażką”.

• Generalnie, liczba obserwacji w ustalonej klasie ma rozkład:....

Page 9: Wykład 10

• Jeżeli mamy więcej niż dwie klasy, tpmożemy się skoncentrować na jednej

klasie albo rozważać wszystkie klasy na raz

Page 10: Wykład 10

• Przypomnienie: p (nieznane) prawdopodobieństwo sukcesu –

np. bycia w klasie 1n liczba obserwacji.Obserwujemy y = # obserwacji w klasie 1. = ... y ma rozkład... , Jeżeli np i n(1-p) są dość duże, to rozkład ten

możemy aproksymować rozkładem ....

Page 11: Wykład 10

Rozkład 2

• Definicja: Niech Y1, … Yk będą niezależnymi zmiennymi losowymi o rozkładzie N(0,1). Suma kwadratów tych zmiennych ma rozkład 2

k (rozkład chi-kwadrat z k stopniami swobody).

Page 12: Wykład 10

Test zgodności chi-kwadrat

• Rozważymy przypadek danych jakościowych• Mamy próbę składającą się z n niezależnych

obserwacji• Będziemy testowali hipotezy o wartości prawdo-

podobieństw należenia do poszczególnych klas• Do obliczania wartości krytycznych skorzystamy

z przybliżenia rozkładem (normalnym i) chi-kwadrat, które działa dla dużych rozmiarów prób.

Page 13: Wykład 10

• Zakładamy wartości pi (prawdopodobień-stwo ``bycia’’ w i-tej klasie)

• Liczymy oczekiwaną liczbę obserwacji w każdej klasie: npi

• Porównujemy z zaobserwowanymi (zob. dalej)

• Uwagi:– Test stosujemy, gdy oczekiwana liczba

obserwacji (npi) w każdej z klas nie jest mniejsza od 5.

– Test jest w założeniu podobny do testu znaków, ale nie wykorzystuje rozkładu dwumianowego.

Page 14: Wykład 10

Prosty przypadek: dwie klasy

• Np. samiec/samica, tak/nie, sukces/porażka, poprawa/pogorszenie, itd.

• Badamy model genetyczny dziedziczenia pewnej cechy. Mamy dwie linie homozygotyczne muszki Drosophilae, jedną z czerwonymi oczami i jedną z fioletowymi oczami. Sugeruje się, że za kolor oczu odpowiedzialny jest tylko jeden gen i że allel oczu czerwonych dominuje nad allelem oczu fioletowych.

Page 15: Wykład 10

• Jeżeli założona hipoteza jest prawdziwa to w krzyżówce F2 stosunek liczby muszek z czerwonymi oczami do liczby muszek z fioletowymi oczami powinien być w przybliżeniu równy: .....

• Aby zweryfikować tę hipotezę wyhodowano 43 muszki z populacji F2 (wykorzystując kilku rodziców z linii homozygotycznych). 29 z tych muszek miało czerwone oczy, a 14 fioletowe oczy.

Page 16: Wykład 10

• Klasy: Czerwone oczy; hipotetyczne

prawdopodobieństwo p =... Oczekiwana liczba czerwonych: E1 =...

Fioletowe oczy; hipotetyczne p’ =...

Oczekiwana liczba: E2 =...

Page 17: Wykład 10

• Czy allel czerwonych oczu dominuje nad allelem fioletowych oczu?

• Niech p będzie p-stwem, że muszka w populacji F2 ma czerwone oczy

• H0: p = ... ;

• HA: ....

Page 18: Wykład 10

Użyjemy testu zgodności chi-kwadrat2

s = (O-E)2/E przy H0 ma w przybliżeniu rozkład chi-kwadrat z

df = #klas - 1 = ... .

• Testujemy na poziomie = 0.05

• Wartość krytyczna = ...

• =• Tablica wartości krytycznych z książki

``Introduction to the Practice of Statistics’’,

D.S. Moore, G. P. McCabe

Page 19: Wykład 10
Page 20: Wykład 10

2s = (O-E)2/E

= (zaobserwowana - oczekiwana)2/oczekiwana

• tutaj =....

• Wniosek:

Page 21: Wykład 10

• Możemy także testować przeciwko alternatywie kierunkowej np. HA : p < 0.75. W tym przypadku odrzucamy H0 gdy oba poniższe warunki są spełnione:

X2s > 2

1(2), tzn. ...

< 0.75

tzn. estymator odchyla się od hipotetycznej wartości w tym samym kierunku co HA

Page 22: Wykład 10

Więcej niż 2 klasy

• U słodkiego groszku allel fioletowego koloru kwiatów (F) jest dominujący nad allelem czerwonego koloru (C) a allel wydłużonych ziaren pyłku (d) jest dominujący nad allelem okrągłych ziaren (o). Mamy rodziców homozygotycznych P1 z allelami dominującymi (FFdd) i rodziców homozygotycznych P2 z allelami recesywnymi (CCoo). W generacji F1 wszystkie groszki mają genotypy (...........) i mają fenotypy .....

Groszki z populacji F1 krzyżujemy i dostajemy populację

F2. Przypuszcza się, że geny kontrolujące obie cechy są odległe o 20 cM. Jeżeli jest to prawdą to w populacji F2 poszczególne fenotypy powinny występować w proporcjach

• 67.44 : 7.56 : 7.56 : 17.44

Page 23: Wykład 10

• 67.44% fioletowe/wydłużone FFdd albo FCdd albo FFdo albo FCdo, [(2 -2+3)/4]• 7.56% fioletowe/okrągłe : FFoo albo FCoo, [(2-2)/4]

• 7.56% czerwone/wydłużone = CCdd albo CCLdo, [(2-2)/4]

• 17.44% czerwone/okrągłe = CCoo, [(1-)2/4],gdzie =0.1648 (prawdopodobieństwo rekombinacji).

• Wśród 381 osobników z populacji F2 zaobserwowano 284 fioletowe/wydłużone21 fioletowe/okrągłe21 czerwone/wydłużone55 czerwone/okrągłe

Page 24: Wykład 10

• Czy geny są w odległości 20 cM ?

• Niech p1, p2, p3, p4 będą p-stwami odpowiednio

fioletowe/wydłużone, fioletowe/okragłe, czerwone/wydłużone, czerwone/okrągłe w populacji F2.

H0: p1 =0.6744, p2 = 0.0756, p3 =0.0756, p4 =0.1744 ; p-stwa poszczególnych klas odpowiadają odległości 20 cM.

HA: p-stwa klas nie odpowiadają odległości 20 cM.

Page 25: Wykład 10

• Użyjemy testu chi-kwadrat, df = #klas - 1 =....

2s = (O-E)2/E ma przy H0 rozkład .....

• Testujemy na poziomie = 0.05;

• Wartość krytyczna = .....

• Wartości oczekiwane liczby obserwacji w każdej klasie przy H0 (n pi):

Page 26: Wykład 10

2s = ...

• Wniosek: ....

Page 27: Wykład 10

Podsumowanie testu zgodności chi-kwadrat

• Definiujemy pi dla każdej klasy i formułujemy hipotezę.

• Jeżeli są tylko dwie klasy, to alternatywę można łatwo opisać za pomocą wzoru, może ona też być kierunkowa.

Page 28: Wykład 10

• Jeżeli mamy więcej niż dwie klasy, to alternatywę należy opisać słowami.

• Dla każdej klasy liczymy Ei = npi . Sprawdzamy, czy wszystkie Ei są nie mniejsze niż 5. (Aby można było stosować test chi-kwadrat)

• Liczymy 2s = (O-E)2/E sumując po

wszystkich klasach.

• Porównujemy z wartością krytyczną z rozkładu 2

k-1; odrzucamy H0 , gdy statystyka jest większa od wartości krytycznej.

Page 29: Wykład 10

Tablice wielodzielcze

• Najpierw tablice”2x2”: dwa rzędy i dwie kolumny• Dane jakościowe z czterema klasami, które

można połączyć w pary.• Dwie typowe sytuacje:Dwie niezależne próby; w każdej obserwujemy

jedną cechę o dwu wartościachJedna próba; obserwujemy dwie różne cechy, z

których każda może przyjmować dwie wartości.

Page 30: Wykład 10

• Przykład sytuacji 1Próby to „lekarstwo” i „placebo” (lub dowolne

dwa zabiegi); obserwowana zmienna to „poprawa” lub „brak poprawy”.

próby „samce" i „samice" (dowolne dwie grupy, które chcemy porównać); obserwowana zmienna – np. kolor oczu, ``fioletowe’’ i „czerwone”.

• Przykład sytuacji 2

• obserwujemy „kolor oczu" (czerwone/fioletowe) i „kształt skrzydła" (normalny/mniejszy)

• Oberwujemy, czy ludzie palą i czy ćwiczą

Page 31: Wykład 10

:

Kolor oczu

czerwone fioletowe

Kszatłtskrzydła

normalne 39 11

mniejsze 18 32

4 klasy; obserwacje w tabeli 2x2

Testujemy niezależność zmiennych definiujących rzędy i kolumny. W tym przypadku będzie to odpowiadać testowaniu hipotezy, czy oba geny leżą na innych chromosomach.

Page 32: Wykład 10

Przykład (wstępny):

Obserwowane zabieg Suma

Lekarstwo Placebo

Wynik Poprawa 15 4 19

Brak poprawy

11 17 28

Suma 26 21 47

Page 33: Wykład 10

• p1 = p-stwo, że nastąpi poprawa, jeżeli pacjent bierze lekarstwo

• p2 = p-stwo, że nastąpi poprawa, jeżeli pacjent bierze placebo

• H0: p1 = p2

• HA: p1 p2 ( or p1 > p2)

• Niech poziom istotności =0.01

Page 34: Wykład 10

• W przeciwieństwie do testu zgodności, nie mamy hipotetycznych wartości na p. Zamiast tego, H0 mówi, że oba p-stwa są takie same. Można to wyrazić w terminach niezależności.

• HA mówi, że p-stwa są różne, co oznacza, że zmienne ``zabieg’’ i „wynik” nie są niezależne.

Page 35: Wykład 10

• =

• =

• Jakich wartości oczekiwalibyśmy, gdyby H0

była prawdziwa ?

• Poprawa nastąpiła u 19 pacjentów. Jest to 19/47 = 40.4% wszystkich badanych. 26 pacjentów brało lekarstwo. Jeżeli H0 jest prawdziwa, to u około 40.4% z nich powinna nastąpić poprawa.

1p̂

2p̂

Page 36: Wykład 10

• Podobnie liczba pacjentów, u których nastąpiła poprawa mimo, że brali placebo powinna być bliska....

• Ponadto oczekujemy, że nie nastąpiła poprawa u ..... osób biorących lekarstwo i u ..... osób biorących placebo.

• Te oczekiwane wartości umieszczamy w podobnej tabeli.

Page 37: Wykład 10

Oczekiwane zabieg Suma

Lekarstwo Placebo

Wynik Poprawa 10.5 8.5 19

Brakpoprawy

15.5 12.5 28

Suma 26 21 47

Page 38: Wykład 10

• Ogólnie:E = (suma w rzędzie)(suma w

kolumnie)/(całkowita suma ) Dla każdej z czterech klas. Aby stosować test chi-kwadrat, w każdej

klasie E powinno być nie mniejsze niż 5.

Page 39: Wykład 10

Łączymy obie tabele:

Oberwowane (Oczekiwane) zabieg Suma

Lekarstwo Placebo

Wynik Poprawa 15 (10.5) 4 (8.5) 19

Brak poprawy

11 (15.5) 17 (12.5) 28

Suma 26 21 47

Page 40: Wykład 10

• Czy u pacjentów biorących lekarstwo poprawa występuje częściej niż u pacjentów biorących placebo ?

• p1 = p-stwo poprawy u pacjentów biorących lekarstwo

• p2 = p-stwo poprawy u pacjentów biorących placebo

• H0: p1 = p2 ; p-stwo poprawy jest takie samo w obu grupach (albo: wynik i zabieg są niezależne).

• HA: p1 > p2 ; p-stwo poprawy jest większe u pacjentów biorących lekarstwo

Page 41: Wykład 10

• Stosujemy test 2 dla niezależności

• X2s = (O-E)2/E przy H0 ma rozkład 2

1.

• Testujemy na poziomie istotności = 0.01; odrzucamy H0 gdy X2

s > ...... [używamy kolumny 0.02 bo alternatywa jest kierunkowa]

• [Ponieważ alternatywa jest kierunkowa musimy wykonać kolejny krok]

• .......

• ....... 2

1

ˆ

ˆ

p

p

Page 42: Wykład 10

2s =.....

• Wniosek:.....

1p̂ 2p̂

Page 43: Wykład 10

• Stopnie swobody

• df = 1 dla tabeli 2x2.

• Ogólnie (#rzędów-1)(#kolumn-1)

• Wartości krytyczne:

Gdy HA jest niekierunkowa szukamy w kolumnie , gdy jest kierunkowa w kolumnie 2.

Page 44: Wykład 10

• Co oznacza odrzucenie H0? Czasami trzeba być ostrożnym przy formułowaniu wniosków. Gdy odrzucamy H0 , to mamy przesłanki, aby przypuszczać, że zmienne nie są niezależne.

• To jednak nie zawsze odpowiada związkowi przyczynowemu!

• Nasze badanie wskazuje, że stan pacjentów biorących lekarstwo częściej się poprawia, niż stan pacjentów biorących placebo.

• Tutaj kontrolowaliśmy zabieg, więc możemy przypuszczać, że istnieje związek przyczynowy. Gdybyśmy jednak testowali niezależność koloru oczu i kształtu skrzydeł u muszek owocówek nie moglibyśmy stwierdzić związku przyczynowego (np. „Kolor oczu wpływa na kształt skrzydeł”??). Możemy tylko powiedzieć, że oba fenotypy są zmiennymi zależnymi.