Programy hodowlane i pakiety statystyczne

48
ramy hodowlane i pakiety statystyc dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/ http://jay.au.poznan.pl/~strabel regulamin + program

description

Programy hodowlane i pakiety statystyczne. dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/. regulamin + program. http://jay.au.poznan.pl/~strabel. Plan na dziś. Przypomnienie paru terminów i metod statystycznych Podstawy pracy z pakietem Statistica Zadania ćwiczeniowe. - PowerPoint PPT Presentation

Transcript of Programy hodowlane i pakiety statystyczne

Page 1: Programy hodowlane i pakiety statystyczne

Programy hodowlane i pakiety statystyczne

dr Tomasz Strabel /programy/dr Maciej Szydłowski /pakiety/

http://jay.au.poznan.pl/~strabelregulamin + program

Page 2: Programy hodowlane i pakiety statystyczne

Plan na dziś

1. Przypomnienie paru terminów i metod statystycznych

2. Podstawy pracy z pakietem Statistica

3. Zadania ćwiczeniowe

Page 3: Programy hodowlane i pakiety statystyczne

Gdzie szukać danych?

•http://lib.stat.cmu.edu/datasets

•http/support.sas.com/training/forms/hecftp1.html

•http://www.amstat.org/publications/jse/datasets/moore/

•dane w pakiecie R

Page 4: Programy hodowlane i pakiety statystyczne

Relacje między zmiennymi

• Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony sposób.

• Np. rasa może być powiązana z przyrostami, jeżeli większość osobników pbz przyrosta szybciej niż w rasie wpb.

Page 5: Programy hodowlane i pakiety statystyczne

Dwie podstawowe cechy relacji

• Siła – np. jeśli każdy osobnik w rasie pbz ma większy przyrost niż osobnik wbp, siła relacji jest bardzo duża.

• Wiarygodność - reprezentatywność relacji obserwowanej w pobranej próbce w odniesieniu do całej badanej populacji (wyrażana poziomem istotności).

Page 6: Programy hodowlane i pakiety statystyczne

Wspólna postać większości testów statystycznych.

• Najczęściej jest to stosunek tej części zmienności, którą można przypisać testowanemu czynnikowi do zmienności ogólnej (lub pozostałej)

• Np. wariancja spowodowana wpływem rasy do pozostałej wariancji.

• Jak duży to musi stosunek, żeby uznać go za istotny?

Page 7: Programy hodowlane i pakiety statystyczne

Czy 40% wyjaśnionej zmienności jest

wystarczające do uznania relacji za istotną?

• Na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną.

• Małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności.

• Czy coś jest istotne czy nie, zależy od poziomu istotności.

Page 8: Programy hodowlane i pakiety statystyczne

Poziom istotności

• Prawdopodobieństwo popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji.

• Malejący wskaźnik wiarygodności rezultatu.

• Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji w całej populacji.

Page 9: Programy hodowlane i pakiety statystyczne

Jaki wynik jest istotny?

• Graniczny poziom istotności jest sprawą umowną

• Utrwalona tradycja:– p Ł 0.05 – wynik statystycznie istotny– p Ł 0.01 – wynik wysoce istotny

Page 10: Programy hodowlane i pakiety statystyczne

Jak wyliczyć poziom istotności?

• Obliczenia są złożone i różne w różnych przypadkach.

• Na szczęście wiele statystyk testowych jest związana z funkcją rozkładu normalnego.

• Testy oparte na rozkładzie normalnym to t, F i Chi-kwadrat. Zazwyczaj wymagają, żeby same badane zmienne (lub reszty) miały rozkład normalny (założenie o normalności).

Page 11: Programy hodowlane i pakiety statystyczne

Rozkład normalny

• Ma kształt dzwonu i zależy od średniej i odch. stand.

• 68% przypadków trafia do przedziału odejmującego ±1 odch. stand. od średniej

• 95% przypadków w przedziale ±2 odch. stand.

Page 12: Programy hodowlane i pakiety statystyczne

Jak stwierdzić czy rozkład jest normalny?

• Wykresy normalności• Testy normalności

Page 13: Programy hodowlane i pakiety statystyczne

Wykres normalności

• Przedstawia reszty obserwowane (oś x) oraz reszty oczekiwane przy normalności rozkładu (oś y).

• W przypadku normalności rozkładu zmiennej wykres ma formę linii prostej.

Page 14: Programy hodowlane i pakiety statystyczne

Testy normalności

• Test Kołmogorowa-Smirnowa (znana średnia i wariancja)

• Prawdpodobieńswo Lillieforsa (gdy średnie i wariancja są estymowane z danych – najczęstszy przypadek)

• Test W Shapiro Wilka – najlepszy test (w Statistica do 5000 obserwacji)

Page 15: Programy hodowlane i pakiety statystyczne

Co, jeżeli zmienna nie ma rozkładu normalnego?

• Transformacja danych

• Testy niezależne od rozkładu (nie parametryczne) – mają małą moc!

• Mimo wszystko stosujemy test wymagający normalności, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Dlaczego?

Page 16: Programy hodowlane i pakiety statystyczne

Centralne twierdzenie graniczne

Im większa próba, tym bardziej rozkład statystyki testowej z próby zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego.

Page 17: Programy hodowlane i pakiety statystyczne

Jeszcze jeden powód popularności testów opartch

na rozkładzie normalnym

Na ogół, konsekwencje złamania założenia o normalności nie są takie poważne, jak sądzono wcześniej.

Co nie znaczy, że można ignorować całkowity brak zgodności z rozkładem normalnym.

Page 18: Programy hodowlane i pakiety statystyczne

Istotność statystyczna a liczba przeprowadzonych

analiz• Im więcej analiz przeprowadzimy, tym

większa liczba wyników przekracza ustalony poziom istotności przez przypadek (wyniki fałszywie pozytywne)

• 10 zmiennych to 45 korelacji i ok. 2 korelacji z p  Ł 0,05

• Przy testach wielokrotnych należy przyjmować inny graniczny poziom istotności – jaki?

Page 19: Programy hodowlane i pakiety statystyczne

test t

• Testowanie pojedynczej średniej

• Porównanie średnich w dwóch grupach:

– Grupy niezależne, np. zwierzęta żywione mieszanką treściwą contra grupa żywiona paszą objętościową

– Grupy zależne (obserwacje sparowane), np. zachorowalność w tej samej populacji przed i po wprowadzeniu szczepień

Page 20: Programy hodowlane i pakiety statystyczne

Testowanie pojedynczej średniej

Np. Czy przyrost dzienny w rasie wbp odbiega od średniej dla wszystkich ras (832 gramy)?

Założenie: rozład normalny

Page 21: Programy hodowlane i pakiety statystyczne

Testowanie różnic między dwiema grupami – grupy

niezależne• Czy rasa wbp i pbz mają różne tempo

przyrostu? (Statistica: Test t dla prób niezależnych w grupach)

• Próby nie muszą być duże, np. po 10 obserwacji.

• Założenia: normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jednorodność wariancji sprawdzamy za pomocą testu F .

Page 22: Programy hodowlane i pakiety statystyczne

Testowanie różnic między dwiema grupami – c.d.

• Jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom p (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa

• Nie wszyscy się z tym zgadzają!

Page 23: Programy hodowlane i pakiety statystyczne

Pakiet Statistica

Page 24: Programy hodowlane i pakiety statystyczne

Import danych tekstowych

1 2

3

Page 25: Programy hodowlane i pakiety statystyczne

4

5

Pamiętaj! Zamień kropki na przecinki

Page 26: Programy hodowlane i pakiety statystyczne
Page 27: Programy hodowlane i pakiety statystyczne

Podstawowe statystyki opisowe

Page 28: Programy hodowlane i pakiety statystyczne

Podstawowe statystyki opisowe

Page 29: Programy hodowlane i pakiety statystyczne

Podstawowe statystyki opisowe

Page 30: Programy hodowlane i pakiety statystyczne

Wykres ramka-wąsyWy kres ramka-wąsy

Średnia = 832,4433 Średnia±Odch.std = (723,5168, 941,3698) Średnia±1,96*Odch.std = (618,9474, 1045,9392)

przy rost600

650

700

750

800

850

900

950

1000

1050

1100

Page 31: Programy hodowlane i pakiety statystyczne

Wykresy rozkładu

histogram - słupek proporcjonalny do liczby obserwacji w przedziale

wykres łodyga-liść – słupek zawiera prawdziwe wartości w danym przedziale w formie np.:

7° 000038

4 wartości = 7,0

1 wartość = 7,3

1 wartość = 7,8

Page 32: Programy hodowlane i pakiety statystyczne

Histogram – 2 cechy

Page 33: Programy hodowlane i pakiety statystyczne

Wykres łodyga-liść

Page 34: Programy hodowlane i pakiety statystyczne

Rozkład normalny

Page 35: Programy hodowlane i pakiety statystyczne

Cecha o rozkładzie normalnymWy kres normalności: cecha2

48 50 52 54 56 58 60 62 64 66 68 70

Wartość

-4

-3

-2

-1

0

1

2

3

4

Warto

ść

no

rmaln

a

Page 36: Programy hodowlane i pakiety statystyczne

Cecha o innym rozkładzieWy kres normalności: cecha_f izjo

0 2 4 6 8 10 12 14 16

Wartość

-4

-2

0

2

4

6

8

Warto

ść

no

rma

lna

Page 37: Programy hodowlane i pakiety statystyczne

Testy normalności

Page 38: Programy hodowlane i pakiety statystyczne

Wykresy skategoryzowane

Tworzone są przez podzielenie danych na podzbiory, a następnie odwzorowanie wszystkich podzbiorów na oddzielnych, małych wykresach składowych, rozmieszczonych na jednym obrazie.

Na przykład jeden wykres może reprezentować rasę świń pbz, inny rasę świń wbp, itd.

Page 39: Programy hodowlane i pakiety statystyczne
Page 40: Programy hodowlane i pakiety statystyczne

Histogram skategor.: cecha_f izjo

rasa: wbp cecha_f izjo = 128*2*normal(x; 2,4297; 1,8177)rasa: pbz cecha_f izjo = 109*2*normal(x; 2,4778; 1,2432)

rasa: L990 cecha_f izjo = 151*2*normal(x; 2,1383; 1,0369)

cecha_f izjo

Lic

zba

ob

s.

rasa: wbp

-2 0 2 4 6 8 10 12 14 16 180

20

40

60

80

100

120

140

rasa: pbz

-2 0 2 4 6 8 10 12 14 16 18

rasa: L990

-2 0 2 4 6 8 10 12 14 16 180

20

40

60

80

100

120

140

Page 41: Programy hodowlane i pakiety statystyczne

Wy kres ramka-wąsy :

Średnia Średnia±Odch.std Średnia±1,96*Odch.std

wbp pbz L990

rasa

500

600

700

800

900

1000

1100

1200

prz

yro

st

Page 42: Programy hodowlane i pakiety statystyczne

Wykresy powierzchniowe 3W

Page 43: Programy hodowlane i pakiety statystyczne

Wykresy powierzchniowe 3W- funkcje wygładzania

powierzchni• Liniowa. Do punktów na wykresie

rozrzutu 3W dopasowana będzie powierzchnia płaska (o równaniu: Z = a + bX + cY).

• Kwadratowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia drugiego stopnia.

• Najmniejszych kwadratów ważona odległością. wpływ punktów maleje z odległością w poziomie od aktualnie obliczanego punktu powierzchni

Page 44: Programy hodowlane i pakiety statystyczne

Wykres macierzowyKorelacje (dane 9v *388c)

przyrost dzienny

% mięsa w tuszy

stężenie leptyny

Page 45: Programy hodowlane i pakiety statystyczne

Porównanie średnich

Page 46: Programy hodowlane i pakiety statystyczne

AGE: Age (years)SEX: Sex (1=Male, 2=Female).SMOKSTAT: Smoking status (1=Never, 2=Former, 3=Current Smoker)QUETELET: Quetelet (weight/(height^2))VITUSE: Vitamin Use (1=Yes, fairly often, 2=Yes, not often, 3=No)CALORIES: Number of calories consumed per day.FAT: Grams of fat consumed per day.FIBER: Grams of fiber consumed per day.ALCOHOL: Number of alcoholic drinks consumed per week.CHOLESTEROL: Cholesterol consumed (mg per day).BETADIET: Dietary beta-carotene consumed (mcg per day).RETDIET: Dietary retinol consumed (mcg per day)BETAPLASMA: Plasma beta-carotene (ng/ml)RETPLASMA: Plasma Retinol (ng/ml)

Plasma-Retinolhttp://lib.stat.cmu.edu/datasets

Page 47: Programy hodowlane i pakiety statystyczne

Zadania

1. Oblicz średnie2. Utwórz skategoryzowane (względem

nawyku palenia) wykresy ramka-wąsy dla spożycia kalorii i cholesterolu

3. Narysuj histogramy spożycia kalorii i cholesterolu

4. Przetestuj normalność spożycia kalorii i cholesterolu

5. Czy płeć różnicuje spożycie alkoholu lub cholesterolu?

Page 48: Programy hodowlane i pakiety statystyczne

Dla chętnychCPS_85_Wages

http://lib.stat.cmu.edu/datasets

1. Czy zarobki mają rozkład normalny?2. Jakie są średnie zarobki i ich zróżnicowanie w

grupie mężczyzn i kobiet?3. Czy zarobki zależą od płci?4. Czy zawarcie związku małżeńskiego może się

przełożyć na zwiększone zarobki?5. Czy przynależność do związku zawodowego

zwiększa zarobki?