Rachunek P-stwa i Statystyka

84
Rachunek P-stwa i Statystyka Kurs powtórkowy dla Inżynierii Biomedycznej Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

description

Rachunek P-stwa i Statystyka. Kurs powtórkowy dla Inżynierii Biomedycznej Strona internetowa : http:// im.pwr.wroc.pl /~ mbogdan. Wykładowca : Małgorzata Bogdan Biuro : C-11 204 Godziny konsultacji : Pon 1 4 :00-1 6 :00 , Pt 13:00 – 15:00 (lub indywidualnie) - PowerPoint PPT Presentation

Transcript of Rachunek P-stwa i Statystyka

Page 1: Rachunek P-stwa i Statystyka

Rachunek P-stwa i Statystyka

Kurs powtórkowy dla Inżynierii Biomedycznej

Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

Page 2: Rachunek P-stwa i Statystyka

Wykładowca : Małgorzata Bogdan Biuro: C-11 204 Godziny konsultacji: Pon 14:00-

16:00, Pt 13:00 – 15:00 (lub indywidualnie) Telefon: 320 21 03 Email: [email protected]

Page 3: Rachunek P-stwa i Statystyka

Oceny Dwa kolokwia na wykładzie (22 listopad i 24 styczeń) Aktywność na ćwiczeniach Zaliczenie ćwiczeń gwarantuje

zaliczenie wykładu Egzamin Egzamin zalicza ćwiczenia na

ocenę najwyżej dostateczną

Page 4: Rachunek P-stwa i Statystyka

Książka

Statistics for the Life Sciences, 3rd edition, Myra L. Samuels i Jeffrey A. Witmer, 2003

Listy zadań dostępne w internecie Wykłady napisane w oparciu o materiały

z cyklu wykładów ``Statystyka dla biologów (STAT 503)’’ autorstwa Dr. K. Simonsen, Dr. B. Johnsona i innych statystyków z Purdue University, USA.

Page 5: Rachunek P-stwa i Statystyka

Dane Używamy danych aby odpowiedzieć

na różne pytania naukowe Na ogół dane charakteryzują się

losową zmiennością Oceniamy informację zawartą w

danych Chcemy odróżnić sygnał od szumu

Page 6: Rachunek P-stwa i Statystyka

Co to jest statystyka?• Nauka dotycząca zrozumienia

danych i podejmowania decyzji w obliczu losowości

• Zbiór metod do planowania eksperymentu i analizy danych służących do uzyskania maksimum informacji i ilościowej oceny ich wiarygodności

Page 7: Rachunek P-stwa i Statystyka

Przykład 1 Badania dotyczące wpływu aktywności fizycznej

na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Czy poziom cholesterolu jest niższy u osób, które ćwiczą ?

Ludzie mają naturalnie różne poziomy cholesterolu

Reagują różnie na tą samą dawkę ćwiczeń (np. genetyka)

Różny stopnień zaangażowania w realizację planu ćwiczeń

Wpływ diety Ćwiczenia mogą wpływać na inne czynniki (np.

apetyt)

Page 8: Rachunek P-stwa i Statystyka

Przykład 2 Eksperyment mikromacierzowy

porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ?

Czy mamy powtórzenia eksperymentu ? Czy w kolejnych powtórzeniach wyniki są podobne ?

Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną ?

Page 9: Rachunek P-stwa i Statystyka

Przykład 3 (Lokalizacja genów) Gen o dwóch allelach – trzy genotypy

AA, Aa, aa Dzielimy kłosy żyta odpowiednio na trzy

grupy Czy różnice w przeciętnej wydajności

między tymi trzema grupami są wystarczająco duże aby stwierdzić bliskość genu odpowiadającego za wydajność

Page 10: Rachunek P-stwa i Statystyka

Przykład 4 W artykule wyczytaliśmy, że

stwierdzono, że 80 % pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania a 20 % jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. Czy przeprowadzone badania

upoważniają do takiej konkluzji ?

Page 11: Rachunek P-stwa i Statystyka

Przykład 5 Reakcja owiec na bakterie wąglika

Reakcja Szczepione Nie szczepione

Śmierć 0 24

Przeżycie 24 0

Procent przetrwania

100 % 0 %

Page 12: Rachunek P-stwa i Statystyka

Przykład 6Rozwój raka wątroby u myszy wynik E.coli Wolne od

zarazków

Rak wątroby 8 19

Zdrowa 5 30

Suma 13 49

Procent myszy z rakiem wątroby

62 % 39 %

Page 13: Rachunek P-stwa i Statystyka

Przykład 5 – brak zmienności (?) – mocna konkluzja

Przykład 6 – duża zmienność – słaba konkluzja

Jak duża musi być próba abyśmy w oparciu o nią mogli dowieść wpływu czynnika na wynik eksperymentu ?

Page 14: Rachunek P-stwa i Statystyka

Losowość Dane na ogół charakteryzują się

zmiennością Matematycznie modelujemy tą

zmienność używając rachunku prawdopodobieństwa

Page 15: Rachunek P-stwa i Statystyka

Przykłady Prognoza pogody-

prawdopodobieństwo deszczu wynosi 80%

Prawdopodobieństwo wyrzucenia “orła” wynosi ½

Prawdopodobieństwo heterozygoty Aa wynosi 2p(1-p), gdzie p i (1-p) są częstościami alleli A i a

Page 16: Rachunek P-stwa i Statystyka

Proces naukowy/statystyczny Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe

Page 17: Rachunek P-stwa i Statystyka

Próba, Zmienna Próba

Obserwacje lub wyniki eksperymentu Reprezentuje kolejne realizacje

eksperymentu Przykłady

Wysokości 10 kłosów żyta (10 obserwacji) Poziom hemoglobiny u 35 dawców Kolor i kształt 556 fasolek w drugiej generacji

(żółte/zielone, gładkie/pomarszczone)

Page 18: Rachunek P-stwa i Statystyka

Rozmiar próby “n” n=10,n=35,n=556

Zmienna To co mierzymy Wysokość, poziom hemoglobiny,

kolor/kształt

Page 19: Rachunek P-stwa i Statystyka

Zmienne

Jakościowe Ilościowe

Porządkowe Nie porządkowe Ciągłe Dyskretne

Rodzaje zmiennych

Page 20: Rachunek P-stwa i Statystyka

Rodzaje zmiennych Jakościowe – kwalifikujące do

kategorii Porządkowe : wybory w ankiecie ;

nigdy, rzadko, czasami, często, zawsze

Nie porządkowe : gładkie & żółte, gładkie & zielone, pomarszczone & żółte, pomarszczone & zielone

Page 21: Rachunek P-stwa i Statystyka

Ilościowe – wynik jest liczbą Ciągłe : wzrost, waga, stężenie Dyskretne : liczba wadliwych

elementów, liczba gładkich i żółtych fasolek

Page 22: Rachunek P-stwa i Statystyka

Oznaczenia Rozmiar próby = n, czasami

n1,n2

zmienne : X,Y,Z; Y=wzrost, pojęcie

obserwacje (wyniki) : x,y,z Wielokrotne obserwacje y1,y2,

…,yn

Page 23: Rachunek P-stwa i Statystyka

Próba a Próba Biolog mierzy poziom glukozy we

krwi 20 ludzi. 20 próbek krwi ? (biolog) Jedna próba 20 pomiarów

glukozy ? (statystyk) Będziemy używali “pomiar” tam

gdzie biolog użyłby słowa “próba”.

Page 24: Rachunek P-stwa i Statystyka

Tabela częstościFasolki:gładkie/pomarszczone, zielone/żółte

Klasy Liczba

Gładkie, żółte 315

Gładkie, zielone 108

Pomarszczone, żółte 101

Pomarszczone, zielone 32

Page 25: Rachunek P-stwa i Statystyka

Wykres słupkowy (dane jakościowe)

F2 Peas

0

100

200

300

400

round,yellow

round,green

wrinkled,yellow

wrinkled,green

freq

uenc

y

Page 26: Rachunek P-stwa i Statystyka

Dane ilościowe dyskretne

Liczba potomstwa u n=36 macior. Liczba potomstwa jest liczbą całkowitą (zmienna dyskretna).

Page 27: Rachunek P-stwa i Statystyka

Dane

10 12 10 7 14 11

14 11 10 13 10 10

8 11 7 13 12 13

10 8 5 11 11 12

11 11 9 8 12 10

9 11 10 12 10 9

Page 28: Rachunek P-stwa i Statystyka

Rozkład częstości

Liczba potomstwa Liczba macior

5 1

6 0

7 2

8 3

9 3

10 9

11 8

12 5

13 3

14 2

Page 29: Rachunek P-stwa i Statystyka

Histogram

0123456789

10

5 6 7 8 9 10 11 12 13 14

Litter size

Fre

qu

en

cy

(N

o. o

f S

ow

s)

Page 30: Rachunek P-stwa i Statystyka

Histogram Zwykle jest pomocne grupowanie

podobnych obserwacji Tak prawie zawsze postępujemy z

danymi ciągłymi Definiujemy “klasy” obserwacji i

zliczamy liczbę obserwacji w każdej klasie

Page 31: Rachunek P-stwa i Statystyka

Jak wybierać klasy

Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy są rozłączne, nie ma ``dużych’’ dziur)Rozmiar (szerokość) wszystkich klas jest zwykle taki samUżywamy wygodnych granic, np. 20-29 a nie 19.82 – 29.26 Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); więcej gdy próba jest duża

Page 32: Rachunek P-stwa i Statystyka

Przykład Dane : długość łodygi papryki (n=15)

12.4 12.2 13.4 10.9 12.2

12.1 11.8 13.5 12 14.1

12.7 13.2 12.6 11.9 13.1

Page 33: Rachunek P-stwa i Statystyka

Min=10.9, max=14.1, zakres=max-min=3.2

Wybieramy szerokość klasy, np. 0.5 i punkt początkowy 10.5 aby pokryć przedział 10.5 – 14.5.

Liczymy rozkład częstości i rysujemy histogram.

Zmieniamy szerokość klas aby uzyskać pożądany kształt

Za mała szerokość klas = ``postrzępiony’’, za duża = tracimy informację

Page 34: Rachunek P-stwa i Statystyka

Tabela częstości

Klasa

Częstość

10.5 - 10.99 1

11.0 - 11.49 0

11.5 - 11.99 2

12.0 - 12.49 5

12.5 - 12.99 2

13.0 - 13.49 3

13.5 - 13.99 1

14.0 - 14.49 1

Page 35: Rachunek P-stwa i Statystyka

Histogram

0123456

10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 -

10.99 11.49 11.99 12.49 12.99 13.49 13.99 14.49

Bins

Fre

qu

en

cy

Page 36: Rachunek P-stwa i Statystyka

Czasami rysujemy histogramy częstości względnej = częstość / n

Użyteczne gdy chcemy porównać kilka zbiorów o różnych rozmiarach

Page 37: Rachunek P-stwa i Statystyka

Przykład Serum CK

121 82 100 151 68 58

95 145 64 201 101 163

84 57 139 60 78 94

119 104 110 113 118 203

62 83 67 93 92 110

25 123 70 48 95 42

Page 38: Rachunek P-stwa i Statystyka

Min=25, max=203 Rozstęp =178 Szerokość klasy =20 Punkt początkowy=20

Page 39: Rachunek P-stwa i Statystyka

Serum CK Częstość

20 - 39 1

40 - 59 4

60 - 79 7

80 - 99 8

100 - 119 8

120 - 139 3

140 - 159 2

160 - 179 1

180 - 199 0

200 - 219 2

Suma 36

Page 40: Rachunek P-stwa i Statystyka
Page 41: Rachunek P-stwa i Statystyka

Centralny szczyt (moda) w okolicach 100 U/Li

Zasadnicza masa rozkładu między 40 a 140 U/Li

Nie symetryczny – skośny na prawo

Page 42: Rachunek P-stwa i Statystyka

Całkowanie powierzchni pod histogramem (równa szerokość klas)

Odcinek 60 -100 U/Li 42 % całkowitej powierzchni pod

histogramem 42 % (16 out of 36) wartości CK

Page 43: Rachunek P-stwa i Statystyka

Nierówna szerokość klas Powierzchnia pod histogramem nie jest

proporcjonalna do częstości W tak ``spaczonym’’ histogramie (patrz

następna strona) powierzchnia między 140 – 220 stanowi 39 % całkowitej powierzchni (tylko 14 % obserwacji)

Rozwiązanie – Podzielić odpowiednią częstość przez liczbę zgrupowanych klas

Oś Y na przekształconym histogramie – średnia częstość w zgrupowanych klasach

Page 44: Rachunek P-stwa i Statystyka
Page 45: Rachunek P-stwa i Statystyka
Page 46: Rachunek P-stwa i Statystyka

Diagram pnia i liścia (Stem and leaf plot) Inny sposób podsumowania danych;

zachowuje ``prawie’’ wszystkie informacje.

Wybieramy podstawę lub ``pień’’; zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie danych

Zapisujemy wszystkie bazy w kolumnie, w kolejności rosnącej i rysujemy pionową linię

Page 47: Rachunek P-stwa i Statystyka

Przeglądamy dane. Znajdujemy ``pień’’ odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest liściem.

Dostajemy ``obrócony’’ histogram Ograniczenia – ciężko kontrolować

liczbę klas

Page 48: Rachunek P-stwa i Statystyka

Przykład Stężenie glukozy w przedniej komorze prawego

oka u 31 zdrowych psów

81 85 93 93 99 76

75 84 78 84 81 82

89 81 96 82 74 70

84 86 80 70 131 75

88 102 115 89 82 79

106

Page 49: Rachunek P-stwa i Statystyka
Page 50: Rachunek P-stwa i Statystyka

Opis histogramu (rozkładu) Symetryczny / asymetryczny W kształcie dzwonu (normalny) / ciężkie

ogony Skośny na prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący) Rozrzut (duży lub mały)

Page 51: Rachunek P-stwa i Statystyka

Statystyka Statystyka – liczbowa

charakteryzacja danych Przykłady statystykpróba: y1=24, y2=35, y3=26 ,y4=36

min=24, max=36, t= y1+y2=59

Page 52: Rachunek P-stwa i Statystyka

Miary położenia rozkładu Średnia z próby

• symbol oznacza liczbę (arytmetyczną średnią z obserwacji)

• Symbol oznacza pojęcie średniej z próby

• Średnia jest ``środkiem ciężkości’’ zbioru danych

y

Y

Page 53: Rachunek P-stwa i Statystyka

Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10,1 y1=11, y2=13,…, y6=1

6

1 2 61

... 11 13 ... 1 56

56 / 6 9.33

ii

y y y y

y

Page 54: Rachunek P-stwa i Statystyka

Odchylenia

1 1 11 9.33 1.67i idev y y

dev y y

Σ devi= ?

Page 55: Rachunek P-stwa i Statystyka

Mediana próbkowa Środkowa obserwacja jeżeli n

jest nieparzyste Średnia z dwóch środkowych

wartości gdy n jest parzyste

Page 56: Rachunek P-stwa i Statystyka

Przykłady Przykład 1 (n = 5)

Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próbyy = 32/5 = 6.4 Mediana =

Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby y = 293.8 Mediana =

Page 57: Rachunek P-stwa i Statystyka

Średnia a mediana Przykład 1 (n = 5)

Dane: 6.3 5.9 7.0 6.9 5.9 Średniay = 32/5 = 6.4 Mediana = 6.3

Błąd w zapisie danych Data: 6.3 5.9 70 6.9 5.9 Średnia y = 19 Mediana = 6.3

Page 58: Rachunek P-stwa i Statystyka

Średnia a mediana Mediana dzieli powierzchnię

histogramu na połowę Jest odporna – nie mają na nią

wpływu obserwacje ``odstające’’ Średnia to ``środek ciężkości’’

histogramu Obserwacje odstające mają duży

wpływ na średnią – średnia nie jest odporna

Page 59: Rachunek P-stwa i Statystyka

Średnia a Mediana Jeżeli histogram jest w przybliżeniu

symetryczny to średnia i mediana są zbliżone.

Jeżeli histogram jest skośny na prawo to średnia jest zwykle większa niż mediana.

Obie miary położenia są jednakowo ważne Średnia jest częściej wykorzystywana do

testowania i estymacji (czego nauczymy się wkrótce).

Page 60: Rachunek P-stwa i Statystyka

Kwartyle Kwartyle dzielą zbiór danych na cztery

grupy. Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana

połowy obserwacji leżących poniżej Q2.

Trzeci kwartyl (Q3) to mediana połowy obserwacji leżących powyżej Q2.

Page 61: Rachunek P-stwa i Statystyka

Przykład Dane: 3 5 6 2 1 7 4

Page 62: Rachunek P-stwa i Statystyka

Przykład (n=15)

7 12 8 2 4 3 5 5

4 3 4 5 6 9 3

Page 63: Rachunek P-stwa i Statystyka

Rozstęp międzykwartylowy IRQ=Q3-Q1

Page 64: Rachunek P-stwa i Statystyka

Wykres pudełkowy (Boxplot) Boxplot – graficzna reprezentacja

mediany, kwartyli, maximum i minimum z danych. ``Pudełko’’ powstaje z

obrysowania kwartyli Linie ciągą się do wartości

najmniejszej i największej.

Page 65: Rachunek P-stwa i Statystyka

BoxPlot

02468

1012

Page 66: Rachunek P-stwa i Statystyka

Zmodyfikowany Boxplot Obserwacja odstająca

Np. błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu

Które obserwacje są odstające Dolna granica = Q1 - 1.5*IQR Górna granica = Q3 + 1.5*IQR

Page 67: Rachunek P-stwa i Statystyka

Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16

Page 68: Rachunek P-stwa i Statystyka

51

01

5

Page 69: Rachunek P-stwa i Statystyka

Miary rorzutu Opis danych : kształt, centrum, rorzut Miary rozrzutu

Rozstęp (max – min) – bardzo wrażliwy na obserwacje odstające, nie przydatny do testowania

Rozstęp międzykwartylowy (IRQ=Q3-Q1) – rozstęp środkowych 50% obserwacji

Standardowe odchylenie/ Wariancja Współczynnik zmienności (CV)

Page 70: Rachunek P-stwa i Statystyka

Próbkowe odchylenie standardowe (SD, symbol s)• Wyrażone w jednostkach pomiarowych• Mówi jak przeciętnie obserwacje są

odległe od średniej.

2

1

2 2

1

( ) /( 1) (definition)

( ) /( 1) (calculations)

n

ii

n

ii

s y y n

y ny n

Page 71: Rachunek P-stwa i Statystyka

2 2 2

1 1

,where1

( )n n

i ii i

SSs

n

SS y y y ny

Page 72: Rachunek P-stwa i Statystyka

Próbkowa wariancja Przeciętny kwadrat odległości od

średniej próbkowej – s2

Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane.

Page 73: Rachunek P-stwa i Statystyka

Dlaczego n-1 ? s2 jest nieobciążonym estymatorem

wariancji w populacji Σ devi=0

1

1

n

n ii

dev dev

n-1 jednostek informacji = n-1 stopni swobody

Page 74: Rachunek P-stwa i Statystyka

Miary rozrzutu Współczynnik zmienności (CV)

Przykład Dane : 35.1,30.6,36.9,29.8 (n=4)

Rozstęp =

ysCV /

Page 75: Rachunek P-stwa i Statystyka

Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4

średnia: SD z definicji: SS = variance: s2 =

y

Page 76: Rachunek P-stwa i Statystyka

Współczynnik zmienności: CV=

Uwaga: Proszę zachować dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec.

Page 77: Rachunek P-stwa i Statystyka

Standardowe odchylenie (cd)Duże SD = Duży rozrzut. Małe SD = mały

rozrzut. Ogólne zasady Jeżeli rozkład jest dzwonowy (bliski

normalnemu) wtedy zwykle 68% obserwacji jest w odległości 1 SD

od średniej 95% obserwacji jest w odległości 2 SD

od śedniej > 99% obserwacji jest w odległości 3

SD od średniej

Page 78: Rachunek P-stwa i Statystyka

Nierówność Czebyszewa Nawet gdy rozkład nie jest

normalny to możemy oczekiwać, że

Co najmniej 75% obserwacji będzie w odległości 2 SD od średniej

Co najmniej 89% obserwacji będzie w odległości 3 SD od średniej.

Page 79: Rachunek P-stwa i Statystyka

Przykład

13 14 12 14 13

12 17 14 13 19

14 11 10 14 15

13 20 20 18 12

Page 80: Rachunek P-stwa i Statystyka

Przykład cd Średnia = 14.4 i odchylenie

standardowe s = 2.9. y

Page 81: Rachunek P-stwa i Statystyka

Ocena SD z histogramu

Odcinek

zawiera około 95 % danych.

Ocena s = (długość I /4)

Działa najlepiej gdy rozkład jest bliski normalnemu.

( 2 , 2 )I y s y s

Page 82: Rachunek P-stwa i Statystyka

Przykład (puls po ćwiczeniach) 95 % danych jest pomiędzy 75 a

125

Faktyczne s = 13.4

Page 83: Rachunek P-stwa i Statystyka

Porównanie miar rozrzutu i położenia

Miary rozrzutu służą do oszacowania zmienności w danych.

Odporność Załóżmy, że mamy dość skupiony

``dzwonowy’’ (normalny) zbiór danych.

Co się stanie gdy jedną dużą obserwację zastąpimy bardzo dużą wartością.

Page 84: Rachunek P-stwa i Statystyka

Mediana

Rozstęp

Średnia

Kwartyle i rozstęp międzykwartylowy

Standardowe odchylenie