Analiza statystyczna w naukach...

68
Analiza statystyczna w naukach przyrodniczych

Transcript of Analiza statystyczna w naukach...

Analiza statystyczna w naukach przyrodniczych

Po co statystyka?

Człowiek otoczony jest różnymi zjawiskami i próbuje je poznać, dowiedzieć się w jaki sposób funkcjonują, jakie relacje między nimi zachodzą.

Aby coś powiedzieć o jakimś zjawisku należy je najpierw zbadać!

Statystyka: obejmuje metody pozyskiwania, prezentacji i analizy danych

Użycie statystyki do badania zjawisk sprawia, że badanie jest oparte na sprawdzonych i dopracowanych metodach

Statystyka jest tylko narzędziem pozwalającym sprawdzić nasze

pomysły badawcze i wyjaśnić zjawiska

Podstawowe pojęcia

Pojęcie statystyki

Statystyka jest dyscypliną naukową, zajmującą się „konstrukcją metod liczbowego opisu i wnioskowania o zjawiskach masowych”. Z takiej definicji wynika, że należy wyróżnić tutaj dwa pojęcia:

metodę i zjawisko masowe.

Podstawowe pojęcia

Metoda statystyczna

Jest to sposób badania liczbowego określonych zbiorowości, za pomocą odpowiednich narzędzi i procedur.

Podstawowe pojęcia

Zjawisko masowe

Zjawisko które często występuje, dotyczy ono więc wystarczająco dużej liczby jednostek. Dla odróżnienia, jednostkowym zjawiskiem jest pojedyncze, lub rzadko występujące zdarzenia.

Niektóre zjawiska mogą być traktowane jednostkowo jak i masowo, w zależności od perspektywy z jakiej je

analizujemy.

Przykład: Przyjęcie do przedsiębiorstwa dla nowego pracownika jest zjawiskiem jednostkowym, natomiast dla działu kadr takie zdarzenie będzie jednym z wielu podobnych, a więc będzie traktowane jako zjawisko masowe.

Podstawowe pojęcia

Zjawisko masowe cd.

Dane zjawisko można zaliczyć do masowych, wówczas gdy miała miejsce duża liczba przypadków jego występowania, co umożliwia zaobserwowanie pewnych prawidłowości statystycznych.

Obserwacja pojedynczej jednostki lub niewielkiego zespołu nie prowadzi do wykrycia prawidłowości zjawiska.

Podstawowe pojęcia

Zbiorowość statystyczna (populacja)

Zespół jednostek objętych badaniem statystycznym (np. istot żywych, przedmiotów, przedsiębiorstw, obszarów geograficznych, zjawisk), które mają chociaż jedną wspólną cechę, a różnią się z innych punktów widzenia.

Podstawowe pojęcia

Zbiorowość statystyczna (populacja) cd.

Przykład zbiorowości stat.: studenci określonego województwa, mają dwie cechy wspólne: mieszkają w tym samym województwie i studiują, różnią się między sobą rodzajem uczelni do jakich uczęszczają, ocenami, cechami osobowości, wyglądem, płcią itd.

Zbiorowością stat. nie są np. krzesła w auli wykładowej o takim samym kształcie, kolorze, stopniu zużycia.

Podstawowe pojęcia

Próba statystyczna z populacji (zbiorowość)

Zbiór obserwacji statystycznych wybranych (zwykle wylosowanych) z populacji.

Podstawowe pojęcia

Jednostka statystyczna

Elementy składowe zbiorowości (próby) nazywane są jednostkami statystycznymi (jednostki badania, obserwacji).

Podstawowe pojęcia

Liczebność zbiorowości (próby)

Suma jednostek statystycznych ujmowana jest jako liczebność zbiorowości (oznaczana jest symbolem N)

Podstawowe pojęcia

Cechy statystyczne

Jednostka statystyczna w ramach zbiorowości statystycznej, charakteryzuje się wieloma

właściwościami, czyli cechami statystycznymi.

Cechy stałe (wspólne dla wszystkich

jednostek danej zbiorowości): Nie podlegają analizie

statystycznej

Cechy zmienne (różnicujące jednostki między sobą:

Podlegają analizie statystycznej

Podstawowe pojęcia

Cechy zmienne

rzeczowe czasowe przestrzenne

Podstawowe pojęcia

Cechy zmienne

rzeczowe czasowe przestrzenne

Podstawowe pojęcia

Podstawowe pojęcia

Podstawowe pojęcia

przyjmują określone wartości liczbowe (np. wiek-w latach, wzrost-w cm, wskaźnik

masy ciała BMI)

mogą przyjmować wszystkie wartości liczb rzeczywistych z określonego

przedziału liczbowego (np. koszt, wiek, waga)

mogą być wyrażone tylko liczbami zmieniającymi się skokami , bez

pośrednich wartości (np. liczba studentów na roku, liczba

pracowników przedsiębiorstwa)

Podstawowe pojęcia

Podstawowe pojęcia

nie można ich wyrazić za pomocą liczb, a jedynie słownie

(np. płeć - kobieta, mężczyzna; kolor - czarny, biały, zielony, itd.)

nie można ich ustawić w odpowiedniej kolejnością

(np. płeć, grupa krwi, kolor oczu)

cechy słownie dające się uporządkować w pewnej kolejności

(np. wykształcenie, oceny egzaminów)

Etapy analizy statystycznej

POPULACJA

PRÓBA STAT.

POMIARY

OBLICZENIA

WYNIKI

ANALIZA

Etapy analizy statystycznej

POPULACJA

PRÓBA STAT.

POMIARY

OBLICZENIA

WYNIKI

ANALIZA

Próba statystyczna

Próba statystyczna z populacji (zbiorowość)

Zbiór obserwacji statystycznych wybranych (zwykle wylosowanych) z populacji.

Próba statystyczna

• Próba wybrana do badania musi być odpowiednia

• Wybór próby jest kluczowym etapem z punktu widzenia wiarygodności końcowych wyników

DOBRZE POBRANA PRÓBKA JEST REPREZENTATYWNA!!!

Próba statystyczna

Próba reprezentatywna: w dobry sposób odzwierciedla populację, z której została pobrana

Dla zapewnienia reprezentatywności konieczna jest odpowiednia liczebność próby. Im większa próba, tym bardziej wiarygodne wyniki.

Uwaga! Liczności nie można zwiększać w nieskończoność (koszty analiz!). Należy szukać optimum pomiędzy kosztami a wiarygodnością wyników.

Błędy pomiarów

Błędy duże, grube, pomyłki

Błędy systematyczne

Błędy losowe

Błędy pomiarów

Błędy duże, grube, pomyłki

pomiary wyraźnie odstają od innych

• Wynikają z niedbałości lub ewidentnej pomyłki eksperymentatora, wyraźnej niesprawności sprzętu albo nieoczekiwanego zaburzenia układu pomiarowego

• Wynik pomiaru obarczony błędem grubym jest zazwyczaj łatwo zauważalny i należy go odrzucić.

Błędy pomiarów

Błędy duże, grube, pomyłki

xi – wyniki pomiarów (oznaczone symbolem )

x0 – wartość prawdziwa błąd gruby

Błędy pomiarów

Błędy systematyczne

Stałe lub zmienne, systematyczne odchylenie wyniku pomiaru od rzeczywistej wartości wielkości mierzonej (zwykle w tę samą

stronę)

• Metody statystyczne nie mają tu zastosowania

• Powodowane niedoskonałością przyrządów pomiarowych, błędnym wyskalowaniem itp..

Błędy pomiarów

Błędy systematyczne

Przy powtarzaniu pomiaru występuje ta sama różnica między wartościami zmierzonymi a wartością rzeczywistą, natomiast rozrzut wyników poszczególnych pomiarów jest mały.

xi – wyniki pomiarów (oznaczone symbolem )

x0 – wartość prawdziwa

Błędy pomiarów

Błędy losowe

Losowe odchylenie wyniku pomiaru od rzeczywistej wartości wielkości mierzonej (w różne strony)

• powstaje na skutek działania czynników losowych

• jest miarą rozrzutu otrzymywanych wyników wokół wartości najbardziej prawdopodobnej.

• błędu przypadkowego w zasadzie nie da się wyeliminować a także nie da się go oszacować przed dokonaniem pomiaru

• po zakończeniu pomiaru dokonujemy oceny wielkości błędu losowego przy użyciu narzędzi statystycznych

Błędy pomiarów

Błędy losowe

xi – wyniki pomiarów (oznaczone symbolem )

x0 – wartość prawdziwa

• fluktuacja warunków pomiaru (temperatura,

• ciśnienie, wilgotność, napięcie w sieci elektrycznej)

• obecność źródeł zakłócających;

• nieokreśloność mierzonej wielkości;

• niedoskonałość zmysłów obserwatora;

Metody opisu statystycznego

Stosuje się je do wyników o relatywnie dużej liczebności (n>10)

Określanie struktury danych (rozkładu)

Mierniki statystyczne

Metody opisu statystycznego

Stosuje się je do wyników o relatywnie dużej liczebności (n>10)

Określanie struktury danych (rozkładu)

Mierniki statystyczne

Określanie rozkładu danych

HISTOGRAM

31,820 33,100 33,780 34,650 34,870 35,530 36,750

32,010 33,120 33,790 34,690 34,880 35,620 36,680

32,010 33,260 33,790 34,690 34,900 35,780 36,780

32,050 33,260 33,790 34,720 34,920 35,790 36,850

32,230 33,280 33,820 34,720 34,960 35,860 38,520

32,600 33,300 33,820 34,810 35,090 36,120

32,950 33,360 33,860 34,810 35,120 36,250

33,030 33,540 33,950 34,810 35,160 36,560

33,050 33,560 34,210 34,860 35,280 36,560

33,060 33,750 34,220 34,870 35,290 36,590

Zawartość tłuszczu % w 65 różnych serach żółtych

Określanie rozkładu danych

HISTOGRAM

Procedura rysowania histogramu:

1. Posortowanie danych w porządku od najmniejszej do największej

2. Wyznaczenie wartości najmniejszej i największej: xmin, xmax

Określanie rozkładu danych

HISTOGRAM

Procedura rysowania histogramu:

3. Obliczenie szerokości zakresu, w jakim pojawiają się dane (rozstępu): R=xmax-xmin

4. Wyznaczenie liczby przedziałów:

ilość przedziałów= pierwiastek(ilość pomiarów)

Określanie rozkładu danych

HISTOGRAM

Procedura rysowania histogramu:

5. Ustalenie szerokości przedziałów:

szerokość przedziału=rozstęp/l-ba przedziałów

Określanie rozkładu danych

HISTOGRAM

Procedura rysowania histogramu:

6. Rozpisanie przedziałów i obliczenie, ile w każdym z nich znajduje się wyników:

Przedział wartości Ilość wyników w przedziale

(31,32] 1

(32,33] 6

(33,34] 21

(34,35] 17

(35,36] 10

(36,37] 9

(37,38] 0

(38,39] 1

Określanie rozkładu danych

HISTOGRAM

Procedura rysowania histogramu:

7. Narysowanie wykresu: w zależności od liczby wyników w poszczególnych przedziałach, rysuje się odpowiednią wysokość słupka.

Określanie rozkładu danych

HISTOGRAM

0

5

10

15

20

25

(31,32] (32,33] (33,34] (34,35] (35,36] (36,37] (37,38] (38,39]

Przedział

Ilość

wyst

ąpie

ń .

Typy rozkładów (histogramów)

Typy rozkładów (histogramów)

Amodalny = skrajnie asymetryczny

Typy rozkładów (histogramów)

Metody opisu statystycznego

Stosuje się je do wyników o relatywnie dużej liczebności (n>10)

Określanie struktury danych (rozkładu)

Mierniki statystyczne

Mierniki statystyczne

Miary położenia

Miary rozproszenia

Miary kształtu rozkładu

Mierniki statystyczne

Miary położenia

Miary rozproszenia

Miary kształtu rozkładu

Mierniki statystyczne

Miary położenia

Średnia arytmetyczna

Mierniki statystyczne

Miary położenia

Średnia geometryczna

Stosuje się ją, gdy badamy dane w postaci logarytmów z wyników. Dane muszą być >0 !!! Średnia geom. Jest zwykle < niż średnia arytm.

Mierniki statystyczne

Miary położenia Mediana

Wynik środkowy w zbiorze danych.

Średnia arytmetyczna z dwóch wyników

• Przy nieparzystej liczbie danych: x1 , x2 . x3 , x4 , x5

• Przy parzystej liczbie danych: x1 , x2 . x3 , x4 , x5 , x6

Mierniki statystyczne

Miary położenia Mediana

Jeśli x Me : struktura wyników jest symetryczna Jeśli x < Me : struktura wyników jest prawostronnie asymetryczna Jeśli x > Me : struktura wyników jest lewostronnie asymetryczna

Mierniki statystyczne

Miary położenia Kwantyle (w tym mediana)

Kwantylami możemy dzielić zbiory na różne przedziały.

Mediana dzieli zbiór danych na 2 części, czyli 50% wyników jest > niż Me a 50% jest < niż Me.

Dzieląc zbiór na 4 części uzyskujemy kwantyle zwane kwartylami: kwartyl dolny i kwartyl górny.

x1 , x2 . x3 , x4 , x5 , x6

Me Kd=k0,25 Kg=k0,75

Mierniki statystyczne

Miary położenia Kwantyle

• Jeśli dzielimy zbiór na 10 części: decyle

• Jeśli dzielimy zbiór na 100 części: percentyle

Mierniki statystyczne

Miary położenia

Miary rozproszenia

Miary kształtu rozkładu

Zróżnicowanie wyników

Miary rozproszenia

Miary rozproszenia Wariancja

UWAGA! Powyższy wzór obowiązuje, pod warunkiem, że mamy możliwość zbadania całej populacji (czyli mamy nieskończoną liczbę wyników), co jest PRAWIE NIGDY SPEŁNIONE

Miary rozproszenia

Miary rozproszenia Odchylenie

standardowe

Przeciętna różnica między średnią a poszczególnymi wynikami

UWAGA! Powyższy wzór obowiązuje, pod warunkiem, że mamy możliwość zbadania całej populacji (czyli mamy nieskończoną liczbę wyników), co jest PRAWIE NIGDY SPEŁNIONE

Miary rozproszenia

Miary rozproszenia Odchylenie

standardowe

Ponieważ opisujemy rozkład opierając się jedynie na pewnej próbce wyników, pobranej z populacji, stosuje się estymator:

𝜎 𝑥

Miary rozproszenia

Miary rozproszenia Współczynnik

zmienności

Względna miara rozproszenia.

𝜎

Miary rozproszenia

Miary rozproszenia Przedział typowy

Przedział wyników typowych. Ma on sens, gdy rozkład wyników jest zbliżony do symetrycznego. Zawiera ok. 68% wyników, pozostałe to wyniki nietypowe (małe lub duże)

𝜎 𝜎

Mierniki statystyczne

Miary położenia

Miary rozproszenia

Miary kształtu rozkładu

Mierniki statystyczne

Miary kształtu rozkładu Skośność

Wskaźnik niesymetryczności rozkładu, nazywany jest często asymetrią

Dla rozkładu symetrycznego wynosi 0!!!

UWAGA! Powyższy wzór obowiązuje, pod warunkiem, że mamy możliwość zbadania całej populacji (czyli mamy nieskończoną liczbę wyników), co jest PRAWIE NIGDY SPEŁNIONE

𝜎

Mierniki statystyczne

Miary kształtu rozkładu Skośność

Ponieważ opisujemy rozkład opierając się jedynie na pewnej próbce wyników, pobranej z populacji, stosuje się estymator:

𝜎

Mierniki statystyczne

Miary kształtu rozkładu Skośność

Gdy > 0 : rozkład prawostronnie asymetryczny

Gdy < 0 : rozkład lewostronnie asymetryczny

Gdy = 0 : rozkład symetryczny

Mierniki statystyczne

Miary kształtu rozkładu Kurtoza

Spłaszczenie, wskaźnik opisujący kształt i wyniesienie rozkładu zmiennej.

UWAGA! Powyższy wzór obowiązuje, pod warunkiem, że mamy możliwość zbadania całej populacji (czyli mamy nieskończoną liczbę wyników), co jest PRAWIE NIGDY SPEŁNIONE

𝜎

Mierniki statystyczne

Miary kształtu rozkładu Kurtoza

Ponieważ opisujemy rozkład opierając się jedynie na pewnej próbce wyników, pobranej z populacji, stosuje się estymator:

𝜎

Mierniki statystyczne

Miary kształtu rozkładu Kurtoza

Gdy > 0 : rozkład wysmukły, leptokurtyczny

Gdy < 0 : rozkład spłaszczony, platokurtyczny

Gdy = 0 : rozkład mezokurtyczny (normalny)

Liczebność próby

POPULACJA

PRÓBA STAT.

POMIARY

OBLICZENIA

WYNIKI

ANALIZA

Liczebność próby

Przeprowadzając badania z populacji generalnej pobieramy próbę: n 100 próba b. duża n 30 próba duża 10 n < 30 próba mała n < 10 próba b. mała