PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest...

55
Data ostatniej aktualizacji: czwartek, 20 października 2011, godzina 17:20 Marek Cieciura, Janusz Zacharski PODSTAWY PROBABILISTYKI Z PRZYKLADAMI ZASTOSOWAŃ W INFORMATYCE CZĘŚĆ II STATYSTYKA OPISOWA Na prawach rękopisu Warszawa, wrzesień 2011

Transcript of PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest...

Page 1: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

Data ostatniej aktualizacji czwartek 20 października 2011 godzina 1720

Marek Cieciura Janusz Zacharski

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ

W INFORMATYCE

CZĘŚĆ II

STATYSTYKA OPISOWA

Na prawach rękopisu

Warszawa wrzesień 2011

2

Statystyka jest bardziej sposobem myślenia lub wnioskowania niŜ pęczkiem recept

na młoacutecenie danych w celu odsłonięcia odpowiedzi - Calyampudi Radhakrishna Rao

Podręcznik

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ

W INFORMATYCE

publikowany jest w częściach podanych poniŜej

Nr Tytuł

I Wprowadzenie

II Statystyka opisowa

III Rachunek prawdopodobieństwa

IV Statystyka matematyczna

V Przykłady zastosowań w informatyce

VI Wybrane twierdzenia z dowodami

VII Tablice statystyczne

Autorzy proszą o przesyłanie wszelkich uwagi i propozycji dotyczących zawartości podręcznika z wykorzystaniem formularza kontaktowego zamieszczonego w portalu httpcieciuranetmp

Publikowane części będą na bieŜąco poprawiane w kaŜdej będzie podawana data ostatniej aktualizacji

Podręcznik udostępnia się na warunku licencji Creative Commons (CC) Uznanie Autorstwa

ndash UŜycie Niekomercyjne ndash Bez Utworoacutew ZaleŜnych (CC-BY-NC-ND)co oznacza

bull Uznanie Autorstwa (ang Attribution - BY) zezwala się na kopiowanie dystrybucję wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych pod warunkiem umieszczenia informacji o twoacutercy

bull UŜycie Niekomercyjne (ang Noncommercial - NC) zezwala się na kopiowanie dystrybucję wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych tylko w celach niekomercyjnych

bull Bez Utworoacutew ZaleŜnych (ang No Derivative Works - ND) zezwala się na kopiowanie dystrybucję wyświetlanie tylko dokładnych (dosłownych) kopii dzieła niedozwolone jest jego zmienianie i tworzenie na jego bazie pochodnych

Podręcznik i skorelowany z nim portal są w pełni i powszechnie dostępne stanowią więc Otwarte Zasoby Edukacyjne - OZE (ang Open Educational Resources ndash OER)

STATYSTYKA OPISOWA

3

SPIS TREŚCI

2 CHARAKTERYSTYKI LICZBOWE5

21 UWAGI WSTĘPNE5 22 CHARAKTERYSTYKI POŁOśENIA 5

221 Średnia arytmetyczna danych statystycznych 5 223 Dominanta danych statystycznych 7 224 Średnia waŜona danych statystycznych11 225 Średnia ucinana danych statystycznych 12 226 Średnia geometryczna danych statystycznych 13 227 Średnia harmoniczna danych statystycznych 13 228 Średnia kwadratowa danych statystycznych14

23 CHARAKTERYSTYKI ROZPROSZENIA 15 231 Wariancja danych statystycznych 15 232 Odchylenie standardowe danych statystycznych 16 233 Wspoacutełczynnik zmienności danych statystycznych 16 234 Rozstęp danych 16 235 Przedział typowych jednostek populacji16 235 Kwantyle 17 236 Wskaźnik struktury 18

24 CHARAKTERYSTYKI ASYMETRII20 241 Wspoacutełczynniki asymetrii 20 242 Interpretacja symetrii w przypadku rozkładu jednomodalnego 21 243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego 23

25 CHARAKTERYSTYKI SPŁASZCZENIA 24 26 PODSUMOWANIE 26

261 Wybrane charakterystyki liczbowe w postaci graficznej26 262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali 27 263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel 27

27 PRZYKŁADY ANALIZY STATYSTYCZNEJ DANYCH 28 28 ANALIZA DANYCH PRZEDSTAWIONYCH W POSTACI SZEREGU ROZDZIELCZEGO

PRZEDZIAŁOWEGO 35 281 Prezentacja danych statystycznych 35 282 Charakterystyki liczbowe 35

3 BADANIE ZALEśNOŚCI CECH POPULACJI 38

31 WPROWADZENIE 38 311 Dane statystyczne dwoacutech cech populacji 38 312 Prezentacja danych statystycznych pary cech populacji38

32 ZALEśNOŚĆ CECH POPULACJI 42 321 ZaleŜność funkcyjna cech populacji42 322 ZaleŜność stochastyczna (statystyczna) cech populacji 42 323 ZaleŜność korelacyjna cech populacji 42

33 CHARAKTERYSTYKI LICZBOWE DWOacuteCH CECH 45 331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym45 332 Własności wspoacutełczynnika korelacji46 333 Interpretacja wspoacutełczynnika korelacji 46 334 Wspoacutełczynnik korelacji Spearmana 49

STATYSTYKA OPISOWA

4

34 REGRESJA 51 341 Pojęcie regresji I rodzaju 51 342 Pojęcie regresji II rodzaju52 343 Liniowa regresja II rodzaju52

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

5

2 CHARAKTERYSTYKI LICZBOWE

21 Uwagi wstępne

Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby

Są to tzw dane statystyczne

Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na

bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik

zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)

22 Charakterystyki połoŜenia

Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej

221 Średnia arytmetyczna danych statystycznych n

ii=1

1x x

n= sum

Przykład 21

Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną

3+4+5+2+3+4+3+4+2+5x 35

10= =

Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1

STATYSTYKA OPISOWA

6

Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1

1 min maxx x xle le

2 n

ii 1

(x x) 0=

minus =sum

3 i i

i ix x x x

(x x) (x x )gt lt

minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie

4 WyraŜenie n

2i

i 1

(x c)=

minussum ma wartość najmniejszą gdy c= x

222 Mediana danych statystycznych

Uporządkujmy dane statystyczne od najmniejszej do największej

(1) (2) (n)x x x

Mediana danych statystycznych jest to liczba

n+1

2

e n n 2

2 2

x gdy n jest liczbą nieparzystą

m x x

gdy n jest liczbą parzystą2

+

= +

Przykład 22

Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach

a) 3 0 2 1 6 7 4 2 5

b) 3 0 2 1 6 7 4 2

Rozwiązanie

a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc

e (5)n+1

2

m x x 3

= = =

b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7

PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc

[ ]e n n+2 (4) (5)( ) ( )2 2

1 1 1m x x x x 2 3 25

2 2 2

= + = + = + =

Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

7

Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9

223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą

Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1

Rozwiązanie

a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje

Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9

STATYSTYKA OPISOWA

8

Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji

Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)

Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie

Dominanta jest najbardziej typową daną statystyczną

Jak określać przeciętny poziom cechy

Przykład 24

W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela

Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem

Liczba pracownikoacutew

5 45 70 50 10 2 3 3 12 15 13 11 11 250

Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach

Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

9

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel

5

45

70

50

10

2 3 3

1215 13 11 11

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10 11 12 13 14

6152 Średnia

5 Mediana

4 Dominanta

Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł

Przykład 25

Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela

Liczba punktoacutew

0 5 10 70 75 80 85 90 95 100 Razem

Liczba studentoacutew

5 4 1 1 2 4 5 6 9 13 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych

arkusza Excel

54

1 12

45

6

9

13

0

2

4

6

8

10

12

14

0 5 10 70 75 80 85 90 95 100

738 Średnia

90 Mediana

100 Dominanta

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 2: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

2

Statystyka jest bardziej sposobem myślenia lub wnioskowania niŜ pęczkiem recept

na młoacutecenie danych w celu odsłonięcia odpowiedzi - Calyampudi Radhakrishna Rao

Podręcznik

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ

W INFORMATYCE

publikowany jest w częściach podanych poniŜej

Nr Tytuł

I Wprowadzenie

II Statystyka opisowa

III Rachunek prawdopodobieństwa

IV Statystyka matematyczna

V Przykłady zastosowań w informatyce

VI Wybrane twierdzenia z dowodami

VII Tablice statystyczne

Autorzy proszą o przesyłanie wszelkich uwagi i propozycji dotyczących zawartości podręcznika z wykorzystaniem formularza kontaktowego zamieszczonego w portalu httpcieciuranetmp

Publikowane części będą na bieŜąco poprawiane w kaŜdej będzie podawana data ostatniej aktualizacji

Podręcznik udostępnia się na warunku licencji Creative Commons (CC) Uznanie Autorstwa

ndash UŜycie Niekomercyjne ndash Bez Utworoacutew ZaleŜnych (CC-BY-NC-ND)co oznacza

bull Uznanie Autorstwa (ang Attribution - BY) zezwala się na kopiowanie dystrybucję wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych pod warunkiem umieszczenia informacji o twoacutercy

bull UŜycie Niekomercyjne (ang Noncommercial - NC) zezwala się na kopiowanie dystrybucję wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych tylko w celach niekomercyjnych

bull Bez Utworoacutew ZaleŜnych (ang No Derivative Works - ND) zezwala się na kopiowanie dystrybucję wyświetlanie tylko dokładnych (dosłownych) kopii dzieła niedozwolone jest jego zmienianie i tworzenie na jego bazie pochodnych

Podręcznik i skorelowany z nim portal są w pełni i powszechnie dostępne stanowią więc Otwarte Zasoby Edukacyjne - OZE (ang Open Educational Resources ndash OER)

STATYSTYKA OPISOWA

3

SPIS TREŚCI

2 CHARAKTERYSTYKI LICZBOWE5

21 UWAGI WSTĘPNE5 22 CHARAKTERYSTYKI POŁOśENIA 5

221 Średnia arytmetyczna danych statystycznych 5 223 Dominanta danych statystycznych 7 224 Średnia waŜona danych statystycznych11 225 Średnia ucinana danych statystycznych 12 226 Średnia geometryczna danych statystycznych 13 227 Średnia harmoniczna danych statystycznych 13 228 Średnia kwadratowa danych statystycznych14

23 CHARAKTERYSTYKI ROZPROSZENIA 15 231 Wariancja danych statystycznych 15 232 Odchylenie standardowe danych statystycznych 16 233 Wspoacutełczynnik zmienności danych statystycznych 16 234 Rozstęp danych 16 235 Przedział typowych jednostek populacji16 235 Kwantyle 17 236 Wskaźnik struktury 18

24 CHARAKTERYSTYKI ASYMETRII20 241 Wspoacutełczynniki asymetrii 20 242 Interpretacja symetrii w przypadku rozkładu jednomodalnego 21 243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego 23

25 CHARAKTERYSTYKI SPŁASZCZENIA 24 26 PODSUMOWANIE 26

261 Wybrane charakterystyki liczbowe w postaci graficznej26 262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali 27 263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel 27

27 PRZYKŁADY ANALIZY STATYSTYCZNEJ DANYCH 28 28 ANALIZA DANYCH PRZEDSTAWIONYCH W POSTACI SZEREGU ROZDZIELCZEGO

PRZEDZIAŁOWEGO 35 281 Prezentacja danych statystycznych 35 282 Charakterystyki liczbowe 35

3 BADANIE ZALEśNOŚCI CECH POPULACJI 38

31 WPROWADZENIE 38 311 Dane statystyczne dwoacutech cech populacji 38 312 Prezentacja danych statystycznych pary cech populacji38

32 ZALEśNOŚĆ CECH POPULACJI 42 321 ZaleŜność funkcyjna cech populacji42 322 ZaleŜność stochastyczna (statystyczna) cech populacji 42 323 ZaleŜność korelacyjna cech populacji 42

33 CHARAKTERYSTYKI LICZBOWE DWOacuteCH CECH 45 331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym45 332 Własności wspoacutełczynnika korelacji46 333 Interpretacja wspoacutełczynnika korelacji 46 334 Wspoacutełczynnik korelacji Spearmana 49

STATYSTYKA OPISOWA

4

34 REGRESJA 51 341 Pojęcie regresji I rodzaju 51 342 Pojęcie regresji II rodzaju52 343 Liniowa regresja II rodzaju52

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

5

2 CHARAKTERYSTYKI LICZBOWE

21 Uwagi wstępne

Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby

Są to tzw dane statystyczne

Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na

bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik

zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)

22 Charakterystyki połoŜenia

Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej

221 Średnia arytmetyczna danych statystycznych n

ii=1

1x x

n= sum

Przykład 21

Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną

3+4+5+2+3+4+3+4+2+5x 35

10= =

Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1

STATYSTYKA OPISOWA

6

Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1

1 min maxx x xle le

2 n

ii 1

(x x) 0=

minus =sum

3 i i

i ix x x x

(x x) (x x )gt lt

minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie

4 WyraŜenie n

2i

i 1

(x c)=

minussum ma wartość najmniejszą gdy c= x

222 Mediana danych statystycznych

Uporządkujmy dane statystyczne od najmniejszej do największej

(1) (2) (n)x x x

Mediana danych statystycznych jest to liczba

n+1

2

e n n 2

2 2

x gdy n jest liczbą nieparzystą

m x x

gdy n jest liczbą parzystą2

+

= +

Przykład 22

Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach

a) 3 0 2 1 6 7 4 2 5

b) 3 0 2 1 6 7 4 2

Rozwiązanie

a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc

e (5)n+1

2

m x x 3

= = =

b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7

PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc

[ ]e n n+2 (4) (5)( ) ( )2 2

1 1 1m x x x x 2 3 25

2 2 2

= + = + = + =

Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

7

Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9

223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą

Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1

Rozwiązanie

a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje

Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9

STATYSTYKA OPISOWA

8

Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji

Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)

Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie

Dominanta jest najbardziej typową daną statystyczną

Jak określać przeciętny poziom cechy

Przykład 24

W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela

Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem

Liczba pracownikoacutew

5 45 70 50 10 2 3 3 12 15 13 11 11 250

Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach

Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

9

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel

5

45

70

50

10

2 3 3

1215 13 11 11

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10 11 12 13 14

6152 Średnia

5 Mediana

4 Dominanta

Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł

Przykład 25

Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela

Liczba punktoacutew

0 5 10 70 75 80 85 90 95 100 Razem

Liczba studentoacutew

5 4 1 1 2 4 5 6 9 13 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych

arkusza Excel

54

1 12

45

6

9

13

0

2

4

6

8

10

12

14

0 5 10 70 75 80 85 90 95 100

738 Średnia

90 Mediana

100 Dominanta

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 3: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

3

SPIS TREŚCI

2 CHARAKTERYSTYKI LICZBOWE5

21 UWAGI WSTĘPNE5 22 CHARAKTERYSTYKI POŁOśENIA 5

221 Średnia arytmetyczna danych statystycznych 5 223 Dominanta danych statystycznych 7 224 Średnia waŜona danych statystycznych11 225 Średnia ucinana danych statystycznych 12 226 Średnia geometryczna danych statystycznych 13 227 Średnia harmoniczna danych statystycznych 13 228 Średnia kwadratowa danych statystycznych14

23 CHARAKTERYSTYKI ROZPROSZENIA 15 231 Wariancja danych statystycznych 15 232 Odchylenie standardowe danych statystycznych 16 233 Wspoacutełczynnik zmienności danych statystycznych 16 234 Rozstęp danych 16 235 Przedział typowych jednostek populacji16 235 Kwantyle 17 236 Wskaźnik struktury 18

24 CHARAKTERYSTYKI ASYMETRII20 241 Wspoacutełczynniki asymetrii 20 242 Interpretacja symetrii w przypadku rozkładu jednomodalnego 21 243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego 23

25 CHARAKTERYSTYKI SPŁASZCZENIA 24 26 PODSUMOWANIE 26

261 Wybrane charakterystyki liczbowe w postaci graficznej26 262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali 27 263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel 27

27 PRZYKŁADY ANALIZY STATYSTYCZNEJ DANYCH 28 28 ANALIZA DANYCH PRZEDSTAWIONYCH W POSTACI SZEREGU ROZDZIELCZEGO

PRZEDZIAŁOWEGO 35 281 Prezentacja danych statystycznych 35 282 Charakterystyki liczbowe 35

3 BADANIE ZALEśNOŚCI CECH POPULACJI 38

31 WPROWADZENIE 38 311 Dane statystyczne dwoacutech cech populacji 38 312 Prezentacja danych statystycznych pary cech populacji38

32 ZALEśNOŚĆ CECH POPULACJI 42 321 ZaleŜność funkcyjna cech populacji42 322 ZaleŜność stochastyczna (statystyczna) cech populacji 42 323 ZaleŜność korelacyjna cech populacji 42

33 CHARAKTERYSTYKI LICZBOWE DWOacuteCH CECH 45 331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym45 332 Własności wspoacutełczynnika korelacji46 333 Interpretacja wspoacutełczynnika korelacji 46 334 Wspoacutełczynnik korelacji Spearmana 49

STATYSTYKA OPISOWA

4

34 REGRESJA 51 341 Pojęcie regresji I rodzaju 51 342 Pojęcie regresji II rodzaju52 343 Liniowa regresja II rodzaju52

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

5

2 CHARAKTERYSTYKI LICZBOWE

21 Uwagi wstępne

Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby

Są to tzw dane statystyczne

Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na

bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik

zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)

22 Charakterystyki połoŜenia

Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej

221 Średnia arytmetyczna danych statystycznych n

ii=1

1x x

n= sum

Przykład 21

Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną

3+4+5+2+3+4+3+4+2+5x 35

10= =

Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1

STATYSTYKA OPISOWA

6

Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1

1 min maxx x xle le

2 n

ii 1

(x x) 0=

minus =sum

3 i i

i ix x x x

(x x) (x x )gt lt

minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie

4 WyraŜenie n

2i

i 1

(x c)=

minussum ma wartość najmniejszą gdy c= x

222 Mediana danych statystycznych

Uporządkujmy dane statystyczne od najmniejszej do największej

(1) (2) (n)x x x

Mediana danych statystycznych jest to liczba

n+1

2

e n n 2

2 2

x gdy n jest liczbą nieparzystą

m x x

gdy n jest liczbą parzystą2

+

= +

Przykład 22

Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach

a) 3 0 2 1 6 7 4 2 5

b) 3 0 2 1 6 7 4 2

Rozwiązanie

a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc

e (5)n+1

2

m x x 3

= = =

b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7

PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc

[ ]e n n+2 (4) (5)( ) ( )2 2

1 1 1m x x x x 2 3 25

2 2 2

= + = + = + =

Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

7

Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9

223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą

Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1

Rozwiązanie

a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje

Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9

STATYSTYKA OPISOWA

8

Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji

Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)

Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie

Dominanta jest najbardziej typową daną statystyczną

Jak określać przeciętny poziom cechy

Przykład 24

W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela

Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem

Liczba pracownikoacutew

5 45 70 50 10 2 3 3 12 15 13 11 11 250

Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach

Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

9

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel

5

45

70

50

10

2 3 3

1215 13 11 11

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10 11 12 13 14

6152 Średnia

5 Mediana

4 Dominanta

Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł

Przykład 25

Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela

Liczba punktoacutew

0 5 10 70 75 80 85 90 95 100 Razem

Liczba studentoacutew

5 4 1 1 2 4 5 6 9 13 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych

arkusza Excel

54

1 12

45

6

9

13

0

2

4

6

8

10

12

14

0 5 10 70 75 80 85 90 95 100

738 Średnia

90 Mediana

100 Dominanta

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 4: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

4

34 REGRESJA 51 341 Pojęcie regresji I rodzaju 51 342 Pojęcie regresji II rodzaju52 343 Liniowa regresja II rodzaju52

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

5

2 CHARAKTERYSTYKI LICZBOWE

21 Uwagi wstępne

Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby

Są to tzw dane statystyczne

Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na

bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik

zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)

22 Charakterystyki połoŜenia

Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej

221 Średnia arytmetyczna danych statystycznych n

ii=1

1x x

n= sum

Przykład 21

Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną

3+4+5+2+3+4+3+4+2+5x 35

10= =

Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1

STATYSTYKA OPISOWA

6

Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1

1 min maxx x xle le

2 n

ii 1

(x x) 0=

minus =sum

3 i i

i ix x x x

(x x) (x x )gt lt

minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie

4 WyraŜenie n

2i

i 1

(x c)=

minussum ma wartość najmniejszą gdy c= x

222 Mediana danych statystycznych

Uporządkujmy dane statystyczne od najmniejszej do największej

(1) (2) (n)x x x

Mediana danych statystycznych jest to liczba

n+1

2

e n n 2

2 2

x gdy n jest liczbą nieparzystą

m x x

gdy n jest liczbą parzystą2

+

= +

Przykład 22

Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach

a) 3 0 2 1 6 7 4 2 5

b) 3 0 2 1 6 7 4 2

Rozwiązanie

a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc

e (5)n+1

2

m x x 3

= = =

b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7

PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc

[ ]e n n+2 (4) (5)( ) ( )2 2

1 1 1m x x x x 2 3 25

2 2 2

= + = + = + =

Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

7

Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9

223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą

Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1

Rozwiązanie

a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje

Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9

STATYSTYKA OPISOWA

8

Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji

Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)

Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie

Dominanta jest najbardziej typową daną statystyczną

Jak określać przeciętny poziom cechy

Przykład 24

W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela

Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem

Liczba pracownikoacutew

5 45 70 50 10 2 3 3 12 15 13 11 11 250

Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach

Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

9

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel

5

45

70

50

10

2 3 3

1215 13 11 11

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10 11 12 13 14

6152 Średnia

5 Mediana

4 Dominanta

Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł

Przykład 25

Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela

Liczba punktoacutew

0 5 10 70 75 80 85 90 95 100 Razem

Liczba studentoacutew

5 4 1 1 2 4 5 6 9 13 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych

arkusza Excel

54

1 12

45

6

9

13

0

2

4

6

8

10

12

14

0 5 10 70 75 80 85 90 95 100

738 Średnia

90 Mediana

100 Dominanta

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 5: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

5

2 CHARAKTERYSTYKI LICZBOWE

21 Uwagi wstępne

Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby

Są to tzw dane statystyczne

Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na

bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik

zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)

22 Charakterystyki połoŜenia

Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej

221 Średnia arytmetyczna danych statystycznych n

ii=1

1x x

n= sum

Przykład 21

Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną

3+4+5+2+3+4+3+4+2+5x 35

10= =

Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1

STATYSTYKA OPISOWA

6

Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1

1 min maxx x xle le

2 n

ii 1

(x x) 0=

minus =sum

3 i i

i ix x x x

(x x) (x x )gt lt

minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie

4 WyraŜenie n

2i

i 1

(x c)=

minussum ma wartość najmniejszą gdy c= x

222 Mediana danych statystycznych

Uporządkujmy dane statystyczne od najmniejszej do największej

(1) (2) (n)x x x

Mediana danych statystycznych jest to liczba

n+1

2

e n n 2

2 2

x gdy n jest liczbą nieparzystą

m x x

gdy n jest liczbą parzystą2

+

= +

Przykład 22

Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach

a) 3 0 2 1 6 7 4 2 5

b) 3 0 2 1 6 7 4 2

Rozwiązanie

a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc

e (5)n+1

2

m x x 3

= = =

b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7

PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc

[ ]e n n+2 (4) (5)( ) ( )2 2

1 1 1m x x x x 2 3 25

2 2 2

= + = + = + =

Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

7

Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9

223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą

Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1

Rozwiązanie

a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje

Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9

STATYSTYKA OPISOWA

8

Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji

Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)

Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie

Dominanta jest najbardziej typową daną statystyczną

Jak określać przeciętny poziom cechy

Przykład 24

W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela

Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem

Liczba pracownikoacutew

5 45 70 50 10 2 3 3 12 15 13 11 11 250

Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach

Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

9

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel

5

45

70

50

10

2 3 3

1215 13 11 11

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10 11 12 13 14

6152 Średnia

5 Mediana

4 Dominanta

Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł

Przykład 25

Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela

Liczba punktoacutew

0 5 10 70 75 80 85 90 95 100 Razem

Liczba studentoacutew

5 4 1 1 2 4 5 6 9 13 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych

arkusza Excel

54

1 12

45

6

9

13

0

2

4

6

8

10

12

14

0 5 10 70 75 80 85 90 95 100

738 Średnia

90 Mediana

100 Dominanta

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 6: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

6

Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1

1 min maxx x xle le

2 n

ii 1

(x x) 0=

minus =sum

3 i i

i ix x x x

(x x) (x x )gt lt

minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie

4 WyraŜenie n

2i

i 1

(x c)=

minussum ma wartość najmniejszą gdy c= x

222 Mediana danych statystycznych

Uporządkujmy dane statystyczne od najmniejszej do największej

(1) (2) (n)x x x

Mediana danych statystycznych jest to liczba

n+1

2

e n n 2

2 2

x gdy n jest liczbą nieparzystą

m x x

gdy n jest liczbą parzystą2

+

= +

Przykład 22

Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach

a) 3 0 2 1 6 7 4 2 5

b) 3 0 2 1 6 7 4 2

Rozwiązanie

a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc

e (5)n+1

2

m x x 3

= = =

b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7

PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc

[ ]e n n+2 (4) (5)( ) ( )2 2

1 1 1m x x x x 2 3 25

2 2 2

= + = + = + =

Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

7

Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9

223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą

Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1

Rozwiązanie

a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje

Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9

STATYSTYKA OPISOWA

8

Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji

Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)

Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie

Dominanta jest najbardziej typową daną statystyczną

Jak określać przeciętny poziom cechy

Przykład 24

W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela

Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem

Liczba pracownikoacutew

5 45 70 50 10 2 3 3 12 15 13 11 11 250

Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach

Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

9

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel

5

45

70

50

10

2 3 3

1215 13 11 11

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10 11 12 13 14

6152 Średnia

5 Mediana

4 Dominanta

Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł

Przykład 25

Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela

Liczba punktoacutew

0 5 10 70 75 80 85 90 95 100 Razem

Liczba studentoacutew

5 4 1 1 2 4 5 6 9 13 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych

arkusza Excel

54

1 12

45

6

9

13

0

2

4

6

8

10

12

14

0 5 10 70 75 80 85 90 95 100

738 Średnia

90 Mediana

100 Dominanta

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 7: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

7

Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9

223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą

Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1

Rozwiązanie

a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje

Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9

STATYSTYKA OPISOWA

8

Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji

Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)

Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie

Dominanta jest najbardziej typową daną statystyczną

Jak określać przeciętny poziom cechy

Przykład 24

W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela

Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem

Liczba pracownikoacutew

5 45 70 50 10 2 3 3 12 15 13 11 11 250

Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach

Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

9

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel

5

45

70

50

10

2 3 3

1215 13 11 11

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10 11 12 13 14

6152 Średnia

5 Mediana

4 Dominanta

Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł

Przykład 25

Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela

Liczba punktoacutew

0 5 10 70 75 80 85 90 95 100 Razem

Liczba studentoacutew

5 4 1 1 2 4 5 6 9 13 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych

arkusza Excel

54

1 12

45

6

9

13

0

2

4

6

8

10

12

14

0 5 10 70 75 80 85 90 95 100

738 Średnia

90 Mediana

100 Dominanta

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 8: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

8

Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji

Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)

Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie

Dominanta jest najbardziej typową daną statystyczną

Jak określać przeciętny poziom cechy

Przykład 24

W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela

Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem

Liczba pracownikoacutew

5 45 70 50 10 2 3 3 12 15 13 11 11 250

Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach

Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

9

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel

5

45

70

50

10

2 3 3

1215 13 11 11

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10 11 12 13 14

6152 Średnia

5 Mediana

4 Dominanta

Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł

Przykład 25

Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela

Liczba punktoacutew

0 5 10 70 75 80 85 90 95 100 Razem

Liczba studentoacutew

5 4 1 1 2 4 5 6 9 13 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych

arkusza Excel

54

1 12

45

6

9

13

0

2

4

6

8

10

12

14

0 5 10 70 75 80 85 90 95 100

738 Średnia

90 Mediana

100 Dominanta

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 9: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

9

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel

5

45

70

50

10

2 3 3

1215 13 11 11

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10 11 12 13 14

6152 Średnia

5 Mediana

4 Dominanta

Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł

Przykład 25

Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela

Liczba punktoacutew

0 5 10 70 75 80 85 90 95 100 Razem

Liczba studentoacutew

5 4 1 1 2 4 5 6 9 13 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji statystycznych

arkusza Excel

54

1 12

45

6

9

13

0

2

4

6

8

10

12

14

0 5 10 70 75 80 85 90 95 100

738 Średnia

90 Mediana

100 Dominanta

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 10: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

10

Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100

Przykład 26

W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela

Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem

Liczba studentoacutew

2 3 4 6 5 3 2 2 3 4 7 4 4 1 50

Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph

Wyniki otrzymane przy pomocy funkcji

statystycznych arkusza Excel

2

3

4

6

5

3

2 2

3

4

7

4 4

1

0

1

2

3

4

5

6

7

19 20 21 22 23 24 25 31 32 33 34 35 36 37

28 Średnia

28 Mediana

34 Dominanta

Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy

bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 11: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

11

Inne charakterystyki połoŜenia

224 Średnia waŜona danych statystycznych

z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez

n

i i1 1 2 2 n n i 1

w n1 2 n

ii 1

w xw x w x w x

xw w w w

=

=

+ + += =

+ + +

sum

sum

W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi

Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej

Przykład 27

W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew

bull 02 oceny 2x pracy dyplomowej

bull 02 oceny 3x egzaminu dyplomowego

Jest to przykład średniej waŜonej

1 2 3w 1 2 3

06x 02x 0 2xx 06x 02x 02x

06 02 02

+ += = + +

+ +

Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =

Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 12: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

12

225 Średnia ucinana danych statystycznych

Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej

Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się

Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla

Wartości poniŜej 25 centyla

Wartości poniŜej 50 centyla

Wartości poniŜej 75 centyla

Wartości poniŜej 100 centyla

Odrzucanie Obliczanie średniej Odrzucanie

Rysunek 21

Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające

Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną

Przykład 28

Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4

Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej

Rozwiązanie

Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4

Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 13: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

13

226 Średnia geometryczna danych statystycznych

nn n

g 1 2 n ii 1

x x x x x=

= sdot sdotsdotsdot = prod

Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2

Przykład 29

Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie

24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =

Średnia geometryczna powyŜszych danych wynosi 125

Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9

227 Średnia harmoniczna danych statystycznych

h n n

i 1 i 1i i

1 nx

1 1 1n x x= =

= =

sum sum

Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych

Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)

2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 14: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

14

Przykład 210

Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty

Średnia arytmetyczna 10 5

x 752

+= =

Średnia harmoniczna h

2 2 20x 667

1 1 1 2 310 5 10

= = = =+

+

ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1

228 Średnia kwadratowa danych statystycznych

n2

k ii 1

1x x

n =

= sum

MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1

n n nn2

i i ini 1 i 1i 1

i 1 i

1 1 1x x x

1 1 n nn x

= ==

=

le le le

sum sumprodsum

Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa

3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 15: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

15

23 Charakterystyki rozproszenia

Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji

231 Wariancja danych statystycznych n

2 2x i

i 1

1s (x x)

n =

= minussum

Wariancję moŜna wyznaczyć ze wzoru4

( )n n n

22 2 2 2 2x i n i i k

i 1 i 1 i 1

1 1 1s (x x ) x ( x ) x x

n n n

minus

= = =

= minus = minus = minussum sum sum

Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu

Przykład 211

Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215

Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli

i 1 2 3 4 5 6 7 8 9 10 Suma Suma10

xi 3 4 5 2 3 4 3 4 2 5 35 35

2ix 9 16 25 4 9 16 9 16 4 25 133 133

Zatem

( )22 2 2

x ks x x 133 35 133 1225 105minus

= minus = minus = minus =

Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10

4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 16: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

16

Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we

wzorze według ktoacuterego obliczana jest wariancja zamiast 1

n występuje

1

n 1minus po to aby

zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej

Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej

232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji

2x xs s=

Przykład 212

Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21

Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10

233 Wspoacutełczynnik zmienności danych statystycznych

xx

sv 100

x=

przy załoŜeniu Ŝe x 0ne

234 Rozstęp danych

0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna

Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN

235 Przedział typowych jednostek populacji

x xx s x sminus +

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 17: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

17

Interpretacja charakterystyk rozproszenia

Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)

KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane

Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej

Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe

Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach

Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne

235 Kwantyle

Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)

Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X

Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla

Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09

Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl

Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo

Przykład 213

Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco

48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120

Obliczymy kwantyle rzędu 015 i rzędu 028

Obliczamy 15 liczebności danych statystycznych n = 20

l = 015 20 = 3

Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)

Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015

6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 18: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

18

Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie

Obliczamy 28 liczebności danych statystycznych

l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64

Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028

Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73

Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek

Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7

236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy

Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych

kw

n=

k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 19: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

19

Przykład 214

Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny

30w = 3

1000=

i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii

Przykład 215

Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 20: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

20

24 Charakterystyki asymetrii7

241 Wspoacutełczynniki asymetrii

Wspoacutełczynnik asymetrii

n3

ii=1

k 3x

1(x x)

na =

s

minussum

gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3

Wskaźnik asymetrii

sx

x da

s

minus=

gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X

Jest to tzw klasyczny miernik asymetrii standaryzowany

Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna

Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza

Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach

Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii

n3

i i 1K 3

x

(x x)1

a(n 1)(n 2) s

=

minus

=minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

7 UŜywana jest nazwa skośność

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 21: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

21

242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8

W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych

e ex m d lub d m xle le le le

Zatem

Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-

wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)

Rys 22 Rozkład symetryczny

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)

Rys 23 Rozkład o asymetrii prawostronnej

bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)

Rys 24Rozkład o asymetrii lewostronnej

Przykład 216

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 1 3 6 8 2

Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ

8 Rozkładu z tylko jedną dominującą wartością

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 22: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

22

Rozkłady ocen przedstawiają poniŜsze rysunki

1

3

12

3

1

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

7

8

2 3 4 5 6

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 23: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

23

I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak

Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew

243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie

Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)

Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)

PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 24: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

24

Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny

o asymetrii prawostronnej

(dodatniej)

Rys 27 Rozkład asymetryczny

o asymetrii lewostronnej

(ujemnej)

25 Charakterystyki spłaszczenia 9

Miernik spłaszczenia n

44 i

i 1

1m (x x)

n =

= minussum

Wspoacutełczynnik spłaszczenia (kurtoza) n

4i

i 14x

1(x x)

nk 3

s=

minus

= minussum

Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter

n4

2i i 1

4x

(x x)n(n 1) 3(n 1)

k(n 1)(n 2)(n 3) s (n 2)(n 3)

=

minus+ minus

= minusminus minus minus minus minus

sum

po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej

Przykład 217

Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli

2 3 4 5 6

Grupa 1 1 3 12 3 1

Grupa 2 2 3 6 4 3

9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 25: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

25

Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA

Rozkłady ocen przedstawiają poniŜsze rysunki

0

2

4

6

8

10

12

2 3 4 5 6

0

1

2

3

4

5

6

2 3 4 5 6

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 26: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

26

26 Podsumowanie

261 Wybrane charakterystyki liczbowe w postaci graficznej

Rysunek 28 Charakterystyki połoŜenia

Rysunek 29 Charakterystyki rozproszenia

CHARAKTERYSTYKI POŁ0śENIA

Klasyczne Pozycyjne

Średnia arytmetyczna

Średnia waŜona

Średnia harmoniczna

Średnia geometryczna

Mediana

Dominanta (moda)

Kwantyle

Kwartyle

Centyle

Decyle

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 27: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

27

262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali

SKALA RODZAJ

CHARAKTERYSTYKI

NAZWA

CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa

Średnia arytmetyczna +

Średnia harmoniczna +

Średnia geometryczna +

Dominanta (moda) + + +

Kwantyle + +

Miary połoŜenia

Mediana + +

Wariancja +

Odchylenie standardowe +

Odchylenie przeciętne + Miary zroacuteŜnicowania

Rozstęp + +

Miary asymetrii (skośności)

Miernik asymetrii klasyczny +

Miary spłaszczenia Wspoacutełczynnik spłaszczenia +

263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel

Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA

1 Średnia arytmetyczna ŚREDNIA +

2 Mediana MEDIANA

3 Dominanta WYSTNAJCZESCIEJ +

4 Średnia waŜona SUMAILOCZYNOacuteW

5 Średnia ucinana ŚREDNIAWEWN

6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA

7 Średnia harmoniczna ŚREDNIAHARMONICZNA

8 Wariancja WARIANCJA +

9 Odchylenie standardowe ODCHSTANDARDOWE +

10 Kwartle KWARTYL +

11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +

12 Wspoacutełczynnik spłaszczenia KURTOZA +

11 Działania na rangach nie maja uzasadnienia

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 28: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

28

27 Przykłady analizy statystycznej danych

Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych

Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać

Oznaczenia

X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)

Prezentacja danych statystycznych

bull Tabelaryczna - za pomocą szeregu statystycznego punktowego

Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr

Suma n

bull graficzna - wykres szeregu punktowego

Charakterystyki liczbowe

Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać

Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii

r

i ii=1

1x n w

n= sum

r2 2x i i

i=1

1s n (w x)

n= minussum

( )r

3

i ii=1

k 3x

1n w - x

nas

=sum

Przykład 218

Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane

Prezentacja tabelaryczna Szereg statystyczny punktowy

Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem

Liczebność ni 2 4 5 8 5 4 2 30

12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w

klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 29: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

29

Prezentacja graficzna

Rys 210 Prezentacje graficzne danych

Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2

i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18

Razem 30 90 78

Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r

i ii=1

1 90x= n w = =3

n 30sum 2sx = 26

( ) ( ) [ ]e 15 16

1 1m = x +x = 3+3 =3

2 2 - patrz 14 s = 161

d = 3 r0 = 6 ndash 0 = 6 v = 533

Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18

Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0

Histogram jest symetryczny względem prostej x = 3

13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej

kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3

Histogram

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

Liczba błędoacutew

Lic

zb

a m

aszyn

iste

k

Wykres kołowy

713

17

26

17

137

0

1

2

3

4

5

6

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 30: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

30

Przykład 219

Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia

Płeć Wykształcenie Specjalność Stanowisko Ocena roczna

1 - kobieta 2 - męŜczyzna

1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia

1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant

1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor

1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa

Dane

Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna

1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 31: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

31

Obliczanie w Excelu wariancji oraz skośności i kurtozy

Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie

Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela

Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058

Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 32: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

32

Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 33: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

33

Część 1 otrzymanych wynikoacutew

Wiek

Płeć

Wykształcenie

Specjalność

Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667

Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464

Mediana 30 Mediana 2 Mediana 3 Mediana 3

Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037

Odchylenie standardowe 0487950036

Odchylenie standardowe 0899735411

Odchylenie standardowe 1279881

Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095

Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601

Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393

Zakres 16 Zakres 1 Zakres 3 Zakres 4

Minimum 23 Minimum 1 Minimum 1 Minimum 1

Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5

Suma 462 Suma 25 Suma 40 Suma 49

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5

Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1

Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 34: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych

STATYSTYKA OPISOWA

34

Część 2 otrzymanych wynikoacutew

StaŜ

Stanowisko

Zarobki

Ocena roczna

Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333

Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515

Mediana 4 Mediana 1 Mediana 3000 Mediana 4

Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956

Odchylenie standardowe 0617213

Odchylenie standardowe 7988086

Odchylenie standardowe 07988086

Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952

Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646

Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717

Zakres 9 Zakres 2 Zakres 3000 Zakres 3

Minimum 1 Minimum 1 Minimum 2000 Minimum 2

Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5

Suma 70 Suma 20 Suma 49000 Suma 56

Licznik 15 Licznik 15 Licznik 15 Licznik 15

Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5

Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2

Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655

Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

35

28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego

Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły

281 Prezentacja danych statystycznych

Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach

282 Charakterystyki liczbowe

Charakterystyki połoŜenia Charakterystyki rozproszenia

Średnia arytmetyczna r

i ii=1

1x= n x

nsum

gdzie ix - środek klasy o numerze i

Wariancja r

2 2i i

i=1

1s = n (x -x)

nsum

Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności

sv

x=

Mediana e k k-1k

b nm =a + -s

n 2

ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej

klasę mediany

Rozstęp o r+1 1r =a -a

Dominanta k k 1k

k k 1 k 1

n nd a b

2n n nminus

minus +

minus= +

minus minus

ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty

Przedział typowych jednostek populacji ltx-s x+sgt

Asymetria - wskaźnik asymetrii

1

x-da =

s

Wspoacutełczynnik asymetrii

( )r

3

i ii=1

1 3

1n x -x

na =s

sum

15 tj klasy do ktoacuterej naleŜy mediana

Klasa ltai ai+1)

Liczebność klasy ni

lta1 a2) n1 lta2 a3) n2

ltar ar+1) nr

Suma n

STATYSTYKA OPISOWA

36

Uwagi

1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych

2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje

Przykład 220

Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym

Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem

Liczba kredytoacutew 32 88 73 58 25 16 8 300

Opracujemy te dane

Rozwiązanie

Prezentacja graficzna

Rys 211 Histogram wielkości kredytoacutew

Charakterystyki liczbowe

Nr klasy

i

Klasa

i i+1lta a ) Liczebność

in

Liczebność skumulowana

iS

Środek klasy

ix

i in x

2

i in (x -x)

1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168

Histogram

32

88

73

58

25

16

8

0

10

20

30

40

50

60

70

80

90

100

5 15 25 35 45 55 65Wielkość kredytu

Lic

zb

a k

red

ytoacute

w

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

37

Charakterystyki tendencji centralnej

Średnia arytmetyczna x = 262 tys zł

Mediana me =

minus+ 120

2

300

73

1020 = 2411 tys zł

Dominanta d = 88 32

10 10 17892 88 32 73

minus+ sdot =

sdot minus minus tys zł

Miary zroacuteŜnicowania

Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł

Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56

Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)

Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew

32

88

73

58

2516

80

20

40

60

80

100

0 20 40 60 80

STATYSTYKA OPISOWA

38

3 BADANIE ZALEśNOŚCI CECH POPULACJI

31 Wprowadzenie

Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)

Omoacutewimy najpierw stosowne pojęcia

311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji

Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n

312 Prezentacja danych statystycznych pary cech populacji

Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej

Szereg statystyczny pary cech (X Y) jest to tabela

i xi yi 1 x1 y1 2 x2 y2

hellip hellip hellip n xn yn

w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium

Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci

jv

iw 1 2 sv v v

1w 11n 12n hellip 1sn

2w 21n 22n hellip 2sn

rw r1n r2n hellip rsn

gdzie r - liczba wariantoacutew cechy X

1 2 rw w w - warianty cechy X

s - liczba wariantoacutew cechy Y

1 2 sv v v - warianty cechy Y

ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )

Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

39

jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki

Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej

W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych

Przykład 221

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)

Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny

Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny

xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5

yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5

Tablica korelacyjna

PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych

j

i

v

w 2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

STATYSTYKA OPISOWA

40

Prezentacja graficzna

Wykres szeregu statystycznego

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Oceny z matematyki

Oc

en

y z

e s

taty

sty

ki

Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221

2 3 4 5

2

40

1

2

3

Liczebność

Oceny z matematyki

Oceny ze

statystyki

Wykres tabeli korelacyjnej

Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221

Przykład 222

Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym

xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3

iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588

xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5

iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

41

Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas

Wykres szeregu statystycznego

2200

2300

2400

2500

2600

2700

2800

2900

0 1 2 3 4 5 6 7 8 9

Liczba błędoacutew

Lic

zb

a lin

ii k

od

u

Rys 215 Wykres szeregu dla danych z przykładu 1212

Cecha Y

Liczba klas r = 6

Najmniejsza wartość miny = 2240

Największa wartość maxy = 2839

Rozstęp o max minr y y= minus = 599

Dokładność danych α = 1

Długość klasy ob r r 100= asymp 16

Lewy koniec 1 klasy 1 mina y 2 22395= + α =

Prawy koniec 1 klasy 2 1a a b 23395= + =

Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b

Bj Ωi

2239523395 2339524395 2439525395 2539526395 2639527395 2739528395

0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1

16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach

STATYSTYKA OPISOWA

42

32 ZaleŜność cech populacji

Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie

321 ZaleŜność funkcyjna cech populacji

Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe

Y = f(X) lub X = f(Y)

czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji

ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną

322 ZaleŜność stochastyczna (statystyczna) cech populacji

RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich

wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z

jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y

Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X

NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę

Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę

323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy

1x(v ) = 2x(v ) = hellip = sx(v )

Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie

Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

43

Przykład 223

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną

vj wi

2 3 4 5

2 3 2 3 1 2 2 4 2 1 5 1 1

a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj

c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne

Rozwiązanie

a) Szeregi brzegowe

Szereg brzegowy cechy X Struktura ocen z matematyki

Szereg brzegowy cechy Y Struktura ocen ze statystyki

Oceny z matematyki

iw

Liczebności ocen

in bull Oceny ze

statystyki

jv

Liczebności ocen

jnbull

2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2

Suma 15 Suma 15

b) Szeregi warunkowe XY=vj

Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2

ze statystyki

Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3

ze statystyki Ocena z

matematyki

iw

Liczebność

i1n

Ocena z matematyki

iw

Liczebność

i2n

2 3 2 2 3 1 3 2

Suma 4 Suma 4

STATYSTYKA OPISOWA

44

Szereg warunkowy XY=4

Struktura ocen z matematyki studentoacutew mających ocenę 4

ze statystyki

Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5

ze statystyki Ocena z

matematyki

iw

Liczebność

i3n

Ocena z matematyki

iw

Liczebność

i4n

3 2 4 1 4 2 5 1 5 1 Suma 2

Suma 5

c) Szeregi warunkowe YX=wi

Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2

z matematyki

Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3

z matematyki Ocena ze statystyki

vj

Liczebność

1jn

Ocena ze statystyki

vj

Liczebność

2 jn

2 3 2 1 3 2 3 2

Suma 5 4 2 Suma 5

Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4

z matematyki

Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5

z matematyki Ocena ze statystyki

vj Liczebność

3jn

Częstość Wariantu

vj

3j jn nbull

Ocena ze statystyki

vj Liczebność

4 jn

Częstość Wariantu

vj

4 j jn nbull

4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05

Suma 3 1 Suma 2 1

Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

45

d) Warunkowe średnie

Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv

j jx(v ) średnia warunkowa cechy X Y v= =

2 3 3 1x(2) 225

4

sdot + sdot= =

2 2 3 2x(3) 25

4

sdot + sdot= =

3 2 4 2 5 1x(4) 38

5

sdot + sdot + sdot= =

4 1 5 1x(5) 45

2

sdot + sdot= =

Warunkowe wartości oczekiwane cechy YX=wi

i iy(w ) średnia warunkowa cech Y X w= =

2 3 3 2y(2) 24

5

sdot + sdot= =

2 1 3 2 4 2y(3) 32

5

sdot + sdot + sdot= =

4 2 5 1y(4) 43

3

sdot + sdot= =

4 1 5 1y(5) 45

2

sdot + sdot= =

e) ZaleŜność cech

Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)

Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne

Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)

33 Charakterystyki liczbowe dwoacutech cech

331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu

statystycznym Badamy populację ze względu na parę cech (XY)

Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym

xi x1 x2 hellip xn

yi y1 y2 hellip yn

Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech

Nazwa charakterystyki Określenie charakterystyki Nr

Średnia cechy X i średnia cechy Y

n ni i

i 1 i 1

1 1x x y y

n n= =

= =sum sum (231)

Moment rzędu 2 cechy X i cechy Y n n2 2 2 2

i ii 1 i 1

1 1x x y y

n n= =

= =sum sum (232)

Wariancja cechy X i wariancja cechy Y n n2 2 2 2

x i y ii 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (233)

STATYSTYKA OPISOWA

46

Związki między charakterystykami

2 2 2xs x (x)= minus 2 2 2

ys y (y)= minus (238)

xycov xy x y= minus sdot (239)

2 2 2 2

xy x yr

x (x) y (y)

minus sdot=

minus minus

(2310)

n n ni i i i

i 1 i 1 i 1

2 2n n n n2 2i i i i

i 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minussum sum sum =

minus minussum sum sum sum

(2311)

Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności

332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt

1 r 1minus le le

2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)

3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0

Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie

333 Interpretacja wspoacutełczynnika korelacji

Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową

Odchylenie standardowe cechy X i cechy Y

n n2 2x i Y i

i 1 i 1

1 1s (x x) s (y y)

n n= =

= minus = minussum sum (234)

Średnia iloczynu cech X i Y n

i ii 1

1xy x y

n =

= sum (235)

Kowariancja cech X i Y n

xy i ii 1

1cov (x x)(y y)

n =

= minus minussum (236)

Wspoacutełczynnik korelacji cech X i Y xy

x y

covr

s s= (237)

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

47

Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r

Wielkość wspoacutełczynnika korelacji r Nazwa cech

r ne 0 Cechy skorelowane

r =0 Cechy nieskorelowane

r gt 0 Cechy skorelowane dodatnio

r lt 0 Cechy skorelowane ujemnie

Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech

Wielkość wspoacutełczynnika korelacji r Siła korelacji cech

0 r 03lt lt Cechy skorelowane słabo

03 r 05le lt Cechy skorelowane średnio

05 r 07le lt Cechy skorelowane mocno

r 07ge Cechy skorelowane bardzo mocno

Przykład 224

W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym

Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech

ix jy 2ix 2

iy i jx y

2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25

Suma 47 50 163 182 169

STATYSTYKA OPISOWA

48

Korzystamy ze wzoru (211) n n n

i i i ii 1 i 1 i 1

2 2n n n n2 2

i i i ii 1 i 1 i 1 i 1

n x y x y

r

n x x n y y

= = =

= = = =

minus =

minus minus

sum sum sum

sum sum sum sum

= 79050182154716315

50471691522

=

minussdotminussdot

sdotminussdot

Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z

bull Funkcji statystycznej WSP KORELACJI

bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

49

Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo

rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową

334 Wspoacutełczynnik korelacji Spearmana

Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich

rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik

korelacji Spearmana17

n2

i ii 1

S 2

6 (c d )r 1

n(n 1)=

minus

= minusminus

sum

Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew

roacuteŜnic pomiędzy rangami S=n

2i i

i 1(c d )

=

minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter

S 2 2

6S 6Sr 1 1 cS gdzie c 0

n(n 1) n(n 1)= minus = minus = gt

minus minus

bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy

bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo

bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1

17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

50

Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S

Przykład 215a

Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215

Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej

n(n2-1)6

0

1

-1

S

rS

n(n2-1)3

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

51

34 Regresja

341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji

Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe

postępowanie to jest optymalne ( pod pewnym względem)

Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem

Y Y X w= =

Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

i i(w y(w )) dla i = 1 2 hellip q

wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi

Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją

symbolem X X Y v= =

Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci

j j(x(v ) v ) dla j = 1 2 hellip s

vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj

STATYSTYKA OPISOWA

52

342 Pojęcie regresji II rodzaju

Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K

Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew

Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K

343 Liniowa regresja II rodzaju

Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +

Miarą aproksymacji jest wzoacuter

n 2

i ii 1

f (a b) (y ax b)=

= minus minussum

Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym

funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie

n n ni i i i

yi 1 i 1 i 1y 2n n x2

i ii 1 i 1

y y

n x y x ys

a rs

n x x

b y a x

= = =

= =

minussum sum sum = =

minussum sum

= minus

(1240)

Zatem

y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X

y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X

yy y

x

sa r b y ax

s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

Interpretacja wspoacutełczynnikoacutew regresji

ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę

yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox

Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y

x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y

x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X

18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

53

gdzie n n n

i i i ii 1 i 1 i 1 x

x 2n n y2i i

i 1 i 1

x x

n x y x ys

a rs

n y y

b x a y

= = =

= =

minussum sum sum = =

minussum sum

= minus

Funkcję regresji charakteryzują następujące własności19

bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji

jest roacutewna zeru n

i ii 1

ˆK (y y ) 0=

= minus =sum

bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych

i i i i

i i i iˆ ˆy y y y

ˆ ˆ(y y ) (y y )gt lt

minus = minussum sum

Przykład 225

W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)

W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2

i i i i i ii 1 i 1 i 1 i 1 i 1

x 47 y 50 x 163 y 182 x y 169= = = = =

= = = = =sum sum sum sum sum

więc n n n

i i i ii 1 i 1 i 1

y 2 2n n2i i

i 1 i 1

y y

n x y x y15 169 47 50

a 07815 163 47

n x x

50 47b y a x 078 088

15 15

= = =

= =

minussum sum sum

sdot minus sdot = = =sdot minus

minussum sum

= minus = minus sdot =

y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X

Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y

Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji

takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu

1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera

z menu opcję Dodaj linie trendu i wybiera Trend liniowy

19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami

STATYSTYKA OPISOWA

54

3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat

bull Funkcji statystycznej REGLINP W tym celu naleŜy

1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji

2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)

3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

55

W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej

Page 35: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 36: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 37: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 38: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 39: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 40: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 41: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 42: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 43: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 44: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 45: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 46: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 47: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 48: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 49: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 50: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 51: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 52: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 53: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 54: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych
Page 55: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ...cieciura.net/mp/ksiazka/czesc2.pdf2 Statystyka jest bardziej sposobem my ślenia lub wnioskowania ni Ŝ p ęczkiem recept na młócenie danych