STATYSTYKA OPISOWA WYKŁAD 3,4

Post on 04-Dec-2021

5 views 0 download

Transcript of STATYSTYKA OPISOWA WYKŁAD 3,4

15

STATYSTYKA OPISOWA

WYKŁAD 3,4

16

Szereg rozdzielczy przedziałowy (dane pogrupowane) (stosujemy w przypadku dużej liczby niepowtarzających się danych)

Przedział (wi ; wi+1)

Środek

ix& Liczebność

ni Liczebność

skumulowana si

(w1 ; w2) 1x& n1 s1 = n1 (w2 ; w3) 2x& n2 s2 = n1 + n2

... ... ... ... (wr ; wr+1) rx& nr sr = n

razem --- n ---

17

X – badana cecha, n – liczba danych statystycznych, r – liczba przedziałów (klas), (wi ; wi+1) przedziały (klasy),

ix& – środki przedziałów (klas),

ni – liczba danych należących do przedziału (wi ; wi+1), si – liczebności skumulowane

(si = n1 + n2 + ...+ ni). b – długość klasy

18

Liczbę klas r można ustalić orientacyjnie wg następującej tabeli:

Liczba danych n Liczba klas r 30 ÷ 60 6 ÷ 8 60 ÷ 100 7 ÷ 10 100 ÷ 200 9 ÷ 12 200 ÷ 500 11 ÷ 17

> 500 16 ÷ 25

19

Będziemy przyjmować, że klasy są jednakowej długości.

20

Długość klas b

r

xx

rb minmax −

== rozstęp

(wynik dzielenia zawsze należy zaokrąglić w górę do klasy dokładności danych statystycznych).

21

Jeśli stosujemy przedziały otwarte to lewy koniec pierwszej klasy w1 wyznaczamy ze wzoru

w x1 = −min

α2

α - klasa dokładności danych. Kolejne końce klas wyznaczamy dodając do poprzedniego końca długość klasy b tzn. w w b2 = +1 , w w b3 = +2 , itd.

22

Średnia (arytmetyczna)

∑=

=r

iii xn

nx

1

1 o

23

Dominanta

( ) ( ) bnnnn

nnwd

dddd

ddd ⋅

−+−−+=

+−

11

1

wd –lewy koniec klasy zawierającej dominantę, d – numer klasy zawierającej dominantę, nd –liczebność klasy zawierającej dominantę, b – długość klas,

24

Uwaga Wzoru nie można stosować gdy klasa najliczniejsza jest pierwsza lub ostatnia.

25

Mediana

−+= −12 mm

me sn

n

bwm

wm – lewy koniec klasy zawierającej medianę

m – numer klasy zawierającej medianę nm – liczebność klasy zawierającej medianę sm-1 –liczebność skumulowana klasy m – 1

26

Kwartyle pierwszy kwartyl:

−+= −11 1

1

1 4 qq

q sn

n

bwq

drugi kwartyl:

emq =2 trzeci kwartyl:

−⋅+= −13 3

3

33

4 qq

q sn

n

bwq

oznaczenia analogiczne jak przy medianie.

27

Uogólnieniami mediany i kwartyli są decyle (podział na 10 równych części) i percentyle (podział na 100 równych części).

28

Wariancja

∑=

−=r

iii xxn

ns

1

22 1 o

29

Współczynnik asymetrii

31

31

s

xxnna

r

iii∑

=

−=

o

30

lub s

dxa

−=1 (wskaźnik asymetrii)

31

lub q

qmqa e

2

2 132

+−=

(pozycyjny wskaźnik asymetrii)

gdzie 213 qq

q−

=

(odchylenie ćwiartkowe)

32

lub 19

193

2

dd

dmda e

−+−=

(decylowy wskaźnik asymetrii) gdzie d1 pierwszy decyl d9 dziewiąty decyl

33

Pozycyjne odpowiedniki współczynnika zmienności:

ep m

qv =

i obszaru typowych wartości: [ ]qmqm ee +− ,

34

Współczynnik skupienia (kurtoza)

41

41

s

xxnn

k

r

iii∑

=

−=

o

35

lub ( )19

13

2 dd

qqk

−−=′

(pozycyjny wskaźnik skupienia) gdzie d1 pierwszy decyl d9 dziewiąty decyl q1 pierwszy kwartyl q3 trzeci kwartyl

36

POMIAR KONCENTRACJI Krzywa Lorenza. Współczynnik Giniego. Najpierw wykreślamy tzw. krzywą Lorenza. W tym celu na osi poziomej odkładamy

skumulowane częstości n

nw i

i =

(wskaźniki struktury) a na osi pionowej skumulowane udziały wartości

∑=

= r

iii

iii

nx

nxz

1

&

&

(są to udziały i – tego przedziału w wartości globalnej). Wielkości te wyznaczają ciąg punktów, które łączymy łamaną i przedłużamy ją do początku układu współrzędnych, otrzymana łamana to krzywa Lorenza.

37

Odcinek o końcach (0, 0) i (1, 1) przedstawia lini ę równomiernego rozkładu.

Słaba koncentracja Silna koncentracja Współczynnik Giniego definiujemy jako stosunek pola P1 do 0,5 (pole trójkąta pod linią równomiernego rozkładu) co jest równe podwojonemu polu P1, tzn.

0

1

0 1

krzywa Lorenza linia rozkładu równomiernego

P2

P1

0

1

0 1

krzywa Lorenza linia rozkładu równomiernego

P1

P2

38

211 2125,0

PPP

KG −===

bo

122 21 =+ PP gdzie P2 jest polem obszaru pod krzywą Lorenza, jest to suma pól trapezów, które łatwo obliczyć. Zauważmy, że

2*Pole trapezu = = (suma podstaw)*wysokość =

( ) izz wSSii

*11 +−

+

(pierwszy trapez jest trójkątem).

]1,0[∈GK

39

Przykład

ix& in iw iwS ii xn &∑

=

= r

iii

iii

nx

nxz

1

&

&

izS ( ) izz wSS

ii*

11 +−+

1 50 0,5 0,5 50 0,009 0,009 0,004504505

2 25 0,25 0,75 50 0,009 0,018 0,006756757

10 10 0,1 0,85 100 0,018 0,036 0,005405405

35 10 0,1 0,95 350 0,063 0,099 0,013513514

1000 5 0,05 1 5000 0,9009 1 0,054954955

100 1 5550 1 0,085135135

W ostatniej kolumnie są wyliczone podwojone pola trapezów pod krzywą Lorenza, zatem P2 = 0,085135135. Stąd

915,0085,0121 2 =−≈−= PKG ,

40

co świadczy o bardzo dużej koncentracji (najwyższą wartość osiągają nieliczne elementy próby.

00,10,20,30,40,50,60,70,80,9

1

0 0,5 1

krzywa Lorenza

linia rozkładu równomiernego

41

Przykład

ix& in iw iwS ii xn & ∑=

= r

iii

iii

nx

nxz

1

&

&

izS ( ) izz wSS

ii*

11 +−+

5 5 0,05 0,05 25 0,01 0,01 0,0005

15 20 0,2 0,25 300 0,12 0,13 0,028

25 50 0,5 0,75 1250 0,5 0,63 0,38

35 20 0,2 0,95 700 0,28 0,91 0,308

45 5 0,05 1 225 0,09 1 0,0955

100 1 2500 1 0,812

W ostatniej kolumnie są wyliczone podwojone pola trapezów pod krzywą Lorenza, zatem P2 = 0,812 Stąd

188,0812,0121 2 =−≈−= PKG , co świadczy o słabej koncentracji.

42

0,30,40,50,60,70,80,9

1

krzywa Lorenza

linia rozkładu równomiernego

43

Przykład Dwa zakłady A i B wykonują ten sam detal. Średnia dzienna wydajność pracy na jednego pracownika w obu zakładach jest

taka sama i wynosi 40== BA xx szt. Wiadomo też, że

49,45 == AAe dm 34,36 == BBe dm

Chcemy porównać wydajność w obu zakładach.

44

Rozwiązanie

Wydajność w zakładzie A ma rozkład o asymetrii ujemnej (bo 0<− AA dx ) zatem ponad połowa pracowników ma wydajność powyżej średniej 40 szt. Wydajność w zakładzie B ma rozkład o asymetrii dodatniej ( bo 0>− BB dx ) zatem mniej niż połowa pracowników ma wydajność powyżej średniej 40 szt.

45

Wniosek Chociaż średnia wydajność w obu zakładach jest taka sama to bardziej korzystny rozkład wydajności jest w zakładzie A.

46

Charakterystyki połączonych populacji. Niekiedy obserwujemy wartości badanej cechy i liczymy charakterystyki w populacji podzielonej na podzbiory a następnie chcemy wyznaczyć wartości tych charakterystyk w całej populacji.

47

Przyjmijmy, że populacja jest podzielona na k podzbiorów o liczebności równych

odpowiednio Ni i = 1, 2, ..., k; tzn. NNk

ii =∑

=1.

48

Jeśli ix są średnimi w poszczególnych podzbiorach to średnia dla całej populacji jest równa

i

k

i

ik

k xN

Nx

N

Nx

N

Nx

N

Nx ∑

=

=+++=1

22

11 ...

Jest to tzw. średnia ważona.

49

Jeśli 2is są wariancjami w poszczególnych

podzbiorach to wariancja dla całej populacji jest równa

( )21

2

1

2 xxN

Ns

N

Ns i

k

i

ii

k

i

i −+= ∑∑==

Pierwszy składnik to tzw. wariancja wewnątrzgrupowa, drugi składnik to tzw. wariancja międzygrupowa.

50

DODATEK-RODZAJE ŚREDNICH

Jedną z wielkości charakteryzujących

dane liczbowe jest wartość średnia.

Rodzaje średnich:

Arytmetyczna

Geometryczna

Harmoniczna

Potęgowa

51

Wybór średniej zależy od rodzaju

badanych wielkości i potrzeb analizy

danych.

Najczęściej stosowaną średnią jest

średnia arytmetyczna.

52

Średnią arytmetyczną liczb

rzeczywistych

x1, x2, x3, ... , xn nazywamy liczbę:

( ) ∑=

=+++=n

iin x

nxxx

nx

121

1......

1

53

Przykład.

Pięciu studentów otrzymało na

egzaminie z matematyki oceny: 3, 2,

5, 2, 3. Ile wynosi średnia ocena tych

studentów?

(odp. 3)

Jeżeli wśród n danych występują

wartości powtarzające się:

xi występuje ni razy, i = 1, 2, …,r

nnnnnk

iik ==+++ ∑

=121 ......

to

54

( ) ∑∑==

==+++=k

ii

ik

iiikk x

n

nxn

nxnxnxn

nx

112211

1......

1

Ten sposób liczenia średniej

arytmetycznej nazywamy średnią

arytmetyczną ważoną.

55

Przykład.

Dwudziestu pięciu studentów otrzymało

na egzaminie z matematyki oceny:

dziesięć ocen 3, dziesięć ocen 2, pięć ocen 5. Ile wynosi średnia ocena tych

studentów?

( ) 325

7555310210

25

1 ==⋅+⋅+⋅=x

56

Średnią geometryczną liczb

rzeczywistych dodatnich x1, x2, x3, ... , xn

nazywamy pierwiastek n – tego stopnia

z ich iloczynu, tzn.

n

n

ii

nng xxxxx ∏

=

=⋅⋅⋅=1

21 ......

Średnia geometryczna znajduje

najczęściej zastosowanie przeciętnego

tempa zmian w czasie, np. do

uśredniania indeksów giełdowych.

57

Przykład.

Roczna stopa procentowa w czterech

kolejnych latach wynosiła: 10%,

20%, 5%, 15%. Jaka była średnia

stopa w tym okresie?

%07,111107,000015,015,005,02,01,0 44 ≈≈=⋅⋅⋅=gx

Zauważmy, że średnia arytmetyczna

tych danych wynosi 12,5%

58

Średnią harmoniczną liczb x1, x2,

x3, ... , xn różnych od zera

nazywamy odwrotność

średniej arytmetycznej odwrotności

liczb, tzn.

∑=

=++

= n

i in

h

x

n

xxx

nx

121

11....

11

Średnią harmoniczną stosuje się przy

uśrednianiu wielkości względnych,

np. przy obliczaniu przeciętnej

prędkości lub średniej gęstości

zaludnienia.

59

Przykład.

Pan Kowalski codziennie dojeżdża do

pracy samochodem z prędkością

40km/h. Pewnego dnia zaspał i wyjechał

później niż zwykle. W połowie trasy

zorientował się, że nie zdąży i zwiększył

prędkość o 20km/h, dzięki czemu nie

spóźnił się do pracy. Z jaką średnią

prędkością jechał tego dnia pan

Kowalski?

485

240

601

401

2 ==+

=hx

Zauważmy, że średnia arytmetyczna

tych danych wynosi 50km/h

60

Średnią potęgową rzędu k liczb

rzeczywistych dodatnich x1, x2, x3, ... , xn

nazywamy liczbę.

k

n

i

ki

k

kn

kk

kp xnn

xxxx ∑

=

=+++=1

21)(

1......

Uwaga: Dla k = 1 jest to średnia arytmetyczna, Dla k = -1 jest to średnia harmoniczna, Dla k = 2 jest to średnia kwadratowa,

61

Przykład. Mamy 3 pojemniki sześcienne o krawędziach odpowiednio 1, 2 i 3. Chcemy znaleźć taką krawędź sześciennego pojemnika, aby trzy pojemniki o tej krawędzi zastąpiły dotychczas używane, to znaczy, aby łączna objętość poprzednich i nowych była taka sama.

29,2123

32133

333

)3( ≈=++

=px

Zauważmy, że średnia arytmetyczna tych danych wynosi 2.

62

Twierdzenie Dla dowolnych liczb rzeczywistych dodatnich x1, x2, x3, ... , xn zachodzą nierówności

xxx gh ≤≤

przy czym równość zachodzi wtedy i tylko wtedy, gdy x1 = x2 = x3 = ... = xn.