Wykład 4 Magdalena Alama-Bucko´ 13 marca...

41
Statystyka Wyklad 4 Magdalena Alama-Bu´ cko 13 marca 2017 Magdalena Alama-Bu´ cko Statystyka 13 marca 2017 1 / 41

Transcript of Wykład 4 Magdalena Alama-Bucko´ 13 marca...

StatystykaWykład 4

Magdalena Alama-Bucko

13 marca 2017

Magdalena Alama-Bucko Statystyka 13 marca 2017 1 / 41

Na poprzednim wykładzie omówilismy nastepujace miaryrozproszenia:

Wariancja - to srednia arytmetyczna kwadratów odchylenwartosci cechy od sredniej (jednostka wariancji : jednostka2 czylim2, kg2, ...)

s2 =1n

n∑i=1

(xi − x)2.

Odchylenie standardowe to pierwiastek kwadratowy z wariancji,czyli

s =√

s2.

Odchylenie przecietne (srednie) - to srednia arytmetycznawartosci bezwzglednej odchylen wartosci cechy od sredniej (wjednostkach takich jak cecha, czyli metrach, kg,...)

d =1n

n∑i=1

|xi − x |.

Magdalena Alama-Bucko Statystyka 13 marca 2017 2 / 41

Rozstep z próby:R = xmax − xmin.

Odchylenie cwiartkowe:

Q =Q3 −Q1

2

mierzy poziom zróznicowania tylko czesci jednostek ( 50%srodkowych obserwacji, po odrzuceniu 25% obserwacjinajmniejszych i 25% obserwacji najwiekszych)miara ta nie jest wrazliwa na skrajne (nietypowe wartosci)

Pomiedzy miarami zróznicowania zachodza relacje:

Q < d < s.

Magdalena Alama-Bucko Statystyka 13 marca 2017 3 / 41

Typowy obszar zmiennosci

x − s < xtyp < x + s

Na ogół około 2/3 (czyli 67%) jednostek badanej zbiorowosciprzyjmuje wartosci w tego przedziału.Około 67% jednostek wartosci badanej cechy róznia sie odwartosci sredniej o +/− s jednostek.

Typowy obszar zmiennosci ( parametry pozycyjne)

Me −Q < xtyp < Me + Q

Wartosci badanej cechy róznia sie od wartosci mediany(srodkowej) o +/- Q jednostek w zawezonym obszarzezmiennosci.

Magdalena Alama-Bucko Statystyka 13 marca 2017 4 / 41

Współczynnik zmiennosci klasyczny i pozycyjny

Jesli x > 0 oraz Me > 0, toklasyczny Vs:

Vs =sx· 100%,

Interpretacja: Zróznicowanie mierzone odchyleniemstandardowym wynosi Vs procent sredniej arytmetycznej.

klasyczny Vd

Vd =dx· 100%,

Interpretacja: Zróznicowanie mierzone odchyleniem srednimwynosi Vd procent sredniej arytmetycznej.pozycyjny VQ :

VQ =Q

Me· 100%,

Interpretacja: Zróznicowanie cechy mierzone odchyleniemcwiartkowym wynosi VQ wartosci mediany.

Magdalena Alama-Bucko Statystyka 13 marca 2017 5 / 41

Przy okreslaniu stopnia zróznicowania mozna przyjac nastepujacypodział:

V < 20% - małe zróznicowanie cechy (mała zmiennosc)

20% 6 V < 40% - przecietne zróznicowanie cechy ( przecietnazmiennosc)

40% 6 V < 100% - duze zróznicowanie cechy ( duza zmiennosc)

V > 100% - bardzo duze zróznicowanie cechy ( bardzo duzazmiennosc)

Magdalena Alama-Bucko Statystyka 13 marca 2017 6 / 41

Zadanie 1Analizie statystycznej poddano srednie miesieczne zyski 5 firm.Otrzymano m.in. nastepujace poziomy niektórych statystyk opisowych:

n=5x = 31915 (srednia)Me = 34100 (mediana)Q1 = 27500 ( tzw. dolny kwartyl )Q3 = 36500 ( tzw. górny kwartyl)s = 7582,702 ( odchylenie standardowe)

Jednoczesnie wiadomo, ze przecietny zysk jednej z tych firm kształtujesie na poziomie 21200 zł. Czy mozna ta firme uznac za typowa wsródbadanych? Odpowiedz podac uzywajac równolegle miar klasycznych ipozycyjnych.

Magdalena Alama-Bucko Statystyka 13 marca 2017 7 / 41

Dane: n = 5, x = 31915,Me = 34100,Q1 = 27500,Q3 =36500, s = 7582.

Typowy obszar zmiennosci (klasyczny) xtyp ∈ (x − s, x + s)xtyp ∈ (31915− 7583,31915 + 7583)⇔ xtyp ∈ (24332,39498).

Typowy obszar zmiennosci (pozycyjny)xtyp ∈ (Me −Q,Me + Q)

Q =Q3 −Q1

2=

36500− 275002

=9000

2= 4500

xtyp ∈ (34100− 4500,34100 + 4500)⇔ xtyp ∈ (29600,38600).

widac, ze zysk 21200 nie zawiera sie (w zadnym) typowymobszarze zmiennosci (ani klasycznym, ani pozycyjnym).

Koniec Zadania 1.

Magdalena Alama-Bucko Statystyka 13 marca 2017 8 / 41

Zadanie 2W pewnej okolicy zbadano ceny komputerów i bułek.Dla komputerów otrzymano x = 2500zł oraz s = 250 zł. Dla bułekotrzymano x = 0.6zł oraz s = 0.1 zł.Porównac zmiennosc sprzedawanych komputerów i bułek.

Dla komputerów mamy:

Vs =sx· 100% =

2502500

· 100% = 10%,

zatem odchylenie standardowe stanowi 10% sredniej arytmetycznej(ceny sprzedawanych komputerów).Dla bułek mamy:

Vs =sx· 100% =

0.10.6· 100% = 17%,

zatem odchylenie standardowe stanowi 17% sredniej arytmetycznej(ceny sprzedawanych bułek).Cena bułek jest bardziej zróznicowana, niz cena komputerów.

Magdalena Alama-Bucko Statystyka 13 marca 2017 9 / 41

Rozkład normalny

Rozkład normalny to rozkład w którym "szanse" otrzymania danychwartosci opisuje wykres

"dzwonowaty" kształtrozkład symetryczny z maksimum w punkcie x = D = Meczym bardziej oddalamy sie od sredniej, tym szanse malejawiele cech ma taki rozkład:czas wykonywania pewnej czynnosci, wzrost, waga, długosc ......

Magdalena Alama-Bucko Statystyka 13 marca 2017 10 / 41

Reguła 3σ (czyt. 3-sigma)

Dla rozkładów normalnych lub zblizonych do normalnych zachodzizasada tzw. 3σ, która mówi ze

około 68.2% obserwacji przyjmuje wartosci w przedziale

(x − s, x + s)

około 95.4% obserwacji przyjmuje wartosci w przedziale

(x − 2s, x + 2s)

około 99.7% obserwacji przyjmuje wartosci w przedziale

(x − 3s, x + 3s)

Magdalena Alama-Bucko Statystyka 13 marca 2017 11 / 41

PrzykładWiadomo, ze przecietna waga (w kilogramach) noworodka jestzmienna losowa o rozkładzie normalnym. Zbadano odpowiednio duzapróbe i otrzymano:

x = 3.6, s = 0.25.

Zatemokoło 68.2% noworodków ma wage z przedziału

(x − s, x + s) = (3.35,3.85)

około 95.4% noworodków ma wage z przedziału

(x − 2s, x + 2s) = (3.1,4.1)

około 99.7% noworodków ma wage z przedziału

(x − 3s, x + 3s) = (2.85,4.35).

Magdalena Alama-Bucko Statystyka 13 marca 2017 12 / 41

PrzykładCzas pracy lamp RTG produkowanych w pewnym zakładzie marozkład normalny z wartoscia srednia 700 godzin i odchyleniemstandardowym 120 godzin.

Zatemokoło 68.2% lamp ma czas swiecenia z przedziału

(x − s, x + s) = (580,820)

około 95.4% lamp ma czas swiecenia z przedziału

(x − 2s, x + 2s) = (460,940)

około 99.7% lamp ma czas swiecenia z przedziału

(x − 3s, x + 3s) = (340,1060).

Magdalena Alama-Bucko Statystyka 13 marca 2017 13 / 41

Inny rozkład

W przypadku, gdy zmienna nie ma rozkładu normalnego (ma innyrozkład) albo znacznie rózni sie od rozkładu normalnego, powyzszyzakres z reguły 3σ ulega zmianie.

około 75% obserwacji przyjmuje wartosci w przedziale ( dlanormalnego 95.4%)

(x − 2s, x + 2s)

około 88.9% obserwacji przyjmuje wartosci w przedziale ( dlanormalnego 99.7%)

(x − 3s, x + 3s)

Magdalena Alama-Bucko Statystyka 13 marca 2017 14 / 41

Moment centralny s-tego rzedu

ms - to srednia arytmetyczna s-tych poteg odchylen wartosci cechy odsredniej.

ms =1n

n∑i=1

(xi − x)s.

Szereg rozdzielczy punktowy

ms =1n

k∑i=1

ni · (xi − x)s

Szereg rozdzielczy przedziałowy

ms =1n

k∑i=1

ni · (xi − x)s

gdzie xj jest srodkiem j- tego przedziału, czyli (xj , xj+1].

zauwazmy, ze m2 = s2, czyli drugi moment=wariancja.

Magdalena Alama-Bucko Statystyka 13 marca 2017 15 / 41

Przykład 1

Magdalena Alama-Bucko Statystyka 13 marca 2017 16 / 41

Przykład 1

obliczymy m2 = s2 =1n

n∑i=1

(xi − x)2

xj nj nj · xj xj − x (xj − x)2 nj nj(xj − x)2

1 1 1 -2 4 1 42 3 6 -1 1 3 33 5 15 0 0 5 04 3 12 1 1 3 35 1 5 2 4 1 4

13 39 14

x =3913

= 3

m2 =1n

k∑j=1

nj(xj − x)2 =1

13· 14 =

1413

= 1.077.

s = 1.038.Magdalena Alama-Bucko Statystyka 13 marca 2017 17 / 41

Przykład 1

obliczymy m3 = 1n∑n

i=1(xi − x)3 i m4 = 1n∑n

i=1(xi − x)4

xj nj xj − x (xj − x)3 nj · (∗)poprz (xj − x)4 nj · (∗)poprz]1 1 -2 -8 -8 16 162 3 -1 -1 -3 1 33 5 0 0 0 0 04 3 1 1 3 1 35 1 2 8 8 16 16

13 0 38

x =3913

= 3

m3 =1n

k∑j=1

nj(xj − x)3 =1

13· 0 = 0

m4 =1n

n∑i=1

(xi − x)4 =3813

= 2.923

Magdalena Alama-Bucko Statystyka 13 marca 2017 18 / 41

Przykład 2

Magdalena Alama-Bucko Statystyka 13 marca 2017 19 / 41

Przykład 2

obliczymy m2 = s2 =1n

n∑i=1

(xi − x)2

xj nj nj · xj xj − x (xj − x)2 nj(xj − x)2

1 1 1 -2.38 5.66 5.662 2 4 -1.38 1.9 3.83 3 9 -0.38 0.14 0.424 5 20 0.62 0.38 1.95 2 10 1.62 2.62 5.24

13 44 17.02

x =4413

= 3,38

m2 =1n

k∑j=1

nj(xj − x)2 =1

13· 17.02 =

17.0213

= 1.31

s = 1.144Magdalena Alama-Bucko Statystyka 13 marca 2017 20 / 41

Przykład 2

obliczymy m3 =1n

n∑i=1

(xi − x)3 i m4 =1n

n∑i=1

(xi − x)4

xj nj xj − x (xj − x)3 nj · (∗)poprz (xj − x)4 nj · (∗)poprz1 1 -2.38 -13.48 -13.48 32.09 32.092 2 -1.38 -2.63 -5.26 3.63 7.263 3 -0.38 -0.05 -0.15 0.02 0.064 5 0.62 0.24 1.2 0.15 0.755 2 1.62 4.25 8.5 6.89 13.78

13 -9.19 53.94x = 3.38

m3 =1n

k∑j=1

nj(xj − x)3 =1

13· (−9.19) = −0.71

m4 =1n

n∑i=1

(xi − x)4 =53.94

13= 4.15

Magdalena Alama-Bucko Statystyka 13 marca 2017 21 / 41

Przykład 3

Magdalena Alama-Bucko Statystyka 13 marca 2017 22 / 41

Przykład 3

obliczymy m2 = s2 =1n

n∑i=1

(xi − x)2

xj nj nj · xj xj − x (xj − x)2 nj(xj − x)2

1 2 2 -1.62 2.62 5.242 5 10 -0.62 0.38 1.93 3 9 0.38 0.14 0.424 2 8 1.38 1.9 3.85 1 5 2.38 5.66 5.66

13 34 17.02

x =3413

= 2.62

m2 =1n

k∑j=1

nj(xj − x)2 =1

13· 17.02 = 1.309.

s = 1.144Magdalena Alama-Bucko Statystyka 13 marca 2017 23 / 41

Przykład 3

obliczymy m3 =1n

n∑i=1

(xi − x)3 i m4 =1n

n∑i=1

(xi − x)4

xj nj xj − x (xj − x)3 nj · (∗)poprz (xj − x)4 nj · (∗)poprz1 2 -1.62 -4.25 -8.5 6.89 13.782 5 -0.62 -0.24 -1,2 0.15 0.753 3 0.38 0.05 0.15 0.02 0.064 2 1.38 2.63 5.26 3.63 7.265 1 2.38 13.48 13.48 32.09 32.09

13 9.19 53.94x = 2.62

m3 =1n

k∑j=1

nj(xj − x)3 =1

13· 9.19 = 0.707

m4 =1n

n∑i=1

(xi − x)4 =53.94

13= 4.149

Magdalena Alama-Bucko Statystyka 13 marca 2017 24 / 41

Miary asymetrii

Analiza struktury zbiorowosci

miary połozenia ( miary srednie)miary zmiennosci (rozproszenia, dyspersji)miary asymetriimiary koncentracji.

Miary asymetrii (współczynniki skosnosci) opisuja kształtstruktury (tzn. opisuja kształt wykresu krzywej liczebnosci)okreslaja kierunek asymetrii (tzn. np. czy wiecej obserwacji mawartosc wieksza czy tez mniejsza niz wartosc srednia, czy tezrozłozone sa po równo)okreslaja siłe asymetrii.

Magdalena Alama-Bucko Statystyka 13 marca 2017 25 / 41

Magdalena Alama-Bucko Statystyka 13 marca 2017 26 / 41

Wskaznik skosnosci - wielkosc słuzaca do okreslania kierunkuasymetrii.

klasyczny:x − D

pozycyjny:Q3 −Me − (Me −Q1).

Wskaznik skosnosci jest miara bezwzgledna bo jest wyrazony wjednostkach miary danej cechy.

Z tego powodu nie mozna go uzywac do porównywania asymetriiw zbiorowosciach, w których wartosc zmiennej jest wyrazona wróznych jednostkach miary.

Magdalena Alama-Bucko Statystyka 13 marca 2017 27 / 41

Rozkład symetryczny

x = M = D

Q3 −Me − (Me −Q1) = 0 ⇒ Me = Q3+Q12

Asymetria lewostronna

x < M < D

(Q3 −Me)− (Me −Q1) < 0 ⇒ Me > Q3+Q12

Asymetria prawostronna

x > M > D

(Q3 −Me)− (Me −Q1) > 0 ⇒ Me < Q3+Q12

Magdalena Alama-Bucko Statystyka 13 marca 2017 28 / 41

Przypadek 1

xj nj nsk xj · nj1 1 1 12 3 4 63 5 9 154 3 12 125 1 13 5

n = 13 razem 39

x =3913

= 3

D = 3n = 13 zatem Me = x(7) = 3

x = D = Me zatem rozkład symetryczny.

Magdalena Alama-Bucko Statystyka 13 marca 2017 29 / 41

Przypadek 2

xj nj nsk xj · nj1 1 1 12 2 3 43 3 6 94 5 11 205 2 13 10

n = 13 razem 44

x =4413

= 3.4

D = 4n = 13 zatem Me = x(7) = 4

x < D = Me zatem asymetria lewostronna

Magdalena Alama-Bucko Statystyka 13 marca 2017 30 / 41

Przypadek 3

xj nj nsk xj · nj1 2 2 22 5 7 103 3 10 94 2 12 85 1 13 5

n = 13 razem 34

x =3413

= 2.6

D = 2n = 13 zatem Me = x(7) = 2

x > D = Me zatem asymetria prawostronna

Magdalena Alama-Bucko Statystyka 13 marca 2017 31 / 41

Współczynniki asymetrii (skosnosci)

Do okreslania siły, jak i kierunku asymetrii stosuje sie tzw.współczynniki asymetrii.

klasyczne

As =x − D

s, Ad =

x − Dd

Interpretacja: Jaka czesc odchylenia standardowego ( odp.przecietnego) stanowi róznica miedzy srednia a dominanta.

A =m3

s3 , m3 =1n

n∑i=1

(xi − x)3.

pozycyjny (okresla kierunek i siłe asymetrii jednostek miedzypierwszym i trzecim kwartylem, czyli w zawezonym obszarzezmiennosci)

AQ =(Q3 −Me)− (Me −Q1)

(Q3 −Me) + (Me −Q1).

Magdalena Alama-Bucko Statystyka 13 marca 2017 32 / 41

To miary niemianowane, dlatego mozna porównywac skosnosciróznych rozkładów.

Gdy dla danej cechy nie mozna wyliczyc dominanty, stosujemywspółczynnik pozycyjny asymetrii AQ albo klasyczny A.

Magdalena Alama-Bucko Statystyka 13 marca 2017 33 / 41

Uwaga: Im wieksza wartosc bezwzgledna współczynnika asymetrii,tym silniejsza asymetria.

Interpretacja (wg kierunku)

A = 0 rozkład symetrycznyA > 0 asymetria prawostronnaA < 0 asymetria lewostronna

Interpretacja A (wg siły)

|A| 6 0.7 słaba asymetria0.7 < |A| < 1.4 umiarkowana asymetria|A| > 1.4 silna asymetria

Magdalena Alama-Bucko Statystyka 13 marca 2017 34 / 41

Koncentracja

Analiza struktury zbiorowosci

miary połozenia ( miary srednie)miary zmiennosci (rozproszenia, dyspersji)miary asymetriimiary koncentracji (miara spłaszczenia).

Miara koncentracji (kurtoza) - miara skupienia obserwacji wokółsredniej.

Istnieje scisły zwiazek pomiedzy koncentracja wartosci cechywokół sredniej, a ich zróznicowaniem.Im wieksze jest zróznicowanie, tym mniejsza jest koncentracja.

Magdalena Alama-Bucko Statystyka 13 marca 2017 35 / 41

K =m4

s4 , gdzie m4 =1n

n∑i=1

(xi − x)4.

Im wyzsza wartosc K , tym bardziej wysmukła krzywa liczebnosci,wiec wieksza koncentracja wartosci cechy wokół sredniej.Małe wartosci K wskazuja natomiast na spłaszczenie rozkładuzbiorowosci wzgledem badanej cechy.

Jesli zbiorowosc ma rozkład normalny, to K = 3.K < 3- rozkład bardziej spłaszczony od normalnegoK > 3 - rozkład bardziej wysmukły od normalnego

Zatem uzasadnione jest stosowanie zmodyfikowanej miary

K ′ =m4

s4 − 3.

Magdalena Alama-Bucko Statystyka 13 marca 2017 36 / 41

kolor czerwony : K ′ = 0 rozkład normalnykolor zielony : K ′ > 0 rozkład bardziej wysmukły od normalnegokolor granatowy : K ′ < 0 rozkład bardziej spłaszczony odnormalnego

Magdalena Alama-Bucko Statystyka 13 marca 2017 37 / 41

Przykład 1

A = m3s3 = 0 zatem rozkład symetryczny

K ′ = m4s4 − 3 = 2.923

1.0384 − 3 = −0.48 < 0 zatem rozkład bardziejspłaszczony od normalnego

Magdalena Alama-Bucko Statystyka 13 marca 2017 38 / 41

Przykład 2

A = m3s3 = −0.71

1.143 = −0.47 < 0 zatem asymetria lewostronna

K ′ = m4s4 − 3 = 4.149

1.144 − 3 = −0.578 < 0 zatem rozkład bardziejspłaszczony od normalnego

Magdalena Alama-Bucko Statystyka 13 marca 2017 39 / 41

Przykład 3

A = m3s3 = 0.707

1.1443 = 0.472, - asymetria prawostronna

K ′ = m4s4 − 3 = 4.149

1.1444 − 3 = −0.578 < 0 zatem rozkład bardziejspłaszczony od normalnego

Magdalena Alama-Bucko Statystyka 13 marca 2017 40 / 41

Dziekuje za uwage !

Magdalena Alama-Bucko Statystyka 13 marca 2017 41 / 41