Wykład 3

54

description

Charakterystyki opisowe rozkładu jednej cechy. Wykład 3. Klasyfikacja miar statystycznych. ze względu na informacje, jakie przynoszą one o rozkładzie cechy w zbiorowości:  Miary poziomu  Miary dyspersji  Miary asymetrii. Klasyfikacja miar statystycznych. - PowerPoint PPT Presentation

Transcript of Wykład 3

Page 1: Wykład 3
Page 2: Wykład 3

Wykład 3

Charakterystyki opisowe rozkładu

jednej cechy

Page 3: Wykład 3

Klasyfikacja miar statystycznych

• ze względu na informacje, jakie przynoszą one o rozkładzie cechy w zbiorowości:

Miary poziomu Miary dyspersji Miary asymetrii

Page 4: Wykład 3

Klasyfikacja miar statystycznych

• ze względu zakres danych niezbędnych do wyliczenia tych miar:

• ● miary klasycznedla wyliczenia tych miar wykorzystuje się wartości cechy zaobserwowane u wszystkich badanych jednostek

● miary pozycyjnedla wyliczenia tych miar wykorzystuje się wartości cechy tylko niektórych jednostek, wybranych ze względu na pozycję, jaka zajmują one w uporządkowanym ciągu zaobserwowanych jednostek cechy

Page 5: Wykład 3

Klasyfikacja miar statystycznych

• dodatkowo, miary statystyczne mogą być miarami:

• ● absolutnymimianowanymi, a więc wyrażonymi w mianie badanej cechy – lata, metry, sztuki, kilogramy, godziny itp..

● względnymi (stosunkowymi)niemianowanymi, wyrażonymi w ułamku lub w procencie – uzyskanymi poprzez podzielenie przez siebie odpowiednich miar absolutnych

Page 6: Wykład 3

Miary jednej cechy

Miary poziomu

Page 7: Wykład 3

• Miary poziomu rozkładu liczebności zwane są wartościami przeciętnymi(lub średnimi)

• najbardziej rozpowszechnione w praktyce• zacierają różnice indywidualne badanych jednostek• o wartości liczbowej tej miary decydują wartości

liczbowe cechy posiadane przez wszystkie jednostki populacji

• za pomocą jednej liczby podają centralną tendencję (poziom wartości zmiennej)

Page 8: Wykład 3

Miary przeciętne

Miary klasyczne Miary pozycyjne

MedianaDominanta (moda)

Kwantyle

Średnia arytmetycznaŚrednia geometryczna

Page 9: Wykład 3

Miary przeciętne

klasyczne

Średnia arytmetycznaŚrednia geometryczna

są wypadkowymi wartościami wszystkich odmian cechy

wszystkich badanychjednostek zbiorowości

Page 10: Wykład 3

Miary przeciętne

pozycyjne

MedianaDominanta (moda)

Kwantyle

wskazują na określoną pozycję

jednostek

Page 11: Wykład 3

Miary przeciętne

pozycyjne

Mediana

wskazują na określoną pozycję

jednostek

pozycja środkowa

Dominanta (moda) pozycja najczęstsza (typowa)

Kwantyle uporządkowaną populację dzielą na części

Page 12: Wykład 3

• Podstawową i najbardziej znaną miarą położenia i jednocześnie miarą tendencji centralnej jest średnia

• Jest to średnia arytmetyczna wartości cechy

• Aby wyznaczyć poziom średniej badana cecha musi być mierzalną

Page 13: Wykład 3

Jak otrzymać wartość średniej arytmetycznej dla danych indywidualnych?

• dysponując n wartościami cechy:

• w pierwszej kolejności obliczamy sumę tych wartości:

• a następnie dzielimy przez liczbę obserwacji n:

nxxxx ,.....,,, 321

nxxxx .....321

xn

x

n

xxxxśrednia n

...321

Page 14: Wykład 3

• Średnia arytmetyczna jest pewną abstrakcyjną wielkością, wypadkową wszystkich zaobserwowanych wartości cechy, powstałą wskutek operacji matematycznej

• Obliczona wartość średnia z reguły przyjmuje wartość w zbiorowości nie występującą

• Średnia arytmetyczna zaciera różnice indywidualne

• Zmiana jakiejkolwiek wartości w zbiorze danych pociąga za sobą zmianę wartości średniej

Page 15: Wykład 3

Jak otrzymać wartość średniej arytmetycznej dla danych pogrupowanych?

• w tym przypadku można uzyskać jedynie pewne przybliżenie, przyjmując, że każda jednostka ni należąca do danej klasy ma wartość cechy równą wartościom środka przedziału klasowego:

k

ii

k

iii

k

kk

n

nx

nnnnn

nxnxnxnxnxx

1

1

4321

44332211

....

....

Page 16: Wykład 3

Właściwości średniej arytmetycznej

Page 17: Wykład 3

Właściwości średniej arytmetycznej

• Wartość liczbowa średniej arytmetycznej ma takie samo miano jak badana cecha

Page 18: Wykład 3

Właściwości średniej arytmetycznej

• Średnia arytmetyczna zawiera się między krańcowymi wartościami cechy:

maxmin xxx

Page 19: Wykład 3

Właściwości średniej arytmetycznej

• Średnia arytmetyczna obliczona z wartości sum xi + yi jest równa sumie średnich arytmetycznych obliczonych oddzielnie dla obu wartości:

yxyx

Page 20: Wykład 3

Właściwości średniej arytmetycznej

• Wartość średniej arytmetycznej nie ulega zmianie, jeśli wszystkie wagi pomnożymy przez liczbę stałą c:

xnc

xnc

n

xn

i

ii

i

ii

)(

.)(.

Page 21: Wykład 3

Właściwości średniej arytmetycznej

• Jeżeli zbiorowość (populację) liczącą n elementów podzielimy na r podgrup (podpopulacji) o liczebnościach w1, w2, w3,…….wr, wówczas średnia arytmetyczna całej zbiorowości (populacji) jest równa średniej ważonej średnich arytmetycznych ( gdzie j = 1,2,…r) podgrup (podpopulacji), z

wagami wj :

r

jj

r

jjj

k

ii

k

iii

w

xw

n

xnx

1

1

1

1

Page 22: Wykład 3

Właściwości średniej arytmetycznej

• Jeśli zmniejszymy każdy wariant cechy xi o stałą c, to średnia arytmetyczna też ulegnie zmniejszeniu o stałą c:

cxn

cxn

i

ii

)(

Page 23: Wykład 3

Właściwości średniej arytmetycznej

• Jeśli pomnożymy każdy wariant cechy xi przez stałą c, to nowa średnia arytmetyczna będzie c – krotnością średniej pierwotnej:

xcn

xcn

i

ii

).(

Page 24: Wykład 3

Właściwości średniej arytmetycznej

• Jeśli od każdego wariantu xi odejmiemy średnią arytmetyczną wówczas suma tych różnic jest równa zeru:

• Powyższą własność formułujemy często w innej formie: suma odchyleń od średniej arytmetycznej jest równa zeru:

0)( xxn ii

0)( xxi

Page 25: Wykład 3

Właściwości średniej arytmetycznej

• Suma kwadratów odchyleń wartości zmiennych badanej cechy od średniej arytmetycznej rozkładu jest najmniejsza

• Oznacza to, że suma kwadratów odchyleń poszczególnych wartości zmiennych badanej cechy od jakiejkolwiek innej wartości zmiennej rozkładu, różnej od średniej, będzie zawsze większa

min)( 2xxi

Page 26: Wykład 3

Ograniczeniaw stosowaniu

średniej arytmetycznej

Page 27: Wykład 3

• Niejednokrotnie średnia arytmetyczna nie może być uznana za wielkość reprezentatywną dla całego danego zbioru, w sensie wyrażania tendencji centralnej, jej wartość poznawcza jest niewielka (lub nawet żadna), a niekiedy wprowadza po prostu w błąd

Page 28: Wykład 3

Ograniczenia w stosowaniu średniej arytmetycznej

A. W przypadku, gdy przedziały klasowe są otwarte (górny i dolny lub jeden z nich).

• a) gdy liczebności przedziałów otwartych są stosunkowo nieliczne, można je zamknąć i umownie ustalić środek przedziału;

• b) gdy udział liczebności przedziałów otwartych w ogólnej sumie liczebności jest znaczny, rezygnujemy z obliczania średniej

Page 29: Wykład 3

Ograniczenia w stosowaniu średniej arytmetycznej

B. Gdy największe liczebności skupiają się zdecydowanie wokół najniższych lub najwyższych wartości cechy (szereg jest skrajnie asymetryczny).

Mężczyźni w wieku produkcyjnym, bierni zawodowo, według wieku

21,04

23,52

4,872,73 2,84

4,3

6,73

9,5910,69

3,69

0

5

10

15

20

25

20 25 30 35 40 45 50 55 60 65wiek w latach

%

Page 30: Wykład 3

Ograniczenia w stosowaniu średniej arytmetycznej

C. Wartość poznawcza średniej jest żadna, wówczas, gdy ustalamy średnią ze zbiorów niejednorodnych

Page 31: Wykład 3

Ograniczenia w stosowaniu średniej arytmetycznej

D. Obliczanie średniej mija się z celem również w tych szeregach, które dają rozkłady z kilkoma skupiskami dominującymi (są to tzw. szeregi wielomodalne)

Rys. Rozkład dwumodalny

Page 32: Wykład 3

• W większości przypadków rozkłady cech mierzalnych (zwanych zmiennymi) charakteryzują się pewną tendencja centralną, która polega na tym, że w miarę wzrostu liczebności (częstości) zmniejszają się różnice pomiędzy wartościami zmiennej a wartością centralną.

• Rozkłady, które nie odpowiadają temu warunkowi, nie

powinny być opisywane za pomocą wartości średniej.

Page 33: Wykład 3

•rozkłady skrajnie asymetryczne

Page 34: Wykład 3

Średnia geometryczna

Page 35: Wykład 3

Średnią geometryczną n liczb jest pierwiastek stopnia n z iloczynu tych liczb.

• Wykorzystywana jest do badania zbiorowości, w których wartości jednostek są przedstawiane w liczbach względnych

nng xxxx ...21

Page 36: Wykład 3

Mediana

Page 37: Wykład 3

• Mediana odpowiada środkowi zbioru danych, w którym to zbiorze wartości cechy uporządkowano kolejno od najmniejszej do największej (czyli według rosnącej wartości cechy).

Page 38: Wykład 3

• cecha jest skokowa• jeśli liczba obserwacji n jest liczbą nieparzystą,

mediana jest wartością, którą przybiera 0,5(n+1) jednostka liczebności populacji (obserwacja środkowa):

• jeśli liczba obserwacji n jest liczbą parzystą, mediana jest średnią arytmetyczną wartości cechy dwóch sąsiadujących jednostek o numerach porządkowych 0,5n oraz 0,5(n+2):

2

)1()( nxxM

2)( 2

2

2

nn xx

xM

Page 39: Wykład 3

• cecha jest ciągła• wtedy szereg rozdzielczy jest pod postacią klasowych

przedziałów odmian cechy i wówczas kumulacja liczebności wskazuje tylko klasę, w której znajduje się mediana

• wyznaczenie mediany wymaga posłużenia się wzorem interpolacyjnym:

• gdzie:• xm0 –dolna granica klasy mediany• hm –rozpiętość przedziału klasy mediany• nm – liczebność przedziału klasy dominanty

m

mm

iim n

hn

nxxM

1

10 2

1)(

Page 40: Wykład 3

• medianę M(X) można zdefiniować jako taką wartość cechy, że prosta pionowa przechodząca przez nią dzieli obszar pod krzywą na dwie równe części

• w praktyce medianę obliczamy w sytuacji, gdzie jedna lub kilka wartości leży daleko od środka zbioru

• mediana ma często zastosowanie w ekonomii w rozkładach dochodów

• Uwaga!!!

• mediana ma sens tylko wtedy, gdy zbiór danych jest uporządkowany rosnąco lub malejąco.

Page 41: Wykład 3

• przykład

• Sprzedaż filmowych kaset video ma ograniczenia czasowe (na ekrany wchodzą coraz to nowsze filmy i „stare” szybko schodzą z ekranów kin).

Właściciel musi decydować rozsądnie, z jakimi filmami nabyć taśmy.

W tej sytuacji miary: - średnia i mediana – nie będą jemu pomocne.

Zamiast tego, właścicielowi potrzebna jest wiedza na temat, które filmy są najbardziej popularne i cieszą się największym zainteresowaniem, a zatem które filmy prawdopodobnie będą sprzedawać się najlepiej.

Page 42: Wykład 3

Dominanta (moda)

Page 43: Wykład 3

charakterystyczne własności dominanty

• dominanta znajduje zastosowanie wówczas, gdy chcemy jedną liczbą wyrazić wartość cechy najbardziej typową i najczęściej występującą

• istnieje możliwość stosowania dominanty w przypadku analizy cech mierzalnych i niemierzalnych

• dla cechy niemierzalnej dominantą jest ten wariant cechy, która ma największą częstość występowania w badanej zbiorowości

• dominanta jest jedyną miarą przeciętną, która można wyznaczyć dla cech niemierzalnych

Page 44: Wykład 3

charakterystyczne własności dominanty

• jest również możliwe - dla dużych liczebności i odpowiadającym im różnym wartościom - więcej niż jedna dominanta (moda);

• zbiór z 2-oma modami nazywamy dwumodalnym, zbiory z 3-ema modami trzymodalnymi;

• zbiory mające powyżej 2 mód zwą się wielomodalnymi;

• w diametralnie różnym przypadku, gdy każda wartość w zbiorze występuje tylko raz – zbiór nie ma mody.

Page 45: Wykład 3

• w przypadku, kiedy wartości zmiennej pogrupowane są w szereg rozdzielczy sposób wyznaczanie dominanty (mody) w oparciu o jej definicję nie może być zastosowany

• analizując liczebności poszczególnych klas można określić przedział wartości cechy, który dominuje w badanej zbiorowości. Nie wiadomo jednak, która wartość dominuje w badanej zbiorowości

• dominantę (modę) wyznacza się wówczas w sposób przybliżony poprzez interpolację jej wartości z przedziału klasowego

Page 46: Wykład 3

metoda obliczania dominanty

• Metoda interpolacyjna polega na obliczeniu dominanty według wzoru:

• lub:

• gdzie:•

Dx0 - dolna granica przedziału dominującego;• n D - liczebność (częstości względne) przedziału dominującego;• nD-1 - liczebność (częstości względne) przedziału poprzedzającego przedział

dominujący;• nD+1 - liczebność (częstości względne) przedziału następującego po przedziale

dominującym;• hD - rozpiętość przedziału dominującego.

D

DDDD

DDD h

nnnn

nnxxD

)()()(

11

10

D

DDDD

DDD h

wwww

wwxxD

)()()(

11

10

Page 47: Wykład 3

Uwaga!!!

obliczając dominantę (modę) należy pamiętać o tym, że:

• w szeregu rozdzielczym może występować jedno wyraźnie zaznaczone maksimum (tzn. rozkład empiryczny jest jednomodalny);

• przedział dominanty (mody) oraz dwa sąsiadujące z nim przedziały muszą mieć takie same rozpiętości (szerokości);

• jeśli dominanta w szeregu rozdzielczym występuje w skrajnych przedziałach klasowych, wówczas nie oblicza się jej według wzoru interpolacyjnego

Page 48: Wykład 3

Średnie pozycyjne wyższych rzędów

Page 49: Wykład 3

W statystyce często używane są:

• percentyle – dzielimy całkowitą liczebność na 100 części (a=100 elementów, b=99 percentyli)

• decyle – całkowitą liczebność dzielimy na 10 części (a=10 elementów, b=9 decyli)

• kwartyle – całkowitą liczebność dzielimy na 4 części (a=4 elementy, b=3 kwartyle)

• kwintyle - całkowitą liczebność dzielimy na 5 części (a=5 elementów, b=4 kwintyle)

Page 50: Wykład 3

• k-ty percentyl zbioru danych uporządkowanych rosnąco jest to wartość x mająca tę własność, że k procent liczebności zbioru leży na lub poniżej wartości x

Page 51: Wykład 3

• Przy dzieleniu zbiorowości statystycznej na a równych elementów i uzyskiwaniu b = a-1 charakterystyk korzystamy z formuły:

• gdzie:• Qa,b – symbol przeciętnej pozycyjnej

• xq0 –dolna granica przedziału, w której znajduje się poszukiwana przeciętna pozycyjna

• hq –rozpiętość przedziału klasy liczonej przeciętnej pozycyjnej

• nq – liczebność klasy liczonej przeciętnej pozycyjnej

q

qq

iiqba n

hn

b

naxQ

1

10,

1

Page 52: Wykład 3

Kwartyle

• kwartyle to takie wartości cechy Q4,1, Q4,2 i Q4,3 , że ¼ obserwacji leży poniżej Q4,1, ¼ powyżej Q4,3 , ¼ obserwacji leży między Q4,1 a medianą a ¼ obserwacji leży między medianą a Q4,3.

• wielkość Q4,1 zwana jest kwartylem dolnym a Q4,3 kwartylem górnym.

Page 53: Wykład 3

Uwaga!

• Posługiwanie się przeciętnymi pozycyjnymi wyższych rzędów ma sens tylko wówczas, gdy liczebność zbiorowości statystycznej jest znaczna.

Page 54: Wykład 3

Dziękuję za uwagę