Wykład 3
-
Upload
wylie-evans -
Category
Documents
-
view
47 -
download
3
description
Transcript of Wykład 3
![Page 1: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/1.jpg)
![Page 2: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/2.jpg)
Wykład 3
Charakterystyki opisowe rozkładu
jednej cechy
![Page 3: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/3.jpg)
Klasyfikacja miar statystycznych
• ze względu na informacje, jakie przynoszą one o rozkładzie cechy w zbiorowości:
Miary poziomu Miary dyspersji Miary asymetrii
![Page 4: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/4.jpg)
Klasyfikacja miar statystycznych
• ze względu zakres danych niezbędnych do wyliczenia tych miar:
• ● miary klasycznedla wyliczenia tych miar wykorzystuje się wartości cechy zaobserwowane u wszystkich badanych jednostek
● miary pozycyjnedla wyliczenia tych miar wykorzystuje się wartości cechy tylko niektórych jednostek, wybranych ze względu na pozycję, jaka zajmują one w uporządkowanym ciągu zaobserwowanych jednostek cechy
![Page 5: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/5.jpg)
Klasyfikacja miar statystycznych
• dodatkowo, miary statystyczne mogą być miarami:
• ● absolutnymimianowanymi, a więc wyrażonymi w mianie badanej cechy – lata, metry, sztuki, kilogramy, godziny itp..
● względnymi (stosunkowymi)niemianowanymi, wyrażonymi w ułamku lub w procencie – uzyskanymi poprzez podzielenie przez siebie odpowiednich miar absolutnych
![Page 6: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/6.jpg)
Miary jednej cechy
Miary poziomu
![Page 7: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/7.jpg)
• Miary poziomu rozkładu liczebności zwane są wartościami przeciętnymi(lub średnimi)
• najbardziej rozpowszechnione w praktyce• zacierają różnice indywidualne badanych jednostek• o wartości liczbowej tej miary decydują wartości
liczbowe cechy posiadane przez wszystkie jednostki populacji
• za pomocą jednej liczby podają centralną tendencję (poziom wartości zmiennej)
![Page 8: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/8.jpg)
Miary przeciętne
Miary klasyczne Miary pozycyjne
MedianaDominanta (moda)
Kwantyle
Średnia arytmetycznaŚrednia geometryczna
![Page 9: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/9.jpg)
Miary przeciętne
klasyczne
Średnia arytmetycznaŚrednia geometryczna
są wypadkowymi wartościami wszystkich odmian cechy
wszystkich badanychjednostek zbiorowości
![Page 10: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/10.jpg)
Miary przeciętne
pozycyjne
MedianaDominanta (moda)
Kwantyle
wskazują na określoną pozycję
jednostek
![Page 11: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/11.jpg)
Miary przeciętne
pozycyjne
Mediana
wskazują na określoną pozycję
jednostek
pozycja środkowa
Dominanta (moda) pozycja najczęstsza (typowa)
Kwantyle uporządkowaną populację dzielą na części
![Page 12: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/12.jpg)
• Podstawową i najbardziej znaną miarą położenia i jednocześnie miarą tendencji centralnej jest średnia
• Jest to średnia arytmetyczna wartości cechy
• Aby wyznaczyć poziom średniej badana cecha musi być mierzalną
![Page 13: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/13.jpg)
Jak otrzymać wartość średniej arytmetycznej dla danych indywidualnych?
• dysponując n wartościami cechy:
• w pierwszej kolejności obliczamy sumę tych wartości:
• a następnie dzielimy przez liczbę obserwacji n:
nxxxx ,.....,,, 321
nxxxx .....321
xn
x
n
xxxxśrednia n
...321
![Page 14: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/14.jpg)
• Średnia arytmetyczna jest pewną abstrakcyjną wielkością, wypadkową wszystkich zaobserwowanych wartości cechy, powstałą wskutek operacji matematycznej
• Obliczona wartość średnia z reguły przyjmuje wartość w zbiorowości nie występującą
• Średnia arytmetyczna zaciera różnice indywidualne
• Zmiana jakiejkolwiek wartości w zbiorze danych pociąga za sobą zmianę wartości średniej
![Page 15: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/15.jpg)
Jak otrzymać wartość średniej arytmetycznej dla danych pogrupowanych?
• w tym przypadku można uzyskać jedynie pewne przybliżenie, przyjmując, że każda jednostka ni należąca do danej klasy ma wartość cechy równą wartościom środka przedziału klasowego:
k
ii
k
iii
k
kk
n
nx
nnnnn
nxnxnxnxnxx
1
1
4321
44332211
....
....
![Page 16: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/16.jpg)
Właściwości średniej arytmetycznej
![Page 17: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/17.jpg)
Właściwości średniej arytmetycznej
• Wartość liczbowa średniej arytmetycznej ma takie samo miano jak badana cecha
![Page 18: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/18.jpg)
Właściwości średniej arytmetycznej
• Średnia arytmetyczna zawiera się między krańcowymi wartościami cechy:
maxmin xxx
![Page 19: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/19.jpg)
Właściwości średniej arytmetycznej
• Średnia arytmetyczna obliczona z wartości sum xi + yi jest równa sumie średnich arytmetycznych obliczonych oddzielnie dla obu wartości:
yxyx
![Page 20: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/20.jpg)
Właściwości średniej arytmetycznej
• Wartość średniej arytmetycznej nie ulega zmianie, jeśli wszystkie wagi pomnożymy przez liczbę stałą c:
xnc
xnc
n
xn
i
ii
i
ii
)(
.)(.
![Page 21: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/21.jpg)
Właściwości średniej arytmetycznej
• Jeżeli zbiorowość (populację) liczącą n elementów podzielimy na r podgrup (podpopulacji) o liczebnościach w1, w2, w3,…….wr, wówczas średnia arytmetyczna całej zbiorowości (populacji) jest równa średniej ważonej średnich arytmetycznych ( gdzie j = 1,2,…r) podgrup (podpopulacji), z
wagami wj :
r
jj
r
jjj
k
ii
k
iii
w
xw
n
xnx
1
1
1
1
![Page 22: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/22.jpg)
Właściwości średniej arytmetycznej
• Jeśli zmniejszymy każdy wariant cechy xi o stałą c, to średnia arytmetyczna też ulegnie zmniejszeniu o stałą c:
cxn
cxn
i
ii
)(
![Page 23: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/23.jpg)
Właściwości średniej arytmetycznej
• Jeśli pomnożymy każdy wariant cechy xi przez stałą c, to nowa średnia arytmetyczna będzie c – krotnością średniej pierwotnej:
xcn
xcn
i
ii
).(
![Page 24: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/24.jpg)
Właściwości średniej arytmetycznej
• Jeśli od każdego wariantu xi odejmiemy średnią arytmetyczną wówczas suma tych różnic jest równa zeru:
• Powyższą własność formułujemy często w innej formie: suma odchyleń od średniej arytmetycznej jest równa zeru:
•
0)( xxn ii
0)( xxi
![Page 25: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/25.jpg)
Właściwości średniej arytmetycznej
• Suma kwadratów odchyleń wartości zmiennych badanej cechy od średniej arytmetycznej rozkładu jest najmniejsza
• Oznacza to, że suma kwadratów odchyleń poszczególnych wartości zmiennych badanej cechy od jakiejkolwiek innej wartości zmiennej rozkładu, różnej od średniej, będzie zawsze większa
min)( 2xxi
![Page 26: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/26.jpg)
Ograniczeniaw stosowaniu
średniej arytmetycznej
![Page 27: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/27.jpg)
• Niejednokrotnie średnia arytmetyczna nie może być uznana za wielkość reprezentatywną dla całego danego zbioru, w sensie wyrażania tendencji centralnej, jej wartość poznawcza jest niewielka (lub nawet żadna), a niekiedy wprowadza po prostu w błąd
![Page 28: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/28.jpg)
Ograniczenia w stosowaniu średniej arytmetycznej
A. W przypadku, gdy przedziały klasowe są otwarte (górny i dolny lub jeden z nich).
• a) gdy liczebności przedziałów otwartych są stosunkowo nieliczne, można je zamknąć i umownie ustalić środek przedziału;
• b) gdy udział liczebności przedziałów otwartych w ogólnej sumie liczebności jest znaczny, rezygnujemy z obliczania średniej
![Page 29: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/29.jpg)
Ograniczenia w stosowaniu średniej arytmetycznej
B. Gdy największe liczebności skupiają się zdecydowanie wokół najniższych lub najwyższych wartości cechy (szereg jest skrajnie asymetryczny).
Mężczyźni w wieku produkcyjnym, bierni zawodowo, według wieku
21,04
23,52
4,872,73 2,84
4,3
6,73
9,5910,69
3,69
0
5
10
15
20
25
20 25 30 35 40 45 50 55 60 65wiek w latach
%
![Page 30: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/30.jpg)
Ograniczenia w stosowaniu średniej arytmetycznej
C. Wartość poznawcza średniej jest żadna, wówczas, gdy ustalamy średnią ze zbiorów niejednorodnych
![Page 31: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/31.jpg)
Ograniczenia w stosowaniu średniej arytmetycznej
D. Obliczanie średniej mija się z celem również w tych szeregach, które dają rozkłady z kilkoma skupiskami dominującymi (są to tzw. szeregi wielomodalne)
Rys. Rozkład dwumodalny
![Page 32: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/32.jpg)
• W większości przypadków rozkłady cech mierzalnych (zwanych zmiennymi) charakteryzują się pewną tendencja centralną, która polega na tym, że w miarę wzrostu liczebności (częstości) zmniejszają się różnice pomiędzy wartościami zmiennej a wartością centralną.
• Rozkłady, które nie odpowiadają temu warunkowi, nie
powinny być opisywane za pomocą wartości średniej.
![Page 33: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/33.jpg)
•rozkłady skrajnie asymetryczne
![Page 34: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/34.jpg)
Średnia geometryczna
![Page 35: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/35.jpg)
Średnią geometryczną n liczb jest pierwiastek stopnia n z iloczynu tych liczb.
• Wykorzystywana jest do badania zbiorowości, w których wartości jednostek są przedstawiane w liczbach względnych
nng xxxx ...21
![Page 36: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/36.jpg)
Mediana
![Page 37: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/37.jpg)
• Mediana odpowiada środkowi zbioru danych, w którym to zbiorze wartości cechy uporządkowano kolejno od najmniejszej do największej (czyli według rosnącej wartości cechy).
![Page 38: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/38.jpg)
• cecha jest skokowa• jeśli liczba obserwacji n jest liczbą nieparzystą,
mediana jest wartością, którą przybiera 0,5(n+1) jednostka liczebności populacji (obserwacja środkowa):
• jeśli liczba obserwacji n jest liczbą parzystą, mediana jest średnią arytmetyczną wartości cechy dwóch sąsiadujących jednostek o numerach porządkowych 0,5n oraz 0,5(n+2):
2
)1()( nxxM
2)( 2
2
2
nn xx
xM
![Page 39: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/39.jpg)
• cecha jest ciągła• wtedy szereg rozdzielczy jest pod postacią klasowych
przedziałów odmian cechy i wówczas kumulacja liczebności wskazuje tylko klasę, w której znajduje się mediana
• wyznaczenie mediany wymaga posłużenia się wzorem interpolacyjnym:
• gdzie:• xm0 –dolna granica klasy mediany• hm –rozpiętość przedziału klasy mediany• nm – liczebność przedziału klasy dominanty
m
mm
iim n
hn
nxxM
1
10 2
1)(
![Page 40: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/40.jpg)
• medianę M(X) można zdefiniować jako taką wartość cechy, że prosta pionowa przechodząca przez nią dzieli obszar pod krzywą na dwie równe części
• w praktyce medianę obliczamy w sytuacji, gdzie jedna lub kilka wartości leży daleko od środka zbioru
• mediana ma często zastosowanie w ekonomii w rozkładach dochodów
• Uwaga!!!
• mediana ma sens tylko wtedy, gdy zbiór danych jest uporządkowany rosnąco lub malejąco.
![Page 41: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/41.jpg)
• przykład
• Sprzedaż filmowych kaset video ma ograniczenia czasowe (na ekrany wchodzą coraz to nowsze filmy i „stare” szybko schodzą z ekranów kin).
Właściciel musi decydować rozsądnie, z jakimi filmami nabyć taśmy.
W tej sytuacji miary: - średnia i mediana – nie będą jemu pomocne.
Zamiast tego, właścicielowi potrzebna jest wiedza na temat, które filmy są najbardziej popularne i cieszą się największym zainteresowaniem, a zatem które filmy prawdopodobnie będą sprzedawać się najlepiej.
![Page 42: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/42.jpg)
Dominanta (moda)
![Page 43: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/43.jpg)
charakterystyczne własności dominanty
• dominanta znajduje zastosowanie wówczas, gdy chcemy jedną liczbą wyrazić wartość cechy najbardziej typową i najczęściej występującą
• istnieje możliwość stosowania dominanty w przypadku analizy cech mierzalnych i niemierzalnych
• dla cechy niemierzalnej dominantą jest ten wariant cechy, która ma największą częstość występowania w badanej zbiorowości
• dominanta jest jedyną miarą przeciętną, która można wyznaczyć dla cech niemierzalnych
![Page 44: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/44.jpg)
charakterystyczne własności dominanty
• jest również możliwe - dla dużych liczebności i odpowiadającym im różnym wartościom - więcej niż jedna dominanta (moda);
• zbiór z 2-oma modami nazywamy dwumodalnym, zbiory z 3-ema modami trzymodalnymi;
• zbiory mające powyżej 2 mód zwą się wielomodalnymi;
• w diametralnie różnym przypadku, gdy każda wartość w zbiorze występuje tylko raz – zbiór nie ma mody.
![Page 45: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/45.jpg)
• w przypadku, kiedy wartości zmiennej pogrupowane są w szereg rozdzielczy sposób wyznaczanie dominanty (mody) w oparciu o jej definicję nie może być zastosowany
• analizując liczebności poszczególnych klas można określić przedział wartości cechy, który dominuje w badanej zbiorowości. Nie wiadomo jednak, która wartość dominuje w badanej zbiorowości
• dominantę (modę) wyznacza się wówczas w sposób przybliżony poprzez interpolację jej wartości z przedziału klasowego
![Page 46: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/46.jpg)
metoda obliczania dominanty
• Metoda interpolacyjna polega na obliczeniu dominanty według wzoru:
• lub:
• gdzie:•
Dx0 - dolna granica przedziału dominującego;• n D - liczebność (częstości względne) przedziału dominującego;• nD-1 - liczebność (częstości względne) przedziału poprzedzającego przedział
dominujący;• nD+1 - liczebność (częstości względne) przedziału następującego po przedziale
dominującym;• hD - rozpiętość przedziału dominującego.
D
DDDD
DDD h
nnnn
nnxxD
)()()(
11
10
D
DDDD
DDD h
wwww
wwxxD
)()()(
11
10
![Page 47: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/47.jpg)
Uwaga!!!
obliczając dominantę (modę) należy pamiętać o tym, że:
• w szeregu rozdzielczym może występować jedno wyraźnie zaznaczone maksimum (tzn. rozkład empiryczny jest jednomodalny);
• przedział dominanty (mody) oraz dwa sąsiadujące z nim przedziały muszą mieć takie same rozpiętości (szerokości);
• jeśli dominanta w szeregu rozdzielczym występuje w skrajnych przedziałach klasowych, wówczas nie oblicza się jej według wzoru interpolacyjnego
![Page 48: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/48.jpg)
Średnie pozycyjne wyższych rzędów
![Page 49: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/49.jpg)
W statystyce często używane są:
• percentyle – dzielimy całkowitą liczebność na 100 części (a=100 elementów, b=99 percentyli)
• decyle – całkowitą liczebność dzielimy na 10 części (a=10 elementów, b=9 decyli)
• kwartyle – całkowitą liczebność dzielimy na 4 części (a=4 elementy, b=3 kwartyle)
• kwintyle - całkowitą liczebność dzielimy na 5 części (a=5 elementów, b=4 kwintyle)
![Page 50: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/50.jpg)
• k-ty percentyl zbioru danych uporządkowanych rosnąco jest to wartość x mająca tę własność, że k procent liczebności zbioru leży na lub poniżej wartości x
![Page 51: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/51.jpg)
• Przy dzieleniu zbiorowości statystycznej na a równych elementów i uzyskiwaniu b = a-1 charakterystyk korzystamy z formuły:
• gdzie:• Qa,b – symbol przeciętnej pozycyjnej
• xq0 –dolna granica przedziału, w której znajduje się poszukiwana przeciętna pozycyjna
• hq –rozpiętość przedziału klasy liczonej przeciętnej pozycyjnej
• nq – liczebność klasy liczonej przeciętnej pozycyjnej
q
iiqba n
hn
b
naxQ
1
10,
1
![Page 52: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/52.jpg)
Kwartyle
• kwartyle to takie wartości cechy Q4,1, Q4,2 i Q4,3 , że ¼ obserwacji leży poniżej Q4,1, ¼ powyżej Q4,3 , ¼ obserwacji leży między Q4,1 a medianą a ¼ obserwacji leży między medianą a Q4,3.
• wielkość Q4,1 zwana jest kwartylem dolnym a Q4,3 kwartylem górnym.
![Page 53: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/53.jpg)
Uwaga!
• Posługiwanie się przeciętnymi pozycyjnymi wyższych rzędów ma sens tylko wówczas, gdy liczebność zbiorowości statystycznej jest znaczna.
![Page 54: Wykład 3](https://reader034.fdocuments.pl/reader034/viewer/2022051620/56813105550346895d973571/html5/thumbnails/54.jpg)
Dziękuję za uwagę