Prezentacja danych liczbowych Wykład 2 dr Małgorzata Radziukiewicz
-
Upload
maite-york -
Category
Documents
-
view
38 -
download
0
description
Transcript of Prezentacja danych liczbowych Wykład 2 dr Małgorzata Radziukiewicz
Prezentacja danych liczbowych
Wykład 2
dr Małgorzata Radziukiewicz
Prezentacja danych liczbowych
• Materiał liczbowy zebrany w trakcie badania statystycznego może być przedstawiony na trzy sposoby:
• 1. tabelarycznie• 2. graficznie• 3. parametrycznie
• Podstawowym narzędziem opisu badanej populacji jest tzw. szereg statystyczny (szereg liczbowy, szereg empiryczny)
• Szczególną rolę wśród szeregów statystycznych odgrywa szereg rozdzielczy - Szereg rozdzielczy rozdziela całą populację na grupy według wariantów badanej cechy
- Zazwyczaj szeregi rozdzielcze przedstawiamy w formie tablic
Zestawienie danych w tablicę statystyczną• Tablica statystyczna składa się z 2-óch kolumn
- 1-a kolumna – podajemy warianty badanej cechy w formie uporządkowanej, tzn. od najmniejszej do największej lub odwrotnie
- 2-ga kolumna – podajemy liczbę jednostek posiadających dany wariant cechy
Tablica 1. Schemat tablicy wynikowej
Poziomy cechy - x Liczba jednostek
x1 n1
… …
xk nk
Razem n
Przykład 1.
populacja – ludność Polski w 2000 roku wg. stanu na 31.06.2000 r. (38646 tys.)badana cecha – płećwarianty cechy – mężczyźni, kobiety
Płeć W tysiącach osób
Mężczyzna 18777
Kobieta 19869
Niekiedy zamiast liczebności przyporządkowanych poszczególnym wariantom cechy posługujemy się częstościami
Częstości to udziały liczebności poszczególnych grup w ogólnej liczebności całej populacji Tablica 2. Schemat tablicy wynikowej
Poziomy cechy
xi
Liczebności ni
Częstości
(odsetek ogółu) wi
x1 n1 w1
…xk
…nk
…wk
Razem n 1,00 lub 100%
Przykład 2.
populacja – ludność Polski w 2000 roku wg. stanu na 31.06.2000 r. (38646 tys.) badana cecha – miejsce zamieszkania warianty cechy – miasto (M), wieś (W)
Miejsce zamieszkania
Liczebności (w tys. osób)
Częstości
Miasto 23897 0,618 lub 61,8%
Wieś 14749 0,382 lub 38,2%
Razem 38646 1,000 lub 100%
Dwa podstawowe kanony szeregowania zbioru
• musi być ono rozłączne, tzn. poszczególne warianty cechy (grupy) nie mogą wzajemnie zachodzić na siebie (w przykładzie 1 osoba może być albo kobietą albo mężczyzną, w przykładzie 2 jedna i ta sama osoba może być mieszkańcem miasta albo wsi)
• musi być ono zupełne, tzn. warianty cechy muszą wyczerpać wszystkie jednostki wchodzące w skład populacji. ( z ogólnej liczebności 38646 tys. mieszkańców Polski przyporządkowano je w całości poszczególnym odmianom cechy)
Przykład 3
populacja –studenci statystyki WSMiZ w Sochaczewie
badana cecha – waga (w kg)
ilość wariantów cechy bardzo duża -68,63,67,65,69,72,62,64,66,68,66,62,60,70,71,63,67,63,66,65,69,67,72,68,74,65,66,61,64,61,62,64,65,65,71,64.
Komentarz: Przyglądając się powyższym liczbom bardzo
trudno określić jakieś wzory czy relacje między studentami.
Aby odkryć pewne relacje należy uporządkować liczby w następującej kolejności:
60,61,61,62,62,62,63,63,63,64,64,64,64,65,65,65,65,65,66,66,66,66,67,67,68,68,68,68,69,69,70,71,71,72,72,74.
Wartości te porządkujemy tak, aby xmin = x1 < x2 < … < xk = xmax , gdzie xmin oraz xmax oznaczają kolejno najmniejszą i największą
wartość cechy zaobserwowanej w badanej zbiorowości.
Komentarz:
Najmniejsza waga studenta to 60 kg, największa to 74 kg.
Różnica między maksymalną a minimalną wagą wynosi 14 kg.
Różnica powyższa jest znana w statystyce jako rozstęp.
Rozstęp = największa wartość cechy - najmniejsza wartość cechy
Komentarz: Studentów z najniższą wagą - 60 i 61 kg - jest niewielu, również niewielu jest studentów z wagą powyżej 70 kg. Najwięcej studentów ma wagę od 62 do 68 kg.
Pytanie?
Jak często dana miara występuje? Ilu studentów ma tę samą wagę?
Liczebność = liczba wystąpień pomiaru
Pokażemy liczbę występowania każdej z wag w tablicy 1.Tablica 1.
waga liczebność waga liczebność
60
61
62
63
64
65
66
67
1
2
3
3
4
5
4
2
68
69
70
71
72
73
74
4
2
1
2
2
0
1
Wadą tablicy 1 jest to, iż liczba poszczególnych miar wagowych jest duża, zaś częstość ich wystąpień niewielka. Np. waga równa 73 kg w ogóle nie występuje.
W tej sytuacji lepiej połączyć dane dotyczące wagi studentów w grupy lub klasy.
Np. możemy pogrupować je w następujące klasy: 60-62, 63-65, 66-68, 69-71, 72-74.
Powyższe liczby pokazują początek (x0i) i koniec każdej klasy (x1i) i znane są jako przedziały klasowe ( x0i - x1i ) dla i=1,2,…k gdzie k – liczba klas
Przedziały klasowe są najmniejszymi i największymi wartościami danych dla klasy
Obecnie możemy skonstruować tablicę 2, która powie nam ile zdarzeń jest w każdej klasie
Tablica 2.
Klasai
Przedziały klasowex0i – x1i
Liczebność ni
1 60 – 62 6
2 63 – 65 12
3 66 – 68 10
4 69 – 71 5
5 72 - 74 3
• Tablica 2 pokazuje nam jak miary wagowe są rozłożone i jaką mają rozpiętość.
• Tablicę 2 nazywamy tablicą rozkładu liczebności lub prościej rozkładem liczebności.
Uwaga!!! • Rozkład liczebności (częstości absolutnych) możemy
skonstruować dla każdego zbioru danych wcześniej porządkowanego rosnąco lub malejąco.
Przy konstrukcji tablicy rozkładu liczebności należy uwzględnić:• rozkład liczebności powinien zawierać minimum 5 klas i nie
przekraczać 20. Dane o niewielkiej liczebności powinny zawierać od 5 do 10 klas. Dla dużych zbiorów danych przyjmuje się liczbę klas nie większą niż 20.
• każda miara może trafić tylko do jednej klasy.
• największa wartość w klasie powinna być o 1 mniejsza od najmniejszej wartości w następnej klasie. Jeśli w danej klasie nie występują żadne wartości (zerowa liczebność), wtedy klasa ma zerową częstość.
• poszczególne klasy powinny mieć tę samą rozpiętość. Rozpiętość przedziału klasowego możemy obliczyć następująco:
rozpiętość klasy = (max – min) / liczba klas
Przy konstrukcji tablicy rozkładu liczebności należy uwzględnić:
• jeżeli z obliczeń nie otrzymamy liczby całkowitej, zwykle zaokrąglamy do kolejnej liczby całkowitej (w naszym przypadku (74-60) / 5 = 2,8 3 )
• czasami pożądane jest aby przedział pierwszy miał tylko górną granicę, a przedział ostatni tylko dolną granicę ( np. „poniżej 60” i „powyżej 74” )
• czasami pożądana jest znajomość częstości względnych (stosunkowych) tj. udziału części do całości zbiorowości.
W naszym przypadku w pierwszym przedziale klasowym znalazło się 6 studentów na ogólną ich liczbę 36 ( wagę od 60 do 62 kg miało 6-iu spośród 36 studentów). Obliczamy to następująco: 6 / 36 = 0,167 = 16,7% 17%. Wartość 0,167 lub 16,7% jest częstością względną dla pierwszej klasy.
Częstość względna klasy = liczebność klasy / liczebność ogółu zbiorowości
Tablica 3
Klasai
Przedziały klasowex0i – x1i
Liczebność ni
Częstości względne wi
(wskaźnik struktury)
1 60 – 62 6 6/36 = 0,167
2 63 – 65 12 12/36 = 0,333
3 66 – 68 10 10/36 = 0,278
4 69 – 71 5 5/36 = 0,139
5 72 - 74 3 3/36 = 0,083
Częstości względne wi mogą być podane w %
Tablica 4.
Klasai
Przedziały klasowex0i – x1i
Liczebność ni
Częstości względne wi
(struktura w %)
1 60 – 62 6 16,7%
2 63 – 65 12 33,3%
3 66 – 68 10 27,8%
4 69 – 71 5 13,9%
5 72 - 74 3 8,3%
● tablica rozkładu liczebności może zawierać również kolumnę pokazującą skumulowane liczebności dla wszystkich klas● końcowa wartość skumulowanych liczebności jest dokładnie równa całkowitej liczebności badanej zbiorowościTablica 5
Klasai
Przedziały klasowex0i – x1i
Liczebność ni
Skumulowane liczebności
1 60 – 62 6 6
2 63 – 65 12 18
3 66 – 68 10 28
4 69 – 71 5 33
5 72 - 74 3 36
● tablica rozkładu liczebności może zawierać również kolumnę pokazującą skumulowane częstości dla wszystkich klas● suma względnych częstości nie jest zawsze dokładnie równa 1 (100%). Dlatego powinniśmy oczekiwać przybliżonych wartości dla częstości względnychTablica 6
Klasai
Przedziały klasowex0i – x1i
Częstości względne
wi
Skumulowane częstości względne
1 60 – 62 0,167 0,167
2 63 – 65 0,333 0,500
3 66 – 68 0,278 0,778
4 69 – 71 0,139 0,917
5 72 - 74 0,083 1,000
• Wybór co do liczby klas jest zawsze subiektywny.
• Brak jest zasad dotyczących stosowanych granic przedziałów klasowych, ale zawsze pożądana jest ta sama rozpiętość przedziałów klasowych.
• Jeśli rozpatrzymy tę samą zbiorowość danych i uporządkujemy je według innych granic przedziałów klasowych to rezultaty będą zupełnie inne.
• Przykład 3 c.d.
populacja – studenci statystyki WSMiZ w Sochaczewie (36 studentów)
badana cecha – waga (w kg)
ilość wariantów cechy bardzo duża -68,63,67,65,69,72,62,64,66,68,66,62,60,70,71,63,67,63,66,65,69,67,72,68,74,65,66,61,64,61,62,64,65,65,71,64.
Dla powyższego zestawu danych zbudować rozkład częstości dla k=8 klas.
Tablica 7.rozpiętość przedziałów klasowych - (74-60)/8= 1,75 ≈ 2
Klasai
Przedziały klasowex0i – x1i
Liczebność ni
1 60-61 3
2 62-63 6
3 64-65 9
4 66-67 7
5 68-69 5
6 70-71 3
7 72-73 2
8 74-75 1