Post on 05-Dec-2014
description
Podstawy statystyki dla psychologów
Zajęcia 3
Karol Wolski
MIARY TENDENCJI CENTRALNEJ
Miary tendencji centralnej
• Miara tendencji centralnej – wartość liczbowa, która opisuje centralne położenie rozkładu wyników– Moda, modalna, dominanta– Mediana– Średnia
Moda, modalna, dominanta
• Modalna to najczęstsza wartość występująca w naszym zbiorze wyników– 3, 4, 4, 5, 4, 6, 7– Mo=4
• Modalną możemy wyznaczyć również dla zmiennej jakościowej– Jabłko, gruszka, śliwka, jabłko, jabłko, gruszka– Mo=jabłko
Moda, modalna, dominanta
• W przypadku danych pogrupowanych w przedziały klasowe modalna, odpowiadać będzie środkowi najliczniejszego przedziału– Mo=85
Mediana
• Mediana – wartość, która dzieli rozkład wyników na dwie połowy, Mdn– 0, 7, 8, 11, 15, 16, 20• Mdn=11
– 12, 14, 15, 18, 19, 20• Mdn= (15+18)/2=16,5• W takiej sytuacji mediana znajduje się w połowie
odległości pomiędzy dwiema środkowymi wartościami
Mediana
• Sytuacja wygląda trochę inaczej gdy mamy do czynienia z powtarzającymi się danymi (na zmiennej ciągłej)– 5, 7, 8, 8, 8, 8– Strategia 1, Mdn=8– Strategia 2, określamy dokładną wartość poprzez tak zwaną
interpolację liniową• 8 reprezentuje wyniki leżące pomiędzy realnymi granicami7,5 a 8,5• Nasza mediana leży pomiędzy pierwszą a druga ósemką czyli w ¼
przedziału o szerokości 1• Zatem Mdn=7,5+0,25=7,75
Średnia arytmetyczna
• Średnia arytmetyczna jest sumą wszystkich wyników w rozkładzie podzieloną przez ich całkowitą liczbę.
• średnia z próby• średnia w populacji
O zapisie statystycznym
• Co oznacza ?
Właściwości modalnej
• Modalna jest stosunkowo mało stabilna dla różnych grup wylosowanych z tej samej populacji
• W przypadku wyznaczania modalnej dla danych pogrupowanych, na jej wartość silnie oddziałuje szerokość przedziału oraz jego lokalizacja
• W danym zbiorze wyników możemy mieć więcej niż jedną modalną– 5, 6, 6, 7, 7, 8, 9, 11– Skrajnym przypadkiem jej tutaj rozkład prostokątny, tam ilość
modalnych równa jest ilości wszystkich wartości• Jest to jedyny wskaźnik jakiego możemy użyć gdy dokonaliśmy
pomiaru na zmiennej nominalnej
Właściwości mediany
• Jest stosunkowo mało czuła (w porównaniu do średniej) na obecność w zbiorze wyników ekstremalnych
• Jest jednak wrażliwa na to ile wyników leży poniżej, a ile powyżej jej wartości, nie ma znaczenia jak bardzo są to wysokie wyniki– 3, 4, 5, 6, 7– 3, 4, 5, 6, 121
Właściwości mediany
• Mediana jest lepszą miarą tendencji centralnej niż średnia w przypadku gdy mamy do czynienia ze skośnymi rozkładami, lub gdy w naszym rozkładzie znajduje się kilka bardzo niskich lub bardzo wysokich wyników
Właściwości średniej arytmetycznej
• Średnia arytmetyczna jest wrażliwa na dokładną wartość (lokalizację) każdego wyniku w rozkładzie– 3, 4, 5, 6, 7 =5; Mdn=5– 3, 4, 5, 6, 121 = 27,8; Mdn=5
• Średnią potraktować możemy jako punkt równowagi rozkładu, tzn. suma ujemnych odchyleń od średniej równoważy sumę odchyleń dodatnich
Właściwości średniej arytmetycznej
• Średnia jest najbardziej odporna na losową zmienność próby – jej wartość waha się stosunkowo najmniej pomiędzy różnymi próbami wylosowanym z tej samej populacji• Odporność na zmienność próby > Mdn > Mo
• Jeżeli zależy nam na tym aby miara tendencji centralnej odzwierciedlała ogół wyników to najlepiej wybrać średnią
• Jest niezbędna do wielu obliczeń statystycznych
Właściwości średniej arytmetycznej
• Po dokonaniu liniowej transformacji wyników (dodawanie, odejmowanie, mnożenie, dzielenie) średnia ulega zmianie o taką samą wartość jak każdy z transformowanych wyników
Miary tendencji centralnej a skośność rozkładu
MIARY ZMIENNOŚCI
Rozkłady normalne o różnej zmienności
Tendencja centralna a zmienność
• Poznanie samej miary tendencji centralnej np. średniej nie daje nam wystarczającego obrazu wyników– 3, 3, 3, 3, 3; – 1, 2, 3, 4, 5;
• Miary zmienności wyrażają ilościowo, jak bardzo skupione albo jak bardzo rozproszone są wyniki w rozkładzie
• Aby opisać dany rozkład potrzebujemy zarówno miary tendencji centralnej jak i miary zmienności
Rozstęp
• Najprostsza miara zmienności• Rozstęp jest różnicą pomiędzy najwyższym a
najniższym wynikiem w rozkładzie• Rozstęp w przeciwieństwie do miar tendencji
centralnej nie jest punktem (na osi odciętej).– 3, 5, 6, 7, 13, 23– 33, 34, 43, 46, 53• Oba rozkłady mają równy rozstęp
Rozstęp
• W przypadku rozkładu pogrupowanego rozstęp obliczamy biorąc pod uwagę możliwy najniższy wynik, który można włączyć do pierwszego przedziału i możliwy najwyższy wynik ostatniego przedziału– Używamy więc dolnej pozornej granicy pierwszego
przedziału i górne pozornej granicy przedziału najwyższego
• Jest podatny na pojawianie się skrajnych wyników
Mała dygresja – odchylenie wyniku
• Odchylenie wyrażamy formułą
Każdy otrzymany wynik możemy przedstawić za pomocą jego odchylenia– 1, 2, 3, 4, 5 X
1 (1-3)=-2
2 (2-3)=-1
3 (3-3)=0
4 (4-3)=1
5 (5-3)=2
Wariancja
• Wariancja to średnia z kwadratów odchyleń– Czyli.. Wróćmy do naszej tabeli– Wiemy, że jeśli dodamy do siebie odchylenia od
średniej to ich sumy będzie równa zero -> średnia jako punkt równowagi rozkładu X
1 (1-3)=-22 (2-3)=-13 (3-3)=04 (4-3)=15 (5-3)=2
n=5
SUMA=-2+(-1)+0+1+2 = 0
Wariancja
• Aby móc wykorzystać odchylenia od średniej jako miarę zmienności musimy więc „pozbyć” się ujemnych znaków, tak aby uzyskać wynik różny od zera– Można to zrobić podnosząc odchylenia do kwadratu
i sumując je:– lub skrótowo – Takie wyrażenie nazywamy sumą kwadratów
odchyleń od średniej lub skrótowo sumą kwadratów
WariancjaX
1 (1-3)=-2 4
2 (2-3)=-1 1
3 (3-3)=0 0
4 (4-3)=1 1
5 (5-3)=2 4
n=5 SUMA=-2+(-1)+0+1+2 = 0 = 10
Wariancja
• Jeśli wariancja to średnia z kwadratów odchyleń to:– - wariancja w próbie
• Wariancję w populacji wyrażamy tym samym wzorem tylko z użyciem innych oznaczeń aby wyraźnie rozgraniczyć ją od wariancji w próbie!– - wariancja w populacji
Wariancja
• Czasami używamy też takiego wzoru:– – Wariancja jest tzw. statystyką obciążoną w
przeciwieństwie do nieobciążonej średniej– Ma ona tendencję to systematycznego zaniżania
wartości wariancji w populacji– Jeśli zatem na podstawie wariancji w grupie chcemy
wnioskować o wariancji w populacji możemy użyć powyższego wzoru
– Wtedy nie mówimy już o wariancji w próbie ale o nieobciążonym oszacowaniem wariancji populacyjnej
Wariancja
• Jest bardzo użyteczna i powszechnie wykorzystywana we wnioskowaniu statystycznym
• Jest jednak niewygodna do opisu danych, ponieważ jest wyrażona w jednostkach pomiarowych podniesionych do kwadratu
Odchylenie standardowe - SD
• Odchylenie standardowe możemy wyrazić wzorem– = -SD w próbie (czasami – Czyli odchylenie standardowe uzyskujemy poprzez
wyciągnięcie pierwiastka kwadratowego z wariancji
– = - SD w populacji
Dygresja – suma kwadratów
• Obliczanie sumy kwadratów według wzoru bywa żmudne i kłopotliwe
• Sprawę można sobie ułatwić– =• Teraz nie musimy wyliczać odchyleń od średniej
Właściwości odchylenia standardowego
• SD podobnie jak średnia jest wrażliwe na dokładne położenie każdego wyniku w rozkładzie
• Jeżeli obliczamy SD od średniej to suma kwadratów jest mniejsza niż gdybyśmy policzyli SD od dowolnej innej liczby w rozkładzie– A=– To pozwala na definiowanie średniej w alternatywny
sposób: taki punkt, dla którego suma kwadratów odchyleń ma wartość minimalną
Właściwości odchylenia standardowego
• Jest stosunkowo odporne na losową zmienność próby, dlatego też jest tak często wykorzystywane
Miary zmienności i transformacja wyników
• Jeżeli do każdego wyniku w rozkładzie dodamy lub odejmiemy stałą, to takie działanie nie wpływanie na żadną z miar zmienności
• Jeśli każdy wynik pomnożymy lub podzielimy przez stałą, to miary zmienności również zostanie pomnożona lub podzielona przez tę stałą (ulegnie zmianie)