Podstawy statystyki dla psychologów - zajęcia 3 - miary tendencji centralnej oraz miary...

Post on 05-Dec-2014

11.921 views 0 download

description

 

Transcript of Podstawy statystyki dla psychologów - zajęcia 3 - miary tendencji centralnej oraz miary...

Podstawy statystyki dla psychologów

Zajęcia 3

Karol Wolski

MIARY TENDENCJI CENTRALNEJ

Miary tendencji centralnej

• Miara tendencji centralnej – wartość liczbowa, która opisuje centralne położenie rozkładu wyników– Moda, modalna, dominanta– Mediana– Średnia

Moda, modalna, dominanta

• Modalna to najczęstsza wartość występująca w naszym zbiorze wyników– 3, 4, 4, 5, 4, 6, 7– Mo=4

• Modalną możemy wyznaczyć również dla zmiennej jakościowej– Jabłko, gruszka, śliwka, jabłko, jabłko, gruszka– Mo=jabłko

Moda, modalna, dominanta

• W przypadku danych pogrupowanych w przedziały klasowe modalna, odpowiadać będzie środkowi najliczniejszego przedziału– Mo=85

Mediana

• Mediana – wartość, która dzieli rozkład wyników na dwie połowy, Mdn– 0, 7, 8, 11, 15, 16, 20• Mdn=11

– 12, 14, 15, 18, 19, 20• Mdn= (15+18)/2=16,5• W takiej sytuacji mediana znajduje się w połowie

odległości pomiędzy dwiema środkowymi wartościami

Mediana

• Sytuacja wygląda trochę inaczej gdy mamy do czynienia z powtarzającymi się danymi (na zmiennej ciągłej)– 5, 7, 8, 8, 8, 8– Strategia 1, Mdn=8– Strategia 2, określamy dokładną wartość poprzez tak zwaną

interpolację liniową• 8 reprezentuje wyniki leżące pomiędzy realnymi granicami7,5 a 8,5• Nasza mediana leży pomiędzy pierwszą a druga ósemką czyli w ¼

przedziału o szerokości 1• Zatem Mdn=7,5+0,25=7,75

Średnia arytmetyczna

• Średnia arytmetyczna jest sumą wszystkich wyników w rozkładzie podzieloną przez ich całkowitą liczbę.

• średnia z próby• średnia w populacji

O zapisie statystycznym

• Co oznacza ?

Właściwości modalnej

• Modalna jest stosunkowo mało stabilna dla różnych grup wylosowanych z tej samej populacji

• W przypadku wyznaczania modalnej dla danych pogrupowanych, na jej wartość silnie oddziałuje szerokość przedziału oraz jego lokalizacja

• W danym zbiorze wyników możemy mieć więcej niż jedną modalną– 5, 6, 6, 7, 7, 8, 9, 11– Skrajnym przypadkiem jej tutaj rozkład prostokątny, tam ilość

modalnych równa jest ilości wszystkich wartości• Jest to jedyny wskaźnik jakiego możemy użyć gdy dokonaliśmy

pomiaru na zmiennej nominalnej

Właściwości mediany

• Jest stosunkowo mało czuła (w porównaniu do średniej) na obecność w zbiorze wyników ekstremalnych

• Jest jednak wrażliwa na to ile wyników leży poniżej, a ile powyżej jej wartości, nie ma znaczenia jak bardzo są to wysokie wyniki– 3, 4, 5, 6, 7– 3, 4, 5, 6, 121

Właściwości mediany

• Mediana jest lepszą miarą tendencji centralnej niż średnia w przypadku gdy mamy do czynienia ze skośnymi rozkładami, lub gdy w naszym rozkładzie znajduje się kilka bardzo niskich lub bardzo wysokich wyników

Właściwości średniej arytmetycznej

• Średnia arytmetyczna jest wrażliwa na dokładną wartość (lokalizację) każdego wyniku w rozkładzie– 3, 4, 5, 6, 7 =5; Mdn=5– 3, 4, 5, 6, 121 = 27,8; Mdn=5

• Średnią potraktować możemy jako punkt równowagi rozkładu, tzn. suma ujemnych odchyleń od średniej równoważy sumę odchyleń dodatnich

Właściwości średniej arytmetycznej

• Średnia jest najbardziej odporna na losową zmienność próby – jej wartość waha się stosunkowo najmniej pomiędzy różnymi próbami wylosowanym z tej samej populacji• Odporność na zmienność próby > Mdn > Mo

• Jeżeli zależy nam na tym aby miara tendencji centralnej odzwierciedlała ogół wyników to najlepiej wybrać średnią

• Jest niezbędna do wielu obliczeń statystycznych

Właściwości średniej arytmetycznej

• Po dokonaniu liniowej transformacji wyników (dodawanie, odejmowanie, mnożenie, dzielenie) średnia ulega zmianie o taką samą wartość jak każdy z transformowanych wyników

Miary tendencji centralnej a skośność rozkładu

MIARY ZMIENNOŚCI

Rozkłady normalne o różnej zmienności

Tendencja centralna a zmienność

• Poznanie samej miary tendencji centralnej np. średniej nie daje nam wystarczającego obrazu wyników– 3, 3, 3, 3, 3; – 1, 2, 3, 4, 5;

• Miary zmienności wyrażają ilościowo, jak bardzo skupione albo jak bardzo rozproszone są wyniki w rozkładzie

• Aby opisać dany rozkład potrzebujemy zarówno miary tendencji centralnej jak i miary zmienności

Rozstęp

• Najprostsza miara zmienności• Rozstęp jest różnicą pomiędzy najwyższym a

najniższym wynikiem w rozkładzie• Rozstęp w przeciwieństwie do miar tendencji

centralnej nie jest punktem (na osi odciętej).– 3, 5, 6, 7, 13, 23– 33, 34, 43, 46, 53• Oba rozkłady mają równy rozstęp

Rozstęp

• W przypadku rozkładu pogrupowanego rozstęp obliczamy biorąc pod uwagę możliwy najniższy wynik, który można włączyć do pierwszego przedziału i możliwy najwyższy wynik ostatniego przedziału– Używamy więc dolnej pozornej granicy pierwszego

przedziału i górne pozornej granicy przedziału najwyższego

• Jest podatny na pojawianie się skrajnych wyników

Mała dygresja – odchylenie wyniku

• Odchylenie wyrażamy formułą

Każdy otrzymany wynik możemy przedstawić za pomocą jego odchylenia– 1, 2, 3, 4, 5 X

1 (1-3)=-2

2 (2-3)=-1

3 (3-3)=0

4 (4-3)=1

5 (5-3)=2

Wariancja

• Wariancja to średnia z kwadratów odchyleń– Czyli.. Wróćmy do naszej tabeli– Wiemy, że jeśli dodamy do siebie odchylenia od

średniej to ich sumy będzie równa zero -> średnia jako punkt równowagi rozkładu X

1 (1-3)=-22 (2-3)=-13 (3-3)=04 (4-3)=15 (5-3)=2

n=5

SUMA=-2+(-1)+0+1+2 = 0

Wariancja

• Aby móc wykorzystać odchylenia od średniej jako miarę zmienności musimy więc „pozbyć” się ujemnych znaków, tak aby uzyskać wynik różny od zera– Można to zrobić podnosząc odchylenia do kwadratu

i sumując je:– lub skrótowo – Takie wyrażenie nazywamy sumą kwadratów

odchyleń od średniej lub skrótowo sumą kwadratów

WariancjaX

1 (1-3)=-2 4

2 (2-3)=-1 1

3 (3-3)=0 0

4 (4-3)=1 1

5 (5-3)=2 4

n=5 SUMA=-2+(-1)+0+1+2 = 0 = 10

Wariancja

• Jeśli wariancja to średnia z kwadratów odchyleń to:– - wariancja w próbie

• Wariancję w populacji wyrażamy tym samym wzorem tylko z użyciem innych oznaczeń aby wyraźnie rozgraniczyć ją od wariancji w próbie!– - wariancja w populacji

Wariancja

• Czasami używamy też takiego wzoru:– – Wariancja jest tzw. statystyką obciążoną w

przeciwieństwie do nieobciążonej średniej– Ma ona tendencję to systematycznego zaniżania

wartości wariancji w populacji– Jeśli zatem na podstawie wariancji w grupie chcemy

wnioskować o wariancji w populacji możemy użyć powyższego wzoru

– Wtedy nie mówimy już o wariancji w próbie ale o nieobciążonym oszacowaniem wariancji populacyjnej

Wariancja

• Jest bardzo użyteczna i powszechnie wykorzystywana we wnioskowaniu statystycznym

• Jest jednak niewygodna do opisu danych, ponieważ jest wyrażona w jednostkach pomiarowych podniesionych do kwadratu

Odchylenie standardowe - SD

• Odchylenie standardowe możemy wyrazić wzorem– = -SD w próbie (czasami – Czyli odchylenie standardowe uzyskujemy poprzez

wyciągnięcie pierwiastka kwadratowego z wariancji

– = - SD w populacji

Dygresja – suma kwadratów

• Obliczanie sumy kwadratów według wzoru bywa żmudne i kłopotliwe

• Sprawę można sobie ułatwić– =• Teraz nie musimy wyliczać odchyleń od średniej

Właściwości odchylenia standardowego

• SD podobnie jak średnia jest wrażliwe na dokładne położenie każdego wyniku w rozkładzie

• Jeżeli obliczamy SD od średniej to suma kwadratów jest mniejsza niż gdybyśmy policzyli SD od dowolnej innej liczby w rozkładzie– A=– To pozwala na definiowanie średniej w alternatywny

sposób: taki punkt, dla którego suma kwadratów odchyleń ma wartość minimalną

Właściwości odchylenia standardowego

• Jest stosunkowo odporne na losową zmienność próby, dlatego też jest tak często wykorzystywane

Miary zmienności i transformacja wyników

• Jeżeli do każdego wyniku w rozkładzie dodamy lub odejmiemy stałą, to takie działanie nie wpływanie na żadną z miar zmienności

• Jeśli każdy wynik pomnożymy lub podzielimy przez stałą, to miary zmienności również zostanie pomnożona lub podzielona przez tę stałą (ulegnie zmianie)