SM wykład3 97 › apps › f › Jt5qAg6k › stat... · Krzywa rozkładu T jest podobna do...
Transcript of SM wykład3 97 › apps › f › Jt5qAg6k › stat... · Krzywa rozkładu T jest podobna do...
2016‐01‐10
1
Statystyka
Rozkład prawdopodobieństwaTestowanie hipotez
Wykład III (04.01.2016)
Rozkład t-Studenta
Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym;stosuje się go wyznaczenia przedziału ufności dla średniej, wtedy gdy:
1. Populacja, z której pobrano próby ma w przybliżeniu rozkład normalny
2. Rozmiar próby jest mały, tzn. n < 30
3. Odchylenie standardowe dla populacji jest nieznane
2016‐01‐10
2
Rozkład t-Studenta
Rozkład t-Studenta
Zdefiniowany w roku 1908 przez W.S. Gosseta, pracownika browarówGuinnessa w Dublinie. Jest stosowany do badania małych próbek.Rozkład t-Studenta zależy tylko od jednego parametru zwanego liczbąstopnii swobody, lub df (degree of freedom).
Krzywa rozkładu T jest podobna do N(0,1), jest symetryczna, lecz bardziejspłaszczona. Dla dużej liczby stopni swobody jest nierozróżnialna odstandaryzowanego rozkładu normalnego.
Nt
Rozkład t-Studenta
Liczba stopni swobody () określa ile danych ze zbioru można zmienićbez zagrożenia zmianą wyznaczanego parametru.Przy obliczeniu wartości średniej:
Wartość oczekiwana rozkładu T:
a odchylenie standardowe:
Dla n=7:
=7-1=6odchylenie:
)2/()( TV
225.1)26/(6
Rozkład T dla 7 elementowej próby, tzn. przy 6 stopniach swobody vs. N(0,1)
-4 -3 -2 -1 0 1 2 3 40
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
N(0,1)
t dla = 6
0)( TE
1 n
2016‐01‐10
3
Przedziały ufności dla małej próby
Przedziałem ufności nazywamy taki przedział liczbowy, który z zadanym zgóry prawdopodobieństwem (1-), pokrywa nieznaną wartość parametru tw populacji generalnej. Przedział ufności służy do estymacji(oszacowania) wartości średniej populacji.
gdzie L i P to wartości krytyczne (krańcowe) dla przedziału ufności; to poziom istotności.
Na poziomie ufności (1-) wartość średniej dla populacji zawiera sięw przedziale:
gdzie
Wartość t odczytujemy z tablicy rozkładu T przy stopniach swobodyi przy zadanym poziomie istotności .
xs tx
n
ssx
1)PtL(P
Tabela rozkładu t-Studenta
Tablice zmiennej losowej t-Studenta (T) o stopniach swobody sąopracowane tak, że podają przy założonym poziomie istotności takąwartość krytyczną (t,) zmiennej losowej T dla której zachodzizależność:
)t( ,TP
0
,t
2
2
,t
1
/Powierzchnia pod krzywą rozkładu T
2016‐01‐10
4
Rozkład t-Studenta, przykłady
Przykład:Dla 18 obserwacji wyznacz wartość krytyczną (t,) zmiennej losowej na poziomie ufności 90%.
Poziom ufności: 90% =0.9=(1-)Poziom istotności: = 0.1n = 18, = n – 1 = 17
t0.1,17 1.740
/
Rozkład t-Studenta, przykłady
Przykład:Jaka jest wartość zmiennej losowej t-Studenta o 4 stopniach swobody,która spełnia warunek: ?
Liczba 2.776 spełnia warunek:
/
05.0)t( 4,05.0 TP
05.0)776.2( 4 TP
0
‐2.776 2.776
0.025 0.025
t
2016‐01‐10
5
Rozkład t-Studenta, przykłady
Przykład:Dr Kowalski chciał oszacować średni poziom cholesterolu mieszkańców swojejmiejscowości. Wykonał badanie na próbie 25 osób. Średni poziom cholesteroluw tej grupie wyniósł 186 z odchyleniem standardowym 12. Przy założeniu, żerozkład poziomu cholesterolu mieszkańców miejscowości jest rozkłademnormalnym wyznaczyć 95% przedział ufności średniej zawartości cholesteroludla wszystkich mieszkańców.
Dane: n=25, =186, s=12, (1-)=0.95
= 25-1=24
= 0.05
x
? xs tx
Rozkład t-Studenta, przykłady
Przykład, cd.
Wartość t krytyczne z tablic:t0.05,24 = 2.064
Z 95% zaufaniem można stwierdzić, że średni poziom cholesterolu mieszkańców miejscowości zawiera się w granicach:
[181.05 190.95]
W tym przypadku wartość średnia dla próby jest estymatorem punktowym wartości średniej badanej populacji.
95.41864.2064.2186 x0.05,24 stx
4.225
12
n
ssx
0
‐2.064 2.064
0.025 0.025
t
186x
2016‐01‐10
6
Testowanie hipotez
Testy statystyczne
W przypadku każdego testu statystycznego można popełnić dwa rodzaje błędów:
Błąd pierwszego rodzaju – odrzucenie prawdziwej hipotezyBłąd drugiego rodzaju – przyjęcie hipotezy fałszywej
Trzecia opcja nie istnieje!
Podział testów:Parametryczne – stosowanie ich wymaga przyjęcia założeń o postaci rozkładu testowanej zmiennej losowej oraz znajomości wybranych statystyk
Nieparametryczne – nie wymagają powyższych założeń, ale nie są tak mocne jak testy parametryczne
2016‐01‐10
7
Hipotezy
Weryfikacja hipotezy przebiega według pewnego schematupostępowania zwanego testem statystycznym. Weryfikując hipotezęparametryczną mówimy o teście parametrycznym, w innym przypadkutesty nazywamy nieparametrycznymi.Testy na podstawie wyników z próby losowej pozwalają podjąć decyzjęo przyjęciu bądź odrzuceniu postawionej hipotezy.
Weryfikacja hipotez rozpoczyna się od postawienia i sprawdzenia tzw.hipotezy zerowej, H0.
Następnie formułuje się hipotezę konkurencyjną, którą przyjmuje się wprzypadku odrzucenia hipotezy zerowej. Taką hipotezę nazywamyhipotezą alternatywną, H1.
Hipotezy
PrzykładW zarządzaniu jakością często stawiane jest pytanie:
•czy wartość określonej statystyki uzyskanej z próby losowej(szczególnie gdy próbka ma małą liczebność) pozwala sądzić, żeodpowiada ona wartości wymaganej (spodziewanej)
lub też
•czy poprawa uzyskana w wyniku działań doskanalających jest tylkopozorna (wynika z małej liczby pomiarów sprawdzających), czy jestpoprawą rzeczywistą
Odpowiedzi na tak stawiane pytania uzyskuje się w tzw.testach statystycznych.
2016‐01‐10
8
Wnioskowanie statystyczne
Wnioskowanie statystyczne sprowadza się do weryfikowania hipotezformułowanych na podstawie założonego modelu teoretycznego. Jednymz rodzajów takiego wnioskowania jest wnioskowanie oparte naprzedziałach ufności.
PrzykładInteresuje nas populacja studentów I roku chemii i na podstawiepewnych przesłanek spodziewamy się, że średnia ocen z egzaminóww tej populacji wyniesie 0 = 3.18.
W takim przypadku należy na podstawie wybranej próby sprawdzić czyrzeczywiście wartość średnia populacji jest równa 3.18. Przyjęcie hipotezy zerowejH0: = 3.18 oznacza, że = 3.18
Można sformułować wiele hipotez alternatywnych, ale sens mają tylko trzy:
H1A: <3.18H1B: >3.18H1C: ≠3.18
Wnioskowanie statystyczne
Poziom ufności (1-) jest to prawdopodobieństwo, że nieznana wartośćzmiennej losowej znajduje się wewnątrz przedziału ufności.
Przedział ufności jest to przedział liczbowy, w którym z prawdo-podobieństwem (1- ) znajduje się nieznana wartość zmiennej losowej.
Poziom istotności () jest to prawdopodobieństwo, że nieznana wartośćzmiennej losowej nie znajduje się wewnątrz przedziału ufności.
Wielkość parametru ustala statystyk.Jest to kluczowy parametr w statystyce matematycznej.
2016‐01‐10
9
Wnioskowanie statystyczne
Poziom ufności (1-)(1-)=0.9pole niebieskiej powierzchni wynosi 0.9,czyli stanowi 90% całkowitej powierzchnipod krzywą rozkładu normalnego
0.450.45
x
zPrzedział ufności
1.28‐1.28
Poziom istotności =0.1Suma niebieskich pól wynosi 0.1, czylistanowi 10% całkowitej powierzchni podkrzywą rozkładu normalnego
/2 = 0.05 /2 = 0.05
z0
1.28‐1.28 0
Wnioskowanie statystyczne
Hipoteza typu: < 0, lub > 0 nazywa się hipotezą jednostronną,a test związany z jej weryfikacją - testem jednostronnym.
Analogicznie, testem dwustronnym nazywa się test użyty do weryfikowaniahipotezy dwustronnej, tzn. hipotezy postaci: ≠ 0.Może się zdarzyć, że formułując hipotezę jednostronną test statystycznyda podstawy do jej przyjęcia (bo odrzucona zostanie H0), natomiast niebędzie można przyjąć hipotezy alternatywnej w przypadku hipotezydwustronnej.
Przed przystąpieniem do testowania muszą być sformułowane obiehipotezy: zerowa i alternatywna.
2016‐01‐10
10
Test dwustronny
=3.18
zacieniowany obszar wynosi /2
zacieniowany obszar wynosi /2
C1 C2
Obszarodrzucenia
ObszarodrzuceniaObszar
przyjęcia
wartościkrytyczne
x
Test lewostronny
=3.18
zacieniowany obszar wynosi
C
Obszarodrzucenia
Obszar przyjęcia
Wartość krytyczna
x
2016‐01‐10
11
Test prawostronny
=3.18
zacieniowany obszar wynosi
C
Obszar odrzucenia
Obszar przyjęcia
Wartość krytyczna
x
Testy
Test dwustronny
Testlewostronny
Testprawostronny
Znak dla hipotezy zerowej H0
= = lub ≥ = lub ≤
Znak dla hipotezy alternatywnej H1
≠ < >
Obszar wykluczenia
Skrajne wartościz obu stron
Skrajne wartości z lewej strony
Skrajne wartości z prawej strony
Podsumowanie zależności między znakiem hipotezy zerowej H0 i alternatywnej H1, a obszarem wykluczenia
2016‐01‐10
12
Testowanie - etapy
Etapy testowania statystycznego:
1.Definicja hipotezy zerowej i alternatywnej
2.Wybór typu rozkładu
3.Wyznaczenie obszarów odrzucenia
4.Obliczenie wartości statystyki testującej
5.Podjęcie decyzji
Testowanie
PrzykładW roku akad. 2007/2008 student poświęcał dziennie średnio 12.44 minuty na sport. W roku2008/2009, na podstawie ankiety przeprowadzonej na grupie 150 osób otrzymano, że średni czasprzeznaczony na zajęcia sportowe wynosił 13.71 a odchylenie standardowe 2.65 min. Napoziomie ufności 95% sprawdzić czy średni czas poświęcony na sport w roku 2008/2009 jestróżny od wartości z roku 2007/2008.
Dane:
Rozmiar próby n=150, średnia z próby min
odchylenie std dla próby s=2.65 min
Etap 1. Definicja hipotezy zerowej i alternatywnej
Hipoteza zerowa H0: = 12.44
tzn. średni czas przeznaczony na sport w roku 2007/2008 i 2008/2009 jest taki sam.
Hipoteza alternatywna H1: ≠ 12.44,
tzn. średni czas przeznaczony na sport w roku 2008/2009 jest różny od 12.44 min.
71.13x
2016‐01‐10
13
Testowanie
Etap 2. Wybór typu rozkładu
Ponieważ rozmiar próby n>30, to można założyć, że rozkład wartości średnich z
próby podlega rozkładowi normalnemu.
Etap 3. Wyznaczenie obszarów odrzucenia
Założony 95% poziom ufności (czyli =0.05) oznacza, że całkowita powierzchnia do
odrzucenia ze standaryzowanego rozkładu normalnego wynosi 0.05. Wybór hipotezy
alternatywnej (znak ≠) oznacza, że tę powierzchnię dzielimy na dwie części
– z obu stron należy odrzucić powierzchnie o wartości /2 = 0.05/2 = 0.025.
W celu znalezienia wartości krytycznej, rozdzielającej obszar odrzucenia od obszaru
przyjęcia, korzystamy z tablic rozkładu normalnego i odczytujemy wartości z, które
odpowiadają polu powierzchni o wartości 0.025 oraz 0.975 (=1 - 0.025).
x
Testowanie
2016‐01‐10
14
Testowanie
Wartości krytyczne wynoszą 1.96 i -1.96.Jeżeli wartość x leży w przedziale ufności, to należy przyjąć hipotezę zerową H0, winnym przypadku hipoteza ta powinna zostać odrzucona. W tym celu dla wartości. dla próby (wartość obserwowalna) należy obliczyć wartość z, nazywana statystykątestującą. Jeśli statystyka testująca leży w przedziale [-1.96 1.96] to hipotezazerowa H0 nie powinna być odrzucona.
x
Testowanie
Etap 4. Obliczenie statystyki testującej
Dla dużej próby statystyka z dla wartości średniej z próby wyznaczana jest
następująco:
jeżeli jest znane
jeżeli jest nieznane
gdzie i
Wartość z obliczona dla wartości nosi nazwę obserwowalnej wartości z.
Ponieważ nie jest znane, wartość z obliczana jest na podstawie :
Wartość z wyznaczona na podstawie wartości nazywana jest obliczoną wartością
statystyki testującej.
x
x
x
x
-x
z
x
-x
sz
nx / ./ nssx
87.52163.0
44.1271.13
x
-x
sz
2163.0
150
65.2
n
ssx
2016‐01‐10
15
Testowanie
=12.44
/2=0.025/2=0.025
‐1.96 1.96
Obszarodrzucenia H0
Obszarodrzucenia H0Obszar
akceptacji
wartościkrytyczne
x
Poziom istotności=0.05
0.475 0.475
z5.87
Testowanie
Etap 5. Podjęcie decyzji
Ponieważ wartość z przekracza górne granice przedziału [-1.96 1.96], należy więc
odrzucić hipotezę zerową.
Oznacza to, że średni dzienny czas przeznaczony na sport w roku akad. 2008/2009
różni się od 12.44 min.
Z 95% prawdopodobieństwem można stwierdzić, że w roku akad. 2008/2009 studenci
w ciągu dnia nie przeznaczyli średnio na sport 12.44 min.
Z 5% prawdopodobieństwem można stwierdzić, że w roku 2008/2009 studenci
przeznaczyli na sport tyle samo czasu co w roku 2007/2008.