Post on 28-Feb-2019
Rozkłady zmiennych losowych
Dane zbierane podczas pomiarów zawsze układają się w pewien określony sposób.
To w jaki, zależy przede wszystkim od zjawiska, które jest obserwowane.
Sposób, w jaki układają się dane- rozkład zmiennej losowej.
Model probabilistyczny
Opisujemy rozkład empiryczny (doświadczalny) pewną krzywą ciągłą- sprawdzamy, czy nasze wyniki można opisać rozkładem teoretycznym.
Nasze wyniki traktujemy jak zmienną losową.
Rozkłady zmiennych losowych
-Bernoulliego
- Beta
- Dwumianowy
- Chi-kwadrat
- Wykładniczy
- F (Fischera-Snedeckora)
- Gamma
- Geometryczny
- Gompertza
- Logistyczny
-Logarytmiczno-
normalny
- Pareto
-Poissona
- Prostokątny
- Rayleigha
- Średniej
- t-studenta
- Weibulla
- Normalny
Rozkład normalny
Krzywa Gaussa: Rozkład o charakterystycznym kształcie "krzywej dzwonowej", symetrycznej w stosunku do średniej.
m
Rozkład normalny
Ogólnie jest dobrym modelem dla rozkładu zmiennej losowej, w sytuacji gdy:
-Występuje silna tendencja do przyjmowania wartości położonych blisko środka rozkładu;
m
Rozkład normalny
Ogólnie jest dobrym modelem dla rozkładu zmiennej losowej, w sytuacji gdy:
- Dodatnie i ujemne odchylenia od środka rozkładu są jednakowo prawdopodobne;
m
Rozkład normalny
Ogólnie jest dobrym modelem dla rozkładu zmiennej losowej, w sytuacji gdy:
- Liczność odchyleń gwałtownie spada wraz ze wzrostem ich wielkości.
m
Rozkład normalny
Podstawowy mechanizm tworzący rozkład normalny: nieskończoną liczbę niezależnych zdarzeń losowych które generują wartości danej zmiennej.
m
Rozkład normalny
Przykład: istnieje prawdopodobnie prawie nieograniczona liczba czynników determinujących wzrost człowieka. Należy spodziewać się, że w populacji wzrost podlega rozkładowi normalnemu.
Rozkład normalny
Najważniejszy rozkład zmiennej losowej ciągłej, ponieważ
• przy nieograniczonym wzroście l-by niezależnych doświadczeń statystycznych WSZYSTKIE znane teoretyczne rozkłady zmiennych losowych ciągłych i dyskretnych są SZYBKO ZBIEŻNE do rozkładu normalnego
•w badaniu prób losowych popełniane są błędy przypadkowe, których rozkład jest normalny lub zbliżony do normalnego
Rozkład normalny
Gęstość prawdopodobieństwa
𝑓 𝑥 =1
𝜎 2𝜋exp(−
𝑥 − 𝜇 2
2𝜎)
m i to parametry rozkładu (mając ich wartości uzyskamy gotową krzywą Gaussa)
Rozkład ten jest określony w przedziale (-,+ )
𝑓 𝑥 =1
𝜎 2𝜋exp(−
𝑥 − 𝜇 2
2𝜎)
Rozkład normalny
Gęstość prawdopodobieństwa
𝑓 𝑥 =1
𝜎 2𝜋exp(−
𝑥 − 𝜇 2
2𝜎)
m
m=E(X) - wartość oczekiwana (średnia arytm.)
=D(X) - odchylenie standardowe
𝑓 𝑥 =1
𝜎 2𝜋exp(−
𝑥 − 𝜇 2
2𝜎)
Rozkład normalny
Zasada 3 :
68% wartości cechy leży w odległości od m;
95,5% wartości cechy leży w odległości 2 od m;
99,7% wartości cechy leży w odległości 3 od m;
Tablice- standaryzowany R.N.
W TABLICACH rozkład normalny sprowadza się do standaryzowanego rozkładu normalnego.
u =x − μ
σ
Wtedy gęstość rozkładu:
f u =1
2πexp −
μ2
2
Tablice- standaryzowany R.N.
W TABLICACH rozkład normalny sprowadza się do standaryzowanego rozkładu normalnego.
Wtedy m=0 i =1:
Tablice- standaryzowany R.N.
W TABLICACH rozkład normalny sprowadza się do standaryzowanego rozkładu normalnego.
A dystrybuanta:
F u =1
2π exp −
μ2
2
∞
−∞
du
Tablice- standaryzowany R.N.
Jeśli poszukujemy p-stwa znalezienia wyników w przedziale (x1,x2) to:
u1 =x1 − μ
σ u2 =
x2 − μ
σ
P(x1<x<x2)=F(x2)-F(x1)=F(u2)-F(u1)
Po co jest potrzebna operacja standaryzacji?
Estymatory
Jeżeli nie wiemy, ile naprawdę wynosi m rozkładu normalnego i (dla całej populacji) a jedynie liczymy średnią arytmetyczną i odchylenie z pomiarów, to wyliczone przybliżone parametry są obarczone błędem.
E(x) = m x
D(x) = 𝜎
E(x)- wartość oczekiwana rozkładu teoretycznego D(x)- odchylenie standardowe rozkładu teoretycznego
Estymatory
Błąd standardowy średniej:
𝜎𝑥 =𝜎
𝑛
Przedział, gdzie znajduje się wartość oczekiwana:
𝜇 = 𝑥 ± 𝜎𝑥
(𝑥 − 𝜎𝑥 ; 𝑥 + 𝜎𝑥 )
Rozkład t-studenta
Rozkład t-studenta ma jeden parametr – liczbę stopni swobody – od niego zależy kształt rozkładu
f=df=n-1
𝑡 =𝑥 − 𝜇
𝜎 𝑥 =𝑥 − 𝜇
𝜎∙ 𝑛 − 1
Przedział ufności
Definicja: Niech cecha X ma rozkład w populacji z nieznanym parametrem θ. Z populacji wybieramy próbę losową (X1, X2, ..., Xn).
Przedziałem ufności (θ - θ1, θ + θ2) o współczynniku ufności 1 - α nazywamy taki przedział (θ - θ1, θ + θ2), który spełnia warunek:
P(θ1 < θ < θ2) = 1 − α gdzie θ1 i θ2 są funkcjami wyznaczonymi na podstawie próby losowej.
Przedział ufności
Definicja:
Definicja pozwala na dowolność wyboru funkcji z próby
ALE
zazwyczaj będziemy poszukiwać przedziałów najkrótszych.
Przedział ufności
Współczynnik ufności 1-a: Prawdopodobieństwo wyznaczenia takiego przedziału, że rzeczywista wartość parametru θ w populacji znajdzie się w tym przedziale. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość 1 - α, tym większa dokładność estymacji, ale jednocześnie tym węższy przedział ufności.
Przedział ufności
Współczynnik ufności 1-a:
Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu. W praktyce przyjmuje się zazwyczaj wartości 1-a:
0,99; 0,95 lub 0,90 WTEDY a (poziom ufności):
0,01; 0,05; 0,1
Przedział ufności
Współczynnik ufności 1-a:
0,95 oznacza to, że średnio na każde 100 przedziałów ustalonych na 100 prób losowych, w 95 przypadkach prawdziwa wartość parametru znajduje się wewnątrz przedziału, natomiast w 5 przypadkach znajduje się poza przedziałem
Przedział ufności
Ponieważ szukamy jak najkrótszych przedziałów ufności, to przy wyznaczaniu przedziału staramy się wykorzystać jak najwięcej dostępnych informacji o rozkładzie cechy w populacji.
Przedział ufności
• Najlepiej, gdy zmienna ma rozkład normalny z odchyleniem standardowym σ – wzór na najdokładniejszy przedział ufności
• Przy nieznanym σ – wzór wtedy stosowany daje przedział szerszy, czyli mniej dokładny
• Wzory ogólniejsze, np. dla nieznanego rozkładu, często korzystają z rozkładów granicznych estymatorów i dlatego wymagają dużej liczebności próby.
Przedział ufności
Przedział ufności dla średniej
Znane odchylenie standardowe
populacji
Nieznane odchylenie standardowe populacji
+ mała próba (n30)
Nieznane odchylenie
standardowe + duża próba (n>30)
Przedział ufności
Przedział ufności dla średniej
Znane odchylenie standardowe
populacji
Nieznane odchylenie standardowe populacji
+ mała próba (n30)
Nieznane odchylenie
standardowe + duża próba (n>30)
Przedział ufności Przedział ufności dla średniej
Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe populacji jest znane:
gdzie: n - liczebność próby losowej - oznacza średnią z próby losowej σ - odchylenie standardowe populacji uα - statystyka, spełniającą warunek: P( − uα < U < uα) = 1 − α, gdzie U jest zmienną losową o rozkładzie normalnym N(0,1). CZYLI kwantyl rozkładu N(0,1) rzędu
𝑃 𝑥 − 𝑢𝛼 ∙𝜎
𝑛< 𝜇 < 𝑥 − 𝑢𝛼 ∙
𝜎
𝑛 = 1 − 𝛼
𝑃 𝑥 − 𝑢𝛼 ∙𝜎
𝑛< 𝜇 < 𝑥 − 𝑢𝛼 ∙
𝜎
𝑛 = 1 − 𝛼
1 −𝛼
2
+
Przedział ufności Przedział ufności dla średniej
P( − uα < U < uα) = 1 − α, gdzie U jest zmienną losową o rozkładzie normalnym N(0,1). CZYLI ua to kwantyl rozkładu N(0,1) rzędu
1 −𝛼
2
Niech a=0,05
P( − u0,05 < U < u0,05) = 1 − 0,05 = 0,95
Przedział ufności Przedział ufności dla średniej
P( − u0,05 < U < u0,05) = 1 − 0,05 = 0,95
Jak znaleźć ua?
Przedział ufności Przedział ufności dla średniej
P( − u0,05 < U < u0,05) = 1 − 0,05 = 0,95
P(u<ua) = 1-a/2 = 1-0,05/2 = 1-0,025 = 0,975
P(u<ua) = P(-<u<ua) = F(ua) – F(-) = F(ua)
Przedział ufności Przedział ufności dla średniej
Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe populacji jest znane:
gdzie: n - liczebność próby losowej - oznacza średnią z próby losowej σ - odchylenie standardowe populacji uα - kwantyl rozkładu N(0,1) rzędu
𝑃 𝑥 − 𝑢𝛼 ∙𝜎
𝑛< 𝜇 < 𝑥 − 𝑢𝛼 ∙
𝜎
𝑛 = 1 − 𝛼
1 −𝛼
2
𝜇 = 𝑥 ± 𝑢𝛼 ∙𝜎
𝑛
Przedział ufności Przedział ufności dla średniej
Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe populacji jest znane:
Taka sytuacja występuje bardzo rzadko (musieli byśmy zbadać CAŁĄ populację generalną)
Przedział ufności
Przedział ufności dla średniej
Znane odchylenie standardowe
populacji
Nieznane odchylenie standardowe populacji
+ mała próba (n30)
Nieznane odchylenie
standardowe + duża próba (n>30)
Przedział ufności Przedział ufności dla średniej
Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe jest nieznane a znamy tylko odchylenie stand, próbki (n30):
gdzie: n - liczebność próby losowej X - średnia z próby losowej σ - odchylenie standardowe z próby t(a,f) – kwantyl rzędu 1 - a/2 rozkładu t-studenta z df=f=n-1 stopniami swobody
𝜎
𝜎
𝑃 𝑥 − 𝑡 𝛼,𝑓 ∙𝜎
𝑛 − 1< 𝜇 < 𝑥 + 𝑡(𝛼,𝑓) ∙
𝜎
𝑛 − 1 = 1 − 𝛼
Przedział ufności Przedział ufności dla średniej
Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe jest nieznane a znamy tylko odchylenie stand, próbki (n30):
gdzie: n - liczebność próby losowej X - średnia z próby losowej σ - odchylenie standardowe z próby t(a,f) – kwantyl rzędu 1 - a/2 rozkładu t-studenta z df=f=n-1 stopniami swobody
𝜎
𝜎
𝜇 = 𝑥 ± 𝑡(𝑃 = 1 − 𝛼,𝑓) ∙𝜎
𝑛 − 1
Przedział ufności Przedział ufności dla średniej
Do obliczeń wykorzystujemy tablice t-studenta dla danego a i f=df=n-1
Przedział ufności Przedział ufności dla średniej
𝜇 = 𝑥 ± 𝑡(𝑃 = 1 − 𝛼,𝑓) ∙𝜎
𝑛 − 1
Zwykle stosuje się ten wzór dla małej próby (n<30). Tak naprawdę działa on dla każdej wielkości próby, jednak dla dużych prób można przybliżyć rozkład t Studenta rozkładem normalnym, co jest łatwiejsze do wyliczenia a dające niemal takie same wartości
Przedział ufności
Przedział ufności dla średniej
Znane odchylenie standardowe
populacji
Nieznane odchylenie standardowe populacji
+ mała próba (n30)
Nieznane odchylenie
standardowe + duża próba (n>30)
Przedział ufności Przedział ufności dla średniej
Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe jest nieznane (znamy tylko próby) a próba jest duża (n>30):
gdzie: n - liczebność próby losowej X - oznacza średnią z próby losowej σ - odchylenie standardowe z próby ua - kwantyl rzędu 1 – a/2 standaryzowanego rozkładu normalnego N(0,1)
𝜎
𝜎
𝑃 𝑥 − 𝑢𝛼 ∙𝜎
𝑛< 𝜇 < 𝑥 + 𝑢𝛼 ∙
𝜎
𝑛 = 1 − 𝛼
Przedział ufności Przedział ufności dla średniej
Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe jest nieznane (znamy tylko próby) a próba jest duża (n>30):
Czyli: 𝜇 = 𝑥 ± 𝑢(𝑃 = 1 − 𝛼) ∙ 𝜎 𝑥
𝜎
gdzie: n - liczebność próby losowej X - oznacza średnią z próby losowej – błąd standardowy średniej u(P=1-a) - kwantyl rzędu 1 – a/2 standaryzowanego rozkładu normalnego N(0,1)
𝜇 = 𝑥 ± 𝑢(𝑃 = 1 − 𝛼) ∙ 𝜎 𝑥
Przedział ufności Przedział ufności dla średniej
Do obliczeń wykorzystujemy tablice t-studenta dla danego a i f=df=
Rozkład chi-kwadrat
Definicja zmiennej losowej 2
Gdy Xi są zmiennymi losowymi losowanymi z rozkładu normalnego N(0,1), to ma rozkład chi-kwadrat o f stopniach swobody. Gdy losowanie odbywa się z rozkładu normalnego N(m,), to:
1 parametr rozkładu: f=n-1 (liczba stopni swobody)
f
i
iX1
2
)
f
i
iX
12
2
2
m
Rozkład chi-kwadrat
Definicja zmiennej losowej 2
00
0
22
1
)(
21
2
2
xdla
xdlaexkxf
xf
f
- funkcja gamma Eulera f – liczba stopni swobody
Rozkład chi-kwadrat
f=1
f=2
f=3
f=4
f=5
f<2 - funkcja jest malejącą dla x>0, f>2 - funkcja ma maksimum przy x=f – 2 Dla dużych f funkcja jest zbliżona do krzywej rozkładu normalnego
Przedział ufności
Przedział ufności dla wariancji
Cecha ma w populacji rozkład normalny N(m,), a n30:
gdzie: n - liczebność próby losowej σ - odchylenie standardowe z próby kwantyle rzędu a/2 i 1-a/2 rozkładu 2 z f=df=n-1 stopniami swobody
𝜎
aaa
12
1,2
2
2
1,2
1
2 ˆ2ˆ
nn
nnP
2
1,2
na 2
112
na
Przedział ufności
Przedział ufności dla wariancji
𝜎2𝑑 =
𝑛 ∙ 𝜎 2
𝜒2(𝑃 = 1 − 𝛼,𝑓 = 𝑛 − 1)
Czyli:
𝜎2𝑔 =
𝑛 ∙ 𝜎 2
𝜒2(1 − 𝑃,𝑓 = 𝑛 − 1)
Przedział ufności
Przedział ufności dla wariancji
Do obliczeń wykorzystujemy tablice wartości krytycznych rozkładu chi-kwadrat dla danego a i f=df=n-1
Przedział ufności
Przedział ufności dla odchylenia standardowego
Cecha ma w populacji rozkład normalny N(m,), a n30:
aaa
12
1,2
2
2
1,2
1
2 ˆˆ
nn
nnP
Przedział ufności
Przedział ufności dla odch. stand, (wariancji)
Cecha ma w populacji rozkład normalny N(m,), a n>30:
gdzie: n - liczebność próby losowej σ - odchylenie standardowe z próby uα – kwantyl rzędu 1-a/2 standaryzowanego rozkładu normalnego N(0,1)
𝜎
aaa
122
1
ˆ
1
ˆ
n
u
n
uP