STAT rach praw - SGGWwl.sggw.pl/Members/misioo/statystyka1st_rach_praw.pdf · 2012. 2. 1. ·...
Transcript of STAT rach praw - SGGWwl.sggw.pl/Members/misioo/statystyka1st_rach_praw.pdf · 2012. 2. 1. ·...
STATYSTYKA
MATEMATYCZNA
rachunek prawdopodobieństwa
treść
• Zdarzenia losowe
• pojęcie prawdopodobieństwa
• prawo wielkich liczb
• zmienne losowe
• rozkłady teoretyczne zmiennych losowych
Zanim zajmiemy się wnioskowaniem statystycznym
musimy uświadomić sobie, Ŝe nigdy w 100% nie będziemy pewni
czy jest ono prawdziwe czy fałszywe. MoŜemy tylko takiego czy
innego wyniku wnioskowania oczekiwać z określonym
prawdopodobieństwem. To znaczy, Ŝe rezultat wnioskowania jest
zdarzeniem losowym. Musimy zatem zapoznać się z pojęciem
zdarzenia losowego i jego prawdopodobieństwa.
Zdarzenia losowe (przypadkowe) to takie zdarzenia, które
w danym kompleksie warunków mogą zajść lub nie zajść i mają
określone prawdopodobieństwo zajścia lub niezajścia.
W kaŜdym eksperymencie (doświadczeniu, badaniu)
statystycznym moŜna wyróŜnić zbiór wszystkich moŜliwych,
oddzielnych i nie dających rozłoŜyć się na prostsze wyników
obserwacji. Zbiór taki nazywamy zbiorem zdarzeń
elementarnych.
Np. rzut kostką: ZZE to 1,2,3,4,5,6 ale uzyskanie jednego z tych
moŜliwych zdarzeń jest zdarzeniem losowym.
Prawdopodobieństwo zdarzenia losowego jest teoretycznym
odpowiednikiem (względnej) częstości empirycznej (empirycznego
prawdopodobieństwa).
Definicja klasyczna (na podstawie Laplace`a 1812)
Prawdopodobieństwem P zdarzenia losowego A nazywamy
iloraz liczby zdarzeń elementarnych sprzyjających zdarzeniu A oraz
liczby wszystkich zdarzeń elementarnych, jednakowo moŜliwych i
wzajemnie się wykluczających.
( )ba
aAP
+=
( ) 10 ≤≤ AP ( ) ( )APBP −= 1
Definicja matematyczna (na podstawie von Misesa)
Prawdopodobieństwo zdarzenia losowego A jest granicą do
jakiej dąŜy częstość empiryczna, przy załoŜeniu, Ŝe liczebność
jednostek obserwacji dąŜy do nieskończoności.
( )APpin
=∞→
lim
Definicja współczesna (na podstawie Kołmogorowa)
(Prawdopodobieństwo jest tu rozumiane jako miara na podzbiorach
zbioru zdarzeń elementarnych. Definicja zapisywana jest w formie
aksjomatów wynikających z teorii klasycznej Laplace`a)
* KaŜdemu zdarzeniu losowemu A odpowiada określona liczba
P(A) zwana prawdopodobieństwem zdarzenia losowego A
zawierająca się w granicach przedziału liczbowego od 0 do 1
( ) 10 ≤≤ AP
** Prawdopodobieństwo zdarzenia pewnego (obejmującego
wszystkie elementy zbioru Ω) równa się jedności
( ) 1=ΩP
*** JeŜeli A1 , A2 , ..., An , ... jest ciągiem zdarzeń losowych parami
wykluczających się, to prawdopodobieństwo sumy tych zdarzeń jest
równe sumie prawdopodobieństw tych zdarzeń
( ) ( ) ( ) ( ) ............ 2121 ++++=++++ nn APAPAPAAAP
Prawo wielkich liczb leŜy u podstaw badania prawidłowości
statystycznych. Po raz pierwszy opublikowane jako tzw. „Złote
twierdzenie Bernoulliego” w 1713 roku. W okresach późniejszych
bardziej uogólniane przez Poissona, Czebyszewa i innych.
Wzrostowi liczby jednostek obserwacji (ściślej - liczby
niezaleŜnych doświadczeń) odpowiada wzrastające
prawdopodobieństwo zmniejszania się bezwzględnej róŜnicy
między częstością empiryczną z próby a nieznanym co do
poziomu prawdopodobieństwem danego zdarzenia losowego.
ii p
N
n=( ) 1εAPpP i
n=≤−
∞→lim
Na podstawie tego prawa formułowane są ogólniejsze twierdzenia
dotyczące procesów masowych.
Np.: DuŜa liczebność (masowość) próby powoduje, Ŝe odchylenia
na (+) i na (-) między częstością empiryczną i
prawdopodobieństwem mają tendencje do zmniejszania się.
Tendencja ta nie występuje w przypadku małych prób.
„Prawo wielkich liczb” moŜe być rozszerzane i na inne,
poza prawdopodobieństwem, parametry zbiorowości generalnej.
Np.: Wartość liczbowa średniej arytmetycznej z próby (x) jest tym
lepszym oszacowaniem średniej populacji generalnej (µ) im
liczebność losowej próby jest większa.
1lim =≤−=∞→
εµxPn
(uogólnienie Czebyszewa)
Zmienne losowe:
Zmienna losowa (X) jest teoretycznym odpowiednikiem
(modelem) cechy statystycznej. Warianty cechy statystycznej
pojawiają się z określoną częstością empiryczną (szereg rozdzielczy)
a realizacjom zmiennej losowej odpowiadają prawdopodobieństwa
wyznaczone przez odpowiednią funkcję.
Definicja wg. podręcznika prof. Bruchwalda:
Zmienną losową (X) nazywamy funkcję o wartościach
rzeczywistych określoną na zbiorze zdarzeń elementarnych taką, Ŝe
dla dowolnych stałych a < b jest określone prawdopodobieństwo, iŜ
a < X <= b .
Podobnie jak w przypadku cech statystycznych zmienne
losowe dzielimy na skokowe (dyskretne) (Xs) oraz ciągłe (Xc).
Skokowe to takie, których zbiór moŜliwych realizacji jest skończony
(x1 , x2 , x3 , ..., xk) lub przeliczalny (x1 , x2 , x3 , ...).
( ) iis pxXP ==Czyli zmienna losowa skokowa przyjmuje wartości liczbowe (xi) z
prawdopodobieństwem (pi) (gdzie i = 1, 2, 3, ..., k lub i= 1, 2, 3, ... )
Ciągłe to takie, dla których istnieje taka nieujemna funkcja f(x) zwana
funkcją gęstości prawdopodobieństwa, Ŝe dla dowolnych przedziałów
(x1i < x2i) zachodzi:
( ) i
x
x
ici pdxxfxXxPi
i
==<< ∫2
1
)(21
( ) 0== ic xXPnatomiast:
Do metod prezentacji wnioskowania statystycznego niezbędne jest
pojęcie rozkładu zmiennej losowej:
W przypadku zmiennych losowych skokowych, odpowiednia dla
danej zmiennej funkcja określa rozkład prawdopodobieństwa
wszystkich moŜliwych realizacji tej zmiennej P(Xs = xi) = pi.
Dla zmiennych losowych ciągłych funkcja określa gęstość
prawdopodobieństwa, gdyŜ P(Xc = xi) = 0. Liczba wszystkich
moŜliwych zdarzeń dla Xc jest nieskończona.
( ) ( )x
xxXxPxf c
x ∆
∆+<<=
→∆ 0lim
WaŜnym pojęciem w statystyce jest dystrybuanta zmiennej
losowej odpowiednik dystrybuanty empirycznej:
- dla Xs (skokowej):
- dla Xc (ciągłej):
Dystrybuanta zmiennej losowej F(x) jest to prawdopodobieństwo
tego, Ŝe ta zmienna losowa przyjmie wartości <= x.
( ) ( ) ( )is
xx
s xXPxXPxFi
==≤= ∑≤
( ) ( ) dxxfxXPxF
x
c ∫∞−
=<= )(
Wskaźniki charakteryzujące zmienne losowe:
Wartość oczekiwana (nadzieja matematyczna)
odpowiednik średniej arytmetycznej dla populacji:
- dla (Xs):
iis pxEX ∑=N
np i
i = µ=∑ iinxN
1
- dla (Xc):
dxxfxEX c ∫+∞
∞−
= )(
Wariancja zmiennej losowej:
- skokowej ( ) isis pEXxXD22 ∑ −=
( )∫+∞
∞−
−= dxxfEXxXD cc )(22- ciągłej
Teoretyczne rozkłady zmiennej losowej skokowej
- rozkład dwumianowy:
( ) ( )knk
s qpn
kkXP
−
==gdzie:
q = 1 - p
k = 0, 1, 2, ..., n
npEX = npqXD =2npqDX =
( )npq +Dwumian Newtona:
( )↓−↓
↓=
knk
nn
k
Event prob.,Trials0,5,10
Binomial Distribution
x
pro
bab
ilit
y
0 1 2 3 4 5 6 7 8 9 10
0
0,05
0,1
0,15
0,2
0,25
przykłady:
p = 0,5 n = 10
Event prob.,Trials0,2,10
Binomial Distribution
x
pro
bab
ilit
y
0 1 2 3 4 5 6 7 8 9 10
0
0,1
0,2
0,3
0,4
p = 0,2 n = 10
Event prob.,Trials0,7,10
Binomial Distribution
x
pro
bab
ilit
y
0 1 2 3 4 5 6 7 8 9 10
0
0,05
0,1
0,15
0,2
0,25
0,3
p = 0,7 n = 10
Event prob.,Trials0,2,50
Binomial Distribution
x
pro
bab
ilit
y
0 10 20 30 40 50
0
0,03
0,06
0,09
0,12
0,15
p = 0,2 n = 50
inne rozkłady zmiennej losowej skokowej:
- Poissona
( ) λλ −
↓== e
kkXP
k
dla: k = 0, 1, 2, ...
λ >= 0
λ== XDEX 2
( ) 1−== npqnXP dla: n = 1, 2, 3, ...
q = 1-p
pEX
1= 2
2 1
p
pXD
−=
Teoretyczne rozkłady zmiennej losowej ciągłej:
- rozkład normalny:
geometryczny:
2
2
2
)(
2
1)( σ
µ
σ
−−
Π=
x
exf +∞<<∞− x
0>σdla:
µ=EX σ=DX
f(x)
µ14 16 18 20 22 24 26 x
σ σ
N(20;2)
-3 -2 -1 0 1 2 3 z
f(z)N(0;1)
2
2
1
2
1)(
zezf
xz
−
Π=
−=
σµ
dzz
ezF
z
∫∞−
−
Π=
2
2
1
2
1)(
-3 -2 -1 0 1 2 3 z
F(z) 1
0.5
dzz
ezF
z
∫∞−
−
Π=
2
2
1
2
1)(
Inne rozkłady zmiennej losowej ciągłej:
- jednostajny
- gamma
- beta
- wykładniczy
Przykłady: rozkład dwumianowy
xi ni ki niki P(X=k) n’
4 23 0 0 0.1177 29.4
6 82 1 82 0.3025 75.6
8 73 2 146 0.3242 81.0
10 45 3 135 0.1852 46.3
12 24 4 96 0.0595 14.9
14 2 5 10 0.0102 2.6
16 1 6 6 0.0007 0.2
suma 250 475 1.0000 250
35.2
80.7
=
=
σ
µ
3.03167.06
90.1
90.1250
475
≅===
=== ∑
n
kp
N
knk
ii
n
EXp
npEX
=
=
rozkład normalny
xi ni xgi xig - µµµµ zi=(xgi-µµµµ)/σσσσ F(xgi) F(xgi) – F(xgi-1) ni’
x<<<< 3 0 0.0207 5.2
3 -4.8 -2.04 0.0207
4 23 0.0963 24.1
5 -2.8 -1.19 0.1170
6 82 0.2499 62.5
7 -0.8 -0.34 0.3669
8 73 0.3281 82.0
9 1.2 0.51 0.6950
10 45 0.2181 54.5
11 3.2 1.36 0.9131
12 24 0.0733 18.3
13 5.2 2.21 0.9864
14 2 0.0125 3.1
15 7.2 3.06 0.9989
16 1 0.0011 0.3
17 9.2 3.91 1.0000
x>>>>17 0 0.0000 0.0
suma 250 1.0000 250
µ = 7.80 σ = 2.35
Porównanie częstości empirycznych z teoretycznymi
0
10
20
30
40
50
60
70
80
90
0 2 4 6 8 10 12 14 16 18 20
ne
ndw
nnor
x
n
0
10
20
30
40
50
60
70
80
90
0 2 4 6 8 10 12 14 16 18 20
ne
ndw
0
10
20
30
40
50
60
70
80
90
0 2 4 6 8 10 12 14 16 18 20
ne
nnor