Ciągłe zmienne losowe - math.uni.lodz.plmath.uni.lodz.pl/~skalskg/MiSwF/15wyklad14.pdf · Uwaga...

Post on 24-Jun-2020

5 views 0 download

Transcript of Ciągłe zmienne losowe - math.uni.lodz.plmath.uni.lodz.pl/~skalskg/MiSwF/15wyklad14.pdf · Uwaga...

Ciągłe zmienne losoweBadając strukturę populacji pod względem danej cechy rysujemy często histogram częstości względnych. Najbardziej istotną cechą histogramu jest jego kształt, który często daje się zwięźle opisać za pomocą pewnej krzywej regularnej (ciągłej) bliskiej niemu.

Rozpatrzmy histogram częstości względnych 1000 wyników pewnego pomiaru. Pola słupów są równe częstości względnej wpadnięcia pomiaru do odpowiedniego przedziału. Suma pól wszystkich słupków jest równa 1.

Ciągłe zmienne losowe

Ciągłe zmienne losowe

Ciągłe zmienne losoweZauważmy, że dla małej rozpiętości przedziału klasowego słupki histogramu są bardzo wąskie, a zmiany wysokości przylegających do siebie słupków nieznaczne. Na skutek tego, po pominięciu pionowych słupków, histogram daje się bardzo dobrze opisać przez wyrysowaną krzywą ciągłą. Zachowuje ona zasadnicze cechy histogramu: jej maksimum jest bliskie dominancie, a szybkość malenia przy oddalaniu się od dominanty jest zbliżona do szybkości malenia częstości histogramu. Oczywiście, pole pod krzywą nad każdym przedziałem histogramu powinno być bliskie odpowiedniej częstości; pole pod całą krzywą — równe 1.

Ciągłe zmienne losowe

Ciągłe zmienne losowe

Ciągłe zmienne losoweKrzywą ciągłą przybliżającą histogram i taką, że całkowite pole znajdujące się pod nią wynosi 1 nazywamy krzywą lub funkcją gęstości (krótko gęstością). Często określa się ją jako wyidealizowany histogram, odpowiadający bardzo dużej liczności próby i bardzo małej rozpiętości. Taki idealny histogram odpowiada rozkładowi prawdopodobieństwa pewnej zmiennej losowej X. Ponieważ rozpiętość histogramu jest bardzo mała nie tracimy informacji, przechodząc od rozkładu cechy w próbie do rozkładu prawdopodobieństwa zmiennej losowej X. Idealny histogram (gęstość) i rozkład prawdopodobieństwa zmiennej X są równoważne.

Ciągłe zmienne losowe

a b

Ciągłe zmienne losowePole pod krzywą gęstości f nad każdym przedziałem

[a, b]nazywamy całką Riemanna i oznaczamy

∫b

af(t)dt .

Za pomocą tego pojęcia możemy precyzyjnie zdefiniować zmienną losową typu ciągłego.

Ciągłe zmienne losoweZmienną losową X nazywamy ciągłą zmienną losową, jeśli dla pewnej nieujemnej funkcji f i dowolnych liczb a i b takich, że

−∞ ⩽ a < b ⩽ + ∞zachodzi równość

P(a ⩽ X ⩽ b) = ∫b

af(t)dt .

a b

Ciągłe zmienne losowePrzyjmując w powyższej równości

a = − ∞, b = x

Otrzymujemy, że dystrybuanta zmiennej losowej X spełnia równość

F(x) = P(X ⩽ x) =x

∫−∞

f(t)dt .

Funkcję f nazywamy gęstością zmiennej losowej X lub gęstością jej rozkładu prawdopodobieństwa.

UwagaDla podstawowych wybranych rozkładów ciągłych nie trzeba liczyć całki, gdyż utworzono tablice wartości dystrybuanty. Na przykład, dla standardowego rozkładu normalnego tak wygląda fragment tablicy

Tablica wartości dystrybuanty standaryzowanego rozkładu normalnego

x 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586

0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535

0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409

0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173

0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793

0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240

0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490

0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524

0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327

0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891

Wartość dystrybuanty rozkładu normalnego odczytujemy w następujący sposób

F(0,46) = F(0,4 + 0,06) = 0,67724

Ciągłe zmienne losoweZauważmy, że postulat, żeby gęstość była nieujemna jest intuicyjnie oczywisty: gdyby funkcja f była ujemna na pewnym przedziale, to wartość całki z tej funkcji po tym przedziale byłaby ujemna, co jest niemożliwe, gdyż prawdopodobieństwo ma wartości nieujemne. Z powyższego wynika również, że

+∞

∫−∞

f(t)dt = P(−∞ ⩽ X ⩽ + ∞) = 1.

Tak więc krzywa gęstości powinna spełniać dwa warunki: musi być nieujemna i pole pod nią musi wynosić 1.

UwagaJeśli przyjmiemy w powyższy wzorze a = b, to dla dowolnej ciągłej zmiennej losowej X otrzymamy

P(X = a) = ∫a

af(t)dt = 0.

Tak więc prawdopodobieństwo przyjęcia pojedynczej wartości przez ciągłą zmienną losową jest równe 0. Stąd

P(a < X < b) = P(a < X ⩽ b) = P(a ⩽ X < b) =

= P(a ⩽ X ⩽ b) = F(b) − F(a) .

WłasnościJeśli gęstość f zmiennej losowej X jest funkcją ciągłą, to dla każdego x zachodzi równość

F′�(x) = f(x) .

Zatem dystrybuanta ciągłej zmiennej losowej jest funkcją różniczkowalną, gdy jej gęstość jest funkcją ciągłą.

Wartość oczekiwana i wariancja ciągłej zmiennej losowej

Wartością oczekiwaną ciągłej zmiennej losowej X o gęstości f nazywamy liczbę

E(X) = μX =+∞

∫−∞

tf(t)dt

Wariancję i odchylenie standardowe zdefiniowane są odpowiednio wzorami:

Var(X) = σ2X =

+∞

∫−∞

(t − μX)2 f(t)dt, SD(X) = Var(X) = σX .

WłasnościDla ciągłej zmiennej losowej X o gęstości f i dowolnej funkcji h określonej dla wszystkich liczb rzeczywistych funkcja h(X) jest również zmienną losową. Jej wartość oczekiwana jest równa

E(h(X)) = μh(X) =+∞

∫−∞

h(t)f(t)dt .

Z własności całki

Var(aX + b) = a2Var(X) .

E(aX + b) = aE(X) + b,

Wybrane rozkłady zmiennych losowych typu ciągłego

Zmienna losowa jest najważniejszym elementem modelu opisującego eksperyment losowy. Zmienną losową można scharakteryzować za pomocą dystrybuanty lub funkcji rozkładu prawdopodobieństwa. Dla zmiennych typy ciągłego najbardziej dogodnym sposobem opisu jest określenie funkcji gęstości jej rozkładu. Podamy pare przykładów zmiennych losowych często stosowanych w praktyce.

Rozkład normalnyZmienna losowa X ma rozkład normalny o parametrach 𝜇 i

𝝈, co w skrócie zapisujemy X ~ N(𝜇, 𝝈), jeśli jej funkcja gęstości ma następującą postać

f(x) =1

σ 2πe− (x − μ)2

2σ2 , − ∞ < x < + ∞

przy czym 𝝈 > 0.

Poniżej przedstawiamy wykres funkcji gęstości tego rozkładu.

Rozkład normalny

μμ − σ μ + σ

WłasnościJeżeli zmienna losowa X ma rozkład normalny N(𝜇, 𝝈), to jej

wartość oczekiwana jest równa 𝜇, a odchylenie standardowe równe 𝝈.

E(X) = μ, SD(X) = σ .

Ponadto dla dowolnej liczby niezerowej a i dowolnej liczby b zmienna losowa aX + b ma rozkład normalny.

Stąd zmienna Z określona wzorem

Z =X − μ

σma rozkład normalny N(0, 1).

WłasnościPowyższą operację nazywamy standaryzacją, a zmienną Z o rozkładnie normalnym N(0, 1) nazywamy zmienną o rozkła-dzie normalnym standardowym.

Z definicji wynika, że taka zmienna, a wartość oczekiwaną równą 0, a odchylenie standardowe 1.

Przy wyznaczaniu prawdopodobieństwa wykorzystujemy operację standaryzacji i używamy tablic zawierających wartości dystrybuanty tej wyróżnionej zmiennej o rozkładzie normalnym standardowym.

Wielowymiarowe zmienne losowe

Niech S będzie zbiorem zdarzeń elementarnych danego doświadczenia losowego. Układ n zmiennych losowych

(X1, X2, …, Xn) : S → ℝn

przyporządkowujących każdemu zdarzeniu elementarnemu s z przestrzeni S układ n liczb

(x1, x2, …, xn) ∈ ℝn

nazywamy zmienną losową n-wymiarową.

Wielowymiarowe zmienne losowe skokowe

Dwuwymiarowa zmienna losowa

(X, Y )

jest typu skokowego, jeśli przyjmuje skończoną lub przeliczalną liczbę wartości

(xi, yi), i = 1,2,…

Funkcją prawdopodobieństwa takiej zmiennej losowej jest

pij = P(X = xi, Y = yj), i, j = 1,2,…

Mówimy, że zmienne X i Y są niezależne, gdy

P(X = xi, Y = yj) = P(X = xi) ⋅ P(Y = yj), i, j = 1,2,…

Wielowymiarowe zmienne losowe ciągłe

Dwuwymiarowa zmienna losowa

(X, Y )

jest typu ciągłego, jeśli zmienne X i Y są ciągłe

Funkcją gęstości takiej zmiennej losowej jest taka funkcja f, że

f(t, u) ⩾ 0, t, u ∈ ℝ

oraz

P(a1 < X ⩽ b1, a2 < Y ⩽ b2) = ∫b1

a1∫

b2

a2

f(t, u)dtdu .

Wielowymiarowe zmienne losowe ciągłe

Mówimy, że zmienne X i Y są niezależne, gdy

f(t, u) = f1(t) ⋅ f2(u),

gdzie f1 i f2 są funkcjami gęstości zmiennych X i Y.

Twierdzenia graniczneMają one ogromne znaczenie zarówno w teorii prawdopodo-bieństwa jak i w praktyce badań statystycznych. W twierdzeniach tych rozpatruje się ciągi zmiennych losowych, powiedzmy (Xn), których rozkłady — gdy n dąży do nieskończoności — mogą być zbieżne do pewnego rozkładu. Jeśli takie zjawisko występuje, to taki rozkład nazywany jest rozkładem granicznym (asymptotycznym) ciągu zmiennych losowych (Xn). Mówi się wtedy, że zmienna losowa Xn ma graniczny rozkład o określonej postaci.

Twierdzenia graniczneTwierdzenia graniczne formułują warunki, przy zachowaniu których dla ciągu zmiennych losowych istnieje rozkład graniczny, oraz określają jaka jest postać tego rozkładu. Odrębną klasę twierdzeń granicznych stanowią prawa wielkich liczb, które dotyczą zbieżności ciągu zmiennych losowych do rozkładu jednopunktowego, tzn. rozkładu zmiennej losowej stałej X = c, której funkcja prawdopodo-bieństwa opisana jest jedną równością

P(X = c) = 1.

Zbieżność stochastycznaMówimy, że ciąg zmiennych losowych (Xn) jest stochastycznie zbieżny do stałej c, jeśli dla dowolnej liczby 𝜀 > 0 spełniona jest zależność:

limn→∞

P( |Xn − c | < ε) = 1.

Oznacza to, że prawdopodobieństwo zdarzenia

|Xn − c | < ε

wzrasta do jedności, przy n dążącym do nieskończoności.

Prawo wielkich liczb Bernoulliego

Ciąg zmiennych losowych (Xn) o rozkładach

P (Xn =kn ) = (n

k) pkqn−k, k = 0,1,…, n

jest stochastycznie zbieżny do wartości parametru p (prawdo-podobieństwa sukcesu w jednej próbie Bernoulliego), tzn.

limn→∞

P( |Xn − p | < ε) = 1

dla dowolnej liczby 𝜀 > 0.

Prawo wielkich liczb Czebyszewa

Jeśli dla ciągu zmiennych losowych (Xn), z których każda ma skończoną wartość oczekiwaną i wariancję, jest spełniony warunek:

limn→∞

Var(Xn) = 0,

tolimn→∞

P( |Xn − E(Xn) | < ε) = 1,

Co oznacza, że ciąg

(Xn − E(Xn))jest stochastycznie zbieżny do zera: dla dostatecznie dużych n wartości zmiennej losowej Xn są bliskie wartości oczekiwanej.

Centralne twierdzenie graniczne Lindeberga-Levy’ego

Jeśli (Xn) jest ciągiem niezależnych zmiennych losowych o identycznych rozkładach takich jak pewna zmienna X i skończonej wariancji, to ciąg dystrybuant (Fn) zmiennych

Tn =

n∑i=1

Xi − nE(X)

Var(X) njest zbieżny do dystrybuanty standaryzowanego rozkładu normalnego:

limn→∞

Fn(x) =1

x

∫−∞

e− t22 dt .

Wniosek IZmienna losowa Zn określona wzorem

Zn = X1 + X2 + … + Xn

ma asymptotyczny rozkład normalny

N(nE(X), SD(X) n),

czyli rozkład normalny z parametrami

μ = nE(X), σ = SD(X) n .

Wniosek IIZmienna losowa Vn określona wzorem

Vn =X1 + X2 + … + Xn

n

o wartości oczekiwanej 𝜇 i wariancji 𝝈/n zbiega przy n dążącym do nieskończoności do zmiennej o rozkładzie normalnym

N (μ,σ

n ) .

PrzykładW grupie studentów przeprowadzany jest test ze statystyki, w którym można uzyskać od 0 do 100 punktów. Liczba punktów, jaką może otrzymać pojedynczy (k-ty) student, jest zmienną losową, którą oznaczać będziemy przez Xk. Przyjmijmy, że rozkład niezależnych zmiennych losowych Xk jest identyczny dla wszystkich studentów (chociaż postać tego rozkładu nie jest znana), przy czym

E(Xk) = 70, SD(Xk) = 20.

Czyli wartość oczekiwana wynosi 70 punktów z odchyleniem standardowym 20 punktów.

PrzykładInteresuje nas prawdopodobieństwo zdarzenia:

Przeciętna liczba punktów przypadających na jednego studenta w 100-osobowej grupie zawiera się w przedziale od 65 do 70 punktów.

V100 =X1 + X2 + … + X100

100

Odpowiedź można sformułować na podstawie wniosku II z twierdzenia Lindeberga-Levy’ego, bowiem przeciętną liczbę punktów uzyskaną przez pojedynczego studenta określa zmienna

PrzykładZmienna ta, z własności wartości oczekiwanej i odchylenia standardowego ma następujące parametry:

μ = E(V100) = 70, σ = SD(V100) =20

100= 2.

Z wniosku II wynika, że zmienna V100 ma w przybliżeniu rozkład normalny właśnie z takimi parametrami. Niech F oznacza dystrybuantę standardowego rozkładu normalnego, której wartości są podane zawsze w tablicach statystycznych. Korzystając z operacji standaryzacji obliczymy poszukiwane prawdopodobieństwo.

PrzykładP(65 < V100 < 70) = P ( 65 − 70

2<

V100 − 702

<70 − 70

2 )Zmienna

Z =V100 − 70

2

Ma rozkład normalny standardowy, więc

P(65 < V100 < 70) = P (−2,5 < Z < 0)= F(0) − F(−2,5) = 0,5 − (1 − F(2,5))= 0,5 − (1 − 0,9918) = 0,4918