Download - Dr inż. Halina Tarasiuk ([email protected]), p. 337, tnt.tele.pw.pl

Metody Symulacyjne w Telekomunikacji (MEST)

Wykład 6/7: Analiza statystyczna wyników symulacyjnych

Dr inż. Halina Tarasiuk

([email protected]), p. 337, tnt.tele.pw.edu.pl

Zagadnienia

• Podstawowe pojęcia

• Analiza wariancji

• Przedziały ufności

• Praktyczne zastosowanie rozkładu t-Studenta

• Rodzaje symulacji a analiza wyników

Podstawowe pojęcia

• Rozważmy n zmiennych losowych – X1, X2, ..., Xn

• Cel – Dyskusja pewnych charakterystyk dla zmiennej

losowej Xi

– Pewne pomiary zależności, które mogą wystąpić między dwoma zmiennymi losowymi Xi i Xj

Podstawowe pojęcia

• Wartość średnia/wartość oczekiwana

• Mediana

• Wariancja

• Odchylenie standardowe

• Kowariancja

Wartość średnia/wartość oczekiwana

• Wartość średnią lub oczekiwaną zmiennej losowej Xi (gdzie i=1, 2, ..., n) będziemy oznaczać jako i lub E(Xi)

continuousisXifdxxxf

discreteisXifxpx

iX

1jijXj

i

i

i


• Własności– Przyjmijmy, że c lub ci oznaczają stałą (liczbę

rzeczywistą)– (1)

– (2)

• nawet jeśli Xi są zależne

XcEcXE

n

1iii

n

1i ii XEcXcE


• Przykład– Załóżmy, że zmienna losowa dyskretna X przyjmuje

wartości 1, 2, 3, 4 odpowiednio z prawdopodobieństwem 1/6, 1/3, 1/3, 1/6. Wówczas wartość średnia wynosi: ?

– Załóżmy, że zmienna losowa jest opisana rozkładem równomiernym na przedziale [0,1]. Wówczas wartość średnia wynosi: ?


• Przykład– Załóżmy, że zmienna losowa dyskretna X przyjmuje

wartości 1, 2, 3, 4 odpowiednio z prawdopodobieństwem 1/6, 1/3, 1/3, 1/6. Wówczas wartość średnia wynosi:

– Załóżmy, że zmienna losowa jest opisana rozkładem równomiernym na przedziale [0,1]. Wówczas wartość średnia wynosi:

25

61

431

331

261

1

1

0

1

0 21

xdxdxxxf

Mediana

• Mediana (zwana też wartością środkową lub drugim kwantylem) to w statystyce wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji. Mediana jest kwantylem rzędu 1/2.

• Aby obliczyć medianę ze zbioru n obserwacji, sortujemy je w kolejności od najmniejszej do największej i numerujemy od 1 do n. Następnie, jeśli n jest nieparzyste, medianą jest wartość obserwacji w środku (czyli obserwacji numer (n+1)/2). Jeśli natomiast n jest parzyste, wynikiem jest średnia arytmetyczna między dwiema środkowymi obserwacjami, czyli obserwacją numer n/2 i obserwacją numer (n/2)+1.

Mediana

• Mediana x0.5 zmiennej losowej Xi jest zdefiniowana jako najmniejsza wartość x, taka że

• dla zmiennej losowej ciągłej

5.0xFiX

5.0xF 5.0X i

f(x)

Obszar=0.5

xx0.5

Mediana

• Przykład– Rozważmy zmienną losową X, która przyjmuje

wartości 1, 2, 3, 4, i 5 z prawdopodobieństwem 0.2. Wartość średnia i mediana wynoszą ?

– Rozważmy zmienną losową Y, która przyjmuje wartości 1, 2, 3, 4 i 100 z prawdopodobieństwem 0.2. Wartość średnia i mediana wynoszą odpowiednio ? i ?

Mediana

• Przykład– Rozważmy zmienną losową X, która przyjmuje

wartości 1, 2, 3, 4, i 5 z prawdopodobieństwem 0.2. Wartość średnia i mediana wynoszą 3.

– Rozważmy zmienną losową Y, która przyjmuje wartości 1, 2, 3, 4 i 100 z prawdopodobieństwem 0.2. Wartość średnia i mediana wynoszą odpowiednio 22 i 3.

– W rozważanych przypadkach mediana nie jest wrażliwa na zmianę rozkładu

Wariancja

• Wariancja zmiennej losowej Xi o wartości oczekiwanej zdefiniowana jest następująco

• Wariancję oznaczamy również jako Var(Xi)

2i

2i

2ii

2i XEXE

Wariancja

• Wariancja jest miarą zmienności/rozrzutu zmiennej losowej od wartości średniej

• Im wariancja jest większa, tym zmienna losowa przyjmuje wartości bardziej oddalone od wartości średniej

eargl

2

small

2

Funkcja gęstości dla zmiennych losowych ciągłych o dużej i małej wariancji

Wariancja

• Przykłady– Załóżmy, że zmienna losowa dyskretna X przyjmuje wartości 1, 2,

3, 4 odpowiednio z prawdopodobieństwem 1/6, 1/3, 1/3, 1/6. Wówczas wariancja wynosi:

• E(X2) = ?

• Var(X) = ?

– Załóżmy, że zmienna losowa jest opisana rozkładem równomiernym na przedziale [0,1]. Wówczas wariancja wynosi:

• E(X2) = ?

• Var(X) = ?

Wariancja

• Przykłady– Załóżmy, że zmienna losowa dyskretna X przyjmuje

wartości 1, 2, 3, 4 odpowiednio z prawdopodobieństwem 1/6, 1/3, 1/3, 1/6. Wówczas wariancja wynosi:

• E(X2)=43/6

• Var(X)=11/12

Wariancja

• Przykłady– Załóżmy, że zmienna losowa jest opisana rozkładem

równomiernym na przedziale [0,1]. Wówczas wariancja wynosi:

• E(X2)=1/3

• Var(X)=1/12

Wariancja

• Własności– (1)

– (2)

– (3)

0XVar

XVarccXVar 2

n

1ii

n

1ii XVarXVar

Odchylenie standardowe

• Odchylenie standardowe zmiennej losowej Xi definiujemy jako

• Własności– Jest wyrażane w tych samych jednostkach, co

wartości cechy

2ii

Kowariancja

• Zależność liniowa między zmiennymi losowymi

• Kowariancja między zmienną losową Xi i

Xj, która jest miarą ich zależności liniowej jest oznaczana jako Cij lub Cov(Xi, Xj) i jest zdefiniowana następująco

jijijjiiij XXEXXEC

Kowariancja

• Jeśli Cij=0, wówczas zmienne losowe są nie skorelowane

• Jeśli Cij>0, wówczas zmienne losowe są skorelowane dodatnio

• Jeśli Cij<0, wówczas zmienne losowe są skorelowane ujemnie

Zagadnienia






Analiza wariancji

• Wyniki symulacji a procesy stochastyczne

• Estymacja wartości średniej, wariancji i korelacje

Wyniki symulacji a procesy stochastyczne (1)

• Ponieważ większość modeli symulacyjnych używa zmiennych losowych jako parametrów wejściowych, wyniki symulacyjne są również losowe

• Dlatego, należy bardzo ostrożnie wnioskować na podstawie otrzymanych wyników o ich „prawdziwości”


• Proces stochastyczny jest zbiorem „podobnych” zmiennych losowych uporządkowanych w czasie, które są zdefiniowane we wspólnej przestrzeni próby

• Zbiór wszystkich możliwych wartości, które te zmienne losowe mogą przyjąć określamy jako przestrzeń stanu

• W przypadku zbioru X1, X2, ... Mówimy o dyskretnym w czasie procesie stochastycznym

• W przypadku, gdy {X(t), t0}, wówczas mamy ciągły w czasie proces stochastyczny


• Aby wnioskować o danym procesie stochastycznym na podstawie otrzymanych wyników symulacji, często musimy przyjąć pewne założenia, które niekoniecznie muszą być do końca prawdziwe (jednak, często bez takich założeń, analiza statystyczna wyników symulacji byłaby niemożliwa)

• Przykładem, jest założenie, że proces stochastyczny jest procesem stacjonarnym z punktu widzenia kowariancji


• Mówimy, że dyskretny w czasie proces stochastyczny X1, X2, ... Ma ustaloną kowariancję, jeśli i= dla i=1, 2, ... i -<< i= dla i=1, 2, ... i 2<– oraz Ci, j+1=Cov(Xi, Xi+j) dla j=1, 2, ...

• Czyli dla powyższego procesu wartość średnia i wariancja są ustalone w czasie, zaś kowariancja między Xi i Xj+i zależy tylko od j, nie zaś od rzeczywistego czasu i lub j+i


• Dla procesu stochastycznego o ustalonej kowariancji, kowariancję i korelację między Xi i Xi+j oznaczamy odpowiednio przez Cj oraz j, gdzie

...,2,1,0jdlaC

CCC

0

j2j

2ji

2i

ji,ij


• Jeśli X1, X2, ... stanowią proces stochastyczny zaczynający się w zerowej chwili czasowej symulacji jest bardzo prawdopodobne, że proces nie jest procesem o ustalonej kowariancji

• Jednakże dla pewnych symulacji proces Xk+1, Xk+2

będzie w przybliżeniu procesem o ustalonej kowariancji jeśli k jest wystarczająco duże, gdzie k jest długością tzw. czasu rozbiegu

Estymacja wartości średniej, wariancji i korelacje (1)

• Załóżmy, że X1, X2, ..., Xn są zmiennymi losowymi niezależnymi o takim samym rozkładzie (obserwacjami) o średniej dla skończonej populacji i o wariancji 2 dla skończonej populacji oraz, że naszym głównym celem jest oszacowanie , zaś oszacowanie 2 jest kolejnym celem.


• Wówczas wartość średnia dla próby

jest tzw. estymatorem nieobciążonym (punktowym) wartości , czyli

• Intuicyjnie, jest nieobciążonym estymatorem średniej wówczas, gdy wykonamy bardzo dużą liczbę niezależnych eksperymentów, z których każdy da wynik Wówczas średnia z otrzymanych powinna wynieść

n

XnX

n

1ii

nX

nX nX

nXE


• Podobnie wariancja próby

jest nieobciążonym estymatorem 2, dopóki E[S2(n)]= 2

1n

nXXnS

2n

1ii

2


• Problem z użyciem jako estymatora bez żadnej dodatkowej informacji polega na tym, że nie ma sposobu na określenie jak bardzo jest zbliżone do

• Ponieważ jest zmienną losową o wariancji

• Dlatego typowym podejściem dla udowodnienia dokładności estymatora wobec jest zastosowanie tzw. przedziałów ufności

nX

nX

nX

nX

nXVar


• Jednakże pierwszym krokiem do stworzenia przedziałów ufności jest estymacja wariancji wartości średniej. Ponieważ

nn

n

1

niezaleznesaXponiewazXVarn

1

XVarn

1

Xn

1VarnXVar

22

2

i

n

1ii2

n

1ii2

n

1ii


• Ogólnie im większy rozmiar próby, n, tym bliższym oszacowaniem będzie

• Ponadto nieobciążony estymator wariancji

jest oszacowywany przez zastąpienie 2

przez S2(n)

nXVar

nX


• Ostatecznie

• Należy zauważyć, że powyższe wyrażenie ma w mianowniku n i n-1 ze względu na Xi jak i nX

1nn

nXX

nnS

nXVar

n

1i

2i2

Zagadnienia






Przedziały ufności (1)

• Przedziały ufności dla – Załóżmy, że X1, X2, ..., Xn są zmiennymi

losowymi niezależnymi o takim samym rozkładzie (obserwacjami) o skończonej średniej i o skończonej wariancji 2 oraz, że 2 >0


• Graniczne twierdzenie centralne– Niech Zn będzie zmienną losową

– i niech Fn(z) będzie dystrybuantą zmiennej losowej Zn dla próby o rozmiarze n

n

nX2

zZPzF nn


• Graniczne twierdzenie centralne– jeśli n jest wystarczająco duże wówczas

zmienna losowa Zn będzie miała rozkład zbliżony do rozkładu normalnego

– Na podstawie teorii możemy przyjąć, że zmienna losowa ma w przybliżeniu rozkład normalny z wartością średnią i wariancją 2/n

nX


• Graniczne twierdzenie centralne– Trudność w zastosowaniu tej teorii polega na

tym, iż w praktyce wariancja 2 jest nieznana. Jednak dla dużego n 2 możemy zastąpić przez wariancję próbkową w wyrażeniu na Zn

– Po tych zmianach teoria mówi, że dla wystarczająco dużego n, zmienna losowa tn

– ma rozkład zbliżony do rozkładu normalnego

n/nS/nXt 2n


• Dla dużego n

gdzie 0<<1

1

/

2

2/1

2

2/1

2/122/1

n

nSznX

n

nSznXP

znnS

nXzP


• Dlatego też dla wystarczająco dużego n przybliżony przedział ufności na poziomie ufności 100(1-) procent dla wynosi

n

nSznX

2

2/1

Zagadnienia






Praktyczne zastosowanie rozkładu t-Studenta (1)

• W praktyce trudno jest określić, co oznacza wystarczająco duża liczba prób n

• Dlatego dla oszacowania przedziałów ufności stosuje się rozkład t-Studenta z n-1 stopniami swobody

Praktyczne zastosowanie rozkładu t-Studenta (2)

• Jeśli Xi są zmiennymi losowymi o rozkładzie normalnym, zmienna losowa

ma rozkład t z n-1 stopniami swobody, wówczas dokładny przedział ufności na poziomie 100(1-) dla wynosi

n/nS/nXt 2n

n

nStnX

2

2/1,1n

Praktyczne zastosowanie rozkładu t-Studenta (3) - przykład

• Dla 10 prób należy wyznaczyć wartości liczbowe końcowe przedziału ufności dla wartości średniej przyjmując poziom ufności 1-=0.95. Wartości zmiennej losowej wynoszą odpowiednio:

1472.1161456.1131471.9951481.4561491.8011485.3681496.5521456.1481496.6551488.660

nX

Zagadnienia






Rodzaje symulacji a analiza wyników

Symula

cja pr

zery

wana

Parametr

y usta

lone

Symulacja nieprzerywalnaParametry dla ustalonego cyklu

Inne parametry

Rodzaje symulacji a analiza wyników

• Symulacja przerywana– W symulacji tej zdefiniowane jest pewne

„naturalne” zdarzenie E, które określa długość każdej symulacji (powtórzenia)

Symulacja przerywana

• Analiza statystyczna– Założenia

• Przeprowadzamy n niezależnych przerywanych symulacji• Każde powtórzenie jest przerywane przez zdarzenie E i rozpoczyna

się z tymi samymi warunkami początkowymi. Niezależność powtórzeń jest osiągana przez użycie innych liczb losowych dla każdego powtórzenia

• Dla uproszczenia przyjmijmy, że realizujemy pomiar jednej metryki• Niech Xj będzie zmienną losową zdefiniowaną dla j-tego

powtórzenia, j=1, 2, ..., n. Przyjmuje się, że Xj są porównywalne dla różnych powtórzeń

• Wówczas Xj są zmiennymi losowymi IID (independent and identicaly distributed)

Symulacja przerywana

• Estymacja wartości średniej– Odbywa się na podstawie rozkładu t-Studenta