STATYSTYKA DANYCH SAMOSKORELOWANYCH · STATYSTYKA DANYCH SAMOSKORELOWANYCH ... wzory dla...

SeminariumWydziaWydziałłu Fizyki i Informatyki Stosowanej AGHu Fizyki i Informatyki Stosowanej AGH

16 kwietnia 2010

STATYSTYKA DANYCH SAMOSKORELOWANYCH

Andrzej Zięba

Plan:

1. Wstęp- formalizm standardowy i jego ograniczenia- matematyczny opis danych samoskorelowanych

2. Teoria analityczna, gdy funkcja autokorelacji jest znana a priori

3. Przypadek funkcji autokorelacji estymowanejz analizowanej próby losowej – teoria & MC

4. Konkluzje i podziękowania

ad 1a: najczęściej stosowane wzory statystyki matematycznej:

♣ wynik pomiaru≡ średnia arytmetyczna

♦ odchylenie st. pojedynczego pomiaru

♥ niepewność pomiaru ≡ odchylenie st. średniej

♠ względny rozrzut estymatorów odchylenia st.

1

)(1

2

−

−=

∑=

n

xxs

n

ii

n

xxx

n

ii∑

==≡ 1

n

sxsxu =≡ )()(

)1(2

1

)(

))(()(

−≅=

nxs

xss

s

ss

Ww. estymatory są zgodne, nieobciążone i najefektywniejsze jeżeli obserwacje są

(i) równoważne,(ii) wzajemnie nieskorelowane,(iii) obarczone błędem przypadkowym

o rozkładzie normalnym.

Co robić, jeżeli {xi } są skorelowane?

(Pozostałe dwa założenia obowiązują.)

1b. MATEMATYCZNY OPIS

DANYCH

SAMOSKORELOWANYCH

Ciąg n skorelowanych obserwacji {xi } można opisywać przy

użyciu trzech formalizmów teorii prawdopodobieństwa

(i) – realizacja wielowymiarowej zmiennej losowej{X1,X2,…,Xn} o równoważnych składowych.

Parametry: - wartość oczekiwana µ, - odchylenie st. σ, - macierz wsp. korelacji ρij

Struktura macierzy autokorelacji, wynikająca z założenia równoważności, umożliwia zastąpienie jej przez jednowymiarową dyskretną

funkcję autokorelacji: ρ0, ρ1, ρ2, …. , ρn−1

ρρρρ

ρρρ

ρρρρρρ

−−−

−

−

−

nnnn

n

n

n

L

MMMM

L

L

K

321

312

211

121

1

1

1

(ii) n-elementowa próba zestacjonarnego szeregu czasowego

→ stacjonarność ≡ równoważność

→ modele szeregów czasowych, np.:

autoregresyjny AR(1) xn = axn−1 + (1 − a)un

średnia ruchoma SMA xn = (un + un − 1 + … + un - m)/m

(iii) {xi } wynikiem próbkowania (w równych przedziałach czasu ∆t) ciągłego

stacjonarnego procesu stochastycznego x(t)

Przykład: prosta średnia ruchoma (SMA)

ui - liczby nieskorelowane

xi - liczby skorelowane

0 20 40 60-3

-2

-1

0

1

2

3 (a) µ = 0, σ = 1

µ − σ

µ + σ

µ

ui

i

0 20 40 60-1,6

-1,2

-0,8

-0,4

0,0

0,4

0,8

1,2

1,6

(b) µ = 0, σ = 5−1/2

µ − σ

µ + σµ

xi

i

52112 ++−− ++++= iiiii

iuuuuu

x

Funkcje autokorelacji dla SMA, m = 5:

ρ0 = 1, ρ1= 0,8 ρ2= 0,6 ρ3 = 0,4 ρ4 = 0,2 pozostałe = 0

AR(1): ρk = a−k

0 5 10 15 200,0

0,2

0,4

0,6

0,8

1,0

ρ k

k

a

b

2. FORMALIZM DLA PRZYPADKU,

GDY FUNKCJA AUTOKORELACJI

JEST ZNANA a priori

Średnia arytmetyczna

pozostaje najlepszym estymatorem wartości oczekiwanej bo:

- jako zmienna losowa jest liniową kombinacją zmiennych Xi

(ze współczynnikami ci = 1/n)

- twierdzenie o wartości oczekiwanej kombinacji liniowejzmiennych losowych jest takie samo

dla zmiennych nieskorelowanych i skorelowanych

∑=

=n

iix

nx

1

1

Ad ♥♥♥♥

ZWIĄZEK MIĘDZY WARIANCJĄ I WARIANCJĄ ŚREDNIEJ.

EFEKTYWNA LICZBA OBSERWACJI

Intuicyjnie: na przykładzie danych skorelowanych wygenerowanych jako średnia ruchoma z m elementów łatwo pojąć, że wzór

nie może obowiązywać dla danych skorelowanych.Gdyby był słuszny, obliczenie średniej ruchomej z m elementów, a następnie średniej z tejże, dostarczało by „cudownego triku”na zmniejszenie niepewności pomiaru do wartości circa

(m n)1/2 razy mniejszej!

Teoria prawdopodobieństwa: wzór na wariancję sumy – oraz

kombinacji liniowej – jest dla zmiennych skorelowanych inny.

nx

22 σ=σ

Wzór prawidłowy:

Box G. E. P., Jenkins G. M, Reinsel G. C.: Time Series Analysis: Forecasting and Control, 3rd Ed. Prentice Hall 1994

Wyprowadzenie: średnia to liniowa kombinacja zm. losowych:

jej wariancja:

= (σ2/n2)×suma elementów macierzy kowariancji

ρ−+σ=σ ∑

−

=

kn

kkknn

nx

12

22 )(2)(

∑=

==k

ikkk n

cXcx1

1,

=ρσ=

=ρσσ=σ

∑∑

∑∑

= =

= =

n

i

n

jji

n

i

n

jijjijj

n

ccx

1 1,2

2

1 1

2 )(

ρρρρρρρρρρρρ

=ρ

1

1

1

1

123

112

211

321

ij

Wzór ten

zapisać można wprowadzając pojedynczy parametr

efektywna liczba obserwacji neff.

,

effnx

σ=σ )(

∑−

=ρ−+

=kn

kk

eff

nk

nn

1

)/1(21

2

2

1

2 )(n

knnkn

kkx

σρσ

−+= ∑

−

=

Własności neff

- liczba rzeczywista z przedziału [1, ∞∞∞∞)

1 korelacje dodatnie n kor. ujemne ∞∞∞∞→→→→

- próbkowanie procesu stochastycznego: n →→→→ ∞∞∞∞(w ustalonym przedziale, Δt →→→→ 0) neff →→→→ const

Przykład:model SMA(5), n = 60 →→→→ neff = 12,33

Wyniki poszukiwań literaturowych, 2009:

- reduced number of coordinates (Bartels 1935)- effective number of independent observations

(Bayley & Hammersley 1946)- equivalent number of independent data (Bagrov 1969)

- equivalent number of uncorrelated samples (Lubman 1969)- effective independent sample size (Leith 1973)

- effective sample size (Taubenheim1974)- equivalent number of independent observations (Priestley 1981)- equivalent independent process effective number (Zen 1998)

- effective number of uncorrelated observations (Dorozhovets & Warsza 2007)

Ad ♦♦♦♦ i ♥♥♥♥

NIEOBCIĄŻONEESTYMATORY WARIANCJI

Wyprowadzenie dla danych nieskorelowanych:

(i) definiujemy estymator wariancji:

(ii) obliczamy wart. oczekiwaną(7 linijek algebry):

----------------------------------------------------------------------

(iii) dla danych nieskorelowanych σ2(x) = σ2/n(iv) obciążenie estymatora sb

2 → E(sb2) = (1−1/n) σ2

(iv) czynnik korekcyjny (1−1/n) −1 = n/(n −1)

(v) estymator sb2 mnożymy przez

czynnik korekcyjny uzyskując

nieobciążony estymator wariancji:

n

xx

s

n

ii

b

∑=

−= 1

2

2

)(

1

)(1

2

2

−

−=∑=

n

xxs

n

ii

( ) )(E 222 xsb σ−σ=

Wyprowadzenie dla danych skorelowanych:

(i) definiujemy estymator wariancji:

(ii) obliczamy wart. oczekiwaną(7 linijek algebry):

----------------------------------------------------------------------

(iii) dla danych skorelowanych σ2(x) = σ2/neff

(iv) obciążenie estymatora sb2 → E(sb

2) = (1−1/neff) σ2

(iv) czynnik korekcyjny (1−1/neff) −1 = neff eff /(neffeff −1)

(v) estymator sb2 mnożymy przez

czynnik korekcyjny uzyskując

nieobciążony estymator wariancji:

n

xx

s

n

ii

b

∑=

−= 1

2

2

)(

n

xx

n

ns

n

ii

eff

effa

∑=

−

−= 1

2

2

)(

1

( ) )(E 222 xsb σ−σ=

Wzór ten:

podany był bez wyprowadzenia w pracy:

Bayley and Hammersley, The “Effective” Number of Independent Observations in an Autocorrelated Time-Series. J. Roy. Stat. Soc. Suppl. 8, 184-197 (1946)zapomniany (?) przez 60 lat.

22

)1(

)1(s

nn

nns

eff

effa −

−=

Ponadto:

- wzory na obciążenie estymatorów macierzy kowariancji podałT.W. Anderson: The Statistical Analysis of Time Series. Wiley, New York, 1971, ale nie wykorzystał do wyprowadzenia nieobciążonego estymatora wariancji,

- Şen (1998): wyprowadzenie dla modelu ARMA(1)

Wariancja średniej(AZ, PPM 2008): )1(

)(

)( 1

22

2

−

−==∑

=

eff

n

ii

eff

aa nn

xx

n

sxs

Konwencja GUM: niepewność pomiaru typu A jest pierwiastkiem kwadratowym z nieobciążonego

estymatora wariancji

zatem niepewność pomiaru dla n obserwacji skorelowanych:

)1(

)()()( 1

2

−

−=≡

∑=

eff

n

ii

nn

xxxsxu

Ad ♥♥♥♥

DOKŁADNOŚĆ OCENY NIEPEWNOŚCI

Próba los. nieskorelowana: u(s)/s = (2ν)−1/2 gdzie ν = n - 1

Próba samoskorelowana: u(sa)/sa = (2νeff)−1/2

gdzie

ννννeff - efektywna liczba stopni swobody

(różna od neff −−−− 1, własność: 0 < ννννeff < n )

Bayley & Hammersley 1946: wzór dokładny:

wzory dla określonych modeli: Priestley 1981, Taubenheim 1974, Fortus 1999)

Wzór przybliżony, poprawny efekt uproszczeniawzoru dokładnego (AZ 2009)

1

211

1

2

−+

≅

∑−

=

n

kk

effn

ρν

184824)1(

84824)1(

764312

7652123

−Σ−Σ−Σ−Σ+Σ−−Σ−Σ−Σ+Σ+Σ−−=

nnnnn

nnnnneffν

Publikacja:

A. Zięba

EFFECTIVE NUMBER OF OBSERVATIONS AND UNBIASED ESTIMATORS OF VARIANCEFOR AUTOCORRELATED DATA – AN OVERVIEW

Metrology and Measurement Systems, Vol. 17, nr 1 (2010), str. 3-16

obejmuje podane do tego miejsca wyniki,

Formalizm można stosować bezpośrednio do analizy danych, jeżeli znamy funkcjęautokorelacji (z metod typu B)

Jest punktem wyjścia do obliczeń wykorzystujących tylko zbiór obserwacji {xi} tj. pełnej metody typu A

przedstawionych w dalszej części referatu.

3. ESTYMOWANIE neffI

ESTYMATORÓW WARIANCJIWYŁACZNIE

Z PRÓBY LOSOWEJ

Zasada tworzenia estymatora neff:

parametr: estymator:

�

(a) ograniczenie sumowania do wskaźnika nc ≤ n −1

(b) zastąpienie funkcji { ρk} przez jej estymator, tu: { rk}

obliczony z tejże próby losowej { xi}

∑=

−+=

cn

kk

eff

rknn

nn

1

2

)(2

ˆ

∑−

=ρ−+

=kn

kk

eff

knn

nn

1

2

)(2

Standardowy estymatorfunkcji autokorelacji

∑

∑

=

−

=+

−

−−=

n

ii

kn

ikii

k

xx

xxxx

r

1

2

1

)(

))((

0 10 20 30 40 50 60-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

r k

k

Estimates {rk} of ACF

AR(1), a = 0.659 n = 60

a)b)

c)

1.96 s(rk)

Metoda ostatniej statystycznie niezerowej rk (LSN)

N. F. Zhang, „Calculation of the uncertainty of the mean of autocorrelated measurements”,Metrologia (2006) S276-S281

parametr: estymator:

�

Sumowanie ograniczone na wartości odstępu nc odpowiadającemuostatniej niezerowej wartości rk

dla prawdopodobieństwa objęcia 95%”

gdzie

∑=

−+=

cn

kk

eff

rknn

nn

1

2

)(2

ˆ

∑−

=ρ−+

=kn

kk

eff

knn

nn

1

2

)(2

{ })(96.1max kkc rsrkn >=

n

rrs

kj k

k

∑−=+

=11

221)(

Metoda pierszego przejścia przez zero (FTZ):

nieformalnie: Dorozhovets i Warsza, 2007

sformułowanie metody& badanie własności metodą MCZięba & Ramza, PPM’09:

graniczny odstęp nc wyznacza pierwsze przejście funkcji autokorelacji przez zero, formalnie

Konieczne założenie: wszystkie ρk nieujemne

Własności: - 0 < neff < n dla każdych danych- mniejsze obciążenie i rozrzut

{ })0 0(min 1 <∧>= +kkc rrkn

Badanie estymatorów neff metodą Monte Carlo, n = 60:Sumowanie:

a) wszystkich wyrazów: nc = n − 1b) obcięte na: nc = n /4c) do ostatniego rk statystycznie niezerowego (LSN)

d) do pierszego przejścia { rk} przez zero (FTZ)

0,00 0,05 0,10 0,150

10

20

30

40

50

601/nefftheor.

g(1/

n eff)

1/neff

1/n

a)

b)

c)AR(1), a = 0.659 n = 60

d)

Inne opcje dla estymatora ACF:

� estymator standardowy

2 przyczyny obciążenia:

- nierówna liczebność sum- użycie średniej zamiast wartości oczekiwanej

� „z gwiazdką”: z usuniętym obciążeniem od nierównej liczebności sum

∑

∑

=

−

=+

−

−−==

n

ii

kn

ikii

kk

xxn

xxxxn

c

cr

1

2

1

0 )(1

))((1

∑

∑

=

−

=+

−

−−−

==n

ii

kn

ikii

kk

xxn

xxxxkn

c

cr

1

2

1*0

**

)(1

))((1

Opinia zpodręcznika:

Priestley,Spectral analysisand time series,Elsevier 1981

W istocie:

0 1 2 3 4 5 6 7 8

γ0=σ2

E[ck]E[ck*]

γk

k

SMA, m = 5 n = 15

0

T.W. Anderson: The Statistical Analysis of Time Series. Wiley, 1971.

po uporządkowaniu:

Obciążenie polega na przesunięciu funkcji {ck*}o stały składnik

( ) )/1( 22

* nOn

cEeff

kk +σ−γ=

Obliczenie obciążenia umożliwia jego kompensację.

wyniki:

-

0,00 0,05 0,10 0,15 0,20 0,25 0,300

5

10

15

20

AR(1), a = 0.659 n = 60

1/n

g(1/

n eff)

1/neff

1/nefftheor.

a)

b)

c)

1

21

/)1(12

1

+

+

++−−=

∑=

+cn

kk

ccceff

r

nnnnnn

>

≤+−=

+++

c

ceffkeffk

nk

nknrnr

0

/1)/11( *

ESTYMATORY ODCHYLENIA

STANDARDOWEGO

BADANE METODĄ MC

Odchylenie standardowe:pojedynczego pomiaru sa

i średniej czyli u(x)

(νeff obliczane metodą FTZ)

0,0 0,5 1,0 1,5 2,0 2,50,0

0,5

1,0

1,5

2,0g(s

/ σσ σσ)

s/σσσσ

n = 15

bias of u(x):SMA -36%AR(1) -25%

sau(x)AR(1)

SMA

0,0 0,5 1,0 1,5 2,0 2,50,0

0,5

1,0

1,5

2,0

2,5

3,0

n = 60

bias of u(x):SMA −−−−1%AR(1) −−−−11%

g(s

/ σσ σσ)

s/σσσσ

0,0 0,5 1,0 1,5 2,0 2,50

1

2

3

4

5

6

n = 240

bias of u(x):SMA +3%AR(1) 0%

g(s

/σ/σ /σ/σ)

s/σσσσ

Wnioski z symulacji MC:

- potwierdzenie przydatność formalizmu dla osób nieufnychw stosunku do nowych wzorów

- algorytm pracuje również dla zupełnie małej liczebności próby wbrew „wyssanej z palca” regule (ang. rule of thumb)że minimalna wartość n = 50 (podręcznik Box et al.)

- rozrzuty estymatorów odchylenia standardowego

w przybliżeniu równe

- rozrzut dla odchylenia standardowego średniej większy, alenie bardziej niż dwa razy

- obciążenie estymatorów pomijalne w porównaniu z rozrzutem

effν2

1

4. PODSUMOWANIE

Konkluzja całościowa

Opracowano algorytmybędące ścisłym odpowiednikiem wzorów dla

nieskorelowanej zmiennej gaussowskiej

umożliwiają obliczenie niepewności typu Adla danych samoskorelowanych

Uporządkowanie tematu & nowe wyniki

w tym dziale statystyki matematycznej

Zagadnienia otwarte:

- przydatność formalizmu do różnych danych rzeczywistych

- obliczanie niepewności rozszerzonej

- obserwacje nierównoważne

- niegaussowskie funkcje rozkładu

- procesy stochastyczne nie posiadające ustalonej wariancji

- dopasowanie prostej i innych funkcji do danych skorelowanych

- itd., itp.

Podziękowania:

Zygmunt Warsza – za inspirację i info

Polskim metrologom poznanym na konferencjach,Podstawowe Problemy Metrologii 2004-2009

i Sympozjach Niepewności Pomiaru 2008 i 2010

Anonimowi recenzenci Metrologii – za uporczywą krytykę,która umożliwiła lepsze zrozumienie tematu przezautora i zapobiegła przedwczesnym publikacjom

Piotr Ramza – obliczenia MC & współpraca2008 - 2010

Dziękuj ę za uwagę

STATYSTYKA DANYCH SAMOSKORELOWANYCH · STATYSTYKA DANYCH SAMOSKORELOWANYCH ... wzory dla...

Documents

Transcript of STATYSTYKA DANYCH SAMOSKORELOWANYCH · STATYSTYKA DANYCH SAMOSKORELOWANYCH ... wzory dla...