STATYSTYKA DANYCH SAMOSKORELOWANYCH · STATYSTYKA DANYCH SAMOSKORELOWANYCH ... wzory dla...
Transcript of STATYSTYKA DANYCH SAMOSKORELOWANYCH · STATYSTYKA DANYCH SAMOSKORELOWANYCH ... wzory dla...
SeminariumWydziaWydziałłu Fizyki i Informatyki Stosowanej AGHu Fizyki i Informatyki Stosowanej AGH
16 kwietnia 2010
STATYSTYKA DANYCH SAMOSKORELOWANYCH
Andrzej Zięba
Plan:
1. Wstęp- formalizm standardowy i jego ograniczenia- matematyczny opis danych samoskorelowanych
2. Teoria analityczna, gdy funkcja autokorelacji jest znana a priori
3. Przypadek funkcji autokorelacji estymowanejz analizowanej próby losowej – teoria & MC
4. Konkluzje i podziękowania
ad 1a: najczęściej stosowane wzory statystyki matematycznej:
♣ wynik pomiaru≡ średnia arytmetyczna
♦ odchylenie st. pojedynczego pomiaru
♥ niepewność pomiaru ≡ odchylenie st. średniej
♠ względny rozrzut estymatorów odchylenia st.
1
)(1
2
−
−=
∑=
n
xxs
n
ii
n
xxx
n
ii∑
==≡ 1
n
sxsxu =≡ )()(
)1(2
1
)(
))(()(
−≅=
nxs
xss
s
ss
Ww. estymatory są zgodne, nieobciążone i najefektywniejsze jeżeli obserwacje są
(i) równoważne,(ii) wzajemnie nieskorelowane,(iii) obarczone błędem przypadkowym
o rozkładzie normalnym.
Co robić, jeżeli {xi } są skorelowane?
(Pozostałe dwa założenia obowiązują.)
1b. MATEMATYCZNY OPIS
DANYCH
SAMOSKORELOWANYCH
Ciąg n skorelowanych obserwacji {xi } można opisywać przy
użyciu trzech formalizmów teorii prawdopodobieństwa
(i) – realizacja wielowymiarowej zmiennej losowej{X1,X2,…,Xn} o równoważnych składowych.
Parametry: - wartość oczekiwana µ, - odchylenie st. σ, - macierz wsp. korelacji ρij
Struktura macierzy autokorelacji, wynikająca z założenia równoważności, umożliwia zastąpienie jej przez jednowymiarową dyskretną
funkcję autokorelacji: ρ0, ρ1, ρ2, …. , ρn−1
ρρρρ
ρρρ
ρρρρρρ
−−−
−
−
−
nnnn
n
n
n
L
MMMM
L
L
K
321
312
211
121
1
1
1
(ii) n-elementowa próba zestacjonarnego szeregu czasowego
→ stacjonarność ≡ równoważność
→ modele szeregów czasowych, np.:
autoregresyjny AR(1) xn = axn−1 + (1 − a)un
średnia ruchoma SMA xn = (un + un − 1 + … + un - m)/m
(iii) {xi } wynikiem próbkowania (w równych przedziałach czasu ∆t) ciągłego
stacjonarnego procesu stochastycznego x(t)
Przykład: prosta średnia ruchoma (SMA)
ui - liczby nieskorelowane
xi - liczby skorelowane
0 20 40 60-3
-2
-1
0
1
2
3 (a) µ = 0, σ = 1
µ − σ
µ + σ
µ
ui
i
0 20 40 60-1,6
-1,2
-0,8
-0,4
0,0
0,4
0,8
1,2
1,6
(b) µ = 0, σ = 5−1/2
µ − σ
µ + σµ
xi
i
52112 ++−− ++++= iiiii
iuuuuu
x
Funkcje autokorelacji dla SMA, m = 5:
ρ0 = 1, ρ1= 0,8 ρ2= 0,6 ρ3 = 0,4 ρ4 = 0,2 pozostałe = 0
AR(1): ρk = a−k
0 5 10 15 200,0
0,2
0,4
0,6
0,8
1,0
ρ k
k
a
b
2. FORMALIZM DLA PRZYPADKU,
GDY FUNKCJA AUTOKORELACJI
JEST ZNANA a priori
Średnia arytmetyczna
pozostaje najlepszym estymatorem wartości oczekiwanej bo:
- jako zmienna losowa jest liniową kombinacją zmiennych Xi
(ze współczynnikami ci = 1/n)
- twierdzenie o wartości oczekiwanej kombinacji liniowejzmiennych losowych jest takie samo
dla zmiennych nieskorelowanych i skorelowanych
∑=
=n
iix
nx
1
1
Ad ♥♥♥♥
ZWIĄZEK MIĘDZY WARIANCJĄ I WARIANCJĄ ŚREDNIEJ.
EFEKTYWNA LICZBA OBSERWACJI
Intuicyjnie: na przykładzie danych skorelowanych wygenerowanych jako średnia ruchoma z m elementów łatwo pojąć, że wzór
nie może obowiązywać dla danych skorelowanych.Gdyby był słuszny, obliczenie średniej ruchomej z m elementów, a następnie średniej z tejże, dostarczało by „cudownego triku”na zmniejszenie niepewności pomiaru do wartości circa
(m n)1/2 razy mniejszej!
Teoria prawdopodobieństwa: wzór na wariancję sumy – oraz
kombinacji liniowej – jest dla zmiennych skorelowanych inny.
nx
22 σ=σ
Wzór prawidłowy:
Box G. E. P., Jenkins G. M, Reinsel G. C.: Time Series Analysis: Forecasting and Control, 3rd Ed. Prentice Hall 1994
Wyprowadzenie: średnia to liniowa kombinacja zm. losowych:
jej wariancja:
= (σ2/n2)×suma elementów macierzy kowariancji
ρ−+σ=σ ∑
−
=
kn
kkknn
nx
12
22 )(2)(
∑=
==k
ikkk n
cXcx1
1,
=ρσ=
=ρσσ=σ
∑∑
∑∑
= =
= =
n
i
n
jji
n
i
n
jijjijj
n
ccx
1 1,2
2
1 1
2 )(
ρρρρρρρρρρρρ
=ρ
1
1
1
1
123
112
211
321
ij
Wzór ten
zapisać można wprowadzając pojedynczy parametr
efektywna liczba obserwacji neff.
,
effnx
σ=σ )(
∑−
=ρ−+
=kn
kk
eff
nk
nn
1
)/1(21
2
2
1
2 )(n
knnkn
kkx
σρσ
−+= ∑
−
=
Własności neff
- liczba rzeczywista z przedziału [1, ∞∞∞∞)
1 korelacje dodatnie n kor. ujemne ∞∞∞∞→→→→
- próbkowanie procesu stochastycznego: n →→→→ ∞∞∞∞(w ustalonym przedziale, Δt →→→→ 0) neff →→→→ const
Przykład:model SMA(5), n = 60 →→→→ neff = 12,33
Wyniki poszukiwań literaturowych, 2009:
- reduced number of coordinates (Bartels 1935)- effective number of independent observations
(Bayley & Hammersley 1946)- equivalent number of independent data (Bagrov 1969)
- equivalent number of uncorrelated samples (Lubman 1969)- effective independent sample size (Leith 1973)
- effective sample size (Taubenheim1974)- equivalent number of independent observations (Priestley 1981)- equivalent independent process effective number (Zen 1998)
- effective number of uncorrelated observations (Dorozhovets & Warsza 2007)
Ad ♦♦♦♦ i ♥♥♥♥
NIEOBCIĄŻONEESTYMATORY WARIANCJI
Wyprowadzenie dla danych nieskorelowanych:
(i) definiujemy estymator wariancji:
(ii) obliczamy wart. oczekiwaną(7 linijek algebry):
----------------------------------------------------------------------
(iii) dla danych nieskorelowanych σ2(x) = σ2/n(iv) obciążenie estymatora sb
2 → E(sb2) = (1−1/n) σ2
(iv) czynnik korekcyjny (1−1/n) −1 = n/(n −1)
(v) estymator sb2 mnożymy przez
czynnik korekcyjny uzyskując
nieobciążony estymator wariancji:
n
xx
s
n
ii
b
∑=
−= 1
2
2
)(
1
)(1
2
2
−
−=∑=
n
xxs
n
ii
( ) )(E 222 xsb σ−σ=
Wyprowadzenie dla danych skorelowanych:
(i) definiujemy estymator wariancji:
(ii) obliczamy wart. oczekiwaną(7 linijek algebry):
----------------------------------------------------------------------
(iii) dla danych skorelowanych σ2(x) = σ2/neff
(iv) obciążenie estymatora sb2 → E(sb
2) = (1−1/neff) σ2
(iv) czynnik korekcyjny (1−1/neff) −1 = neff eff /(neffeff −1)
(v) estymator sb2 mnożymy przez
czynnik korekcyjny uzyskując
nieobciążony estymator wariancji:
n
xx
s
n
ii
b
∑=
−= 1
2
2
)(
n
xx
n
ns
n
ii
eff
effa
∑=
−
−= 1
2
2
)(
1
( ) )(E 222 xsb σ−σ=
Wzór ten:
podany był bez wyprowadzenia w pracy:
Bayley and Hammersley, The “Effective” Number of Independent Observations in an Autocorrelated Time-Series. J. Roy. Stat. Soc. Suppl. 8, 184-197 (1946)zapomniany (?) przez 60 lat.
22
)1(
)1(s
nn
nns
eff
effa −
−=
Ponadto:
- wzory na obciążenie estymatorów macierzy kowariancji podałT.W. Anderson: The Statistical Analysis of Time Series. Wiley, New York, 1971, ale nie wykorzystał do wyprowadzenia nieobciążonego estymatora wariancji,
- Şen (1998): wyprowadzenie dla modelu ARMA(1)
Wariancja średniej(AZ, PPM 2008): )1(
)(
)( 1
22
2
−
−==∑
=
eff
n
ii
eff
aa nn
xx
n
sxs
Konwencja GUM: niepewność pomiaru typu A jest pierwiastkiem kwadratowym z nieobciążonego
estymatora wariancji
zatem niepewność pomiaru dla n obserwacji skorelowanych:
)1(
)()()( 1
2
−
−=≡
∑=
eff
n
ii
nn
xxxsxu
Ad ♥♥♥♥
DOKŁADNOŚĆ OCENY NIEPEWNOŚCI
Próba los. nieskorelowana: u(s)/s = (2ν)−1/2 gdzie ν = n - 1
Próba samoskorelowana: u(sa)/sa = (2νeff)−1/2
gdzie
ννννeff - efektywna liczba stopni swobody
(różna od neff −−−− 1, własność: 0 < ννννeff < n )
Bayley & Hammersley 1946: wzór dokładny:
wzory dla określonych modeli: Priestley 1981, Taubenheim 1974, Fortus 1999)
Wzór przybliżony, poprawny efekt uproszczeniawzoru dokładnego (AZ 2009)
1
211
1
2
−+
≅
∑−
=
n
kk
effn
ρν
184824)1(
84824)1(
764312
7652123
−Σ−Σ−Σ−Σ+Σ−−Σ−Σ−Σ+Σ+Σ−−=
nnnnn
nnnnneffν
Publikacja:
A. Zięba
EFFECTIVE NUMBER OF OBSERVATIONS AND UNBIASED ESTIMATORS OF VARIANCEFOR AUTOCORRELATED DATA – AN OVERVIEW
Metrology and Measurement Systems, Vol. 17, nr 1 (2010), str. 3-16
obejmuje podane do tego miejsca wyniki,
Formalizm można stosować bezpośrednio do analizy danych, jeżeli znamy funkcjęautokorelacji (z metod typu B)
Jest punktem wyjścia do obliczeń wykorzystujących tylko zbiór obserwacji {xi} tj. pełnej metody typu A
przedstawionych w dalszej części referatu.
3. ESTYMOWANIE neffI
ESTYMATORÓW WARIANCJIWYŁACZNIE
Z PRÓBY LOSOWEJ
Zasada tworzenia estymatora neff:
parametr: estymator:
�
(a) ograniczenie sumowania do wskaźnika nc ≤ n −1
(b) zastąpienie funkcji { ρk} przez jej estymator, tu: { rk}
obliczony z tejże próby losowej { xi}
∑=
−+=
cn
kk
eff
rknn
nn
1
2
)(2
ˆ
∑−
=ρ−+
=kn
kk
eff
knn
nn
1
2
)(2
Standardowy estymatorfunkcji autokorelacji
∑
∑
=
−
=+
−
−−=
n
ii
kn
ikii
k
xx
xxxx
r
1
2
1
)(
))((
0 10 20 30 40 50 60-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
r k
k
Estimates {rk} of ACF
AR(1), a = 0.659 n = 60
a)b)
c)
1.96 s(rk)
Metoda ostatniej statystycznie niezerowej rk (LSN)
N. F. Zhang, „Calculation of the uncertainty of the mean of autocorrelated measurements”,Metrologia (2006) S276-S281
parametr: estymator:
�
Sumowanie ograniczone na wartości odstępu nc odpowiadającemuostatniej niezerowej wartości rk
dla prawdopodobieństwa objęcia 95%”
gdzie
∑=
−+=
cn
kk
eff
rknn
nn
1
2
)(2
ˆ
∑−
=ρ−+
=kn
kk
eff
knn
nn
1
2
)(2
{ })(96.1max kkc rsrkn >=
n
rrs
kj k
k
∑−=+
=11
221)(
Metoda pierszego przejścia przez zero (FTZ):
nieformalnie: Dorozhovets i Warsza, 2007
sformułowanie metody& badanie własności metodą MCZięba & Ramza, PPM’09:
graniczny odstęp nc wyznacza pierwsze przejście funkcji autokorelacji przez zero, formalnie
Konieczne założenie: wszystkie ρk nieujemne
Własności: - 0 < neff < n dla każdych danych- mniejsze obciążenie i rozrzut
{ })0 0(min 1 <∧>= +kkc rrkn
Badanie estymatorów neff metodą Monte Carlo, n = 60:Sumowanie:
a) wszystkich wyrazów: nc = n − 1b) obcięte na: nc = n /4c) do ostatniego rk statystycznie niezerowego (LSN)
d) do pierszego przejścia { rk} przez zero (FTZ)
0,00 0,05 0,10 0,150
10
20
30
40
50
601/nefftheor.
g(1/
n eff)
1/neff
1/n
a)
b)
c)AR(1), a = 0.659 n = 60
d)
Inne opcje dla estymatora ACF:
� estymator standardowy
2 przyczyny obciążenia:
- nierówna liczebność sum- użycie średniej zamiast wartości oczekiwanej
� „z gwiazdką”: z usuniętym obciążeniem od nierównej liczebności sum
∑
∑
=
−
=+
−
−−==
n
ii
kn
ikii
kk
xxn
xxxxn
c
cr
1
2
1
0 )(1
))((1
∑
∑
=
−
=+
−
−−−
==n
ii
kn
ikii
kk
xxn
xxxxkn
c
cr
1
2
1*0
**
)(1
))((1
Opinia zpodręcznika:
Priestley,Spectral analysisand time series,Elsevier 1981
W istocie:
0 1 2 3 4 5 6 7 8
γ0=σ2
E[ck]E[ck*]
γk
k
SMA, m = 5 n = 15
0
T.W. Anderson: The Statistical Analysis of Time Series. Wiley, 1971.
po uporządkowaniu:
Obciążenie polega na przesunięciu funkcji {ck*}o stały składnik
( ) )/1( 22
* nOn
cEeff
kk +σ−γ=
Obliczenie obciążenia umożliwia jego kompensację.
wyniki:
-
0,00 0,05 0,10 0,15 0,20 0,25 0,300
5
10
15
20
AR(1), a = 0.659 n = 60
1/n
g(1/
n eff)
1/neff
1/nefftheor.
a)
b)
c)
1
21
/)1(12
1
+
+
++−−=
∑=
+cn
kk
ccceff
r
nnnnnn
>
≤+−=
+++
c
ceffkeffk
nk
nknrnr
0
/1)/11( *
ESTYMATORY ODCHYLENIA
STANDARDOWEGO
BADANE METODĄ MC
Odchylenie standardowe:pojedynczego pomiaru sa
i średniej czyli u(x)
(νeff obliczane metodą FTZ)
0,0 0,5 1,0 1,5 2,0 2,50,0
0,5
1,0
1,5
2,0g(s
/ σσ σσ)
s/σσσσ
n = 15
bias of u(x):SMA -36%AR(1) -25%
sau(x)AR(1)
SMA
0,0 0,5 1,0 1,5 2,0 2,50,0
0,5
1,0
1,5
2,0
2,5
3,0
n = 60
bias of u(x):SMA −−−−1%AR(1) −−−−11%
g(s
/ σσ σσ)
s/σσσσ
0,0 0,5 1,0 1,5 2,0 2,50
1
2
3
4
5
6
n = 240
bias of u(x):SMA +3%AR(1) 0%
g(s
/σ/σ /σ/σ)
s/σσσσ
Wnioski z symulacji MC:
- potwierdzenie przydatność formalizmu dla osób nieufnychw stosunku do nowych wzorów
- algorytm pracuje również dla zupełnie małej liczebności próby wbrew „wyssanej z palca” regule (ang. rule of thumb)że minimalna wartość n = 50 (podręcznik Box et al.)
- rozrzuty estymatorów odchylenia standardowego
w przybliżeniu równe
- rozrzut dla odchylenia standardowego średniej większy, alenie bardziej niż dwa razy
- obciążenie estymatorów pomijalne w porównaniu z rozrzutem
effν2
1
4. PODSUMOWANIE
Konkluzja całościowa
Opracowano algorytmybędące ścisłym odpowiednikiem wzorów dla
nieskorelowanej zmiennej gaussowskiej
umożliwiają obliczenie niepewności typu Adla danych samoskorelowanych
Uporządkowanie tematu & nowe wyniki
w tym dziale statystyki matematycznej
Zagadnienia otwarte:
- przydatność formalizmu do różnych danych rzeczywistych
- obliczanie niepewności rozszerzonej
- obserwacje nierównoważne
- niegaussowskie funkcje rozkładu
- procesy stochastyczne nie posiadające ustalonej wariancji
- dopasowanie prostej i innych funkcji do danych skorelowanych
- itd., itp.
Podziękowania:
Zygmunt Warsza – za inspirację i info
Polskim metrologom poznanym na konferencjach,Podstawowe Problemy Metrologii 2004-2009
i Sympozjach Niepewności Pomiaru 2008 i 2010
Anonimowi recenzenci Metrologii – za uporczywą krytykę,która umożliwiła lepsze zrozumienie tematu przezautora i zapobiegła przedwczesnym publikacjom
Piotr Ramza – obliczenia MC & współpraca2008 - 2010
Dziękuj ę za uwagę