O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i...

25
O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka Zofia Hanusz, Joanna Tarasińska Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie Wisla 2012, 7.12.2012

Transcript of O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i...

Page 1: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

O testach wielowymiarowej normalności opartychna statystyce Shapiro-Wilka

Zofia Hanusz, Joanna Tarasińska

Katedra Zastosowań Matematyki i InformatykiUniwersytet Przyrodniczy w Lublinie

Wisła 2012, 7.12.2012

Page 2: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Plan prezentacji

1 Wprowadzenie

2 Porównanie testów dla jednowymiarowej normalności

3 Adaptacja testu Shapiro-Wilka do wielowymiarowej normalności

4 Porównanie testów dla różnych p

5 Bibliografia

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 3: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Test Shapiro-Wilka

Do badania normalności najczęściej stosowanym testem jest testShapiro-Wilka (1965) postaci

W =

[n∑i=1aiXi :n

]2

n∑i=1

(Xi − X

)2

gdzie X1:n,X2:n, . . . ,Xn:n są statystykami porządkowymi próbylosowej X1,X2, . . . ,Xn, natomiast ai są antysymetrycznymi

wartościami takimi, żen∑i=1a2i = 1, ai = −an−i+1 oraz an+1/2 = 0

dla n nieparzystych.

Małe wartości statystyki W świadczą o braku normalności.Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 4: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Shapiro i Wilk (1968) zaproponowali statystykę G(W), stosująctransformację SB Johnsona postaci

G (W ) = γ + δ lnW − ε1−W

as∼ N (0, 1)

Shapiro i Wilk podali tablice wartości γ, δ, ε dla n ¬ 50

Małe wartości statystyki G(W) świadczą o braku normalności.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 5: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Poprawa testu Shapiro-Wilka

Wartości ai podane w tablicach Shapiro i Wilka (1965) oraz winnych pracach (np. Zieliński i Zieliński,1990) zawierają błędy.Royston (1992) podał metodę iteracyjną obliczania wartości ai .W pracy wartości ai obliczamy ze wzorów:

a = [a1, a2, . . . , an] =m′V−1

√m′V−1V−1m

mi = E (Xi :n) = n

(n − 1i − 1

)1∫0xn−i (1− x)n−i Φ−1 (x) dx ,

V = [cov (Xi :n,Xj :n)]i ,j=1,...,n = mij −mimjmij = E (Xi :nXj :n) =

n!(i−1)!(j−i−1)!(n−j)!

1∫0

1∫xx i−1 (y − x)j−i−1 (1− y)n−j Φ−1 (x) Φ−1 (y) dxdy

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 6: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Przykład: Wartości ai , γ, δ, ε dla n = 40

ai S-W Royston Dokładnea40 0.3964 0.3786 0.3786a39 0.2737 0.2816 0.2816a38 0.2737 0.2406 0.2406a37 0.2098 0.2133 0.2133

Stałe gamma delta epsilonS-W -6.961 2.075 0.1612

Dokładne -7.027 2.016 0.1471

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 7: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Porównanie testów : W ,G (W ),W ∗,G (W ∗)

Poziom istotności

Wniosek

Testy poprawione W ∗ oraz G (W ∗) lepiej zachowują poziomistotności niż W i G(W).Najlepiej zachowuje poziom istotności test W ∗.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 8: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Moc testów

Próby generowane z rozkładu jednostajnego na przedziale [−1, 1]

Wniosek

Nieznacznie mniejszą moc osiągnął test W ∗.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 9: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Próby generowane z rozkładu t-Studenta z 2 stopniami swobody

Wniosek

Nieznacznie większą moc osiągnął test W ∗.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 10: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Próby generowane z rozkładu χ2(3)

Wniosek

Wszystkie porównywane testy jednakowo rozpoznają rozkład χ2(3).

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 11: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Mieszanina rozkładów normalnych: (1− π)N(0, 1) + πN(1, 4)

Wniosek

Dla n = 20 moc wszystkich testów jest prawie identyczna.Dla n = 40 testy W ∗ i G (W ∗) są najmocniejsze.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 12: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

p-wymiarowa normalność

Załóżmy, że interesuje nas hipoteza:

H0 : X1,X2, · · · ,Xn ∼ Np (µ,Σ)

Zdefiniujmy statystykę Shapiro-Wilka dla składowych głównych:

W (j) =

[n∑i=1aiYi :n,j

]2

n λjdla j = 1, . . . , p

gdzie Y1:n,j ¬ Y2:n,j ¬ · · · ¬ Yn:n,j są statystykami porządkowymiskładowych głównych Yij = X′i hj

S = HΛH′, S = 1n

n∑i=1

(Xi − X)(Xi − X)′, X = 1n

n∑i=1

Xi ,

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 13: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Statystyka M1

Srivastava i Hui (1987) do weryfikacji H0 zaproponowali funkcjętestową postaci

M1 = −2p∑j=1

ln [Φ (Gj)]

Ponieważ

Gjas∼ N (0, 1) =⇒ Φ (Gj)∼Uniform =⇒ −2 ln [Φ (Gj)]∼χ2 (2)

ZatemM1as∼ χ2 (2p)

Wnioskowanie

Hipotezę o normalności odrzucamy dla dużych M1.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 14: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Statystyka V

Hanusz, Tarasińska (2008) do weryfikacji H0 zaproponowałyfunkcję testową postaci

V =√pG , G =

1p

p∑j=1

Gj

Gj = G (Wj) = γ + δ ln

(Wj − ε1−Wj

)

V as∼ N (0, 1)

Wnioskowanie

Hipotezę o normalności odrzucamy dla małych wartości V.Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 15: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Poziom istotności

Test Henze-Zirklera nie zachowuje poziomu istotności dla n ¬ 20.Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 16: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Rozkład jednostajny na sferze

V ma większą moc dla n < 15, zaś Henze-Zirklera dla n > 15.Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 17: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Wielowymiarowy rozkład T

Test Henze-Zirklera jest słabszy niż M1 i V dla n < 20.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 18: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Brzegowe o rozkładach χ2(3)

Dla większych n test Henze-Zirklera jest mocniejszy.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 19: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Mieszanina rozkładów normalnych

(1− π)N(0, I2) + πN(µ,Σ), µ = [1, 2]′ ,Σ =

1 11 4

Dla mieszaniny rozkładów normalnych test M1 ma najwyższą moc.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 20: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Wnioski

Test Shapiro-Wilka z poprawionymi wartościami tablicowymizachowuje poziom istotności

Moc porównywanych testów opartych na statystyce W jestpodobna

Dla wielowymiarowej normalności test Henze-Zirklera niezachowuje poziomu istotności

Dla większości rozkładów alternatywnych, test Henze-Zirleraposiada wyższą moc dla większych n.

Dla mniejszych liczebności test M1 i V mają wyższą moc niżtest Henze-Zirklera.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 21: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Wnioski

Test Shapiro-Wilka z poprawionymi wartościami tablicowymizachowuje poziom istotności

Moc porównywanych testów opartych na statystyce W jestpodobna

Dla wielowymiarowej normalności test Henze-Zirklera niezachowuje poziomu istotności

Dla większości rozkładów alternatywnych, test Henze-Zirleraposiada wyższą moc dla większych n.

Dla mniejszych liczebności test M1 i V mają wyższą moc niżtest Henze-Zirklera.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 22: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Wnioski

Test Shapiro-Wilka z poprawionymi wartościami tablicowymizachowuje poziom istotności

Moc porównywanych testów opartych na statystyce W jestpodobna

Dla wielowymiarowej normalności test Henze-Zirklera niezachowuje poziomu istotności

Dla większości rozkładów alternatywnych, test Henze-Zirleraposiada wyższą moc dla większych n.

Dla mniejszych liczebności test M1 i V mają wyższą moc niżtest Henze-Zirklera.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 23: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Wnioski

Test Shapiro-Wilka z poprawionymi wartościami tablicowymizachowuje poziom istotności

Moc porównywanych testów opartych na statystyce W jestpodobna

Dla wielowymiarowej normalności test Henze-Zirklera niezachowuje poziomu istotności

Dla większości rozkładów alternatywnych, test Henze-Zirleraposiada wyższą moc dla większych n.

Dla mniejszych liczebności test M1 i V mają wyższą moc niżtest Henze-Zirklera.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 24: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Wnioski

Test Shapiro-Wilka z poprawionymi wartościami tablicowymizachowuje poziom istotności

Moc porównywanych testów opartych na statystyce W jestpodobna

Dla wielowymiarowej normalności test Henze-Zirklera niezachowuje poziomu istotności

Dla większości rozkładów alternatywnych, test Henze-Zirleraposiada wyższą moc dla większych n.

Dla mniejszych liczebności test M1 i V mają wyższą moc niżtest Henze-Zirklera.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Page 25: O testach wielowymiarowej normalności opartych na ...wisla2012/prezentacje/hanusz.pdf · Shapiro i Wilk podali tablice wartości γ,δ, ... Statystyka V Hanusz, Tarasińska (2008)

WprowadzeniePorównanie testów dla jednowymiarowej normalności

Adaptacja testu Shapiro-Wilka do wielowymiarowej normalnościPorównanie testów dla różnych p

Bibliografia

Hanusz Z., Tarasińska J. (2008). Remarks on approximated tests based onShapiro-Wilk’s statistic. Colloquium Biometricum 38: 87-93.

Henze, N., Zirkler, H. (1990). A class of invariant and consistent tests formultivariate normality. Communication in Statistics – Theory Methods 19:3595-3617.

Royston P. (1992). Approximating the Shapiro-Wilk W test for non-normality.Statistics and Computing 2: 117-119.

Shapiro S.S., Wilk M.B. (1965). An analysis of variance test for normality(complete samples). Biometrika 52: 591-611.

Srivastava M.S., Hui T.K. (1987). On assessing multivariate normality based onShapiro-Wilk W statistic. Statistics and Probability Letters 5: 15-18.

Zofia Hanusz, Joanna Tarasińska O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka