Wykorzystanie algorytmów Bootstrap i Jacknife w...
Transcript of Wykorzystanie algorytmów Bootstrap i Jacknife w...
1
SAS - Probabilistyczne i deterministyczne modele optymalizacji decyzji
Wykorzystanie algorytmów Bootstrap i Jacknife w
estymacji parametrów regresji.
Zastosowanie pakietu SAS.
Sprawozdanie z badania
Andrzej Kamiński
nr. indeksu: 239848
Bartosz Łoskot
nr. indeksu: 240183
WARSZAWA, luty 2010
2
Spis Treści Wprowadzenie............................................................................................................................ 3 Zastosowane dane ...................................................................................................................... 4 Metoda Bootstrap ....................................................................................................................... 6
Bootstrap oparty na repróbkowaniu obserwacji..................................................................... 6 Bootstrap oparty na repróbkowaniu błędu losowego............................................................. 7
Metoda Jacknife ......................................................................................................................... 7 Jacknife z usuwaniem jednej obserwacji ............................................................................... 7 Jacknife z usuwaniem kilku obserwacji ................................................................................. 8
Teoretyczne analiza technik Bootstrapu i Jacknifa. ................................................................... 8 Charakterystyki rozkładów ........................................................................................................ 9
Metoda Bootstrap ................................................................................................................... 9 Metoda Jacknife ................................................................................................................... 11
Wyniki ...................................................................................................................................... 11 Analiza wykresów ................................................................................................................ 12 Analiza charakterystyk rozkładów....................................................................................... 13
Podsumowanie. ........................................................................................................................ 15 Bibliografia............................................................................................................................... 16 Aneks........................................................................................................................................ 16
3
Wprowadzenie Regresja to statystyczna metoda, pozwalająca na zbadanie związku pomiędzy róŜnymi
wielkościami występującymi w danych. Daje ona równieŜ moŜliwość wykorzystania wiedzy
w nich zawartej do przewidywania nieznanych wartości jednych wielkości na podstawie
znanych wartości innych. Regresja to w ogólności problem estymacji warunkowej wartości
oczekiwanej. Gdy przyjmiemy jednak, Ŝe modelem zaleŜności pomiędzy róŜnymi zmiennymi
jest funkcja liniowa, mówimy wtedy o regresji liniowej.
ZaleŜności tą moŜemy zapisać jako: y X β ε= + , gdzie 1( , , )n
y y y ′= K to wektor
zmiennej objaśnianej o wymiarach nx1 (n to ilość obserwacji), 1( , , )n
X x x ′= K to macierz
zmiennych objaśniających wraz ze stałą (regresorów) o wymiarach nxp, gdzie p to ilość
parametrów w regresji a ε to nx1 wektor nieskorelowanego błędu losowego o zerowej
wartości oczekiwanej, stałej wariancji 2( )i
Var ε σ= . Do wyznaczenia oszacowań
nieobserwowalnego wektora parametrów i
β stosuje się (najczęściej) Metodę Najmniejszych
Kwadratów minimalizującą kwadrat sumy błędu losowego ε . Estymator taki ma postać:
1( )X X X yβ −′ ′=)
.
Estymator ten uzyskujemy traktując zaobserwowane dane jako „obrazek”
reprezentujący całą populację generalną. Wyznaczenie więc najlepszego z moŜliwych
estymatorów (zgodnego, nieobciąŜonego i najefektywniejszego) wymaga wprowadzanie kilku
restrykcyjnych załoŜeń o niej, opisywanych przez Klasyczny Model Regresji Liniowej.
Nawet gdy są one spełnione, wnioskowanie opiera się na asymptotycznych własnościach, co
dla małej ilości obserwacji moŜe okazać się zawodne. W niektórych tego typu przypadkach
moŜliwe jest podejście repróbkowania statystycznego.
Główną ideą tej metody jest wnioskowanie statystyczne przeprowadzane nie na
pewnej skończonej próbie ale na sztucznie utworzonej populacji generalnej. Powstaje ona
poprzez repróbkowanie (resampling) właśnie z tej skończonej, reprezentacyjnej próbki. W ten
sposób nie jest konieczne badanie załoŜeń dotyczących populacji, gdyŜ otrzymana poprzez
repróbkownie próba traktowana jest po prostu jako populacja.
Najbardziej popularnymi sposobami resamplingu są metody: jacknife (ang.
„scyzoryk”) oraz powstały jako jej modyfikacja bootstrap (ang. „ciągniecie za sznurówki”).
4
Są to nieparametryczne techniki pozwalająca na znalezienie oszacowań błędów
standardowych, przedziałów ufności, parametrów populacji takich jak średnia, mediana,
współczynnik korelacji. Dają one równieŜ, jak wspomniano wyŜej moŜliwość wyznaczenia
parametrów regresji liniowej bez dokonywania dodatkowych załoŜeń.
Celem niniejszego badania jest:
1. Przedstawienie metod jacknife i bootstrap, ich algorytmów oraz krótkie
opisanie ich teoretycznych własności
2. Zilustrowanie ich działania w pakiecie statystyczno-ekonometrycznym SAS z
wykorzystaniem rzeczywistych danych statystycznych
3. Porównanie wyników przeprowadzonych eksperymentów i wyciągniecie
wniosków.
Zastosowane dane Aby pokazać, w jaki sposób moŜna otrzymać oszacowania parametrów regresji liniowej za
pomocą metod resamplingu, zostały zastosowane rzeczywiste dane statystyczne dotyczące
płodności i sytuacji społeczno-ekonomicznej 47 francuskojęzycznych kantonów Szwajcarii w
roku 1888. Obejmują one:
• Fertility Ig, wystandaryzowana miara płodności jako zmienna objaśniana. Jest to
sztucznie stworzona miara dla analiz rozrodczości w ujęciu historycznym. Indeks ten
obliczany jest w następujący sposób t
i i
BIg
m f=∑
, gdzie:
o t
B - liczba urodzeń w danym roku
o i
m - liczba zamęŜnych kobiet w danym wieku
o i
f - płodność zamęŜnej kobiety ze społeczności Hutteryckiej w danym
przedziale wieku
Miara ta najlepiej odzwierciedla procesy płodności w historycznych badaniach
demograficznych Szwajcarii
• Agriculture – procent męŜczyzn zajmujących się rolnictwem
• Education – procent ludzi z wykształceniem ponadpodstawowym
• Catholic - procent katolików (jako przeciwieństwo protestantów)
• Infant.Mortality – procent dzieci zmarłych przed upływem 1 roku Ŝycia
5
Dane te zostały zebrane w okresie w którym populacja badanego obszaru zaczęła przechodzić
przejście demograficzne. Wybór tych danych nie jest przypadkowy. Zawiera one tylko 47
obserwacji, oraz na poziomie istotności 95% spełniają wszystkie załoŜenia KMRL. Opierając
się na twierdzeniu Gaussa-Markowa moŜna w takim przypadku stwierdzić, Ŝe estymator
MNK jest najlepszym estymatorem wektora parametrów beta w klasie liniowych i
nieobciąŜonych estymatorów tego parametru. Wydaje się więc, Ŝe model regresji liniowej
wyestymowany na powyŜszym zbiorze stanowi dobry benchmark dla porównań z wynikami
otrzymanymi dzięki technikom nieparametrycznym.
Oszacowania parametrów z KMRL przedstawiają się następująco:
The REG Procedure
Model: MODEL1
Dependent Variable: y Fertility
Number of Observations Read 47
Number of Observations Used 47
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 4 5019.88541 1254.97135 24.42 <.0001
Error 42 2158.06949 51.38261
Corrected Total 46 7177.95489
Root MSE 7.16817 R-Square 0.6993
Dependent Mean 70.14255 Adj R-Sq 0.6707
Coeff Var 10.21943
Parameter Estimates
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 62.10131 9.60489 6.47 <.0001
agr Agriculture 1 -0.15462 0.06819 -2.27 0.0286
educ Education 1 -0.98026 0.14814 -6.62 <.0001
cath Catholic 1 0.12467 0.02889 4.31 <.0001
inf_mort Infant,Mortality 1 1.07844 0.38187 2.82 0.0072
Analizując powyŜszy wydruk stwierdzamy, Ŝe na poziomie istotności 5% wszystkie
współczynniki okazują się statystycznie istotne, tak samo jak cała regresja. Współczynnik
determinacji na poziomie 0.6993 oznacza, Ŝe zmienność zmiennych objaśniających wyjaśnia
69,93% zmienności współczynnika płodności. Znaki przy oszacowaniach są zgodne z intuicją.
Przejdźmy teraz do omówienia bardziej szczegółowo technik repróbkowania.
6
Metoda Bootstrap
Aby opisać technikę repróbkowania bootstrap zaczynamy wektora obserwacji ( , )i i ji
w Y X ′= .
Wektor ten składa się z n=47 wierszy, czyli tylu ile jest obserwacji kaŜdej ze zmiennych.
Przyjmujemy, Ŝe kaŜde elementy i
w są losowane niezaleŜnie z takiego samego rozkładu
(oznaczanym jako F), gdzie ( , , )i i n
Y y y ′= K oznacza wektor zmiennej objaśnianej a
1( , , )ji j jn
X x x ′= K jest macierzą o wymiarze nxk, gdzie j=1,2,…k a i=1,2,…n.
Dla wyznaczenia parametrów regresji liniowej moŜemy posłuŜyć się dwoma rodzajami
schematów. Wybór jednego z nich zaleŜy od tego czy uznamy parametry z modelu KMRL za
losowe, czy za deterministyczne
Bootstrap oparty na repróbkowaniu obserwacji Podejście to stosujemy zazwyczaj, gdy zakładamy, iŜ parametry uzyskane z regresji liniowej
moŜemy uznać za wyznaczone przez los. Wektor ( , )i i ji
w Y X ′= o wymiarach (k+1)x1
oznacza wartości dla i-tej obserwacji. Zbiór takich wektorów oznaczmy 1(w ,..., )n
w . Dla tych
oznaczeń schemat algorytmu bootstrap wygląda następująco:
1. Losujemy Z POWTÓRZENIEM próbkę 1(w ,..., )b b
nw składającą się z n=47 elementów,
kaŜdemu z nich dając takie samo prawdopodobieństwo wylosowania 1/n. Oznaczamy
kaŜdy z wylosowanych wektorów b
iw , a z tego formujemy wektor b
iY oraz macierz
b
jiX
2. Wyznaczamy za pomocą MNK wektor oszacowań parametrów
1(( ) ) ( )b b b b bX X X Yβ −′ ′=)
3. Powtarzamy kroki 1 i 2 r=1,2,…,B gdzie B to ilość replikacji
4. Uzyskujemy rozkład oszacowań parametrów F( )bβ)
i stosujemy go do uzyskania
oszacowań parametrów, wariancji i przedziałów ufności. Oszacowanie bootstrapowe
parametrów regresji otrzymujemy wyznaczając średnią tego rozkładu: 1
r
Bb
b b
B
β
β ==∑
)
)
7
Bootstrap oparty na repróbkowaniu błędu losowego Jeśli przyjmiemy, Ŝe parametry w równaniu są deterministyczne, tzn. uznajemy je za stałe, to
metoda bootstrap musi zachować wyznaczoną przez te parametry strukturę. Uzyskuję się to
dzięki następującemu schematowi:
1. Szacujemy za pomocą MNK model regresji liniowej i uzyskujemy wartości dopasowane Y
)
. 2. Obliczamy wektor błędu losowego
i i ie Y Y= −
)
3. Losujemy próbkę 1( ,..., )b b
ne e o liczebności n=47 Z POWTÓRZENIAMI korzystając z
wartości i
e . KaŜda z nich moŜe myć wylosowana z takim samym
prawdopodobieństwem 1/n.
4. wartości wektora 1( ,..., )b b
ne e dodajemy do poszczególnych wartości X β
)
uzyskujemy
wartości b bY X eβ= +)
5. Obliczmy wektor oszacowań parametrów korzystając z MNK: 1( ) bX X X Yβ −′ ′=)
6. Powtarzamy kroki 3, 4 i 5 dla r=1,…,B i postępujemy tak samo jak w ostatnim kroku
bootstrapu dla współczynników losowych. Parametry rozkładów uzyskanych dzięki metodzie bootstrap
Metoda Jacknife Jacknife, historycznie starszy od bootstrapu jest inną metodą wtórnego próbkowania.
Generalnie, polega ono na stworzeniu n próbek poprzez usunięcie z pierwotnej próby j-tej
obserwacji. MoŜliwe jest równieŜ usuwanie większej ilości obserwacji. Podejście to stosuje
się głównie w przypadku załoŜenia o losowości (nie deterministyczności) parametrów w
regresji. Zacznijmy od prostszego algorytmu z usuwaniem tylko jednej obserwacji.
Jacknife z usuwaniem jednej obserwacji 1. Punktem wyjścia analizy jest nasz zbiór danych składający się z n=47 obserwacji.
wektor ( , )i i ji
w Y X ′= , czyniąc to samo dla ( , , )i i n
Y y y ′= K oraz 1( , , )ji j jn
X x x ′= K o
wymiarze nxk, gdzie j=1,2,…k a i=1,2,…n. 2. Usuwamy pierwszy rząd wektora ( , )
i i jiw Y X ′= , a pozostałe n-1 zbiory oznaczamy
jako 2( , , )J J J
i nY y y ′= K i 2( , , )J J J
ji j jnX x x ′= K . Następnie za pomocą MNK
wyznaczamy estymatory współczynników regresji 1Jβ)
. Podobnie, usuwamy drugi
wiersz wektora ( , )i i ji
w Y X ′= uzyskując wektory 1 3( , , , )J J J J
i nY y y y ′= K ,
8
1 3( , , )J J J J
ji j j jnX x x x ′= K i na ich podstawie uzyskujemy kolejne oszacowania
parametrów 2Jβ)
. Schemat ten powtarzamy, aŜ usuniemy ostatni rząd obserwacji.
3. Uzyskujemy rozkład F( )Jβ)
składający się z n=47 elementów 1 2, ,..., nJJ Jβ β β) ) )
.
4. Wyznaczamy parametry regresji liniowej z rozkładu F( )Jβ)
licząc po prostu jego
średnią: 1
i
nJ
j i
n
β
β ==∑
)
)
Jacknife z usuwaniem kilku obserwacji
Metoda „Scyzoryka” pozwala równieŜ na usuwalnie większej ilości elementów, zwiększając
tym samym próbę jacknife. Algorytm ten wygląda następująco:
1. Tak jak poprzednio rozpoczynamy dysponując zbiorem n obserwacji. Dzielimy ją na s
niezaleŜnych grup, kaŜda o liczebności d. Takich grup będzie n
S=d
. W tym badaniu
zastosujemy wszystkie grupy o liczebności 2, czyli dla naszego przykładu będzie to 47
S= 10812
=
dwu elementowych grup.
2. Dalej postępujemy podobnie jak poprzednio. Usuwamy pierwszą zbiór składający się
z dwóch obserwacji i za pomocą MNK uzyskujemy estymator 1Jβ)
. Powtarzamy to
nS=
d
razy.
3. Uzyskujemy rozkład F( )Jβ)
składający się z S=1081elementów 1 2, ,..., sJJ Jβ β β) ) )
.
4. Wyznaczamy parametry regresji liniowej z rozkładu F( )Jβ)
korzystając ze wzoru na
średnią: 1
i
SJ
j i
S
β
β ==∑
)
)
PowyŜsze dwa algorytmy wskazują, Ŝe uzyskane dzięki metodzie Scyzoryka wyniki będą
zawsze takie same, oraz liczebność próby jacknifowej będzie zawsze ograniczona wielkością
zbioru danych
Teoretyczne analiza technik Bootstrapu i Jacknifa.
• Statystyka podpowiada, Ŝe istnieje nn wszystkich moŜliwych prób bootstrap. Jeśli dla
kaŜdej z nich wyznaczylibyśmy parametry regresji liniowej, to dopiero wtedy
uzyskalibyśmy „prawdziwy” bootstrapowy rozkład parametrów. Jednak tak wielkie
obliczenia nie są potrzebne. Jeśli zapewnimy, Ŝe ilość replikacji B będzie duŜa to
uzyskamy wystarczająco dobre przybliŜenie rozkładu parametrów. Wskazuje się, Ŝe
9
dla oszacowania wariancji parametrów wystarczy 50 B 100≤ ≤ , B 1000≅ dla
szacunku błędów standardowych. Taka liczba replikacji moŜe okazać się
niewystarczająca dla przedziałów ufności.
• Wady metody bootstrap:
o Rozkład bootstrapowy nie jest zbyt dobrym przybliŜeniem rozkładu
parametrów regresji liniowej dla małych prób i w przypadku obecności w
zbiorze outlierów
o Bootstrap oparty jest na załoŜeniu niezaleŜności, więc nie jest wskazany w
strukturach zaleŜnych np. szeregach czasowych.
o Bootstrap przeprowadzony na błędach losowych zakłada poprawność modelu
regesji liniowej, co niekoniecznie musi być prawdą.
• Największą zaletą metody bootstrap jest to, Ŝe dla wyznaczenia parametrów regresji
liniowej wymaga ona mniejszej próby i często uzyskane dzięki niej wyniki są lepsze
(oszacowania parametrów mają mniejsze błędy standardowe). RóŜnice te nie zawsze
muszą być prawdziwe, zaleŜą one od struktury i ilości obserwacji w próbie.
• Fan, Wang (1995) postulują, Ŝe z powodu ograniczoności liczby wtórnych próbek,
Jacknife wydaje się nieodpowiedni dla małych zbiorów danych. Jednak, gdy są one
duŜe, obie metody wtórnego próbkowania powinny dać podobne rezultaty.
Charakterystyki rozkładów Aby porównać rozkłady oszacowań parametrów uzyskanych dzięki metodom wtórnego
próbkowania naleŜy sprecyzować jakie wielkości statystyczne będą do tego uŜyte. Skupimy
się przy tym na wielkości obciąŜenia, wariancji, błędach standardowych, przedziałach ufności
a takŜe na przedziałach percentylowych.
Metoda Bootstrap 1. ObciąŜenie
Poprzez obciąŜenie (ang. bias) rozumiemy róŜnice między oszacowaniami parametrów
regresji liniowej uzyskanych dzięki KMRL, a tymi obliczonymi na podstawie bootstrapu.
ObciąŜenie wyliczamy ze wzoru: b
bbias β β= −
) ))
.
10
2.Wariancja
Wariancję, czyli miarę rozproszenia uzyskanego rozkładu oszacowań parametrów wyliczamy
ze wzoru:
1
[( )( ) ]( )
1
r r
Bb bb b
b bVarB
β β β β
β =
′− −
=−
∑) ) ) )
)
dla r=1,2…,B
Pierwiastek tej wariacji do oszacowanie błędu standardowego
3. Przedział ufności estymatorów parametrów regresji
Przedziały ufności są miarą umoŜliwiającą sprawdzenie precyzji oszacowań parametrów.
Prawdziwa (niemoŜliwa do zaobserwowania) wartość parametru znajduje się wewnątrz
przedziału ufności z prawdopodobieństwem determinowanym przez zadany poziom ufności.
W tym badaniu przyjęto poziom ufności równy 95%. Przedział ten wyznaczamy następująco:
, ,2 2
( ) ( )b b b b
e en p n p
t S t Sα αβ β β β β− −
− < < +) ) ) )
, gdzie:
• ,2
n pt α
− to wartość krytyczna statystyki t dla n-p stopni swobody i z
prawdopodobieństwem 2
α
• ( )b
eS β
)
- błąd standardowy oszacowań.
Metoda ta w literaturze nazywana jest Przedziałową estymacją T-Bootstrapową (Domański,
Pruska, Wagner, „Wnioskowanie statystyczne przy nieklasycznych załoŜeniach”)
4. Przedziały percentylowe
Przedziały ufności są metodą parametryczną. Do ich wyznaczenia w klasyczny sposób trzeba
załoŜyć normalność rozkładu oszacowań parametrów. Nie trzeba tego czynić dla
nieparametrycznych przedziałów precentylowych. Krańce przedziału to po prostu
odpowiednie percentyle rozkładu. Dla poziomu istotności α wyliczamy 2
α% i 1-
2
α%:
r rb b
lower upperβ β β< <) )
, gdzie rbβ)
to uszeregowane niemalejąco elementy rozkładu.
11
Metoda Jacknife 1. ObciąŜenie W przypadku metody Scyzoryka, obliczenie obciąŜenia jest podobne do obciąŜenia metody
bootstrap. Jedyna róŜnica wynika z konieczności uwzględnienia nieprecyzyjności jacknifa
wynikającej z iteracyjnego usuwania jednej obserwacji. Z tego względu wzór na obciąŜenie
wyników tej metody przyjmuje postać: ( 1)( )J
Jbias n β β= − −
) ))
2. Wariancja
RównieŜ i w tym przypadku dla wyznaczenia wariancji potrzeba pomnoŜyć zwykłą wariancję
przez czynnik korygujące n-1:
1
1( ) ( )( )i i
BJ JJ J J
b
nVar
nβ β β β β
=
−′= − −∑
) ) ) ) )
, gdzie iJβ)
to i-ta grupa powstała po usunięciu j-tej
grupy obserwacji.
3. Przedziały ufności i przedziały percentylowe
Przedziały ufności i przedziały percentylowe wyznaczane są w sposób analogiczny do
bootstrapu
4. Słowo uwagi
Przedziały ufności (T-Bootsrap) zostały wyznaczone w programie MS EXCEL na podstawie
obliczeń dokonanych w pakiecie SAS.
Sprawdźmy teraz wyniki badania uzyskane dla zbioru danych dotyczących determinantów
płodności w wybranych kantonach Szwajcarii w roku 1888.
Wyniki
Cały symulacyjny eksperyment został zaimplementowany w programie SAS. Dla lepszej
jakości oszacowań, w metodzie bootstrap przeprowadzono 10000 replikacji. Analizując
powyŜsze zestawienie wykresów moŜna dokonać kilku spostrzeŜeń
12
Analiza wykresów
• Rozkład oszacowań parametrów w bootstrapie na resztach świetnie pokrywa się z
rozkładem normalnym. Oznacza to, Ŝe załoŜenie o normalności rozkładu reszt z
regresji liniowej jest bardzo bliskie prawdy
• Wykresy rozkładów oszacowań b0 i b2 są lekko prawoskośne. Oznacza to, Ŝe w
zbiorze oszacowań parametrów liczniejsze są te estymatory, które mają wartość
niŜsze niŜ średnia (średnia rozkładu to nasze bootstrapowe oszacowanie parametru
regresji).
• Generalnie, wszystkie powyŜsze histogramy przypominają rozkład normalny.
Jednak te wyznaczone dzięki obu metodom scyzorykowym najbardziej od niego
odbiegają. Zweryfikujmy to na odstawie obliczeń.
Bootstrap fixed Bootstrap random Jacknife Jacknife blokowy B0
B1
B2
B3
B4
13
Analiza charakterystyk rozkładów Znajdująca się poniŜej tabela przedstawia omówione wcześniej charakterystyki liczbowe
dotyczące rozkładów oszacowań parametrów regresji liniowej. Analizując ja moŜna dojść do
kilku ciekawych wniosków.
• Zdecydowanie najmniejsze obciąŜenie wszystkich pięciu oszacowań parametrów
uzyskano dzięki bootstrapowi na resztach. Oznacza to, Ŝe parametry uzyskane dzięki
tej metodzie był najbliŜszy parametrowi z KMRL. Nie stanowi to wielkiego
zaskoczenia, gdyŜ w tym przypadku dokonywaliśmy replikacji ze zbioru reszt
regresji, a nie obserwacji, których liczne moŜliwe kombinacje niosą ze sobą większą
niepewność. PoniewaŜ w tym przypadku załoŜyliśmy, Ŝe parametry z pierwotnej
regresji są prawdziwe, deterministyczne, nie ma raczej sensu porównywać tego
obciąŜenia z pozostałymi trzeba metodami powstałymi z załoŜenia o losowości
parametrów regresji.
• Z pozostałych metod najmniejszymi obciąŜeniami charakteryzuje się bootstrap.
Zaskakująco duŜe obciąŜenie uzyskaliśmy dla schematu jacknife blokowego.
• Podobnie do obciąŜenia, takŜe oba algorytmy bootstrapowe okazały się najlepsze
jeśli chodzi o błędy standardowe. Co najwaŜniejsze, wszystkie metody oprócz
feralnego jacknifu blokowego doprowadziły do zmniejszenia błędu standardowego
w porównaniu do błędu standardowego uzyskanego dzięki metodzie najmniejszych
kwadratów. Oznacza to, Ŝe dla zbadanych przez nas danych udało się potwierdzić,
Ŝe moŜliwe jest aby algorytmy wtórnego próbkowania były w stanie ograniczyć
błędy standardowe regresji w małych próbach (przypomnijmy, mamy tylko 47
obserwacji).
• Analogicznie do błędów standardowych, równieŜ powstałe z nich przedziały ufności
uległy skróceniu. Niesie to ze sobą bardzo powaŜne konsekwencje, gdyŜ dzięki
metodom repróbkowania udało się uzyskać oszacowania precyzyjniejsze, tzn. przy
tym samym prawdopodobieństwie jesteśmy w stanie bardziej precyzyjnie wskazać
przedział w którym nieobserwowalne parametr się znajdzie.
14
parametr OLS mean SE OLS SE
resampling OLS 95L OLS 95U
95% przedział ufności
percentyl 2,5 percentyl
97,5 obciąŜenie
b0 62,101 62,051 9,605 9,198 42,718 81,485 43,489 80,614 44,621 79,895 -0,05009945
b1 -0,155 -0,154 0,068 0,065 -0,292 -0,017 -0,285 -0,024 -0,280 -0,026 0,000360672
b2 -0,980 -0,978 0,148 0,140 -1,279 -0,681 -1,261 -0,695 -1,272 -0,707 0,002386572
b3 0,125 0,125 0,029 0,027 0,066 0,183 0,070 0,180 0,071 0,176 0,000173438
boot
stra
p fi
xed
b4 1,078 1,078 0,382 0,366 0,308 1,849 0,340 1,816 0,398 1,765 -0,00029204
b0 62,101 61,925 9,605 9,285 42,718 81,485 43,187 80,663 44,835 81,366 -0,17632151
b1 -0,155 -0,160 0,068 0,067 -0,292 -0,017 -0,295 -0,024 -0,289 -0,042 -0,00500419
b2 -0,980 -0,985 0,148 0,178 -1,279 -0,681 -1,343 -0,627 -1,324 -0,599 -0,0045948
b3 0,125 0,126 0,029 0,028 0,066 0,183 0,070 0,181 0,066 0,179 0,001020637
boot
stra
p ra
ndom
b4 1,078 1,102 0,382 0,406 0,308 1,849 0,283 1,920 0,305 1,901 0,023462379
b0 62,101 62,095 9,605 9,338 42,718 81,485 43,250 80,940 59,603 65,194 -0,28344244
b1 -0,155 -0,155 0,068 0,072 -0,292 -0,017 -0,299 -0,010 -0,186 -0,137 -0,00503936
b2 -0,980 -0,981 0,148 0,162 -1,279 -0,681 -1,306 -0,655 -1,029 -0,922 -0,01128878
b3 0,125 0,125 0,029 0,030 0,066 0,183 0,064 0,185 0,114 0,133 0,000524919
jack
nife
b4 1,078 1,079 0,382 0,424 0,308 1,849 0,223 1,936 0,955 1,284 0,032682619
b0 62,101 62,089 9,605 13,271 42,718 81,485 35,306 88,872 58,405 65,911 -0,56784521
b1 -0,155 -0,155 0,068 0,101 -0,292 -0,017 -0,360 0,050 -0,190 -0,129 -0,01031068
b2 -0,980 -0,981 0,148 0,231 -1,279 -0,681 -1,448 -0,514 -1,049 -0,908 -0,02279795
b3 0,125 0,125 0,029 0,042 0,066 0,183 0,039 0,210 0,111 0,137 0,001090774
jack
nife
blo
kow
y
b4 1,078 1,080 0,382 0,602 0,308 1,849 -0,135 2,295 0,929 1,303 0,06612008
15
• Przyglądając się wartościom krańcowym przedziału percentylowego, moŜemy
zauwaŜyć, Ŝe dla metody bootstrap prawie pokrywają się z przedziałami ufności.
Wynika z tego, Ŝe uzyskane rozkłady 10000 oszacowań są bardzo bliskie rozkładowi
normalnemu. Okazje się, Ŝe przedziały percentylowe są węŜsze dla algorytmów
jacknife. RóŜnicę tą wyjaśniamy mniejszą ilością replikacji, dla obu metod tego
schematu wtórnego replikowania mamy ich jedynie odpowiednio 47 i 1081.
• Bardzo zaskakujące dla autorów niniejszej pracy jest znacząca słabość algorytmów
jacknife blokowego. Nie byli w stanie znaleźć w literaturze wyjaśnienia tego
niezgodnego z intuicją zjawiska. Wydaje się Ŝe moŜliwym jego wytłumaczeniem
jest fakt, Ŝe z kaŜdą replikacja zabieramy aŜ 2 elementy, tj. blisko 5% obserwacji
niosących ze sobą znaczną część informacji. Usunięcie tej informacji moŜe
powodować wzrost niepewności ilustrowany wielkim powiększeniem się wartości
błędu losowego.
Podsumowanie. Celem niniejszej pracy było:
4. Przedstawienie metod jacknife i bootstrap, ich ich wariantów
5. Zilustrowanie ich działania w pakiecie statystyczno-ekonometrycznym SAS
stosując prawdziwe dane statystyczne dotyczące płodności w wybranych
kantonach Szwajcarii
6. Porównanie wyników przeprowadzonych eksperymentów
Dokonując tego porównania naleŜy stwierdzić, Ŝe dla posiadanych danych definitywnie
najlepszy okazał się algorytm bootstrap. Dla małej próby pozwolił on za zmniejszenie błędu
standardowego i tym samym na sprecyzowanie oszacowań. Algorytm jacknife z usuwaniem 1
elementu okazał się takŜe skuteczny w tym samym względzie, lecz jego obciąŜenie było
znacznie większe. Jacknife blokowy zaskakuje negatywnie swoimi wynikami.
16
Bibliografia 1. Aczel A.D., „Statystyka w zarządzaniu”, PWN, Warszawa 2000
2. Domański Cz., Pruska K., Wagner W., „Wnioskowanie statystyczne przy
nieklasycznych załoŜeniach”, Wydawnictwo Uniwersytetu Łódzkiego, Łódź 1998.
3. Sahinder S., Topuz D., „Bootstrap and Jacknife Resampling Algorithms for
Estimation of Regression Parameters”, Journal of Applied Quantitive Methods.
Aneks PoniŜej znajdują się wszystkie wykresy, z tym, Ŝe w formacie powiekszonym.
1. Bootstrap na resztach
17
18
19
2. Bootstrap na obserwacjach
20
21
3. Jacknife z usuwaniem 1 elementu
22
23
4. Jacknife z usuwaniem dwóch elementów
24
25