Wykorzystanie algorytmów Bootstrap i Jacknife w...

1

SAS - Probabilistyczne i deterministyczne modele optymalizacji decyzji

Wykorzystanie algorytmów Bootstrap i Jacknife w

estymacji parametrów regresji.

Zastosowanie pakietu SAS.

Sprawozdanie z badania

Andrzej Kamiński

nr. indeksu: 239848

Bartosz Łoskot

nr. indeksu: 240183

WARSZAWA, luty 2010

2

Spis Treści Wprowadzenie............................................................................................................................ 3 Zastosowane dane ...................................................................................................................... 4 Metoda Bootstrap ....................................................................................................................... 6

Bootstrap oparty na repróbkowaniu obserwacji..................................................................... 6 Bootstrap oparty na repróbkowaniu błędu losowego............................................................. 7

Metoda Jacknife ......................................................................................................................... 7 Jacknife z usuwaniem jednej obserwacji ............................................................................... 7 Jacknife z usuwaniem kilku obserwacji ................................................................................. 8

Teoretyczne analiza technik Bootstrapu i Jacknifa. ................................................................... 8 Charakterystyki rozkładów ........................................................................................................ 9

Metoda Bootstrap ................................................................................................................... 9 Metoda Jacknife ................................................................................................................... 11

Wyniki ...................................................................................................................................... 11 Analiza wykresów ................................................................................................................ 12 Analiza charakterystyk rozkładów....................................................................................... 13

Podsumowanie. ........................................................................................................................ 15 Bibliografia............................................................................................................................... 16 Aneks........................................................................................................................................ 16

3

Wprowadzenie Regresja to statystyczna metoda, pozwalająca na zbadanie związku pomiędzy róŜnymi

wielkościami występującymi w danych. Daje ona równieŜ moŜliwość wykorzystania wiedzy

w nich zawartej do przewidywania nieznanych wartości jednych wielkości na podstawie

znanych wartości innych. Regresja to w ogólności problem estymacji warunkowej wartości

oczekiwanej. Gdy przyjmiemy jednak, Ŝe modelem zaleŜności pomiędzy róŜnymi zmiennymi

jest funkcja liniowa, mówimy wtedy o regresji liniowej.

ZaleŜności tą moŜemy zapisać jako: y X β ε= + , gdzie 1( , , )n

y y y ′= K to wektor

zmiennej objaśnianej o wymiarach nx1 (n to ilość obserwacji), 1( , , )n

X x x ′= K to macierz

zmiennych objaśniających wraz ze stałą (regresorów) o wymiarach nxp, gdzie p to ilość

parametrów w regresji a ε to nx1 wektor nieskorelowanego błędu losowego o zerowej

wartości oczekiwanej, stałej wariancji 2( )i

Var ε σ= . Do wyznaczenia oszacowań

nieobserwowalnego wektora parametrów i

β stosuje się (najczęściej) Metodę Najmniejszych

Kwadratów minimalizującą kwadrat sumy błędu losowego ε . Estymator taki ma postać:

1( )X X X yβ −′ ′=)

.

Estymator ten uzyskujemy traktując zaobserwowane dane jako „obrazek”

reprezentujący całą populację generalną. Wyznaczenie więc najlepszego z moŜliwych

estymatorów (zgodnego, nieobciąŜonego i najefektywniejszego) wymaga wprowadzanie kilku

restrykcyjnych załoŜeń o niej, opisywanych przez Klasyczny Model Regresji Liniowej.

Nawet gdy są one spełnione, wnioskowanie opiera się na asymptotycznych własnościach, co

dla małej ilości obserwacji moŜe okazać się zawodne. W niektórych tego typu przypadkach

moŜliwe jest podejście repróbkowania statystycznego.

Główną ideą tej metody jest wnioskowanie statystyczne przeprowadzane nie na

pewnej skończonej próbie ale na sztucznie utworzonej populacji generalnej. Powstaje ona

poprzez repróbkowanie (resampling) właśnie z tej skończonej, reprezentacyjnej próbki. W ten

sposób nie jest konieczne badanie załoŜeń dotyczących populacji, gdyŜ otrzymana poprzez

repróbkownie próba traktowana jest po prostu jako populacja.

Najbardziej popularnymi sposobami resamplingu są metody: jacknife (ang.

„scyzoryk”) oraz powstały jako jej modyfikacja bootstrap (ang. „ciągniecie za sznurówki”).

4

Są to nieparametryczne techniki pozwalająca na znalezienie oszacowań błędów

standardowych, przedziałów ufności, parametrów populacji takich jak średnia, mediana,

współczynnik korelacji. Dają one równieŜ, jak wspomniano wyŜej moŜliwość wyznaczenia

parametrów regresji liniowej bez dokonywania dodatkowych załoŜeń.

Celem niniejszego badania jest:

1. Przedstawienie metod jacknife i bootstrap, ich algorytmów oraz krótkie

opisanie ich teoretycznych własności

2. Zilustrowanie ich działania w pakiecie statystyczno-ekonometrycznym SAS z

wykorzystaniem rzeczywistych danych statystycznych

3. Porównanie wyników przeprowadzonych eksperymentów i wyciągniecie

wniosków.

Zastosowane dane Aby pokazać, w jaki sposób moŜna otrzymać oszacowania parametrów regresji liniowej za

pomocą metod resamplingu, zostały zastosowane rzeczywiste dane statystyczne dotyczące

płodności i sytuacji społeczno-ekonomicznej 47 francuskojęzycznych kantonów Szwajcarii w

roku 1888. Obejmują one:

• Fertility Ig, wystandaryzowana miara płodności jako zmienna objaśniana. Jest to

sztucznie stworzona miara dla analiz rozrodczości w ujęciu historycznym. Indeks ten

obliczany jest w następujący sposób t

i i

BIg

m f=∑

, gdzie:

o t

B - liczba urodzeń w danym roku

o i

m - liczba zamęŜnych kobiet w danym wieku

o i

f - płodność zamęŜnej kobiety ze społeczności Hutteryckiej w danym

przedziale wieku

Miara ta najlepiej odzwierciedla procesy płodności w historycznych badaniach

demograficznych Szwajcarii

• Agriculture – procent męŜczyzn zajmujących się rolnictwem

• Education – procent ludzi z wykształceniem ponadpodstawowym

• Catholic - procent katolików (jako przeciwieństwo protestantów)

• Infant.Mortality – procent dzieci zmarłych przed upływem 1 roku Ŝycia

5

Dane te zostały zebrane w okresie w którym populacja badanego obszaru zaczęła przechodzić

przejście demograficzne. Wybór tych danych nie jest przypadkowy. Zawiera one tylko 47

obserwacji, oraz na poziomie istotności 95% spełniają wszystkie załoŜenia KMRL. Opierając

się na twierdzeniu Gaussa-Markowa moŜna w takim przypadku stwierdzić, Ŝe estymator

MNK jest najlepszym estymatorem wektora parametrów beta w klasie liniowych i

nieobciąŜonych estymatorów tego parametru. Wydaje się więc, Ŝe model regresji liniowej

wyestymowany na powyŜszym zbiorze stanowi dobry benchmark dla porównań z wynikami

otrzymanymi dzięki technikom nieparametrycznym.

Oszacowania parametrów z KMRL przedstawiają się następująco:

The REG Procedure

Model: MODEL1

Dependent Variable: y Fertility

Number of Observations Read 47

Number of Observations Used 47

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 4 5019.88541 1254.97135 24.42 <.0001

Error 42 2158.06949 51.38261

Corrected Total 46 7177.95489

Root MSE 7.16817 R-Square 0.6993

Dependent Mean 70.14255 Adj R-Sq 0.6707

Coeff Var 10.21943

Parameter Estimates

Parameter Standard

Variable Label DF Estimate Error t Value Pr > |t|

Intercept Intercept 1 62.10131 9.60489 6.47 <.0001

agr Agriculture 1 -0.15462 0.06819 -2.27 0.0286

educ Education 1 -0.98026 0.14814 -6.62 <.0001

cath Catholic 1 0.12467 0.02889 4.31 <.0001

inf_mort Infant,Mortality 1 1.07844 0.38187 2.82 0.0072

Analizując powyŜszy wydruk stwierdzamy, Ŝe na poziomie istotności 5% wszystkie

współczynniki okazują się statystycznie istotne, tak samo jak cała regresja. Współczynnik

determinacji na poziomie 0.6993 oznacza, Ŝe zmienność zmiennych objaśniających wyjaśnia

69,93% zmienności współczynnika płodności. Znaki przy oszacowaniach są zgodne z intuicją.

Przejdźmy teraz do omówienia bardziej szczegółowo technik repróbkowania.

6

Metoda Bootstrap

Aby opisać technikę repróbkowania bootstrap zaczynamy wektora obserwacji ( , )i i ji

w Y X ′= .

Wektor ten składa się z n=47 wierszy, czyli tylu ile jest obserwacji kaŜdej ze zmiennych.

Przyjmujemy, Ŝe kaŜde elementy i

w są losowane niezaleŜnie z takiego samego rozkładu

(oznaczanym jako F), gdzie ( , , )i i n

Y y y ′= K oznacza wektor zmiennej objaśnianej a

1( , , )ji j jn

X x x ′= K jest macierzą o wymiarze nxk, gdzie j=1,2,…k a i=1,2,…n.

Dla wyznaczenia parametrów regresji liniowej moŜemy posłuŜyć się dwoma rodzajami

schematów. Wybór jednego z nich zaleŜy od tego czy uznamy parametry z modelu KMRL za

losowe, czy za deterministyczne

Bootstrap oparty na repróbkowaniu obserwacji Podejście to stosujemy zazwyczaj, gdy zakładamy, iŜ parametry uzyskane z regresji liniowej

moŜemy uznać za wyznaczone przez los. Wektor ( , )i i ji

w Y X ′= o wymiarach (k+1)x1

oznacza wartości dla i-tej obserwacji. Zbiór takich wektorów oznaczmy 1(w ,..., )n

w . Dla tych

oznaczeń schemat algorytmu bootstrap wygląda następująco:

1. Losujemy Z POWTÓRZENIEM próbkę 1(w ,..., )b b

nw składającą się z n=47 elementów,

kaŜdemu z nich dając takie samo prawdopodobieństwo wylosowania 1/n. Oznaczamy

kaŜdy z wylosowanych wektorów b

iw , a z tego formujemy wektor b

iY oraz macierz

b

jiX

2. Wyznaczamy za pomocą MNK wektor oszacowań parametrów

1(( ) ) ( )b b b b bX X X Yβ −′ ′=)

3. Powtarzamy kroki 1 i 2 r=1,2,…,B gdzie B to ilość replikacji

4. Uzyskujemy rozkład oszacowań parametrów F( )bβ)

i stosujemy go do uzyskania

oszacowań parametrów, wariancji i przedziałów ufności. Oszacowanie bootstrapowe

parametrów regresji otrzymujemy wyznaczając średnią tego rozkładu: 1

r

Bb

b b

B

β

β ==∑

)

)

7

Bootstrap oparty na repróbkowaniu błędu losowego Jeśli przyjmiemy, Ŝe parametry w równaniu są deterministyczne, tzn. uznajemy je za stałe, to

metoda bootstrap musi zachować wyznaczoną przez te parametry strukturę. Uzyskuję się to

dzięki następującemu schematowi:

1. Szacujemy za pomocą MNK model regresji liniowej i uzyskujemy wartości dopasowane Y

)

. 2. Obliczamy wektor błędu losowego

i i ie Y Y= −

)

3. Losujemy próbkę 1( ,..., )b b

ne e o liczebności n=47 Z POWTÓRZENIAMI korzystając z

wartości i

e . KaŜda z nich moŜe myć wylosowana z takim samym

prawdopodobieństwem 1/n.

4. wartości wektora 1( ,..., )b b

ne e dodajemy do poszczególnych wartości X β

)

uzyskujemy

wartości b bY X eβ= +)

5. Obliczmy wektor oszacowań parametrów korzystając z MNK: 1( ) bX X X Yβ −′ ′=)

6. Powtarzamy kroki 3, 4 i 5 dla r=1,…,B i postępujemy tak samo jak w ostatnim kroku

bootstrapu dla współczynników losowych. Parametry rozkładów uzyskanych dzięki metodzie bootstrap

Metoda Jacknife Jacknife, historycznie starszy od bootstrapu jest inną metodą wtórnego próbkowania.

Generalnie, polega ono na stworzeniu n próbek poprzez usunięcie z pierwotnej próby j-tej

obserwacji. MoŜliwe jest równieŜ usuwanie większej ilości obserwacji. Podejście to stosuje

się głównie w przypadku załoŜenia o losowości (nie deterministyczności) parametrów w

regresji. Zacznijmy od prostszego algorytmu z usuwaniem tylko jednej obserwacji.

Jacknife z usuwaniem jednej obserwacji 1. Punktem wyjścia analizy jest nasz zbiór danych składający się z n=47 obserwacji.

wektor ( , )i i ji

w Y X ′= , czyniąc to samo dla ( , , )i i n

Y y y ′= K oraz 1( , , )ji j jn

X x x ′= K o

wymiarze nxk, gdzie j=1,2,…k a i=1,2,…n. 2. Usuwamy pierwszy rząd wektora ( , )

i i jiw Y X ′= , a pozostałe n-1 zbiory oznaczamy

jako 2( , , )J J J

i nY y y ′= K i 2( , , )J J J

ji j jnX x x ′= K . Następnie za pomocą MNK

wyznaczamy estymatory współczynników regresji 1Jβ)

. Podobnie, usuwamy drugi

wiersz wektora ( , )i i ji

w Y X ′= uzyskując wektory 1 3( , , , )J J J J

i nY y y y ′= K ,

8

1 3( , , )J J J J

ji j j jnX x x x ′= K i na ich podstawie uzyskujemy kolejne oszacowania

parametrów 2Jβ)

. Schemat ten powtarzamy, aŜ usuniemy ostatni rząd obserwacji.

3. Uzyskujemy rozkład F( )Jβ)

składający się z n=47 elementów 1 2, ,..., nJJ Jβ β β) ) )

.

4. Wyznaczamy parametry regresji liniowej z rozkładu F( )Jβ)

licząc po prostu jego

średnią: 1

i

nJ

j i

n

β

β ==∑

)

)

Jacknife z usuwaniem kilku obserwacji

Metoda „Scyzoryka” pozwala równieŜ na usuwalnie większej ilości elementów, zwiększając

tym samym próbę jacknife. Algorytm ten wygląda następująco:

1. Tak jak poprzednio rozpoczynamy dysponując zbiorem n obserwacji. Dzielimy ją na s

niezaleŜnych grup, kaŜda o liczebności d. Takich grup będzie n

S=d

. W tym badaniu

zastosujemy wszystkie grupy o liczebności 2, czyli dla naszego przykładu będzie to 47

S= 10812

=

dwu elementowych grup.

2. Dalej postępujemy podobnie jak poprzednio. Usuwamy pierwszą zbiór składający się

z dwóch obserwacji i za pomocą MNK uzyskujemy estymator 1Jβ)

. Powtarzamy to

nS=

d

razy.

3. Uzyskujemy rozkład F( )Jβ)

składający się z S=1081elementów 1 2, ,..., sJJ Jβ β β) ) )

.

4. Wyznaczamy parametry regresji liniowej z rozkładu F( )Jβ)

korzystając ze wzoru na

średnią: 1

i

SJ

j i

S

β

β ==∑

)

)

PowyŜsze dwa algorytmy wskazują, Ŝe uzyskane dzięki metodzie Scyzoryka wyniki będą

zawsze takie same, oraz liczebność próby jacknifowej będzie zawsze ograniczona wielkością

zbioru danych

Teoretyczne analiza technik Bootstrapu i Jacknifa.

• Statystyka podpowiada, Ŝe istnieje nn wszystkich moŜliwych prób bootstrap. Jeśli dla

kaŜdej z nich wyznaczylibyśmy parametry regresji liniowej, to dopiero wtedy

uzyskalibyśmy „prawdziwy” bootstrapowy rozkład parametrów. Jednak tak wielkie

obliczenia nie są potrzebne. Jeśli zapewnimy, Ŝe ilość replikacji B będzie duŜa to

uzyskamy wystarczająco dobre przybliŜenie rozkładu parametrów. Wskazuje się, Ŝe

9

dla oszacowania wariancji parametrów wystarczy 50 B 100≤ ≤ , B 1000≅ dla

szacunku błędów standardowych. Taka liczba replikacji moŜe okazać się

niewystarczająca dla przedziałów ufności.

• Wady metody bootstrap:

o Rozkład bootstrapowy nie jest zbyt dobrym przybliŜeniem rozkładu

parametrów regresji liniowej dla małych prób i w przypadku obecności w

zbiorze outlierów

o Bootstrap oparty jest na załoŜeniu niezaleŜności, więc nie jest wskazany w

strukturach zaleŜnych np. szeregach czasowych.

o Bootstrap przeprowadzony na błędach losowych zakłada poprawność modelu

regesji liniowej, co niekoniecznie musi być prawdą.

• Największą zaletą metody bootstrap jest to, Ŝe dla wyznaczenia parametrów regresji

liniowej wymaga ona mniejszej próby i często uzyskane dzięki niej wyniki są lepsze

(oszacowania parametrów mają mniejsze błędy standardowe). RóŜnice te nie zawsze

muszą być prawdziwe, zaleŜą one od struktury i ilości obserwacji w próbie.

• Fan, Wang (1995) postulują, Ŝe z powodu ograniczoności liczby wtórnych próbek,

Jacknife wydaje się nieodpowiedni dla małych zbiorów danych. Jednak, gdy są one

duŜe, obie metody wtórnego próbkowania powinny dać podobne rezultaty.

Charakterystyki rozkładów Aby porównać rozkłady oszacowań parametrów uzyskanych dzięki metodom wtórnego

próbkowania naleŜy sprecyzować jakie wielkości statystyczne będą do tego uŜyte. Skupimy

się przy tym na wielkości obciąŜenia, wariancji, błędach standardowych, przedziałach ufności

a takŜe na przedziałach percentylowych.

Metoda Bootstrap 1. ObciąŜenie

Poprzez obciąŜenie (ang. bias) rozumiemy róŜnice między oszacowaniami parametrów

regresji liniowej uzyskanych dzięki KMRL, a tymi obliczonymi na podstawie bootstrapu.

ObciąŜenie wyliczamy ze wzoru: b

bbias β β= −

) ))

.

10

2.Wariancja

Wariancję, czyli miarę rozproszenia uzyskanego rozkładu oszacowań parametrów wyliczamy

ze wzoru:

1

[( )( ) ]( )

1

r r

Bb bb b

b bVarB

β β β β

β =

′− −

=−

∑) ) ) )

)

dla r=1,2…,B

Pierwiastek tej wariacji do oszacowanie błędu standardowego

3. Przedział ufności estymatorów parametrów regresji

Przedziały ufności są miarą umoŜliwiającą sprawdzenie precyzji oszacowań parametrów.

Prawdziwa (niemoŜliwa do zaobserwowania) wartość parametru znajduje się wewnątrz

przedziału ufności z prawdopodobieństwem determinowanym przez zadany poziom ufności.

W tym badaniu przyjęto poziom ufności równy 95%. Przedział ten wyznaczamy następująco:

, ,2 2

( ) ( )b b b b

e en p n p

t S t Sα αβ β β β β− −

− < < +) ) ) )

, gdzie:

• ,2

n pt α

− to wartość krytyczna statystyki t dla n-p stopni swobody i z

prawdopodobieństwem 2

α

• ( )b

eS β

)

- błąd standardowy oszacowań.

Metoda ta w literaturze nazywana jest Przedziałową estymacją T-Bootstrapową (Domański,

Pruska, Wagner, „Wnioskowanie statystyczne przy nieklasycznych załoŜeniach”)

4. Przedziały percentylowe

Przedziały ufności są metodą parametryczną. Do ich wyznaczenia w klasyczny sposób trzeba

załoŜyć normalność rozkładu oszacowań parametrów. Nie trzeba tego czynić dla

nieparametrycznych przedziałów precentylowych. Krańce przedziału to po prostu

odpowiednie percentyle rozkładu. Dla poziomu istotności α wyliczamy 2

α% i 1-

2

α%:

r rb b

lower upperβ β β< <) )

, gdzie rbβ)

to uszeregowane niemalejąco elementy rozkładu.

11

Metoda Jacknife 1. ObciąŜenie W przypadku metody Scyzoryka, obliczenie obciąŜenia jest podobne do obciąŜenia metody

bootstrap. Jedyna róŜnica wynika z konieczności uwzględnienia nieprecyzyjności jacknifa

wynikającej z iteracyjnego usuwania jednej obserwacji. Z tego względu wzór na obciąŜenie

wyników tej metody przyjmuje postać: ( 1)( )J

Jbias n β β= − −

) ))

2. Wariancja

RównieŜ i w tym przypadku dla wyznaczenia wariancji potrzeba pomnoŜyć zwykłą wariancję

przez czynnik korygujące n-1:

1

1( ) ( )( )i i

BJ JJ J J

b

nVar

nβ β β β β

=

−′= − −∑

) ) ) ) )

, gdzie iJβ)

to i-ta grupa powstała po usunięciu j-tej

grupy obserwacji.

3. Przedziały ufności i przedziały percentylowe

Przedziały ufności i przedziały percentylowe wyznaczane są w sposób analogiczny do

bootstrapu

4. Słowo uwagi

Przedziały ufności (T-Bootsrap) zostały wyznaczone w programie MS EXCEL na podstawie

obliczeń dokonanych w pakiecie SAS.

Sprawdźmy teraz wyniki badania uzyskane dla zbioru danych dotyczących determinantów

płodności w wybranych kantonach Szwajcarii w roku 1888.

Wyniki

Cały symulacyjny eksperyment został zaimplementowany w programie SAS. Dla lepszej

jakości oszacowań, w metodzie bootstrap przeprowadzono 10000 replikacji. Analizując

powyŜsze zestawienie wykresów moŜna dokonać kilku spostrzeŜeń

12

Analiza wykresów

• Rozkład oszacowań parametrów w bootstrapie na resztach świetnie pokrywa się z

rozkładem normalnym. Oznacza to, Ŝe załoŜenie o normalności rozkładu reszt z

regresji liniowej jest bardzo bliskie prawdy

• Wykresy rozkładów oszacowań b0 i b2 są lekko prawoskośne. Oznacza to, Ŝe w

zbiorze oszacowań parametrów liczniejsze są te estymatory, które mają wartość

niŜsze niŜ średnia (średnia rozkładu to nasze bootstrapowe oszacowanie parametru

regresji).

• Generalnie, wszystkie powyŜsze histogramy przypominają rozkład normalny.

Jednak te wyznaczone dzięki obu metodom scyzorykowym najbardziej od niego

odbiegają. Zweryfikujmy to na odstawie obliczeń.

Bootstrap fixed Bootstrap random Jacknife Jacknife blokowy B0

B1

B2

B3

B4

13

Analiza charakterystyk rozkładów Znajdująca się poniŜej tabela przedstawia omówione wcześniej charakterystyki liczbowe

dotyczące rozkładów oszacowań parametrów regresji liniowej. Analizując ja moŜna dojść do

kilku ciekawych wniosków.

• Zdecydowanie najmniejsze obciąŜenie wszystkich pięciu oszacowań parametrów

uzyskano dzięki bootstrapowi na resztach. Oznacza to, Ŝe parametry uzyskane dzięki

tej metodzie był najbliŜszy parametrowi z KMRL. Nie stanowi to wielkiego

zaskoczenia, gdyŜ w tym przypadku dokonywaliśmy replikacji ze zbioru reszt

regresji, a nie obserwacji, których liczne moŜliwe kombinacje niosą ze sobą większą

niepewność. PoniewaŜ w tym przypadku załoŜyliśmy, Ŝe parametry z pierwotnej

regresji są prawdziwe, deterministyczne, nie ma raczej sensu porównywać tego

obciąŜenia z pozostałymi trzeba metodami powstałymi z załoŜenia o losowości

parametrów regresji.

• Z pozostałych metod najmniejszymi obciąŜeniami charakteryzuje się bootstrap.

Zaskakująco duŜe obciąŜenie uzyskaliśmy dla schematu jacknife blokowego.

• Podobnie do obciąŜenia, takŜe oba algorytmy bootstrapowe okazały się najlepsze

jeśli chodzi o błędy standardowe. Co najwaŜniejsze, wszystkie metody oprócz

feralnego jacknifu blokowego doprowadziły do zmniejszenia błędu standardowego

w porównaniu do błędu standardowego uzyskanego dzięki metodzie najmniejszych

kwadratów. Oznacza to, Ŝe dla zbadanych przez nas danych udało się potwierdzić,

Ŝe moŜliwe jest aby algorytmy wtórnego próbkowania były w stanie ograniczyć

błędy standardowe regresji w małych próbach (przypomnijmy, mamy tylko 47

obserwacji).

• Analogicznie do błędów standardowych, równieŜ powstałe z nich przedziały ufności

uległy skróceniu. Niesie to ze sobą bardzo powaŜne konsekwencje, gdyŜ dzięki

metodom repróbkowania udało się uzyskać oszacowania precyzyjniejsze, tzn. przy

tym samym prawdopodobieństwie jesteśmy w stanie bardziej precyzyjnie wskazać

przedział w którym nieobserwowalne parametr się znajdzie.

14

parametr OLS mean SE OLS SE

resampling OLS 95L OLS 95U

95% przedział ufności

percentyl 2,5 percentyl

97,5 obciąŜenie

b0 62,101 62,051 9,605 9,198 42,718 81,485 43,489 80,614 44,621 79,895 -0,05009945

b1 -0,155 -0,154 0,068 0,065 -0,292 -0,017 -0,285 -0,024 -0,280 -0,026 0,000360672

b2 -0,980 -0,978 0,148 0,140 -1,279 -0,681 -1,261 -0,695 -1,272 -0,707 0,002386572

b3 0,125 0,125 0,029 0,027 0,066 0,183 0,070 0,180 0,071 0,176 0,000173438

boot

stra

p fi

xed

b4 1,078 1,078 0,382 0,366 0,308 1,849 0,340 1,816 0,398 1,765 -0,00029204

b0 62,101 61,925 9,605 9,285 42,718 81,485 43,187 80,663 44,835 81,366 -0,17632151

b1 -0,155 -0,160 0,068 0,067 -0,292 -0,017 -0,295 -0,024 -0,289 -0,042 -0,00500419

b2 -0,980 -0,985 0,148 0,178 -1,279 -0,681 -1,343 -0,627 -1,324 -0,599 -0,0045948

b3 0,125 0,126 0,029 0,028 0,066 0,183 0,070 0,181 0,066 0,179 0,001020637

boot

stra

p ra

ndom

b4 1,078 1,102 0,382 0,406 0,308 1,849 0,283 1,920 0,305 1,901 0,023462379

b0 62,101 62,095 9,605 9,338 42,718 81,485 43,250 80,940 59,603 65,194 -0,28344244

b1 -0,155 -0,155 0,068 0,072 -0,292 -0,017 -0,299 -0,010 -0,186 -0,137 -0,00503936

b2 -0,980 -0,981 0,148 0,162 -1,279 -0,681 -1,306 -0,655 -1,029 -0,922 -0,01128878

b3 0,125 0,125 0,029 0,030 0,066 0,183 0,064 0,185 0,114 0,133 0,000524919

jack

nife

b4 1,078 1,079 0,382 0,424 0,308 1,849 0,223 1,936 0,955 1,284 0,032682619

b0 62,101 62,089 9,605 13,271 42,718 81,485 35,306 88,872 58,405 65,911 -0,56784521

b1 -0,155 -0,155 0,068 0,101 -0,292 -0,017 -0,360 0,050 -0,190 -0,129 -0,01031068

b2 -0,980 -0,981 0,148 0,231 -1,279 -0,681 -1,448 -0,514 -1,049 -0,908 -0,02279795

b3 0,125 0,125 0,029 0,042 0,066 0,183 0,039 0,210 0,111 0,137 0,001090774

jack

nife

blo

kow

y

b4 1,078 1,080 0,382 0,602 0,308 1,849 -0,135 2,295 0,929 1,303 0,06612008

15

• Przyglądając się wartościom krańcowym przedziału percentylowego, moŜemy

zauwaŜyć, Ŝe dla metody bootstrap prawie pokrywają się z przedziałami ufności.

Wynika z tego, Ŝe uzyskane rozkłady 10000 oszacowań są bardzo bliskie rozkładowi

normalnemu. Okazje się, Ŝe przedziały percentylowe są węŜsze dla algorytmów

jacknife. RóŜnicę tą wyjaśniamy mniejszą ilością replikacji, dla obu metod tego

schematu wtórnego replikowania mamy ich jedynie odpowiednio 47 i 1081.

• Bardzo zaskakujące dla autorów niniejszej pracy jest znacząca słabość algorytmów

jacknife blokowego. Nie byli w stanie znaleźć w literaturze wyjaśnienia tego

niezgodnego z intuicją zjawiska. Wydaje się Ŝe moŜliwym jego wytłumaczeniem

jest fakt, Ŝe z kaŜdą replikacja zabieramy aŜ 2 elementy, tj. blisko 5% obserwacji

niosących ze sobą znaczną część informacji. Usunięcie tej informacji moŜe

powodować wzrost niepewności ilustrowany wielkim powiększeniem się wartości

błędu losowego.

Podsumowanie. Celem niniejszej pracy było:

4. Przedstawienie metod jacknife i bootstrap, ich ich wariantów

5. Zilustrowanie ich działania w pakiecie statystyczno-ekonometrycznym SAS

stosując prawdziwe dane statystyczne dotyczące płodności w wybranych

kantonach Szwajcarii

6. Porównanie wyników przeprowadzonych eksperymentów

Dokonując tego porównania naleŜy stwierdzić, Ŝe dla posiadanych danych definitywnie

najlepszy okazał się algorytm bootstrap. Dla małej próby pozwolił on za zmniejszenie błędu

standardowego i tym samym na sprecyzowanie oszacowań. Algorytm jacknife z usuwaniem 1

elementu okazał się takŜe skuteczny w tym samym względzie, lecz jego obciąŜenie było

znacznie większe. Jacknife blokowy zaskakuje negatywnie swoimi wynikami.

16

Bibliografia 1. Aczel A.D., „Statystyka w zarządzaniu”, PWN, Warszawa 2000

2. Domański Cz., Pruska K., Wagner W., „Wnioskowanie statystyczne przy

nieklasycznych załoŜeniach”, Wydawnictwo Uniwersytetu Łódzkiego, Łódź 1998.

3. Sahinder S., Topuz D., „Bootstrap and Jacknife Resampling Algorithms for

Estimation of Regression Parameters”, Journal of Applied Quantitive Methods.

Aneks PoniŜej znajdują się wszystkie wykresy, z tym, Ŝe w formacie powiekszonym.

1. Bootstrap na resztach

19

2. Bootstrap na obserwacjach

21

3. Jacknife z usuwaniem 1 elementu

23

4. Jacknife z usuwaniem dwóch elementów

Wykorzystanie algorytmów Bootstrap i Jacknife w...

Documents

Transcript of Wykorzystanie algorytmów Bootstrap i Jacknife w...