Podstawowy kurs nowoczesnej...

246
Brunon R. Górecki Podstawowy kurs nowoczesnej ekonometrii

Transcript of Podstawowy kurs nowoczesnej...

Page 1: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Brunon R. Górecki

Podstawowy kurs nowoczesnej ekonometrii

Page 2: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

SPIS TREŚCI

Wstęp

CZĘŚĆ I. KLASYCZNY MODEL REGRESJI LINIOWEJ

1.Wprowadzenie

1.1. Czym jest ekonometria?

1.2. Pojęcie modelu ekonometrycznego

1.3. Dane statystyczne

1.4. Metodologia ekonometrii

2. Klasyczny model regresji liniowej (KMRL)

2.1. Zapis macierzowy modelu

2.2. Od populacji do próby i od próby do populacji

2.3. Założenia KMRL

3. Metoda najmniejszych kwadratów (MNK)

3.1. Estymatory MNK

3.2. Własności algebraiczne rozwiązania MNK

3.4 Dobroć dopasowania równania regresji

4. Wnioskowanie o estymatorach MNK

4.1. Jeszcze o założeniu normalności zaburzeń losowych

4.2. Najlepszy liniowy nieobciążony estymator i twierdzenie Gaussa-Markowa

4.3. Estymator wariancji zaburzenia losowego i błędy standardowe estymatorów

4.4. Rozkład t- Studenta, weryfikacja prostych hipotez i przedziały ufności

4.5. Istotność równania regresji

4.6. Asymptotyczne własności estymatorów MNK

5. Interpretacja równania regresji i testowanie hipotez

5.1. Interpretacja współczynników regresji i założenie liniowości w modelu regresji

5.2. Jakościowe zmienne objaśniające – zmienne 0-1

5.3. Restrykcje i modele zagnieżdżone. Łączna istotność zmiennych zero-

jedynkowych

5.4.Jakościowa zmienna objaśniana

Page 3: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

5.5. Wybór regresorów. Skutki pominięcia w równaniu regresji istotnych zmiennych

objaśniających; skutki dodania w równaniu regresji zmiennych nieistotnych

5.6. Testowanie łącznej istotności podzbioru regresorów

5.7.Testowanie hipotez złożonych

6. Problemy danych statystycznych

6.1. Współliniowość i jej konsekwencje. Wykrywanie współliniowości i środki

zaradcze

6.2 . Obserwacje opuszczone

6.3 . Wykrywanie nietypowych wartości zmiennej objaśnianej i nietypowych wartości

zmiennych objaśniających

7. Prognozowanie na podstawie KMRL

7.1 Prognoza i błąd standardowy prognozy

7.2 Wykorzystanie modelu dla celów symulacji

CZĘŚĆ II ZŁAGODZENIE ZAŁOŻEŃ MODELU KLASYCZNEGO

8. Uogólniona metoda najmniejszych kwadratów (UMNK)

8.1. Heteroscedastyczność i autokorelacja zaburzenia losowego w KMRL

8.2. Estymatory uogólnionej metody najmniejszych kwadratów (UMNK)

8.3. Testowanie heteroscedastyczności: testy Goldfelda-Quandta, Breuscha-Pagana

oraz White`a

8.4. Estymacja macierzy wariancji-kowariancji zaburzeń losowych w przypadku

heteroskedastyczności. Stosowalna uogólniona metoda najmniejszych kwadratów

8.5. Odporny na heteroscedastyczność estymator White`a macierzy wariancji-

kowariancji dla b wyznaczonego za pomocą MNK

8.6. Testowanie autokorelacji: testy Durbina-Watsona i Breuscha-Godfreya

8.7. Estymacja macierzy wariancji-kowariancji zaburzeń losowych w

przypadkach autokorelacji pierwszego rzędu

8.8. Odporny na heteroscedastyczność i odporny na autokorelację estymator Newey`a-

Westa macierzy wariancji-kowariancji dla b oszacowanego za pomocą MNK

9. Diagnostyka w klasycznym modelu regresji liniowej

Page 4: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

9.1 Test White`a

9.2 Test RESET błędu specyfikacji postaci funkcyjnej równania regresji Ramsey`a

9.3 Test niezagnieżdżonych alternatyw

9.4 Test stabilność parametrów Chowa

9.5 Test Jarque-Bera`y nienormalności zaburzeń

9.6 Ocena wyników analizy regresji

CZĘŚĆ III. SZCZEGÓLNIE WAŻNE MODELE EKONOMETRYCZNE

10. Ograniczona zmienna objaśniana

10.1. Liniowa funkcja prawdopodobieństwa

10.2. Metody logitowa i probitowa

10.3. Wielomianowa metoda logitowa, metoda tobitowa, modele samoselekcji próby

11. Modele pojedynczego szeregu czasowego

11.1. Analiza klasyczna

11.2. Szereg czasowy jako realizacja procesu stochastycznego

11.3. Procesy autoregresyjne rzędu p -AR(p) (Autoregressive), procesy średniej

ruchomej rzędu q – MA(q) (Moving Average), Zintegrowane rzędu d procesy

autoregresyjne rzędu p ze średnią ruchomą rzędu q - ARIMA(p,d,q) (Autoregressive

Integrated Moving Average).

11.4. Procedura Boxa – Jenkinsa

11.5 Procesy ARIMA dla danych sezonowych 12. Modele dynamiczne

12.1. Modele o opóźnieniach rozłożonych (Distributed Lag Models)

12.2. Estymacja modeli DL i wybór rzędu opóźnienia

12.3. Modele autoregresyjne i modele autoregresyjne z opóźnieniami rozłożonymi

(AutoRegressive Distributed Lag Models – Modele ADL lub ARDL)

12.4. Niestacjonarność i integracja szeregu ; konsekwencje

12.5. Test pierwiastka jednostkowego Dickeya-Fullera (Test DF)

12.6. Rozszerzony test pierwiastka jednostkowego zwany w języku angielskim

Augmented Dickey-Fuller Test (Test ADF)

12.7. Kointegracja szeregów czasowych

12.8. Przyczynowość w ekonometrii

Page 5: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

13. Modele wektorowej autoregresji (Vector AutoRegressive Models - VAR) i modele .

korekty błędów

13.1. Modele wektorowej autoregresji (Vector AutoRegressive Models (VAR)

13.2. Model korekty błędów (Error Correction Model – ECM)

13. Opracowywanie projektów badawczych

CZĘŚĆ IV ANEKSY

Aneks A. Elementy algebry macierzy Aneks B. Wybrane fragmenty rozkładów prawdopodobieństwa

Aneks C. Bazy danych

Page 6: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wstęp

Celem tej książki jest przedstawienie w możliwie najbardziej przystępny sposób

podstawowych zagadnień współczesnej ekonometrii. Ma ona służyć studentom

ekonomicznych studiów licencjackich i magisterskich, pragnących uzyskać niezbędną wiedzę

dla samodzielnego prowadzenia badań ekonometrycznych. Stanowi ona jednocześnie dobre

przygotowanie dla rozszerzenia arsenału wiadomości ekonometrycznych przydatnych

ekonomiście.

Wszystkie prezentowane przykłady liczone są w nieodpłatnie udostępnionym w internecie

pakiecie, publikowanym przez Free Softwere Foundation pod nazwą „Gretl”. Jego adres

internetowy: http://gretl.sourceforge.net oraz jego polskojęzyczna wersja opracowana przez T.

Kufla i udostępniona na stronie internetowej http://www.kufel.torun.pl. Dla stosowania tego

pakietu pomocne jest opracowanie Tadeusza Kufla, Ekonometria. Rozwiązywanie problemów

z wykorzystaniem programu GRETL, PWN, 2004.

Tak rozumiany podręcznik łączy wiedzę teoretyczną z ekonometrią zastosowawczą. W

związku z tym wszystkie wątki teorii prezentowane w książce są ilustrowane konkretnymi

aplikacjami praktycznymi.

Istotnym dopełnieniem podręcznika są trzy aneksy. Pierwszy zawiera niezbędną wiedzę z

zakresu algebry macierzy, ograniczoną jedynie do wątków bezpośrednio stosowanych w

trakcie wykładu. Drugi aneks poświęcony jest celowo wybranym fragmentom statystyki

matematycznej, niezbędnym dla swobodnego korzystania z tekstu. Wreszcie trzeci aneks jest

zbiorem dostępnych w internecie baz danych ekonomicznych, stanowiących nie tylko

materiał dla sensownego formułowania zadań ćwiczeniowych, ale również do

wykorzystywania w interesujących ekonomistę analizach.

Pragnę podziękować mgr Dariuszowi Szymańskiemu za przygotowanie niektórych

przykładów przedstawionych w niniejszym tekście oraz mgr Tomaszowi Rybnikowi za

opracowania informacji o dostępnych w internecie ekonomicznych bazach danych, mogących

znaleźć zastosowanie przy samodzielnym formułowaniu i rozwiązywaniu zagadnień

ekonometrycznych.

Page 7: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

CZĘŚĆ I. KLASYCZNY MODEL REGRESJI LINIOWEJ

3. WPROWADZENIE

3.1. Czym jest ekonometria?

Ekonometria jest nauką zajmującą się ilościowym (liczbowym) opisem, w oparciu o dane

statystyczne, prawidłowości ekonomicznych, postulowanych przez teorię ekonomii lub

sugerowanych przez sensowne hipotezy ekonomiczne.

Hipoteza to przypuszczenie wymagające sprawdzenia. Np. Czy wykształcenie przysparza

tyle samo złotówek miesięcznej płacy kobietom, co mężczyznom? Czy w każdym wieku

awansuje się jednakowo szybko? Czy kobiety w młodym wieku awansują szybciej od

mężczyzn? Czy krańcowa skłonność do konsumpcji w Polsce jest taka sama jak w

Stanach Zjednoczonych i tp.

W arsenale metod ilościowych obok matematyki, statystyki i badań operacyjnych –

ekonometria jest ważnym i użytecznym narzędziem wspomagającym prowadzenie analiz

ekonomicznych.

Badania ekonometryczne przeprowadzone są w oparciu się o sformułowania teorii

ekonomii lub o wyraźnie określone hipotezy, dotyczące procesów lub zjawisk

ekonomicznych, które mają być przedmiotem badania. Dla rozważanego fragmentu teorii,

dla którego szukamy empirycznego potwierdzenia, lub dla hipotezy lub dla zbioru

hipotez, które pragniemy zweryfikować, specyfikowany jest model ekonometryczny.

Jednorównaniowym modelem ekonometrycznym nazywamy równanie, w którym

występuje:

a) zmienna objaśniana,

b) zmienne objaśniające (kształtujące procesy ujęte w teorii lub w postawionych

hipotezach) oraz

c) zaburzenie losowe, oddające wpływ drugorzędnych, explicite nie wyróżnionych

czynników.

Zbiór metod, którymi posługuje się ekonometria, nazywa się ekonometrią teoretyczną

lub teorią ekonometrii – w odróżnieniu od zastosowań tych metod, zwanych

ekonometrią zastosowawczą.

Rozważania nasze będą poświęcone zarówno teorii ekonometrii, jak i jej zastosowaniom,

w związku z tym wszystkie wątki teorii będą ilustrowane konkretnymi aplikacjami

Page 8: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

praktycznymi. W takim ujęciu poniżej prezentowany materiał staje się rodzajem

przewodnika po metodach i jednocześnie po zastosowaniach tych metod i nie będzie on

miał charakteru wykładu matematycznego, obarczonego dowodami twierdzeń o wysokim

stopniu trudności matematycznych.

Znacznie silniej, niż ma to miejsce w innych polskojęzycznych podręcznikach, będą

akcentowane problemy testowania poprawności doboru modelu, weryfikacji stawianych

hipotez, dyskusji nad konsekwencjami wykrywania różnego rodzaju błędów specyfikacji,

poszerzonej dyskusji nad kryteriami wyboru modelu.

Przyjuję, że studenci korzystający z tego opracowania, mają możliwości używania

pakietów ekonometrycznych, takich jak LIMPED, TSP, EVIEWS, SAS, SPSS, STATA,

PcGive i szeregu innych - (w tym pakietów nieodpłatnie udostępnianych w internecie),

których listę można znaleźć pod adresem:

http://www.oswego.edu/economic/econsoftware.htm

Za ich pomocą mogą być wykonywane prawie wszystkie obliczenia dla dyskutowanych w

niniejszym opracowaniu technik i testów. W obliczeniach zawartych w tekście

wykorzystywany jest darmowy, nieodpłatnie udostępniony pakiet, publikowany przez

Free Softwere Foundation pod nazwą „Gretl”. Jego adres internetowy:

http://gretl.sourceforge.net oraz http://www.kufel.torun.pl. Dla wykorzystania tego

pakietu pomocne będzie opracowanie Tadeusza Kufla, Ekonometria. Rozwiązywanie

problemów z wykorzystaniem programu GRETL, PWN, 2004.

3.2. Pojęcie modelu ekonometrycznego

Model ekonometryczny, jak każdy model, jest uproszczoną wizją rzeczywistości.

Szczególną cechą modelu ekonometrycznego jest przedstawienie zależności zachodzącej

między zjawiskiem objaśnianym i najważniejszymi zjawiskami objaśniającymi za pomocą

równania zwanego równaniem regresji1. Równanie to ma konkretną postać

matematyczną, w której pojedyncza zmienna, zwana zmienną objaśnianą przedstawiana

jest jako funkcja deterministyczna (najczęściej liniowa) najważniejszych (w świetle teorii

ekonomicznej) zmiennych, zwanych zmiennymi objaśniającymi. Do takiego równania

dodane jest tak zwane zaburzenie losowe zwane również zaburzeniem

1 Nazwa „regresja” użyta została po raz pierwszy przez Francisa Galtona w końcu XIX wieku w badaniu nad wzrostem potomstwa w zależności od wzrostu rodziców, w którym to badaniu Galton sformułował tezę, że wzrost potomstwa w całej populacji zmierza do średniego wzrostu w populacji. Owo zmierzanie do średniej Galton określił właśnie słowem „regresja”.

Page 9: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

stochastycznym2 lub składnikiem losowym lub błędem losowym, którego głównym

celem jest przedstawienie sumarycznego oddziaływania na zmienną objaśnianą

wszystkich innych czynników, pominiętych w równaniu, ze względu na ich drugorzędne

znaczenie dla opisu badanego związku. Błąd ten może również wynikać z

nieadekwatności teorii ekonomii, lub niepoprawności postawionych hipotez, które ma

weryfikować model, a także z niewłaściwej postaci równania matematycznego, przyjętego

w modelu. Zaburzenie losowe zawiera także błędy pomiaru zmiennych, wynikające z

niedokładności mierzenia wartości, jakie przyjmują zmienne, jak również z uchybień

zawinionych zarówno przez ankieterów i osoby gromadzące dane jak i udzielające

odpowiedzi na pytania ankieterów. Wreszcie w zaburzeniu losowym zawarte są wpływy

indywidualnych cech jednostek, które obok wyróżnionych zmiennych objaśniających

mogą oddziaływać na zmienną objaśnianą.

Zmienna objaśniana zwana jest również:

zmienną zależną,

zmienną endogeniczną,

regresantem,

zmienną kontrolowaną.

Zmienne objaśniające nazywane są także:

zmiennymi niezależnymi,

zmiennymi egzogenicznymi,

regresorami,

zmiennymi kontrolującymi.

Zaburzenie losowe zwane jest również:

błędem losowym,

składnikiem stochastycznym lub składnikiem losowym,

zakłóceniem,

lub niekiedy innowacją.

W związku z tym określenia te będziemy używać zamiennie.

Dodanie do równania regresji składnika losowego powoduje, że równanie regresji nie

ma charakteru deterministycznego a stochastyczny (co znaczy tyle samo co losowy),

gdyż zmienna objaśniana będąc funkcją składnika losowego staje się sama zmienną

losową. Związek regresyjny (jaki zachodzi między zmienną objaśnianą a zbiorem

2 Stochastyczny to znaczy losowy lub przypadkowy (od greckiego słowa stochasis – domysł).

Page 10: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

zmiennych objaśniających) jest związkiem statystycznym, który jednak nie implikuje

charakteru przyczynowego tej zależności. Treść ekonomiczna zmiennej objaśnianej i

zmiennych objaśniających może wskazywać, że relacja wyznaczona przez równanie

regresji jest relacją przyczynową.

Analiza regresyjna jest koncepcyjnie odmienna od analizy korelacyjnej, często

stosowanej w statystyce dla opisu związku miedzy dwiema zmiennymi. Na podstawie

analizy regresyjnej szacujemy wartość oczekiwaną zmiennej objaśnianej za pomocą

konkretnych wartości zmiennych objaśniających. W tym sensie analiza regresyjna

pozwala prognozować zmienną objaśnianą na podstawie znanych, konkretnych wartości

zmiennych objaśniających. Nie jest to więc relacja symetryczna, jaką jest współczynnik

korelacji.

3.3. Dane statystyczne

Dane statystyczne pełnią podstawową rolę w modelowaniu ekonometrycznym.

Potwierdzają one poprawność specyfikacji funkcji regresji, poprawność postawionych

hipotez, lub ogólniej rzecz ujmując, poprawność modelowania ekonometrycznego i

wyprowadzanych na podstawie tego modelowania wniosków.

Możemy wyróżnić trzy rodzaje danych statystycznych, wykorzystywanych w

modelowaniu ekonometrycznym.:

Dane szeregów czasowych. Są to najbardziej popularne zbiory danych, gdzie kolejne

obserwacje rejestrują badane zjawisko ekonomiczne w następujących po sobie

momentach lub przedziałach czasu. Takimi danymi są PKB, zatrudnienie, stopa inflacji,

liczba ludności itp., zestawiane jako dane roczne, kwartalne, miesięczne a nawet dzienne

(jak np. wartość jednostek uczestnictwa funduszy inwestycyjnych), czy dane godzinowe

(kursy walutowe, stopy zwrotu papierów wartościowych). Dane roczne, kwartalne lub

miesięczne, z którymi najczęściej spotykamy się w modelowaniu ekonometrycznym są z

reguły danymi zagregowanymi, wyrażającymi przeciętną wartość badanego zjawiska

rejestrowanego w określonym przedziale czasu lub na określony moment ( np. stan

ludności na 31 grudnia).

Dane szeregów czasowych, choć powszechnie wykorzystywane w ekonometrii rodzą

poważne problemy modelowania, związane z tak zwaną niestacjonarnością szeregów

czasowych. Sygnalizując jedynie problem powiemy, że jeżeli szeregi , wraz z upływem

czasu, wykazują trendy lub wzrastającą wariancję obserwowanego zjawiska, co wskazuje

Page 11: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

na ich niestacjonarność, to fakt ten rodzi szczególne komplikacje budowy i weryfikacji

modeli. Do problemu tego wrócimy w rozdziale 11.

Dane przekrojowe powstają jako obserwacje dokonywane w tym samym czasie na wielu

jednostkach. Typowymi danymi przekrojowymi są obserwacje budżetów gospodarstw

domowych. Główny Urząd Statystyczny bada każdego miesiąca około trzech tysięcy

gospodarstw z terenu całego kraju, dostarczając informacji o dochodach i wydatkach

badanych rodzin, o ich składzie demograficznym, o ich mieszkaniu i jego wyposażeniu w

dobra trwałego użytku i td. Są to dane bardzo szczegółowe, uzewnętrzniające

różnorodność badanych gospodarstw domowych. Różnorodność ta wywołuje problemy

zwane heteroskedastycznością, co niekiedy komplikuje modelowanie ekonometryczne.

Dane panelowe (połączone, longitudinalne) łączą cechy danych szeregów czasowych i

danych przekrojowych. Na przykład dane PKB dla poszczególnego kraju są pojedynczym

szeregiem czasowym, ale zestawienie PKB dla np. krajów OECD tworzy dane połączone.

Typowymi danymi panelowymi są panele gospodarstw domowych. Na przykład dla

Polski zostały zestawione panele z lat 1993-1997 i 1997-2000, zawierające około trzech

tysięcy tych samych gospodarstw badanych przez okresy czteroletnie. W Luksemburgu

znajduje się baza danych panelowych gospodarstw domowych dla wszystkich krajów Unii

i Stanów Zjednoczonych. Dane te są dostępne również na Wydziale Nauk

Ekonomicznych Uniwersytetu Warszawskiego. Zalety danych panelowych ilustruje

następujący przykład. Na podstawie danych szeregów czasowych możemy ustalić jak

zmienia się z czasem procent pracujących kobiet. Na podstawie danych przekrojowych

możemy sprawdzić, jak procent ten zależy od np. wieku kobiet, ich poziomu

wykształcenia, czy fazy cyklu rozwojowego rodziny. Ale dopiero dane panelowe

umożliwiają ustalenie, czy w kolejnych latach kobietami pracującymi są te same kobiety,

a więc umożliwiają zbadanie, jak zmienia się struktura pracujących kobiet: kiedy kobiety

rozpoczynają, przerywają i wznawiają pracę.

Niedoskonałość danych statystycznych, mająca swoje różnorodne źródła, może mieć

niekiedy decydujące znaczenie dla oszacowanego modelu. Możemy się dopatrywać złych

wyników modelu w jego niepoprawnej specyfikacji i starać się go udoskonalać, gdy w

rzeczywistości błąd tkwi w niedomogach danych statystycznych. Powody niedoskonałości

danych mogą być bardzo różnorodne. Ze względu na nie eksperymentalny charakter

danych ekonomicznych mogą być one obciążone znacznymi błędami obserwacji lub

pomiaru. W danych ankietowych braki odpowiedzi mogą prowadzić do tak zwanego

Page 12: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

obciążenia doboru próby, gdy odmawiający uczestnictwa zachowują się zdecydowanie

odmiennie od poddających się badaniu.

Niekiedy wśród obserwacji pojawiają się tzw. obserwacje znacząco wpływające

(influential observations), których wpływ na oszacowany model jest niezwykle silny,

znacznie odbiegający od przeciętnego. Wyłączenie takich kilku lub nawet jednej

obserwacji z próby może niekiedy istotnie zmienić szacowane parametry. Dlatego

umiejętność ich zidentyfikowania staje się ważnym zabiegiem w przygotowaniu danych.

Problemom związanym z obserwacjami wpływowymi (zwanymi w przypadku zmiennej

objaśnianej obserwacjami nietypowymi, zaś w przypadku zmiennych objaśniających –

obserwacjami dźwigniowymi) na oszacowania parametrów modelu i ogólniej na jego

jakość, ze względu na szczególną wagę tego zagadnienia poświęcimy specjalny fragment

rozważań w rozdziale 6.

3.4. Metodologia ekonometrii

Przez metodologię ekonometrii rozumiemy sposób postępowania w trakcie budowy

modelu ekonometrycznego. W tradycyjnym i do dzisiaj powszechnie zalecanym sposobie

można wyróżnić następujące elementy:

1. Ustalenie teorii ekonomicznej lub zbioru hipotez, które model ekonometryczny

ma potwierdzić lub odrzucić. W praktyce modelowania zwykle na tle teorii

stawiamy hipotezy o tym, czy w konkretnych warunkach ekonomicznych teoria

funkcjonuje w swojej niezmienionej postaci, czy może dotąd rozpoznane czynniki,

w świetle postawionych hipotez, zaczynają wywierać silniejszy lub słabszy wpływ

niż poprzednio, a może ujawniają swoje działanie nowe, nieznane dotąd w teorii

mechanizmy, które modyfikują istniejącą dotąd wizję rzeczywistości. Może

modelowane procesy przebiegają szybciej lub wolniej niż w dotychczas

rozpoznanych przypadkach. Tak więc teoria ekonomii i w jej świetle postawione

hipotezy badawcze stanowią pierwszy krok w procedurze modelowania

ekonometrycznego.

2. Określenie postaci matematycznej modelu ekonometrycznego polega na

specyfikacji funkcji matematycznej, wiążącej zmienną objaśnianą ze

zdefiniowanymi zmiennymi objaśniającymi. Metodologia ekonometrii zaleca, (co

znajduje swoje uzasadnienie ekonometryczne, patrz rozdz. 5), aby w początkowym

modelu znalazł się możliwie najszerszy zbiór zmiennych ekonomicznych, które

Page 13: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

mają wyjaśnić zachowanie się zmiennej objaśnianej. W kolejnych krokach

poprawy modelu zbiór ten może być redukowany. Jest to postępowanie zwane w

ekonometrii „Od ogólnego do szczegółowego”, o czym będzie mowa w rozdziale

5).

3. Dołączenie zaburzenia losowego, dzięki czemu wyspecyfikowane równanie staje

się modelem ekonometrycznym.

4. Ustalenie zbioru danych statystycznych, użytych dla oszacowania modelu. Jest to

szalenie istotny etap modelowania. Zaleca się wstępne sporządzenie wykresów

zmiennych, a w dalszej procedurze wykrywanie obserwacji wpływowych (rozdział

5). Częste są bowiem przypadki, gdy mało satysfakcjonujący model

ekonometryczny ma swoją przyczynę nie w wadliwej procedurze modelowania, a

w istotnych niedomaganiach danych statystycznych, użytych do jego budowy.

5. Estymacja parametrów modelu ekonometrycznego. W niniejszym tekście

zajmiemy się jedynie dwiema metodami estymacji o powszechnym zastosowaniu,

a mianowicie metodą najmniejszych kwadratów i uogólnioną metodą

najmniejszych kwadratów. Zasygnalizujemy również zalety metody największej

wiarogodności, stosowanej w przypadkach dużych prób.

6. Po estymacji modelu następuje jego diagnostyka, która pomaga ustalić, czy model

nie zawiera istotnych wad, wymagających poprawek. W tym celu oszacowany

model jest poddawany szczegółowej weryfikacji za pomocą całego szeregu testów

diagnostycznych, których przeprowadzenie pozwala na uzyskanie odpowiedzi, czy

równanie modelu jest poprawnie wyspecyfikowane, czy zawiera on wszystkie

ekonomicznie ważne zmienne, opisujące badane zjawisko, czy poprawne są

założenia dotyczące specyfikacji zaburzenia losowego, czy uzyskane estymatory

mają pożądane własności, wreszcie czy można znaleźć model lepszy od

wyestymowanego.

7. Satysfakcjonujący model może służyć do sprawdzenia teorii ekonomii, inicjującej

jego powstanie lub do testowania postawionych na wstępie hipotez. Należy

zauważyć, że ważność teorii lub testowanych hipotez ma charakter warunkowy, to

znaczy, że zależy od konkretnego zbioru danych statystycznych, wykorzystanych

w procedurze estymacyjnej. Można by oczekiwać, że dla innego zbioru danych,

obejmującego na przykład inny przedział czasu, wyniki estymacji mogłyby być

odmienne.

Page 14: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

8. Oszacowany model może być następnie wykorzystany dla celów prognostycznych.

Zakładając, że prawidłowość z okresu próby obowiązuje również w okresie

prognozowanym, możemy wyznaczyć prognozę ekonometryczną i błąd ex ante dla

tej prognozy. Po zrealizowaniu się prognozy możemy wyznaczyć jej błąd ex post.

9. Oszacowany model może być również wykorzystany dla obliczeń oczekiwanych

efektów polityki ekonomicznej, fiskalnej, społecznej, itp. Znając na przykład

wymodelowane zachowanie się płatników podatku od dochodów osobistych

ludności przy obowiązujących przepisach podatkowych, możemy wykorzystać

model dla wyznaczenia spodziewanych efektów nowej formy polityki podatkowej.

Powyższe elementy metodologii przedyskutujemy na klasycznym przykładzie ekonomii,

jakim jest Keynesowska teoria konsumpcji.

Zgodnie z teorią Keynesa „podstawowe prawo psychologiczne głosi, że ludzie są skłonni

do zwiększania konsumpcji wraz ze wzrostem dochodów, ale w mniejszym stopniu niż

wzrasta dochód”. Oznacza to, że krańcowa skłonność do konsumpcji, oznaczana w

podręcznikach angielskim skrótem MPC (Marginal Propensity to Consume) jest stopą

zmiany konsumpcji. Oczekujemy, że jest ona większa od zera, ale mniejsza od jedności.

Matematyczny model dla tej teorii może przyjąć postać:

(1.1) y x= + < <β β β1 2 20 1

gdzie y - wydatki konsumpcyjne, x - dochód, β1 i β 2 - parametry równania. β1 zwane

jest stałą równania, zaś β 2 jest parametrem nachylenia lub współczynnikiem

kierunkowym. Z zapisu (1.1) widzimy, że parametr kierunkowy β 2 mierzy krańcową

skłonność do konsumpcji (MPC). Możemy to przedstawić graficznie, jak na rys. 1.1.

Page 15: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

y

Wydatki kons.

β 2 =Krańcowa skłonność do konsumpcji (MPC)

1

β1

0 x

Dochody

Rys. 1.1. Funkcja konsumpcji Keynesa

Możemy oczekiwać, że krańcowa skłonność do konsumpcji nie we wszystkich rodzinach

jest dokładnie taka sama. Wpływają na nią inne zmienne oprócz dochodu, takie jak wiek

rodziny, liczba osób w rodzinie, miejsce zamieszkania, nawyki konsumpcyjne i td.

Dlatego też modyfikujemy funkcję konsumpcji dodając zaburzenie losowe, dzięki

któremu funkcja deterministyczna konsumpcji staje się funkcją stochastyczną (losową).

Taka postać funkcji jest modelem ekonometrycznym. Zapiszmy ją:

(1.2) y x= + +β β ε1 2

Oznacza to że w rzeczywistości krańcowa skłonność do konsumpcji różnych rodzin nie

leży dokładnie na prostej z rys. 1.1, a losowo się od niej odchyla na skutek działania

efektu losowego ε . Możemy ją przedstawić jak na rys. 1.2.

Page 16: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

y

Wydatki kons.

ε

x

Dochody

Rys. 1.2. Ekonometryczny model konsumpcji Keynesa

Dla estymacji modelu potrzebne są nam dane statystyczne, które umożliwią oszacowanie

nieznanych parametrów β1 oraz β 2 .

Przykład 1.1

Wykorzystamy dane o produkcie krajowym brutto (PKB) i spożyciu gospodarstw

domowych, zarejestrowanym jako wydatki konsumpcyjne. Dane te są agregatami

rocznymi wyrażonymi w mld. złotych, liczonych w cenach stałych roku 2001, a więc w

wielkościach realnych, a nie nominalnych. Zawiera je Tablica 1.1.

TABLICA 1.1 PKB (X) I SPOŻYCIE INDYWIDUALNE (Y) W SEKTORZE

GOSPODARSTW DOMOWYCH W LATACH 1991-2004 W CENACH ROKU 2001

(W MLD. ZŁ)

Rok PKB SPO

1991 483,21 308,54

1992 495,68 315,51

1993 523,74 332,05

1994 545,56 346,27

1995 578,82 357,30

1996 613,63 388,36

1997 655,20 415,06

1998 686,89 435,09

1999 714,95 457,73

2000 743,53 470,21

2001 750,80 479,60

2002 761,18 490,50

2003 790,78 503,15

2004 832,84 523,17

Źródło: Roczniki Statystyczne GUS z kolejnych lat.

Page 17: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Stosując metodę najmniejszych kwadratów (którą omówimy w rozdz. 3) oszacowaliśmy funkcję regresji:

(1.3) , ,y xii = − +2 92 0 64

Daszek nad yi oznacza, że jest to wielkość oszacowana dla i-tej obserwacji (zwana

również wielkością wyliczoną lub teoretyczną), a nie rzeczywiście zaobserwowana

wartość yi .

Z równania (1.3) dowiadujemy się, że w latach 1991-2004, licząc w wielkościach

realnych, średnio każda złotówka wzrostu PKB pociąga wzrost wydatków

konsumpcyjnych gospodarstw domowych o 64 grosze. A więc MPC = 0,64. Stała

równania wynosząca –2,92 nie ma sensownej interpretacji ekonomicznej. Oznaczała by

bowiem ona ile wynosiłyby wydatki konsumpcyjne, gdyby PKB był równy zero. Sytuacja

taka nigdy nie występuje w realnej gospodarce. Można przyjąć jako regułę, że nie

interpretujemy stałej równania regresji, a jedynie współczynniki kierunkowe, a więc

wielkości przy zmiennych objaśniających.

Obliczenia zostały wykonane przy użyciu programu Gretl. Wydruk komputerowy

wygląda następująco:

Model 1.1: Estymacja KMNK z wykorzystaniem 14 obserwacji 1991-2004

Zmienna zależna: SPO

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -2,92007 6,79024 -0,4300 0,674788 PKB 0,63894 0,010212 62,5678 < 0,00001 ***

Srednia arytmetyczna zmiennej zależnej = 415,897 Odchylenie standardowe zmiennej zależnej = 74,155 Suma kwadratów reszt = 218,461 Błąd standardowy reszt = 4,26674 Wsp. determinacji R2 = 0,996944 Skorygowany R2 = 0,996689 Stopnie swobody = 12 Statystyka testu Durbina-Watsona = 1,6828 Autokorelacja reszt rzędu pierwszego = 0,0697639 Logarytm wiarygodności = -39,098 Kryterium informacyjne Akaika = 82,196 Kryterium bayesowskie Schwarza = 83,4741

Page 18: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

W podrozdziale 3.3 poznamy specjalną miarę dobroci dopasowania funkcji regresji do danych

empirycznych, zwaną współczynnikiem determinacji, oraz na dalszych stronach zapoznamy

się z pozostałymi statystykami występującymi na tym wydruku.

Wyżej oszacowany model wymaga dalszej weryfikacji. Powinniśmy sprawdzić, czy

krańcowa skłonność do konsumpcji oszacowana jako 0,64 jest statystycznie mniejsza od 1,

co zakłada teoria Keynesa. Problem ten przedyskutujemy w rozdziale 4. po zapoznaniu się z

koncepcją błędów standardowych oszacowanych współczynników regresji.

Model może być następnie wykorzystany dla celów predykcji (prognozowania). Przypuśćmy,

że chcemy wyznaczyć oczekiwaną średnią wielkość wydatków konsumpcyjnych gospodarstw

domowych w roku 2005. Jeśli założymy (lub przyjmiemy za prognozą makroekonomiczną, że

PKB wzrośnie w 2005 roku o 4,5% w stosunku do roku poprzedniego, to wielkość jego

wyniesie (1+0,045) razy 832,84 = 870,32 mld. złotych. Stąd na podstawie równania (1.3)

, ,y xii = − +2 92 0 64

po podstawieniu danych otrzymamy:

Page 19: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

,y2005 -2,92 870,32 559,92= + × =0 64 .

Po zapoznaniu się z ekonometrycznymi problemami prognozowania (rozdział 7) będziemy

mogli wyznaczyć błąd dla tak wyliczonej prognozy.

Podsumowanie

1. Ekonometria jest nauką zajmującą się ilościowym opisem, w oparciu o dane

statystyczne, prawidłowości ekonomicznych, postulowanych przez teorię ekonomii

lub sugerowanych przez hipotezy ekonomiczne.

2. Hipoteza naukowa to przypuszczenie wymagające sprawdzenia. Na przykład:

Czy wykształcenie przysparza tyle samo złotówek miesięcznej płacy kobietom, co

mężczyznom? Czy w każdym wieku awansuje się jednakowo szybko? Czy kobiety

w młodym wieku awansują szybciej od mężczyzn?

Czy krańcowa skłonność do konsumpcji w Polsce jest taka sama jak w Stanach

Zjednoczonych?

3. Jednorównaniowym modelem ekonometrycznym nazywamy równanie wyjaśniające

związek między zjawiskiem objaśnianym i najważniejszymi zjawiskami

objaśniającymi.

4. W modelu występują: zmienna objaśniana, zmienne objaśniające, zaburzenie

losowe, oddające sumaryczny wpływ drugorzędnych, explicite nie wyróżnionych

czynników.

5. Rodzaje danych statystycznych:

Dane szeregów czasowych. Są to najbardziej popularne zbiory danych, gdzie kolejne

obserwacje rejestrują badane zjawisko ekonomiczne w następujących po sobie

momentach lub przedziałach czasu.

Dane przekrojowe powstają jako zbiory obserwacji wielu jednostek w tym samym

czasie

Dane panelowe (połączone, longitudinalne) łączą cechy danych szeregów czasowych i

danych przekrojowych

6. Metodologia ekonometrii to sposób postępowania w trakcie budowy modelu

ekonometrycznego.

Page 20: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Kroki:

Ustalenie teorii ekonomicznej lub zbioru hipotez, które model ekonometryczny

ma potwierdzić lub odrzucić.

Określenie postaci matematycznej modelu ekonometrycznego polega na

specyfikacji funkcji matematycznej, wiążącej zmienną objaśnianą ze zmiennymi

objaśniającymi.

Dołączenie zaburzenia losowego, dzięki czemu wyspecyfikowane równanie

staje się modelem ekonometrycznym.

Ustalenie zbioru danych statystycznych, użytych dla oszacowania modelu.

Estymacja parametrów modelu dokonywana jest poprzez zastosowanie

właściwych metod szacowania.

Diagnostyka pomagająca ustalić, czy model nie zawiera istotnych wad,

wymagających poprawek. Diagnostykę przeprowadza się za pomocą

różnorodnych testów statystycznych.

Satysfakcjonujący model służy do sprawdzenia teorii ekonomii, inicjującej jego

powstanie lub do testowania postawionych na wstępie hipotez.

Wykorzystanie oszacowanego modelu dla celów prognostycznych i

symulacyjnych.

Page 21: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

2. KLASYCZNY MODEL REGRESJII LINIOWEJ (KMRL)

2.1. Zapis macierzowy modelu

Przyjmijmy, że w n -elementowej populacji dla każdej obserwacji i zachodzi liniowa

zależność między zmienną objaśnianą y oraz K zmiennymi objaśniającymi

x x x xK1 2 3, , , , .

(2.1) y x x x i ni i i K Ki i= + + + + + =β β β β ε1 2 2 3 3 1 2 3 , , ;

Dla dodania stałej w równaniu (2.1), pierwszej zmiennej objaśniającej x1 nadaje się stale

wartość „ 1”, a więc x1 1= . Symbolem β k (k – małe) będziemy oznaczać parametr o

numerze k, a więc stojący przy k – tej zmiennej objaśniającej ( ,..., )k K= 2 . Po prawej

stronie równania dodane jest zaburzenie losowe ε i , którego rolę wyjaśniliśmy w

podrozdziale 1.2.

Równanie (2.1) jest równaniem regresji w populacji. Wiąże ono zmienną objaśnianą ze

zmiennymi objaśniającymi dla i tej− obserwacji. Jeśli zapiszemy równania dla

1 2− −szej giej, i dalszych obserwacji to utworzą one układ równań (2.2)

(2.2)

y x x x

y x x x

y x x x

K K

K K

n n n K Kn n

1 1 2 21 3 31 1 1

2 1 2 22 3 32 2 2

1 2 2 3 3

= + + + + +

= + + + + +

= + + + + +

β β β β ε

β β β β ε

β β β β ε

.......................................................

Jeśli zdefiniujemy wektor parametrów β

β

β

β

=

L

N

MMMM

O

Q

PPPP

1

2

K

to możemy wprowadzić zapis równania

dla i tej− obserwacji postaci: (2.3) yi i i= ′ +x β ε , i n= 1 2, , , ;

Page 22: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

gdzie xi i Kix x′= 1 2 jest wektorem wierszowym đ zmiennych objaśniających

dla i tej− obserwacji.

Dla zapisu macierzowego przyjmujemy oznaczenia:

(2.3) y =

L

N

MMMM

O

Q

PPPP

y

y

yn

1

2

; X =

L

N

MMMM

O

Q

PPPP

1

1

1

21 1

22 2

2

x x

x x

x x

K

K

n Kn

; ε

ε

ε

ε

=

L

N

MMMM

O

Q

PPPP

1

2

n

;

powyższy układ równań możemy zapisać jako:

(2.4)

y

y

y

x x x

x x x

x x xn

K

K

n n Kn K n

1

2

21 31 1

22 32 2

2 3

1

2

1

2

1

1

1

L

N

MMMM

O

Q

PPPP=

L

N

MMMM

O

Q

PPPP×

L

N

MMMM

O

Q

PPPP+

L

N

MMMM

O

Q

PPPP

β

β

β

ε

ε

ε

lub krócej:

(2.5) y X= +β ε . Często korzystamy z modelu regresji, w którym występuje tylko jedna zmienna objaśniająca. Model taki możemy zapisać:

(2.7) y x i ni i i= + + =β β ε1 2 2 1 2 3, ,

i będziemy go nazywać modelem regresji prostej, lub krócej – regresją prostą w

odróżnieniu od modelu z wieloma zmiennymi objaśniającymi, który nazywamy regresją

wieloraką.

2.2. Od populacji do próby i od próby do populacji

Rozumowanie, które prowadzi nas od populacji do próby przebiega następująco.

Równanie (2.5) przedstawia związek między zmienną objaśnianą a zmiennymi

objaśniającymi w populacji. To, co jest przedmiotem naszego zainteresowania, to

Page 23: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

oczekiwane zachowanie się zmiennej y pod warunkiem, że zmienne objaśniające przyjmą

zaobserwowane wartości, opisane macierzą X .

To, co wyżej powiedzieliśmy możemy zapisać formalnie:

(2.8) E y X X( ) = β

i co czytamy: warunkowa wartość oczekiwana zmiennej objaśnianej y przy danej

macierzy obserwacji na zmiennych objaśniających X jest równa iloczynowi Xβ .

Dla i tej− obserwacji mamy podobnie

(2.9) E x( ) , , ,y x x i ni i i K Ki′ = + + + =β β β1 2 2 1 2 .

Jeśli funkcję regresji w populacji uzupełnimy o zaburzenie losowe to otrzymamy:

(2.10) y X= +β ε .

Dla i tej− obserwacji mamy analogicznie:

(2.11) y x xi i K Ki i= + + +β β β ε1 2 2 i n= 1 2, , , .

Zauważmy, że w równaniach (2.10) lub (2.11) nie są znane ani wektor parametrów β ani

wektor zaburzeń losowych ε .

Ze względu na dużą liczebność populacji wyjątkowo rzadko możemy przebadać

wszystkie jej elementy i ustalić wektor parametrów β . Możemy jedynie pobrać z tej

populacji w sposób losowy n - elementową próbę i sprawdzić, czy w pobranej próbie

zachodzi związek opisany przez (2.8). Zamiast więc informacji o zależności

(2.8) E y X X( ) = β

praktycznie możemy poznać jedynie związek zachodzący w próbie postaci:

(2.12) y Xb= ,

Page 24: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

gdzie y jest wektorem kolumnowym, którego wartości będziemy nazywać

wartościami wyliczonymi, lub wartościami teoretycznymi zmiennej objaśnianej i

traktować jako estymator E y x( ) , zaś b jest wektorem kolumnowym: b =

L

N

MMMM

O

Q

PPPP

b

b

bK

1

2

wyznaczonym na podstawie próby, który nazywać będziemy estymatorem β .

Równanie (2.12), wyznaczone na podstawie próby, jest odpowiednikiem równia (2.8) w

populacji. (2.12) nazywamy równaniem regresji w próbie.

Dla i tej− obserwacji mamy podobnie:

(2.13) y b b x b xi i K Ki i= + + + = ′1 2 2 x b i n= 1 2, , , .

Jeśli równanie regresji w populacji dopełnimy zaburzeniem losowym ε , jak w (2.10)

(2.10) y X= +β ε ,

to jego odpowiednikiem w próbie jest równanie

(2.14) y Xb e= + ,

gdzie e =

L

N

MMMM

O

Q

PPPP

e

e

en

1

2

jest tak zwanym wektorem reszt , który traktujemy jako wektor

estymatorów nieznanych zaburzeń losowych ε . Przekształcając (2.14) otrzymamy

e y Xb= − i stąd nazwa wektor reszt.

Dla i tej− obserwacji mamy podobnie:

(2.15) y y ei i i= + i n= 1 2, , , .

Z powyższych rozważań wynika, że od nieznanych wielkości w populacji: β , E y X( )

oraz ε można przejść do ich odpowiedników w próbie b, y oraz e które nazywamy

Page 25: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

estymatorami. A więc b jest estymatorem β , y jest estymatorem E y X( ) oraz e jest

estymatorem ε .

Jeśli w próbie na podstawie obserwacji na zmiennej objaśnianej y oraz na zmiennych

objaśniających X wyliczymy konkretne wartości tych estymatorów, to będziemy je

nazywać ocenami.

Tak więc od rozważań w populacji przeszliśmy do analogicznych rozważań w próbie. Na

podstawie estymatorów z próby i wyznaczonych ocenach staramy się powiedzieć coś

sensownego o ich odpowiednikach w populacji.

Rys. 2.1. przedstawia równania regresji w populacji i w próbie dla przypadku jednej

zmiennej objaśniającej. Zauważmy, że zaburzenie losowe dla i tej− obserwacji

oznaczone jest przez ε i , zaś reszta przez ei .

y (yi, xi) εεεεi

yi

ei b b x regresja w próbie1 2 2+ ( )

β β1 2 2+ x regresja w populacji( )

y b b xi i= +1 2 2

β β1 2 2+ =x E y xi i i( )

0 xi x

Rys. 2.1. Funkcje regresji w populacji i w próbie

2,3, Założenia klasycznego modelu regresji liniowej (KMRL)

Ekonometria jest nauką sformalizowaną. Matematyczno-statystyczna ścisłość

rozumowania jest jej nieodłącznym atrybutem. Dzięki temu wszystkie wywody

empiryczne mają swoje głębokie uzasadnienie w teorii, co jest gwarancją ich logicznej

poprawności. Klasyczny model regresji liniowej opiera się na sześciu, dość

rygorystycznie sformułowanych założeniach, których spełnienie w praktycznym

budowaniu modelu jest gwarancją uzyskania teoretycznie poprawnego wyniku.

Page 26: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przedstawimy te założenia kolejno. Pierwsza grupa założeń dotyczy równania regresji i

zmiennych objaśniających występujących w tym równaniu.

Założenie 1: O generowaniu obserwacji na zmiennej objaśnianej.

Założenie to jest opisane równaniem

(2.16) y x x x i ni i i K Ki i= + + + + + =β β β β ε1 2 2 3 3 1 2 3 , , ,

lub w zapisie macierzowym

(2.17) y X= +β ε .

Ustala ono, że i ta− obserwacja na zmiennej objaśnianej yi powstaje jako suma

iloczynów nieznanych parametrów β k ( ,..., )k K= 2 , przemnożonych przez i te−

obserwacje na zmiennych objaśniających xki , a następnie uzupełnionych nieznanym

zaburzeniem losowym ε i . Efekt, jaki i ta− obserwacja na k tej− zmiennej objaśniającej

przydaje zmiennej objaśnianej, wynosi więc β k kix . Ponieważ zakładamy (o czym w

następnym założeniu), że obserwacje na zmiennych objaśniających są stałe (to znaczy

nielosowe w powtarzalnych próbach), lub jeśli są losowe, to są niezależne od zaburzenia

ε , to suma iloczynów parametrów przez obserwacje na zmiennych objaśniających określa

część y wyjaśnioną przez zmienne objaśniające, zaś ε - część niewyjaśnioną Zauważmy,

że zmienna objaśniana y jest losowa, gdyż jest funkcją ε .

Innym ważnym wnioskiem wynikającym z założenia 1 jest liniowość względem: po

pierwsze - zmiennych objaśniających, które są w pierwszej potędze, a po drugie -

względem parametrów β k , które są również w pierwszej potędze. W podrozdziale 4.4.

pokażemy, że dla klasycznego modelu regresji liniowej istotna jest liniowość nie

względem zmiennych objaśniających, a liniowość względem parametrów.

Ponadto w założeniu 1 przyjmujemy, że model (2.15) jest dobrze wyspecyfikowany, to

znaczy, że w równaniu regresji znajdują się wszystkie zmienne ważne dla wyjaśnienia

zmiennej objaśnianej, oraz że równanie to ma poprawną postać matematyczną. Pełniejsze

omówienie tych zagadnień odkładamy do rozdziału 9.

Założenie 2: Elementy macierzy X są nielosowe, są one ustalone w powtarzalnych

próbach, lub jeśli są losowe, to są niezależne od zaburzenia ε . Nielosowość elementów

macierzy X oznacza to Jeśli wzięlibyśmy inną próbę lub kolejne dalsze inne próby, to

zmienne objaśniające we wszystkich próbach są zgodnie z założeniem 2 takie same. Ta

Page 27: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

część założenia 2 jest cechą charakterystyczną nauk eksperymentalnych, gdzie w

planowanym eksperymencie badacz ma możliwość ustalania wielkości czynników

wpływających na zmienną objaśnianą. W badaniach ekonomicznych, gdzie prawie nigdy

nie możemy powtarzać eksperymentów, założenie stałości zmiennych objaśniających jest

nierealistyczne. Jedynie zmienne objaśniające mierzące upływ czasu ( t=1, 2, ...T ), są

zmiennymi nielosowymi, a więc są stałe w powtarzalnych próbach. W większości innych

przypadków zmienne objaśniające, mając swą ekonomiczną naturę analogiczną do

zmiennej objaśnianej y są losowe, to znaczy, że każda z nich zawiera własne zaburzenie

losowe. Dla spełnienia warunków KMRL wystarcza, aby losowe zmienne objaśniające

były niezależne od równoczesnych zaburzeń losowych ε . Dlatego też w dalszych

rozważaniach przyjmujemy wygodne upraszczające założenie, że zmienne objaśniane są

stałe w powtarzalnych próbach. Do problemu tego wrócimy w w punkcie 4.6 rozdziału 4.

Założenie 2 należy rozumieć, że regresja jest regresją warunkową, a więc regresją przy

danych wartościach zmiennych objaśniających X.

Z powyższego wynika, że

(2.18) E E( ) ( )y X y= , oraz

(2.19) Var Var( ) ( )y X y= , gdzie symbol Var oznacza wariancję.

Założenie 3: Rząd macierzy X jest równy liczbie szacowanych parametrów K, gdzie

K jest mniejsze od liczby obserwacji n. A więc:

(2.20) r K n( )X = < .

Oznacza to, że macierz X ma pełny rząd kolumnowy, z czego wynika po pierwsze, że

obserwacje na każdej zmiennej objaśniającej nie mogą być jednakowe, i po drugie, że

każda kolumna macierzy X nie może być kombinacją liniową innych kolumn tej

macierzy. Możemy więc powiedzieć, że każda zmienna wnosi do równania regresji

własną informację i dlatego nie może być zastąpiona przez inne, już istniejące w równaniu

regresji zmienne. Wynika stąd (patrz Rząd macierzy w ANEKSIE A), że wówczas

również r K( )′ =X X . Jak zobaczymy w trakcie dyskusji metody najmniejszych

Page 28: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

kwadratów, powyższy warunek jest niezbędny dla rozwiązalności układu równań

normalnych, z którego wyznaczamy wektor ocen b dla nieznanego wektora parametrów

β .

Druga grupa założeń dotyczy wektora zaburzeń losowych ε .

Założenie 4: Wektor zaburzeń losowych ma warunkową wartość oczekiwaną przy

danej macierzy X równą wektorowi zerowemu.

Formalnie założenie to możemy zapisać:

(2.21) E E( ) ( )ε εX 0= =

Z założenia 2 o tym, że macierz obserwacji na zmiennych objaśniających X jest

nielosowa lub losowa, ale niezależna od zaburzeń ε , wynika pierwsza równość w (2.21).

Druga z tych równości oznacza, że wartość oczekiwana wektora zaburzeń jest wektorem

zerowym. Wynika stąd, że czynniki nie włączone explicite do modelu i dlatego

przenoszące łącznie swoje efekty na zaburzenie losowe nie wpływają w sposób

systematyczny na średnią wartość y, co oznacza, że ich dodatnie wpływy znoszą się z

wpływami ujemnymi powodując, że oczekiwany łączny ich efekt wynosi zero.

Zapis macierzowy drugiej części równania (2.21) można przedstawić jak niżej:

E E

E

E

En n

( )

( )

( )

( )

ε

ε

ε

ε

ε

ε

ε

=

L

N

MMMM

O

Q

PPPP=

L

N

MMMM

O

Q

PPPP=

L

N

MMMM

O

Q

PPPP

1

2

1

2

0

0

0

.

Założenie 5: Zaburzenia losowe ε są sferyczne. Oznacza to, że warunkowa macierz

wariancji-kowariancji wektora zaburzeń ε przy danej macierzy X ma postać:

(2.22) Var E Var E( ) ( ) ( ) ( )ε εε ε εε σX X I= ′ = = ′ = 2 ,

gdzie I oznacza macierz jednostkową. Z zapisu tego wynika, że warunkowa macierz

wariancji-kowariancji jest równa bezwarunkowej macierzy wariancji-kowariancji.

Założenie to możemy przedstawić w sposób rozwinięty następująco:

Page 29: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(2.23)

E E E

E E E

E E E

E E E

n

n

n

n

n n n

n

n

n n n

( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

εε

ε

ε

ε

ε ε ε

ε ε ε ε ε

ε ε ε ε ε

ε ε ε ε ε

ε ε ε ε ε

ε ε ε ε ε

ε ε ε ε ε

′ =

L

N

MMMM

O

Q

PPPP×

F

H

GGGG

I

K

JJJJ=

L

N

MMMMM

O

Q

PPPPP

=

L

N

MMMM

O

Q

PPPP

1

21 2

12

1 2 1

2 1 22

2

1 22

12

1 2 1

2 1 22

2

1 22

=

L

N

MMMM

O

Q

PPPP=

L

N

MMMM

O

Q

PPPP

σ

σ

σ

σ

12

22

2

2

0 0

0 0

0 0

1 0 0

0 1 0

0 0 1

n

Z ostatnich zapisów widać, że założenie sferyczności zaburzeń oznacza:

po pierwsze, że wariacje kolejnych zaburzeń (elementy na diagonalnej) są takie same dla

wszystkich obserwacji i równe σ 2 , gdzie σ 2 jest nieznaną dodatnią stałą;

po drugie, że elementy pozadiagonalne, które są kowariancjami zaburzeń dla różnych

obserwacji są równe zero, a więc zaburzenia dla różnych obserwacji są ze sobą

nieskorelowane.

Warto w tym miejscu przypomnieć, że zgodnie z definicją wariancja ε i oznacza

E Ei iε ε− ( )b g2, a kowariancje między ε i a ε j oznaczamy jako

E E Ei i j jε ε ε ε− −( ) ( )o t . Ze względu jednak na założenie 4 o zerowej wartości

oczekiwanej zaburzeń E i( )ε = 0 zapis macierzy wariancji-kowariancji redukuje się do

postaci (2.23).

Jednakowe wariancje zaburzeń ε i nazywamy homoskedastycznością zaburzeń. Oznacza

to, że zaburzenia losowe są jednakowo rozproszone wokół zerowej wartości oczekiwanej.

Jeśli wariancje ε i nie byłyby jednakowe, to sytuację taką nazywamy

heteroskedastycznością. Przypadek wzrastającej wariacji ilustruje Rys.2.2

Page 30: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

y

x

Rys.2.2. Heteroskedastyczność

Przypadek zerowych kowariancji dla różnych zaburzeń losowych ε i oraz ε j nazywamy

brakiem autokorelacji zaburzeń. Oznacza to, że zaburzenia losowe dla różnych

obserwacji są niezależne, a przez to nieskorelowane, a więc nie mają tendencji do

gromadzenia się np. wokół dodatnich lub ujemnych (lub naprzemiennie dodatnich i

ujemnych wartości), jak to prezentuje Rys.2.3.

y

x

Rys. 2.3. Autokorelacja

Niespełnienie założenia o nieskorelowaniu zaburzeń nazywamy autokorelacją zaburzeń losowych. Szersze omówienie tego założenia odkładamy do rozdziału 8.

Z założeń 4 i 5 wynika, że warunkowe rozkłady zaburzeń losowych mają identyczne i

niezależne rozkłady ( o jednakowej warunkowej wartości oczekiwanej równej zero, o

Page 31: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

jednakowych wariancjach równych σ 2 i zerowych kowariancjach). Jeśli wektor zaburzeń

losowych spełnia te warunki, to mówimy że ε i są niezależne i identycznie rozłożone, a

więc mają rozkład IID , co zapisujemy ε σi IID~ ( , )0 2 lub ε σi iid~ ( , )0 2 . Skrót ten

pochodzenia anglojęzycznego oznacza Idendependent and Identically Distributed -

(niezależne i identycznie rozłożone).

Założenie 6: Zaburzenia losowe mają n-wymiarowy rozkład normalny, co zapiszemy

formalnie:

(2.24) ε σ~ ( , )N 0 I2

i czytamy „wektor zaburzeń losowych ε ma n wymiarowy− rozkład normalny o

wektorze średnich 0 i macierzy wariancji-kowariancji σ 2I ”. Połączenie założeń 4, 5 i 6

pozwala stwierdzić, że każde z zaburzeń ε i ma identyczny rozkład normalny o

średniej 0 i wariancji σ 2 i rozkład ten jest niezależny od rozkładu innego zaburzenia

(dla wszystkich i n= 1 2, , , ... ). O wektorze ε mówimy wówczas, że ma sferyczny

rozkład normalny. Jest to wygodne i dość często spełnione w praktyce modelowania

założenie, jakie przyjmujemy dla najprostszego teoretycznie modelu, to jest klasycznego

modelu regresji liniowej. Przy tych założeniach estymatory metody najmniejszych

kwadratów, którą przedyskutujemy w rozdziale 3, mają lepsze własności statystyczne od

modelu regresji z nienormalnymi zaburzeniami, co istotnie wpływa na sposób testowanie

stawianych hipotez.

W dalszym ciągu wykładu będziemy rozważać konsekwencje przyjętych założeń i

zastępować je innymi, mniej krępującymi, dającymi okazję do analizy bardziej złożonych

przypadków modelowania ekonometrycznego. Pierwszą i to znaczną część rozważań

poświęcimy wnioskowaniu o modelu ekonometrycznym spełniającym wyżej

przedstawione założenia.

Podsumowanie

1. Zapis macierzowy modelu

Page 32: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

y x x x i ni i i K Ki i= + + + + + =β β β β ε1 2 2 3 3 1 2 3 , ,

lub dla i tej− obserwacji yi i i= ′ +x β ε

2. Model z wieloma zmiennymi objaśniającymi nazywa się regresją wieloraką.

3. Klasyczny model regresji liniowej opiera się na sześciu założeniach, których spełnienie

jest gwarancją uzyskania teoretycznie poprawnego wyniku:

1. O generowaniu obserwacji na zmiennej objaśnianej,

2. Elementy macierzy X są nielosowe, lub losowe ale niezależne od równoczesnych

zaburzeń losowych ε ,

3. Rząd macierzy obserwacji na zmiennych objaśniających X jest równy liczbie

szacowanych parametrów K, gdzie K jest mniejsze od liczby obserwacji n,

4. Zaburzenia losowe ε są sferyczne, to znaczy, że nie występuje

heteroskedastyczność ani autokorelacja zaburzeń losowych,

5. Wektor zaburzeń losowych ma warunkową wartość oczekiwaną przy danej

macierzy X równą wektorowi zerowemu,

6. Zaburzenia losowe mają n-wymiarowy rozkład normalny.

Page 33: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

3. METODA NAJMNIEJSZYCH KWADRATÓW (MNK)

Rozważania zamieszczone w tym rozdziale zostały po raz pierwszy sformułowane przez

słynnego matematyka niemieckiego C. F. Gaussa, a następnie rozwinięte do współcześnie

stosowanej postaci przez rosyjskiego matematyka A. Markowa już w końcu XIX wieku.

Są one z powodzeniem stosowane do dnia dzisiejszego. Częste odwoływanie się do

sformalizowanej teorii Gaussa i Markowa przydało metodzie najmniejszych kwadratów

nazwę metody „klasycznej”. W niniejszym rozdziale wyprowadzimy estymatory tej

metody i określimy ich własności.

3.1. Estymatory metody najmniejszych kwadratów (MNK)

Z rozdziału 2. wiemy, że regresję w populacji możemy opisać równaniem:

(3.1) y E y X X= + = +( ) ε β ε

Odpowiednik tego równania w próbie ma postać:

(3.2) y y e Xb e= + = + .

Przypomnijmy, że w równaniu (3.2) y oznacza wektor wartości teoretycznych

(wyliczonych) z regresji w próbie, zaś e jest wektorem reszt.

Klasyczna metoda najmniejszych kwadratów, którą w skrócie będziemy oznaczać MNK,

służy właśnie do wyznaczenia nieznanego wektora b , który to wektor traktujemy jako

wektor estymatorów dla parametrów β .

MNK polega na wyprowadzeniu b z warunku minimalizacji sumy kwadratów reszt

określonych przez (3.2), a więc:

(3.3) e y Xb= − .

Page 34: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Oznaczmy przez S minimalizowaną sumę kwadratów reszt, która jak zauważamy, jest

skalarem. Możemy napisać:

(3.4)

S eii

n

= = ′ = − ′ − =

= ′ − ′ − ′ ′ + ′ ′ =

= ′ − ′ ′ + ′ ′

=

∑ 2

1

2

e e y Xb y Xb

y y y Xb b X y b X Xb

y y b X y b X Xb

( ) ( )

We wzorze (3.4) dwa wyrażenia środkowe w drugim wierszu różnią się jedynie

transpozycją, a są skalarami, możemy więc dodając je do siebie napisać równość z

trzeciego wiersza.

Różniczkując powyższe wyrażenie względem b i przyrównując do zera otrzymujemy:

(3.5) ∂

S

bX y X Xb= − ′ + ′ =2 2 0 . A po przekształceniu

(3.6) ′ = ′X Xb X y . Jest to tak zwany układ równań normalnych.

Rozwiązaniem tego układu jest:

(3.7) b X X X y= ′ ′−( ) 1 .

W powyższym wyrażeniu iloczyn macierzy ′X X zwany jest macierzą momentów. Mamy

bowiem

(3.8)

′ =

L

N

MMMM

O

Q

PPPP

×

L

N

MMMM

O

Q

PPPP=

=

L

N

MMMM

O

Q

PPPP×

L

N

MMMM

O

Q

PPPP=

= =

=

∑ ∑

X X

1

1

1

1

1

1

1 1 1 1

1

1

21 1

22 2

2

21 1

22 2

1

21 22 2

1 2

21 1

22 2

1

21 1

21

x x

x x

x x

x x

x x

x x

x x x

x x x

x x

x x

x x

n x x

x x

K

K

n Kn

K

K

n Kn

n

K K Kn

K

K

n Kn

ii

n

Kii

n

ii

n

22

11

1

12

1

2

1

ii

n

i Kii

n

Kii

n

Ki ii

n

Kii

n

x x

x x x x

= =

= = =

∑ ∑

∑ ∑ ∑

L

N

MMMMMMMM

O

Q

PPPPPPPP

Page 35: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Zauważmy, że jest to macierz symetryczna.

Niekiedy wygodnie jest przedstawić ją jako: ′ = ′=

∑X X x xii

n

i1

.

Układ równań normalnych (3.6) możemy zapisać w bardziej wyraźnej formie:

(3.9)

n x x

x x x x

x x x x

b

b

b

y

x y

x y

K

K

K K K K

ii

n

i ii

n

Ki ii

n

1

1 12

1

12

1

2

1

21

1

∑ ∑∑ ∑ ∑

∑ ∑ ∑

L

N

MMMMM

O

Q

PPPPP

×

L

N

MMMM

O

Q

PPPP=

L

N

MMMMMMMM

O

Q

PPPPPPPP

=

=

=

.

Wśród założeń klasycznego modelu regresji liniowej jest założenie 3 o tym, że macierz X

ma rząd kolumnowy równy K, r K( )X = , stąd z własności rzędu macierzy (patrz ANEKS

A) wnosimy, że macierz ′X X jest dodatnio określona, a zatem istnieje do niej macierz

odwrotna ( )′ −X X 1 i równanie (3.7) ma rozwiązanie. Ponieważ druga pochodna S równa

∂ ∂

2

2S

b bX X

′= ′ jest dodatnio określona, to rozwiązanie (3.7) wyznacza minimum sumy

kwadratów reszt S.

Przykład 3.1. Zastosujmy rozwiązanie (3.7) b X X X y= ′ ′−( ) 1 do wyznaczenia ocen w

przykładzie zależności między spożyciem indywidualnym w gospodarstwach domowych a

produktem krajowym brutto, na podstawie danych z Tablicy 1.3.

Macierz ′X X wynosi:

′ =

L

N

MMMM

O

Q

PPPP=LNM

OQP

=

= =

∑ ∑X X

n x

x x

ii

n

ii

n

ii

n

21

21

22

1

14 9176,81

9176,81 6189849,25.

( )′ =LNM

OQP

−X X 1 2,53266361 -0,003754821

-0,003754821 5,7283E - 06; ′ =

LNM

OQP

X y5822,55

3928145,32. Stąd

b

b1

2

LNM

OQP

=LNM

OQP

×LNM

OQP

=LNM

OQP

2,53266361 -0,003754821

-0,003754821 5,7283E - 06

5822,55

3928145,32

-2,92

0,64.

Page 36: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Otrzymaliśmy wynik identyczny z tym z wydruku komputerowego Gretla,

zamieszczonego we Wprowadzeniu , ,y xii = − +2 92 0 64 .

3.2 Własności algebraiczne rozwiązania MNK

Rozwiązanie metody najmniejszych kwadratów dane równaniem

(3.7) b X X X y= ′ ′−( ) 1

ma kilka interesujących własności, przydatnych w dalszych rozważaniach. Przedstawimy

je kolejno.

1. Macierz regresorów X jest nieskorelowana z wektorem reszt e .

Dla ukazania tej własności wróćmy do równania

(3.6) ′ = ′X Xb X y . Jeśli ′X y przeniesiemy na lewą stronę równości to dostaniemy

(3.8) − − =X y Xb( ) 0 .

Ponieważ wyrażenie w nawiasie na podstawie równania (3.3) jest resztą e , e y Xb= − ,

to (3.9) ′X e = 0 .

2. W modelu regresji suma reszt wynosi 0.

Z własności 1 wynika, że każdy z regresorów w macierzy X jest nieskorelowany z

wektorem reszt e, a więc

(3.10) x ek′

= =0 1 2dla k K, , , .

W szczególności pierwsza kolumna macierzy X złożona jest z samych jedynek. Tę

kolumnę n jedynek oznaczmy jako wektor l . l =

L

N

MMMM

O

Q

PPPP

1

1

1

. Wówczas możemy napisać

(3.11) ′ =l e 0 , lub korzystając ze znaku sumy ′ = ==

∑l eii

n

e 01

. Tak więc

ustaliliśmy ważną własność 2, że w modelu regresji suma reszt wynosi 0.

Page 37: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Zauważmy, że własność ta jest spełniona jedynie w sytuacji, gdy równanie regresji

y

y

y

x x x

x x x

x x xn

K

K

n n Kn K n

1

2

21 31 1

22 32 2

2 3

1

2

1

2

1

1

1

L

N

MMMM

O

Q

PPPP=

L

N

MMMM

O

Q

PPPP×

L

N

MMMM

O

Q

PPPP+

L

N

MMMM

O

Q

PPPP

β

β

β

ε

ε

ε

zawiera stałą β1 .

Jeśli z powodu istotnych dla teorii ekonomii względów równanie regresji jest równaniem

bez stałej, to własność 2, jak również z tych samych powodów, dalsze trzy własności nie

obowiązują.

3. Średnia wartości rzeczywistych zmiennej objaśnianej y jest równa średniej wartości

wyliczonych (teoretycznych) tej zmiennej.

Dla ukazania tej własności przywołajmy równanie

(2.14) y y ei i i= + i n= 1 2, , , ,

z którego po wysumowaniu obydwu stron równania po obserwacjach i otrzymamy:

y y eii

n

ii

n

ii

n

= = =

∑ ∑ ∑= +1 1 1

. Z własności 2 wynika, że eii

n

==

∑ 01

, a stąd po podzieleniu stronami

przez n otrzymamy:

(3.12) y

n

y

ny y

ii

n

ii

n

= =

∑ ∑= =1 1

lub .

4. Funkcja regresji przychodzi przez punkt średnich.

Jeśli równanie (3.12) napiszemy w postaci

(3.13) y b b x b xK K= + +1 2 2 , to otrzymujemy interesującą nas własność.

5. Wektor wartości wyliczonych y jest nieskorelowany z wektorem reszt e.

Wektor wartości wyliczonych oznaczyliśmy jako y Xb= . Stąd jego transpozycja jest

równa ′ = ′ ′y b X . Po prawostronnym przemnożeniu przez wektor reszt e otrzymamy:

(3.14) ′ = ′ ′ =y e b X e 0 , gdyż z własności 1: ′X = 0e .

Przedstawione wyżej własności są często wykorzystywane w przekształceniach wzorów

ekonometrycznych, znakomicie upraszczając zbyt długie niekiedy ciągi wywodów.

Page 38: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

3.3 Dobroć dopasowania równania regresji

Współczynnik determinacji R2

Dobroć dopasowania równania regresji (do danych empirycznych) wyrażona jest przez tak

zwany współczynnik determinacji oznaczany przez R2.

Współczynnik ten określa jaka część zmienności zmiennej objaśnianej y jest wyjaśniona

łącznie przez zmienność wszystkich zmiennych objaśniających x xK2 , .

Zmienność całkowitą zmiennej objaśnianej y , oznaczaną w literaturze angielskim

skrótem TSS (Total Sum of Squares), mierzymy za pomocą sumy kwadratów odchyleń

obserwacji zmiennej objaśnianej od średniej:

(3.15) TSS y yii

n

= −=

∑ ( )1

2

Jeśli model zawiera stałą, to całkowitą sumę kwadratów możemy zdekomponować na dwa

składniki, na wyjaśnioną (równaniem regresji) sumę kwadratów, oznaczaną przez ESS

(Explained Sum of Squares)

(3.16) ESS y yii

n

= −=

∑ ( )1

2

i resztową (niewyjaśnioną) sumę kwadratów, oznaczaną przez RSS (Residual Sum of

Squares).

(3.17) RSS eii

n

==

∑ 2

1

Wiemy, z (2.14) że y y ei i i= + . Odejmując od obydwu stron średnią y mamy

y y e y y y y ei i i i i i= + = − + − + ( )b g , a po podniesieniu do kwadratu i wysumowaniu

Page 39: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(3.18) ( ) ( ) ( )y y y y e y y eii

n

ii

n

ii

n

ii

n

i= = = =

∑ ∑ ∑ ∑− = − + + −1

2

1

2 2

1 1

2

Z (3.14) wiemy, że y eii

n

i=

∑ =1

0 , a z (3.11), że eii

n

=

∑ =1

0 , a więc i ye y ei

n

i ii

n

= =

∑ ∑= =1 1

0 .

Ostatecznie:

(3.19) ( ) ( )y y y y eii

n

ii

n

ii

n

= = =

∑ ∑ ∑− = − +1

2

1

2 2

1

lub inaczej TSS ESS RSS= + .

W oparciu o tę dekompozycję zdefiniowany jest współczynnik determinacji

(3.20) Rwyjasniona suma kwadratów

calkowita suma kwadratów

ESS

TSS

y y

y y

RSS

TSS

ii

n

ii

n2 1

2

1

2

1= = =

= −=

=

( )

( ).

Zauważmy, że R2 przyjmuje wartości z przedziału między 0 i 1. Jeśli wynosi 1 to funkcja

regresji w 100% wyjaśnia zmienność y , a jeśli 0, to model regresji w ogóle nie wyjaśnia

zmienności y . Jeśli na przykład R2 wynosi 0,7 to możemy powiedzieć, że 70%

zmienności zmiennej objaśnianej y jest wyjaśnione przez łączną zmienność wszystkich

zmiennych objaśniających, a 30% zmienności jest niewyjaśnione (jest zmiennością

resztową).

Z wydruku komputerowego zamieszczonego we Wprowadzeniu, ilustrującego obliczenia

regresji między spożyciem indywidualnym a PKB odczytujemy, że R2 w tym zadaniu

wynosi 0,9969. Wynik ten należy uznać za wysoce zadowalający.

Skorygowany współczynnik determinacji R 2

W sytuacjach niedużej liczby obserwacji, przy szacowaniu kilku modeli z różną liczbą

regresorów, korzystanie ze współczynnika determinacji R2 dla wyboru modelu lepiej

dopasowanego do danych empirycznych staje się problematyczne. Gdy bowiem dodajemy

do równania dalsze regresory to zawsze wzrasta R2 niezależnie od prawdziwej ważności

tych nowododanych zmiennych. Z tego powodu za miarę dobroci dopasowania

zaproponowano nie R2 , a tak zwany „skorygowany współczynnik determinacji” R 2 .

Współczynnik ten jest skorygowany ze względu na tak zwaną liczbę stopni swobody, to

znaczy ze względu na różnicę między liczbą obserwacji n a liczbą zmiennych

objaśniających K. Współczynnik R 2 zdefiniowany jest następująco:

Page 40: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(3.22) Re n K

y y n

ii

n

ii

n2

2

1

2

1

11

= −

− −

=

=

/ ( )

( ) / ( ).

W cytowanym przykładzie liczbowym skorygowany współczynnik determinacji R 2

wynosi 0,9966, a więc niewiele odbiega od nieskorygowanego.

Zauważmy, że zwiększenie liczby dodanych zmiennych (a więc zwiększenie K )

zmniejszy sumę kwadratów reszt eii

n2

1=

∑ , co wywołuje wzrost R 2 . Ponieważ jednak eii

n2

1=

jest dzielona przez n K− , to zwiększenie K skompensuje efekt spadku eii

n2

1=

∑ . Jeśli

spadek eii

n2

1=

∑ będzie tak mały, że wzrost K z nadmiarem zniweluje ten spadek, to R 2

będzie mniejsze od R2 . Z tych powodów R 2 uważa się za bardziej rzetelną miarę dobroci

dopasowania od R2 .

Jeśli w modelu nie ma stałej to dekompozycja (3.19) nie obowiązuje i może się zdarzyć,

że współczynnik determinacji przyjmie wartość ujemną. W takim przypadku stosuje się

statystykę

(3.21) Re

y

ii

n

ii

n*2

2

1

2

1

1= − =

=

∑.

Współczynnik ten przyjmuje wartości z przedziału 0, 1, ale R*2 nie może być bezpośrednio

porównywany ze współczynnikiem R2 , gdyż są to dwie różne miary dobroci

dopasowania.

Na zakończenie rozważań nad współczynnikiem determinacji warto zauważyć, że dla

danych szeregów czasowych, ze względu na agregatowy charakter danych, współczynnik

ten przyjmuje znacznie wyższe wartość, często bliskie 1 , zaś dla danych przekrojowych,

z powodu znacznych zaburzeń w danych pierwotnych, za wysoce zadowalającą można

uznać wartość 0,5.

Kryterium informacyjne Akaike (AIC)

Innym współczynnikiem uwzględniającym wpływ nadmiernej liczby zmiennych

objaśniających na spadek sumy kwadratów reszt jest kryterium informacyjne Akaike,

Page 41: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

oznaczane w literaturze (Akaike Information Criterion - skrótem ) AIC . Jest ono

zdefiniowane następująco:

(3.23) AIC n e Kii

n

=FHG

IKJ +

=

∑ln 2

1

2 .

Zgodnie z tym kryterium włączenie dodatkowej zmiennej objaśniającej jest celowe jedynie

gdy AIC spada. Podobnie jak R 2 , AIC zależy od resztowej sumy kwadratów eii

n2

1=

∑ i od

liczby estymowanych parametrów K . Zauważmy, że spadek eii

n2

1=

∑ wywołany dodaniem

ekstra zmiennej nie musi prowadzić do spadku AIC . Dodatkowa zmienna wywołuje

bowiem wzrost K - liczby estymowanych parametrów, co zwiększa AIC , stąd efekt

liczby K może przewyższyć efekt spadku eii

n2

1=

∑ .

Zaletą kryterium informacyjnego Akaike jest możliwość porównywania dobroci

dopasowania różnych modeli, w tym nawet modeli bez stałej oraz modeli nieliniowych

względem parametrów, o czym będzie mowa w dalszej części wykładu.

W literaturze ekonometrycznej i w ekonometrycznych programach komputerowych

liczone są również inne współczynniki dobroci dopasowania, wśród których najbardziej

rozpowszechnionym jest kryterium informacyjne Schwartza-Bayesa, zwane również

kryterium bayesowskim Schwartza, które ma postać podobną do kryterium Akaike,

oznaczane jest skrótem SBC lub niekiedy skrótem BIC i liczone jest według wzoru:

(3.24) SBC n e K nii

n

=FHG

IKJ +

=

∑ln ln( )2

1

Mają one podobną wartość poznawczą do dotychczas omówionych.

Przykład 3.2.

Oszacujmy zależność między stopą zgonów niemowląt na 1000 ludności, oznaczoną jako

zmienna objaśniana „Niemowl” a wielkością PKB na mieszkańca i stopą bezrobocia,

które oznaczymy odpowiednio jako „PKB” i „Bezrob” w 25 krajach Unii Europejskiej w

2004 roku według danych GUS „Polska w Unii Europejskiej” 2006.

Estymowane równanie regresji ma postać:

(3.25) Niemowl PKB Bezrob ii i i i= + + + =β β β ε1 2 3 1 25; , , .

Page 42: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Dane statystyczne wzięte z publikacji GUS przedstawia poniższa Tablica 3.1

Tablica 3.1

Kraj Niemowl PKB Bezrob Spo

Austria 9,1 28900 5,2 10,6

Belgia 9,8 27600 8,4 13,6

Cypr 7 19500 5,3 16,4

Dania 10,3 29100 4,8 11,4

Estonia 13,2 13400 7,9 20,5

Finlandia 9,1 26200 8,4 12,5

Francja 8,4 25500 9,5 14,1

Grecja 9,4 19200 9,8 15

Hiszpania 8,7 23100 9,2 16

Irlandia 6,9 32100 4,3 9,3

Litwa 12 12200 8,3 29,7

Luksemburg 7,9 58000 4,5 9,7

Łotwa 13,8 11000 8,9 22,2

Malta 7,2 16200 7,3 17,3

Niderlandy 8,4 28900 4,7 11

Niemcy 9,9 25700 9,5 11,7

Polska 9,5 11700 17,7 19,2

Portugalia 9,7 16700 7,6 17

Rep. Czeska 10,5 17100 7,9 17,2

Słowacja 9,6 12900 16,3 19,7

Słowenia 9,3 18700 6,5 15,8

Szwecja 10,1 b26900 7,8 12,3

Węgry 13,1 14300 7,2 17,7

W. Brytania 9,7 27000 4,7 8,9

Włochy 9,4 24100 7,7 14,5

Stosując program ekonometryczny GRETL uzyskamy oszacowanie

ModeL 3.1: Estymacja KMNK z wykorzystaniem 25 obserwacji 1-25

Zmienna zależna: Niemowl

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 12,4184 1,65024 7,5252 < 0,00001 *** PKB -0,000100285 3,95351e-05 -2,5366 0,018798 ** Bezrob -0,0586655 0,120216 -0,4880 0,630378

Page 43: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wsp. determinacji R2 = 0,251761 Skorygowany R2 = 0,18374

Uzyskaliśmy równanie:

.Niemowl PKB Bezrobi i i= × ×12,42 - 0,0001 - 0,059

Współczynnik determinacji tego równania wynosi R2 = 0,251761 zaś skorygowany

współczynnik R2 = 0,18374. Nie są to wartości , które by można uznać za duże, jednak dla

danych przekrojowych, zgodnie z wyżej sformułowanymi uwagami, są one zadowalające.

Interpretację oszacowań uzyskanych w tym równaniu przeprowadzimy w rozdziale 5

po zapoznaniu się ze sposobami wnioskowania statystycznego w równaniu

regresji..

Podsumowanie

1. Klasyczna metoda najmniejszych kwadratów, z warunku minimalizacji sumy

kwadratów reszt, wyznacza wektor współczynników b , jako wektor estymatorów dla

nieznanego wektora parametrów β : b X X X y= ′ ′−( ) 1 .

2. Przydatne są następujące własności algebraiczne:

1. Macierz regresorów X jest nieskorelowana z wektorem reszt e,

2. suma reszt wynosi 0,

3. Średnia wartości rzeczywistych zmiennej objaśnianej y jest równa średniej

wartości wyliczonych dla tej zmiennej y ,

4. Wektor wartości wyliczonych y jest nieskorelowany z wektorem reszt e.

3. Współczynnik determinacji R2 określa jaka część zmienności zmiennej objaśnianej y

jest wyjaśniona łącznie przez zmienność wszystkich zmiennych objaśniających

x xK2 , .

4. Skorygowany współczynnik determinacji R 2 uwzględnia efekt małej liczby stopni

swobody, występującej w równaniu regresji, to znaczy różnicy między liczbą

obserwacji n a liczbą zmiennych objaśniających K.

5. Podobną interpretację do R2 mają: Kryterium informacyjne Akaike (AIC) i kryterium

informacyjne Schwartza-Bayesa (SBC).

Page 44: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

4. WNIOSKOWANIE O ESTYMATORACH MNK

4.1. Jeszcze o założeniu normalności zaburzeń losowych

Dla dalszych rozważań wróćmy do założenia 6 klasycznego modelu regresji

przedstawionego w podrozdziale 2.3. o tym, że zaburzenia losowe mają

n-wymiarowy sferyczny rozkład normalny, co zapisaliśmy formalnie jako:

(4.1) ε σ~ ( , )N 0 I2 .

Jest to założenie o fundamentalnym znaczeniu dla rozważań nad klasycznym modelem

regresji liniowej. Zauważmy, że zaburzenie losowe ujmuje sumaryczny wpływ wszystkich

pominiętych w równaniu regresji zmiennych. Uzasadnienie dla przyjęcia rozkładu

normalnego wynika z Centralnego Twierdzenia Granicznego, które luźno formułując

określa, że jeśli mamy dużą liczbę niezależnych zmiennych losowych o identycznych

rozkładach o tej samej średniej i wariancji, to ich suma zmierza do rozkładu normalnego.

Jeśli liczba tych zmiennych nie jest bardzo duża i nie są one dokładnie niezależne, to ich

suma może być bliska rozkładu normalnego. Konsekwencje tego założenia są dalekosiężne

dla rozważań nad własnościami statystycznymi klasycznego modelu regresji liniowej.

(Patrz Aneks B).

Po pierwsze – funkcja liniowa zmiennych o rozkładzie normalnym ma również

rozkład normalny. Stąd wynika, że zmienna objaśniana y i estymatory β k mają również

rozkłady normalne. Po drugie założenie normalności umożliwia korzystanie z testów

statystycznych opartych na rozkładach związanych z rozkładem normalnym takich

jak χ 2 , t Studenta− i F .

Przyjęcie założenia o normalności zobowiązuje nas do sprawdzania, czy w małych

próbach założenie to jest spełnione. W dalszej części wykładu omówimy testy

sprawdzające założenie normalności w estymowanym modelu.

4.2. Twierdzenie Gaussa-Markowa: wektor b jest liniowym, nieobciążonym i

najlepszym estymatorem wektora parametrów β

Najlepszy liniowy nieobciążony estymator powszechnie określany jest angielskim

sympatycznym skrótem BLUE (od jego nazwy Best Linear Unbiased Estimator –

najlepszy liniowy nieobciążony estymator).

Page 45: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Twierdzenia Gaussa-Markowa jest podstawowym twierdzeniem o własnościach

estymatorów wyznaczonych za pomocą MNK. Pominiemy bardziej złożone fragmenty

jego dowodu, a podamy jedynie podstawowe własności estymatora β i omówimy ich

znaczenie.

Twierdzenie brzmi: W klasycznym modelu regresji liniowej (a więc spełniającym 6

założeń przedstawionych w poprzednim rozdziale) najlepszym liniowym i

nieobciążonym estymatorem wektora parametrów β jest b wyznaczone za pomocą

MNK

(4.2) b X X X y= ′ ′−( ) 1

o macierzy wariancji-kowariancji

(4.3) bb∑ = ′ −σ 2 1( )X X .

Dyskusja twierdzenia:

1. Estymator b jest estymatorem liniowym, gdyż jest liniową funkcją zmiennej losowej

y.

2. b jest estymatorem nieobciążonym, to znaczy E( )b = β . Wiemy, że

b X X X y= ′ ′−( ) 1 i podstawiając za y prawą stronę równania generującego obserwacje

na zmiennej objaśnianej y X= +β ε otrzymamy:

b X X X y X X X X X X X= ′ ′ = ′ ′ + = + ′ ′− − −( ) ( ) ( ) ( )1 1 1β ε β ε .

Biorąc wartość oczekiwaną b X X X= + ′ ′−β ε( ) 1 dostajemy

(4.4) E E Eb X X X X X X X X Xb g c h b g= + ′ ′ = + ′ ′ = + ′ ′ =− − −β ε β ε β β( ) ( ) ( )1 1 1 0

gdyż z założenia 4. E εb g = 0 . Oznacza to, że wektor b w powtarzalnych próbach

(przy tej samej macierzy X) jest średnio równy nieznanemu wektorowi parametrów

β ; nie ma więc tendencji do systematycznego odchylania się od parametrów β , który

estymuje. W indywidualnych przypadkach, ze względu na indywidualne zaburzenia

losowe różne w różnych próbach, oszacowane b różni się od β , jednak średnio

różnice te się znoszą. Jest więc estymatorem nieobciążonym. Jest to istotna własność

estymatorów MNK.

Page 46: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

3. Estymator b jest estymatorem najlepszym, co oznacza, że ma minimalną macierz

wariancji-kowariancji, wynoszącą bb∑ = ′ −σ 2 1( )X X . (Aneks B – B.18). Estymator

taki nazywamy estymatorem efektywnym.

Ponieważ estymator b jest liniowy, to analogiczne własności posiada również

dowolna kombinacja liniowa wektora b. Weźmy na przykład wektor złożony ze stałych

v o nie wszystkich elementach jednocześnie równych 0; v =

L

N

MMMM

O

Q

PPPP

v

v

vK

1

2

i utwórzmy kombinację liniową wektora v i b, a więc ′ = + + +v b v b v b v bK K1 1 2 2 . Ta

kombinacja liniowa jest również najlepszym liniowym i nieobciążonym estymatorem

kombinacji liniowej ′v β .

Za v przyjmijmy wektor, który na k-tej pozycji ma jedynkę, a pozostałe elementy zerowe.

Wektor taki nazywamy k-tym wersorem. Oznaczamy go przez ik :

(4.5) ik =

L

N

MMMMM

O

Q

PPPPP

00

1

0

k-ta pozycja.

Wówczas iloczyn ′ =i bk kb oraz ′ =ik kβ β .

oznacza, że mnożenie wersorów przez odpowiednie wektory redukuje te wektory do ich

k-tych składowych.

Ważny jest wniosek płynący z tych rozważań, a mianowicie, że najlepszym, liniowym i

nieobciążonym estymatorem pojedynczego parametru β k jest bk , które również ma

rozkład normalny:

(4.6) b N ck k kk~ ( , )β σ 2

bk jest pojedynczą zmienną losową, dlatego mówimy jedynie o jego wariancji, która

wynosi :

Page 47: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(4.7) σ σb kkkc2 2= ,

gdzie ckk jest kk tym− elementem diagonalnym macierzy ( )′ −X X 1 (Aneks B – B.20).

Z twierdzenia Gaussa-Markowa wiemy, że wariancja ta jest najmniejsza w klasie

estymatorów liniowych i nieobciążonych.

Istotnym dopełnieniem własności estymatorów MNK jest własność zgodności, co

oznacza, że dla wzrastającej wielkości próby estymator b jest zbieżny (zmierza) do

prawdziwych wartości β w populacji. Pojęcie zgodności estymatora wprowadzimy niżej.

4.3. Estymator wariancji zaburzenia losowego i błędy standardowe estymatorów

Z (4.6) widzimy, że pojedyncza składowa wektora b, to znaczy bk ma rozkład normalny

wokół β k o wariancji σ 2ckk . Stąd zmienna

(4.8) b

Nk k

bk

− β

σ~ ( , )0 1 ma standardowy rozkład normalny.

Wyrażenie

(4.9) σ σb kkkc=

nazywamy odchyleniem standardowym estymatora bk .

Reasumując mamy:

E( )b = β - wektor b jest nieobciążonym estymatorem wektora parametrów β ;

E b k Kk k( ) , , ,= =β 1 2 ; bk jest nieobciążonym estymatorem parametru β k ;

bb∑ = ′ −σ 2 1( )X X - macierz wariancji-kowariancji wektora estymatorów;

σ σb kkkc2 2= - wariancja estymatora bk , oraz

b N ck k kk~ ( , )β σ 2 .

Page 48: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Moglibyśmy więc wyznaczać przedział ufności dla nieznanego parametru β k lub

weryfikować hipotezy o tym, że przyjmuje on określoną wielkość, jeśli znana byłaby

wariancja zaburzenia losowego σ 2 . Ponieważ zaburzenia losowe ε są nieznane, to i

nieznana jest ich wariancja. Wektor reszt e w wyznaczony z próby traktujemy jako wektor

estymatorów zaburzeń losowych ε . Istnieje więc przesłanka dla wyznaczenia estymatora

wariancji σ 2 na podstawie wektora reszt e.

W teorii ekonometrii dowodzi się twierdzenie, że

(4.10) σ 2

2

1=−

=′

−=

∑e

n K n K

ii

n

e e

jest nieobciążonym estymatorem wariancji σ 2 . Wyliczoną z próby wartość tego

estymatora nazywamy wariancją resztową i oznaczamy σ 2 .

Przykład 4.1. W zadaniu o związku między spożyciem indywidualnym a PKB

otrzymaliśmy równanie (1.3) zamieszczone we Wprowadzeniu postaci:

, ,y xii = − +2 92 0 64 .

Dla tego zadania z wydruku komputerowego Gretla ze strony 11 odczytujemy, że

,

σ 2 218 461

14 2=

−= 18,20508 .

Jeśli do wzoru (4.8) zamiast nieznanej wariancji σ 2 podstawimy jej obliczoną z próby

wariancję resztową σ 2 , to otrzymujemy wyrażenie

(4.9) b

ck k

kk

− β

σ

które, jak zobaczymy niżej, możemy wykorzystać we wnioskowaniu.

W mianowniku formuły (4.9) mamy σ ckk . Jest to tak zwany błąd standardowy

estymatora, oznaczany jako

(4.10) σ σ σb kk kkkc c= =2 .

Page 49: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Statystyka3 (4.9) b

c

bk k

kk

k k

bk

−=

−β

σ

β

σ , w której mianowniku występuje błąd standardowy

σ bknie ma jednak rozkładu normalnego, a ma rozkład t Studenta− (Patrz Aneks B).

W zadaniu o związku między spożyciem indywidualnym a PKB błędy standardowe dla

stałej b1 oraz dla współczynnika kierunkowego b2 wynoszą odpowiednio:

σ σb c1 11= = 6,79 oraz ,σ σb c

2 22 0 01= = . Wartości te podane są w wydruku Gretla na

stronie 11 Wprowadzenia w kolumnie „Błąd stand”.

Często błędy standardowe umieszczamy w równaniu regresji w nawiasach pod

wyznaczonymi ocenami.

W przykładzie o związku między spożyciem indywidualnym

a PKB równanie uzupełnione błędami standardowymi ma postać:

, ,y xii = − +2 92 0 64

(6,79) (0,01)

4.4. Rozkład t Studenta− , weryfikacja prostych hipotez i przedziały ufności

Rozkład t Studenta− jest rozkładem zbliżonym do standardowego rozkładu normalnego

(patrz Aneks B) i poniższy rysunek 4.1.

3 Statystyką nazywamy regułę lub metodę określającą sposób estymacji parametru w populacji za pomocą informacji z próby.

Page 50: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Różni się od niego grubszymi ogonami, szczególnie gdy liczba stopni swobody n K− jest

mała. Im większa jest liczba stopni swobody, tym bardziej rozkład t Studenta− zbliża się

Page 51: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

do rozkładu normalnego i gdy liczba stopni swobody jest dostatecznie duża, to obydwa

rozkłady są niemal identyczne. Rozkład t Studenta− jest wykorzystywany do weryfikacji

prostych hipotez i wyznaczania przedziałów ufności, o czym niżej.

Weryfikacja prostych hipotez

Rozkład t Studenta− jest wykorzystywany dla weryfikacji prostych hipotez, to znaczy

hipotez dotyczących pojedynczych parametrów β k k K( , ..., )= 2 i wyznaczania

przedziałów ufności dla tych parametrów.

Testowanie prostych hipotez przebiega w następujących krokach:

Krok 1. Stawiamy tak zwaną hipotezę zerową co do wartości nieznanego parametru β k ,

a więc na przykład H k k00:β β= , gdzie β k

0 jest liczbowo określoną wartością. Hipotezie

tej towarzyszy hipoteza alternatywna H k k10:β β≠ . (Hipotezy zawsze stawiamy parami).

Krok 2. Przy założeniu, że postawiona hipoteza zerowa jest prawdziwa, wyznaczamy

statystykę testującą z rozkładu t Studenta− o n - K stopniach swobody postaci:

(4.11) tbk k

bk

=− β

σ

0

Krok 3. Sprawdzamy, czy w rozkładzie t Studenta− o n - K stopniach swobody

prawdopodobieństwo wystąpienia statystyki tbk k

bk

=− β

σ

0

jest na tyle małe, że hipoteza

zerowa jest mało prawdopodobna i powinna być odrzucona na rzecz hipotezy

alternatywnej. Odrzucenie hipotezy zerowej oznacza przyjęcie hipotezy alternatywnej.

Mówiąc dokładniej odrzucamy hipotezę zerową, jeśli prawdopodobieństwo

zaobserwowania wartości t lub większej od tak zwanej wartości krytycznej tα /2 jest

mniejsze od α , zwanego poziomem istotności, przyjmowanego na ogół jako 0,05. A

więc

(4.12) P t t> =α α2o t

gdzie tzw. wartość krytyczna tα /2 jest wyznaczona z tablic rozkładu t Studenta− dla

postulowanego poziomu istotności α i dla danej liczby stopni swobody n K− .

Page 52: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Powyższy test nazywamy testem dwustronnym gdyż hipoteza alternatywna H1

dopuszcza, aby wartości parametru β k była większa lub mniejsza od β k0 .

Hipotezy o istotności zmiennych objaśniających

Wśród hipotez dwustronnych powszechnie formułowana jest hipoteza zerowa postaci

H k0 0:β = i hipoteza alternatywna H k1 0:β ≠ . Zauważmy, że odrzucenie hipotezy

zerowej oznacza, że parametr stojący przy k tej− zmiennej objaśniającej jest, jak

mówimy „statystycznie różny od zera”, a więc, że k ta− zmienna jest statystycznie

istotna, co oznacza, że wyjaśnia ona zachowanie się zmiennej objaśnianej. (Zauważmy,

że przyjęcie zerowej hipotezy nie wskazuje, że jest ona prawdziwa, gdyż możliwe, że

istnieje inna zerowa hipoteza, która jest również zgodna z danymi z próby. Bezpieczniej

jest więc mówić, że możemy zaakceptować jakąś hipotezę niż że ją akceptujemy jako

prawdziwą).

Wartość p (p-value).

W popularnych pakietach ekonometrycznych obok wyliczonej wartości statystyki t

podawane jest również odpowiadające mu prawdopodobieństwo p odrzucenia

hipotezy zerowej H k0 0:β = , oznaczane z angielskiego przez p value− . Jest to

wyliczony poziom istotności dla statystyki t . Małe wartości p wskazują, że β k = 0 jest

mało prawdopodobne i należy odrzucić hipotezę zerową.

Jeśli p value− jest mniejsze od 0,01 (w wydruku komputerowym oznaczone trzema

gwiazdkami „***” ), to wnosimy, że β k = 0 jest bardzo mało prawdopodobne, gdyż

współczynnik istotności α jest mniejszy od 0,01;

jeśli p value− jest mniejsze od 0,05 (w wydruku komputerowym oznaczone dwiema

gwiazdkami „**” ), to współczynnik istotności α jest mniejszy od 0,05;

jeśli p value− jest mniejsze od 0,1 (w wydruku komputerowym oznaczone jedną

gwiazdką „*” ), to współczynnik istotności α jest mniejszy od 0,1.

Jeśli p value− jest większe od 0,05 to wnosimy, że β k = 0 jest dostatecznie

prawdopodobne i akceptujemy hipotezę zerową.

Page 53: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przykład 4.2. : W zadaniu o związku między spożyciem indywidualnym a PKB

postawmy hipotezę, że PKB nie wpływa na spożycie indywidualne, a więc H0 2 0:β =

wobec hipotezy alternatywnej, że wpływa, a więc H1 2 0:β ≠ . Wartość statystyki t dla

13-2 stopni swobody wynosi , ,y xii = − +2 92 0 64

tb

tb

= = = > =20 05 2

2

0 64 0 01 64 2 201

, , ,,σ

, gdzie wartość krytyczna t0 05 2 2 201, ,=

wzięta jest z tablic rozkładu t Studenta− . Ponieważ t wyliczone jest znacznie większe

od t krytycznego, to odrzucamy hipotezę zerową i przyjmiemy hipotezę alternatywną o

tym, że współczynnik przy PKB, jest różny od zera , a więc że zmienna PKB jest zmienną

statystycznie istotną dla wyjaśnienia kształtowania się spożycia indywidualnego.

Zamiast przeprowadzania żmudnych obliczeń możemy sięgnąć do wydruku GRETLa

podanego niżej i odczytać wartość p<0,00001, opatrzoną trzema gwiazdkami, a więc

wskazującą na odrzucenie hipotezy zerowej o nieistotności zmiennej PKB.

Model 1: Estymacja KMNK z wykorzystaniem 14 obserwacji 1991-2004

Zmienna zależna: SPO

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -2,92007 6,79024 -0,4300 0,674788 PKB 0,63894 0,010212 62,5678 < 0,00001 ***

Rozmiar testu (ang. size of a test ), moc testu (ang. power of a test )

Przy weryfikacji hipotez można popełnić dwa rodzaje błędów. Pierwszy, gdy odrzucamy

hipotezę prawdziwą. Błąd ten zwany jest błędem pierwszego rodzaju. Wielkość tego

błędu jest kontrolowana przez badacza, który ustala poziom istotności α, na ogół równy

0,05 lub 0,01. Oznacza on, że godzimy się odrzucić w α przypadkach na sto hipotezę

prawdziwą. Wielkość 1-α zwana jest rozmiarem testu. Drugi rodzaj błędu

popełniamy wówczas, gdy przyjmujemy hipotezę zerową, gdy jest ona fałszywa.

Prawdopodobieństwo uniknięcia tego błędu zwane jest mocą testu. Moc testu wskazuje

więc na zdolność testu do odrzucenia hipotezy zerowej, gdy jest ona fałszywa.

Wielkość błędu drugiego rodzaju praktycznie nie jest wyliczalna. Zależy ona bowiem od

rzeczywistej wartości parametru β k i od jakości danych statystycznych (niedostatecznej

liczby obserwacji, niedostatecznej zmienności zmiennych objaśniających, od wysokiej

Page 54: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

korelacji między regresorami). Na ogół zwiększenie rozmiaru testu 1 - α prowadzi do

redukcji jego mocy.

Niekiedy dla hipotezy alternatywnej formułujemy test jednostronny. Wówczas hipotezę

zerową przedstawiamy na przykład jako H k k00:β β= , a hipotezę alternatywną

H k k10:β β> lub odwrotnie, zależnie od ekonomicznego sensu szacowanego

współczynnika regresji. Jeśli na przykład szacujemy wydatki na herbatę w zależności od

dochodu na osobę w gospodarstwach domowych i współczynnik przy dochodzie

oznaczymy przez β k , to dla testowania hipotezy o tym, że dochód nie wpływa na

spożycie herbaty wykorzystywany jest test jednostronny H k0 0:β =

wobec hipotezy alternatywnej H k1 0:β > .

W przypadku testu jednostronnego zamiast (4.12) mamy:

(4.13) P t t> =α αn s .

Zauważmy, że przy teście jednostronnym postulowaną wartością krytyczną testu nie

jest tα /2 a tα .

Przedział ufności W poprzednim paragrafie weryfikowaliśmy hipotezę o tym, że parametr β k przyjmuje

określoną wartość – na przykład β k0 . Rozważania nasze możemy ująć inaczej pytając, jaki

jest przedział, w którym z określonym prawdopodobieństwem znajdzie się nieznana

wartość parametru β k . Odpowiedź na to pytanie uzyskamy wyznaczając tak zwany

przedział ufności. Jeśli bowiem z (4.12) wiemy, że P t t> =α α2o t , to dopełnieniem

prawdopodobieństwa α do jedności jest wyrażenie:

(4.14) P t t≤ = −α α2 1o t

i wiedząc, że tbk k

bk

=− β

σ, możemy wyznaczyć

(4.15) P tb

tk k

bk

(

)− ≤−

≤ = −α α

β

σα2 2 1 i po dalszym przekształceniu

(4.16) P b t b tk b k k bk k( )− ≤ ≤ + = −α ασ β σ α2 2 1

Page 55: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Jest to tak zwany przedział ufności, w którym znajduje się nieznana wartość parametru

β k z prawdopodobieństwem 1−α . Wielkości b tk bk− α σ2

oraz b tk bk+ α σ2

nazywamy

odpowiednio lewostronną i prawostronną granicą przedziału ufności .

Przykład 4.3. Korzystając z przykładu o związku między spożyciem a PKB, wyznaczmy

95 procentowy przedział ufności dla nieznanego parametru krańcowej skłonności do

konsumpcji β 2 . Podstawiając do równania (4.16) odpowiednie wielkości otrzymamy:

P

P

( , , , , , , ) ,

( , , ) ,

0 64 0 01 2 201 0 64 0 04 2 201 0 95

0 618 0 662 0 952

2

− × ≤ ≤ + × =

≤ ≤ =

β

β

Z powyższego wynika, że z prawdopodobieństwem 95% nieznana wartość parametru β 2

znajduje się między 0,618 a 0,662. Widzimy więc, że nie jest to przedział szeroki.

Zauważmy, że jeśli uprzednio wyznaczyliśmy już przedział ufności, to wyniki tych

obliczeń możemy wykorzystać dla weryfikacji hipotezy zerowej H k0 0:β = . Jeśli

przedział ufności nie zawiera liczby 0 , to odrzucamy hipotezę zerową.

4.5. Istotność równania regresji

Często stawianym pytaniem jest kwestia, czy równanie regresji jest statystycznie istotne?

Jest ono równoważne pytaniu, czy łącznie współczynniki regresji, z wyjątkiem stałej, są

równe zero. Jeśli wszystkie współczynniki przy zmiennych objaśniających są

jednocześnie równe zero, to i współczynnik determinacji R2 również wynosi zero.

Sprawdzenie istotności równania regresji przeprowadzamy w następujacych trzech

krokach:

Page 56: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Krok 1. Stawiamy hipotezę zerową H0:

β

β

β

2

3

0

0

0

K

L

N

MMMM

O

Q

PPPP=

L

N

MMMM

O

Q

PPPP wobec hipotezy alternatywnej, że nie

wszystkie współczynniki βk są jednocześnie równe zero, a więc H1:

β

β

β

2

3

0

0

0

K

L

N

MMMM

O

Q

PPPP≠

L

N

MMMM

O

Q

PPPP. Z

równania dekomponującego zmienność całkowitą zmiennej objaśnianej y na zmienność

wyjaśnioną równaniem regresji i zmienność resztową (niewyjaśnioną) wiemy że:

TSS ESS RSS= + . Przy tak postawionej hipotezie zerowej wyjaśniona suma kwadratów -

ESS powinna być mała, gdyż regresja nic nie wyjaśnia, zaś resztowa suma kwadratów

RSS powinna być duża.

Krok 2. Konstruujemy statystykę ESS K

RSS n K

/ ( )

/ ( )

1, która ma rozkład F – Fishera-Snedecora

o K −1 i n K− stopniach swobody, co formalnie możemy zapisać:

(4.17) F K n KESS K

RSS n K( , )

/ ( )

/ ( )− − =

−1

1.

Wyjaśnienie rozkładu F znajduje się w Aneksie B , [równanie (B.25)]. Można pokazać, że

wyrażenia zarówno w liczniku jak i w mianowniku mają rozkłady χ 2 , to znaczy:

ESS K K/ ( ) ~− −1 12χ oraz RSS n K n K/ ( ) ~− −χ 2 i że obydwie zmienne losowe są od

siebie niezależne [równanie (B.24)], wówczas iloraz zmiennych o rozkładach χ 2 , po ich

podzieleniu przez odpowiednie liczby stopni swobody, ma rozkład F o tych liczbach

stopni swobody.

Sformułowana w (4.17) statystyka jest niewygodna w praktycznych zastosowaniach.

Wiedząc jednak, że RESS

TSS

RSS

TSS2 1= = − , wyjaśnioną i resztową sumę kwadratów w

(4.17) możemy podzielić przez TSS otrzymując wygodną dla obliczeń postać, opartą

jedynie na współczynniku determinacji:

(4.18) F K n KESS K

RSS n K

R K

R n K( , )

/ ( )

/ ( )

( )

( ) ( )− − =

−=

− −1

1 1

1

2

2 .

Krok 3. Weryfikujemy hipotezę zerową. Duże wartości obliczonej statystyki F świadczą

przeciw postawionej hipotezie zerowej. Jeśli więc obliczone F jest większe od F

krytycznego, to hipotezę tę odrzucamy i stwierdzamy, że regresja jest statystycznie

Page 57: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

istotna. Jeśli w pakiecie ekonometrycznym wyznaczana jest wartość p to p <0,05

wskazuje na odrzucenie hipotezy zerowej.

Przykład 4.4. Korzystając z wzoru (4.18) policzmy istotność regresji w omawianym

przykładzie, w którym R K n K2 0 1 1 14 2 12= − = − = − =, ; ;996944 . Po podstawieniu

do (4.18) otrzymamy F( , ), /

( , ) /

,

,1 12

0 1

1 0 12

0

0 000255=

−= =

996944

996944

9969443909,584 , co jest

znacznie większe od wartości krytycznej wziętej z tablic rozkładu F wynoszącej

F0 05 4 84, ,= . Hipotezę o nieistotności równania regresji zdecydowanie odrzucamy.

4.6. Asymptotyczne własności estymatorów MNK

Pokazaliśmy, że estymatory MNK, które wyprowadziliśmy z założeń klasycznego modelu

regresji liniowej, mają pożądane własności, pod warunkiem, że założenia te nie są

naruszone. Własności te zwane są własnościami małej próby. Jeśli którekolwiek z tych

założeń nie zostanie spełnione, a są to dosyć częste przypadki, to estymatory tracą swoje

pożądane cechy. Na przykład, jeśli zaburzenia losowe nie mają rozkładu normalnego, to

estymator b nie ma również rozkładu normalnego, statystki t-Studenta, χ 2 oraz F tracą

również cechy rozkładów zgodnych z ich nazwami, gdyż w takich przypadkach rozkłady

te nie są znane. Uniemożliwiłoby to praktyczne wnioskowanie i diagnozowanie modelu

ekonometrycznego.

Dla zachowania pożądanych własności estymatorów wykorzystywane jest wówczas

alternatywne podejście oparte na teorii asymptotycznej. Teoria ta odnosi się do sytuacji

sprawdzających co się stanie z własnościami modelu, gdy wielkość próby wzrasta do

nieskończoności. Asymptotycznie estymatory w modelu ekonometrycznym zachowują

dobre własności, takie jak normalność, co umożliwia przyjęcie zamiast nieznanych

własności próby skończonej odpowiednich własności asymptotycznych.

Zgodność estymatorów MNK

Zgodność estymatora jest tak zwaną własnością dużej próby i oznacza, że jeśli będziemy

brali coraz większą próbę, to prawdopodobieństwo tego, że estymator bk będzie się różnił

od parametru βk o określoną dodatnią wielkość będzie coraz mniejsze. Innymi słowy -

coraz mniej będzie prawdopodobne, że wartość estymatora będzie odbiegała od

Page 58: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

estymowanego parametru. W wielu przypadkach nie można dowieść, że estymator jest

nieobciążony, ale można pokazać, że jest zgodny (ma to miejsce zwłaszcza w sytuacjach

modeli nieliniowych lub dynamicznych).

Załóżmy, że spełniony jest tak zwany warunek regularności, oznaczający, że macierz

1

n′X X jest zbieżna przy wzrastającym n do skończonej nieosobliwej macierzy, którą

oznaczymy przez XX∑ . Wówczas własność zgodności formalnie możemy zapisać:

(4.19) lim n

k kP b dla wszystkich→∞

− > = >β δ δ0 0 .

Oznacza to, że asymptotycznie, prawdopodobieństwo tego, że estymator MNK odchyla

się o więcej niż o δ od prawdziwej wartości parametru jest równe zeru. Mówimy

również, że estymator bk jest zbieżny według prawdopodobieństwa do β k lub

zapisujemy krótko:

(4.20) plim bk = β k lub bk

p

k→ β ,

gdzie plim jest anglojęzycznym skrótem Probability Limit, oznaczającym granicę

stochastyczną. „bk jest zbieżny według prawdopodobieństwa do β k „ oznacza, że

granicą stochastyczną bk jest β k .

Analogicznie oznaczamy zbieżność według prawdopodobieństwa wektora estymatorów b

do wektora parametrów β :

(4.21) plim b = β lub b→p

β .

Dowód zgodności estymatora MNK wymaga, aby spełniony był warunek:

(4.22) E(xkiεi) = 0,

co oznacza, że zaburzenie losowe ma średnią zero oraz jest nieskorelowane równocześnie

(to znaczy dla tego samego numeru obserwacji i ) z którąkolwiek ze zmiennych

objaśniających. Jest to warunek dużo słabszy od założenia 2 o nielosowości zmiennych

objaśniających, wymaganego dla nieobciążoności ( podrozdział 2.2). Zwróćmy

również uwagę na fakt, że (4.22) wymaga, aby jedynie równoczesne elementy xki oraz εi

były niezależne, co nie wyklucza możliwości skorelowania opóźnionych zmiennych

objaśniających xki-j z elementem εi, gdzie xki-j jest opóźniona o j jednostek w

porównaniu z εi .

Page 59: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Asymptotyczna normalność

Jeśli rozkład estymatora lub innej statystyki w małej próbie nie jest znany, to możemy

starać się znaleźć możliwie najlepsze przybliżenie. Najczęściej używamy przybliżenia

asymptotycznego (przy n zmierzającym do nieskończoności) opartego na rozkładzie

asymptotycznym. Okazuje się, że większość estymatorów w ekonometrii ma

asymptotyczne rozkłady normalne.

Można pokazać, że przy pierwszych 5 założeniach KMRL (ale bez ostatniego

ε σ~ ( , )N 0 I2

) i przy spełnieniu warunku regularności estymator b , ma asymptotyczny

rozkład normalny, co formalnie zapisujemy:

(4.23) b X X~ . , Asy N β σ 2 1′

−b ge j .

Własność asymptotycznej normalności estymatora MNK wskazuje, że w małych próbach

nawet wówczas, gdy zaburzenie losowe nie ma rozkładu normalnego, to estymator

MNK zmierza do rozkładu normalnego, gdy wielkość próby wzrasta. Oznacza to również,

że w przybliżeniu w małych próbach ważne są statystyki oparte na rozkładach t-Studenta,

χ 2 oraz F .

Podsumowanie

1. Nieobciążonym estymatorem wariancji zaburzenia losowego jest wariancja z próby σ 2

równa sumie kwadratów reszt e podzielonej przez liczbę stopni swobody.

2. Hipotezy o istotności zmiennej objaśniającej weryfikujemy wykorzystując podaną w

wydruku komputerowym wartość p . Jeśli wartość p jest mniejsze od 0,05 (w wydruku

komputerowym oznaczone dwiema gwiazdkami „**” ), to odrzucamy hipotezę, że

zmienna jest statystycznie nieistotna.

3. Przedział ufności jest to przedział, w którym znajduje się nieznana wartość parametru

β k z prawdopodobieństwem 95%. Szerokość tego przedziału zależy od zmienności

reszt (ich sumy kwadratów), od zmienności zmiennych objaśniających i od liczby

stopni swobody równania regresji.

Page 60: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

4. Istotności równania regresji sprawdzamy za pomocą statystyki Fishera-Snedecora. Jeśli

wartość p dla hipotezy zerowej o łącznej nieistotności wszystkich zmiennych

objaśniających jest mniejsza od 0,05 to odrzucamy hipotezę o nieistotności równania

regresji.

5. Zgodność estymatora metody najmniejszych kwadratów jest tak zwaną własnością

dużej próby i oznacza, że jeśli będziemy brali coraz większą próbę, to

prawdopodobieństwo tego, że estymator bk będzie się różnił od parametru βk o

określoną dodatnią wielkość będzie coraz mniejsze..

Page 61: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

INTERPRETACJA RÓWNANIA REGRESJI

5.1. Interpretacja współczynników regresji i założenie liniowości

Model regresji liniowej zapisaliśmy w postaci macierzowej jako

y X= +β ε lub dla i tej− obserwacji:

y

x x xi i i

i k ki K Ki i

= ′ +

= + + + + + +

x β ε

β β β β ε1 2 2 i n= 1 2, , , .

gdzie wśród regresorów wyróżniliśmy jeden z elementów, a mianowicie β k kix .

Warunkowa wartość oczekiwana zmiennej objaśnianej przy danych wartościach zmiennych objaśniających zgodnie z równaniem (2.8) wynosi

E x( ) , , ,y x x x i ni i i k ki K Ki′ = + + + + =β β β β1 2 2 1 2 .

Weźmy pochodną cząstkową warunkowej wartości oczekiwanej po xki

(5.1) ∂

∂β

E y

xi i

kik

( )′=

x.

A więc β k mierzy oczekiwaną zmianę yi jako efekt zmiany xki o jedną jednostkę, gdy

wartości innych zmiennych objaśniających modelu pozostają niezmienione. Warunek ten

zwany jest warunkiem ceteris paribus (z łac. – w tych samych, niezmienionych warunkach).

W modelu regresji wielorakiej pojedynczy współczynnik ma jedynie sensowną

interpretację ekonomiczną przy warunku ceteris paribus.

Ponadto liniowy model regresji jest modelem liniowym względem parametrów, a nie

względem zmiennych objaśniających, co oznacza, że zmienne objaśniające (regresory)

mogą być nieliniowymi funkcjami pierwotnie obserwowanych zmiennych, np. ich potęgami,

logarytmami, iloczynami dwóch różnych zmiennych itp..

Przykład 5.1

(Badanie Aktywności Ekonomicznej Ludności GUS z roku 2000) ze strony internetowej:

http://www.ekonometria.wne.uw.edu.pl/index.php?n=Main.Dane

Tytułem przykładu przedyskutujmy uproszczoną wersję równanie regresji płac w zależności

od płci, lat nauki i wieku badanych osób. Na dalszych stronach wzbogacimy ten model do

wersji bardziej rozwiniętej. Niech to uproszczone równanie ma postać:

(5.2) placa plec nauka wiek wieki i i i i i= + + + + +β β β β β ε1 2 3 4 52

gdzie: placai - płaca miesięczna i tej− osoby,

pleci - płeć i tej− osoby (wartość 1 w przypadku mężczyzn, wartość 0 w przypadku kobiet)

Page 62: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

naukai - lata nauki i tej− osoby,

wieki - wiek i tej− osoby mierzony w latach,

wieki2 - wiek do kwadratu i tej− osoby mierzony w latach.

Dla wyjaśnienia postaci tego równania musimy poczynić kilka uwag.

Po pierwsze zauważmy, że zmienna płeć jest tak zwaną zmienną zero-jedynkową, to znaczy

przyjmującą jedynie dwie wartości: 1 - gdy badaną osobą jest mężczyzna i 0 – gdy jest to

kobieta. Szersze omówienie zmiennych 0-1 przedstawimy w następnym paragrafie.

Po drugie, jak już uprzednio stwierdziliśmy, liniowy model regresji jest modelem liniowym

względem parametrów, a nie względem zmiennych objaśniających. Dlatego dla

wychwycenia parabolicznego wpływu wieku na płacę użyliśmy regresorów: wieku i wieku do

kwadratu. (Z doświadczeń praktyki wiemy, że przeciętnie płace w pierwszych latach kariery

zawodowej szybko przyrastają, później przyrosty zaczynają maleć, aż wreszcie w wieku

około 40-50 lat stabilizują się, poczym powolnie zaczynają spadać).

Wykorzystajmy przedstawiony przykład dla interpretacji parametrów równania regresji. W

naszym przykładzie parametr β 4 mierzy efekt wieku na oczekiwaną płacę przy założeniu, że

pozostałe zmienne nie zmieniają swoich wartości. Zauważmy, że w sytuacji tej nie jest

spełniony warunek ceteris paribus, gdyż ze zmianą o jeden rok wieku badanej osoby zmienia

się jednocześnie wartość kolejnego regresora – wieku w kwadracie. Policzymy zatem

pochodną cząstkową płacy po zmiennej „wiek”. Otrzymamy:

(5.3) ∂

∂β β

E y x

wiekwieki i

ii

( )′= +4 52 .

Tak więc dla spełnienia warunku ceteris paribus krańcowy efekt zmiany wieku wynosi

β β4 52+ wieki , przy niezmienionych pozostałych wartościach zmiennych objaśniających

(z wyjątkiem oczywiście regresora „ wieki2 ”).

Wyniki oszacowanego modelu przy użyciu programu Gretl:

Page 63: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przechodzimy do interpretacji oszacowanych parametrów stojących przy zmiennych

objaśniających. Mężczyźni zarabiają przeciętnie o 387, 24 zł więcej niż kobiety przy

założeniu pozostałych charakterystyk na tym samym poziomie (czyli wieku oraz liczby lat

nauki). Miesięczne wynagrodzenie wzrasta przeciętnie o 73,59 zł przy wzroście liczby lat

nauki o jeden rok, przy założeniu pozostałych charakterystyk na nie zmienionym poziomie.

Zgodnie ze wcześniejszą uwagą, wyznaczenie wpływu zmiany wieku o jeden rok na

oczekiwaną płacę nie jest już takie proste – dla osób o różnym wieku wpływ ten jest inny.

Porównajmy wpływ wzrostu wieku o jedną jednostkę w przypadku osoby

dwudziestopięcioletniej, czterdziestoletniej oraz sześćdziesięcioletniej:

Wiek wpływ wzrostu wieku o jeden rok na

oczekiwaną płacę (w zł)

25 35,0948+2*( -0,382460)*25 = 15,9718

40 35,0948+2*( -0,382460)*40 = 4,498

60 35,0948+2*( -0,382460)*60 = -10,8004

Wyniki zamieszczone w powyższej tabeli wskazują, iż największy wzrost oczekiwanej płacy

nastąpi przy wzroście wieku z 25 na 26 – 15,97 zł. W przypadku wzrostu wieku z 40 na 41

nastąpi wzrost wynagrodzenia przeciętnie już tylko o 4,5 zł. Natomiast przy wzroście wieku z

60 na 61 lat mamy już do czynienia ze spadkiem oczekiwanej płacy o 10,8 zł.

Zaprezentowany model potwierdza więc hipotezę, iż dochód rośnie wraz z wiekiem

pracownika, ale coraz wolniej, aby w pewnym momencie zacząć maleć.

Elastyczność

Przy konstrukcji modeli ekonomiści często chcą znać nie efekty krańcowe a elastyczności,

które są wygodnymi miarami dla określenia relatywnej (względnej) zmiany zmiennej

objaśnianej yi wywołanej relatywną (względną) zmianą zmiennej objaśniającej xk . Takimi

wielkościami są na przykład: elastyczność dochodowa popytu, elastyczność cenowa popytu,

czy elastyczność produkcji względem kapitału lub pracy, jak to ma miejsce w funkcji

produkcji Cobb-Douglasa.

Elastyczność odpowiada na pytanie: o ile procent zmieni się zmienna objaśniana, gdy

zmienna objaśniająca zmieni się o jeden procent.

Elastyczności mogą być wyznaczane bezpośrednio z modelu, w którym zarówno zmienna

objaśniana jak i zmienne objaśniające są logarytmami zmiennych pierwotnych. Model taki

możemy zapisać:

(5.4) ln ln ln , , , ,y x x v t Tt t K Kt t= + + + + =γ γ γ1 2 2 1 2

Page 64: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

gdzie dla odróżnienia parametry oznaczyliśmy symbolami γ , zaburzenie losowe symbolem ν,

a indeks i zastąpiliśmy przez t dla podkreślenia, że takie modele są wyznaczane na danych

szeregów czasowych. Logarytmowanie jest wygodną transformacją ze względu na fakt, że

logarytm ilorazu jest w przybliżeniu równy relatywnej (względnej) zmianie zmiennej:

(5.5) ln ln lny yy

y

y y

yt tt

t

t t

t

− =FHG

IKJ ≈

−−

11

1

1

.

Przybliżenie to jest dostatecznie dobre, pod warunkiem, że zmiana wielkości y jest

niewielka.4

Z mikroekonomii wiemy, że współczynnik elastyczności zdefiniowany jest jako:

Ewzgledna zmiana y

wzgledna zmiana x

y y y

x x x

y y

x xt t t

t t t

t t

t t

= =−

−≈− −

− −

( ) /

( ) /

ln( / )

ln( / )1 1

1 1

1

1

Przykład 5.2

W przykładzie posłużymy się danymi miesięcznymi za lata 2003 – 2006 dla Polski

dotyczącymi wielkości produkcji sprzedanej w przemyśle w mln. zł wyrażonej w cenach ze

stycznia 2003 oraz przeciętnego zatrudnienia w przemyśle wyrażone w tysiącach.

Oszacujemy model na logarytmach – zmienna zależną będzie logarytm produkcji, natomiast

zmienną objaśniającą logarytm zatrudnienia. Przykład stanowi niezwykle uproszczoną wersję

funkcji produkcji Cobb-Douglasa, ograniczoną tylko do jednego czynnika, jakim jest

zatrudnienie. Niedostępność danych dotyczących wielkości zaangażowanego kapitału

uniemożliwia sformułowanie szerszej wersji funkcji produkcji.

Wzrost zatrudnienia w przemyśle o 1% przekłada się na wzrost produkcji sprzedanej w

przemyśle o 4,83%. Zauważmy, że zatrudnienie jest jednym, ale nie jedynym czynnikiem

produkcji i uwzględnienie dalszych czynników mogłoby istotnie zmienić uzyskany rezultat.

Oszacujemy jeszcze raz ten sam model, ale nie będziemy logarytmować wyjściowych

zmiennych. Poniżej wyniki:

4 Korzystając z przykładu przedstawionego we Wprowadzeniu, spożycie indywidualne w 2001 wyniosło 479,60, a w 2002 – 490,50 to względna zmiana:

y y

yt t

t

−=

−=−

1

1

490 50 479 60

479 600 033 3 3%)

, ,

,, (lub , . Dla tych wartości ln

y

yt

t−

FHG

IKJ =

1

0,03275 .

Przybliżenie to jest lepsze dla mniejszych stóp zmian.

Page 65: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Oszacowanie parametru przy zmiennej zatrudnienie ma następującą interpretację: wzrost

zatrudnienia w przemyśle o jeden tysiąc powoduje przeciętnie wzrost produkcji sprzedanej w

przemyśle o 102 mln. zł.

Powstaje pytanie, który z modeli jest lepszy? Czy liniowy, czy logarytmiczny? Na to pytanie

nie odpowie porównanie współczynników determinacji R2 ani skorygowanych

współczynników determinacji R 2 , gdyż są to statystyki nieporównywalne, jako, że w

pierwszym modelu są one mierzone w miliardach złotych, a w drugim - w logarytmach

naturalnych tych wielkości. Istnieją testy omówione w rozdziale 3, a mianowicie AIC oraz

SBC - służące do wyboru lepszego z dwóch porównywanych modeli. Przyjmijmy, że wyboru

dokonamy na podstawie celu ekonomicznego, dla którego został zbudowany model, a więc

czy pożądaną informacją ma być elastyczność konsumpcji względem PKB , czy krańcowa

skłonność do konsumpcji.

Przykład 5.3

Rozpatrzmy inny przykład zaczerpnięty z teorii rynków finansowych. Jest nim tak zwany

model wyceny aktywów kapitałowych (CAPM – Capital Asset Pricing Model).

We współczesnej teorii inwestowania (dla rynku kapitałowego znajdującego się w stanie

równowagi) rozpowszechnionym modelem wyceny oczekiwanej stopy zwrotu papierów

Page 66: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

wartościowych jest tak zwany model wyceny aktywów kapitałowych znany pod

anglojęzycznym skrótem CAPM. Model ma postać:

(5.9) R R R Rit f t i M t f t i t= + − +β ε( ) ,

gdzie:

Rit − oczekiwana stopa zwrotu i-tych aktywów (np. akcji i-tej spółki) w czasie t ,

R f t − stopa zwrotu wolna od ryzyka (np. dwuletnich obligacji skarbowych),

RMt − oczekiwana stopa zwrotu portfela rynkowego (np. WIG20),

β i − tzw. współczynnik β -ta i-tych aktywów, ε i t − zaburzenie losowe stopy zwrotu i-tych aktywów w czasie t.

. Zarówno zmienna objaśniana jak i zmienna objaśniająca są stopami (a więc są przyrostami

względnymi), w związku z tym parametr β i ma interpretację elastyczności i-tych aktywów

względem portfela rynkowego. Gdy β i > 1 to jednoprocentowa zmiana portfela wywołuje

ponad jedno procentową zmianę i-tych aktywów. Oznacza to, że zmieniają się one bardziej

intensywnie niż cały portfel. Aktywa takie nazywamy aktywami agresywnymi. I odwrotnie,

gdy β i < 1 to i-te aktywa nazywamy defensywnymi. Ponieważ w równaniu (.) zarówno

zmienna objaśniana jak i zmienna objaśniająca są wielkościami oczekiwanymi, to

współczynnik β i można interpretować jako jednostkową miarę ryzyka, przypisanego i-

temu aktywowi w porównaniu z ryzykiem portfela rynkowego. Zauważmy ponadto, że

zmienna objaśniana równania ( R RM t f t− ) jest różnicą między stopą zwrotu portfela

rynkowego i stopą zwrotu wolną od ryzyka i dlatego jest interpretowana jako premia za

ryzyko.

Prawdziwa wartość parametru β i jest nieobserwowalna a jej estymator szacowany jest na

podstawie równania:

(5.10) r a b r eit i i mt it= + +

gdzie:

rit − stopa zwrotu i-tych aktywów w czasie t,

rmt − rynkowa stopa zwrotu w czasie t dla szerokiego indeksu rynkowego (np. WIG20), ei t − reszta.

Oszacujmy model wyceny stopy zwrotu dla akcji PKN Orlen. Wydruk komputerowy wygląda następująco.

Model: Estymacja KMNK z wykorzystaniem 1363 obserwacji od 2001-02-02 do 2006-07-07 Zmienna zależna: l_PKN Orlen

Page 67: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Zmienna Współczynnik Błąd stand. Statystyka t wartość p Const -7,69939 0,0859627 -89,5667 < 0,00001 *** l_WIG20 1,49313 0,011632 128,3643 < 0,00001 ***

Srednia arytmetyczna zmiennej zależnej = 3,32606 Odchylenie standardowe zmiennej zależnej = 0,466189 Suma kwadratów reszt = 22,5842 Błąd standardowy reszt = 0,128817 Wsp. determinacji R2 = 0,923704 Skorygowany R2 = 0,923648 Stopnie swobody = 1361 Logarytm wiarygodności = 860,269 Kryterium informacyjne Akaika = -1716,54 Kryterium bayesowskie Schwarza = -1706,1 Wyniki estymacji wskazują na agresywny charakter akcji PKN Orlen: β Orlen = 1 49, .

5.2 Jakościowe zmienne objaśniające – regresory zero-jedynkowe, oznaczane również jako

zmienne 0-1 lub zmienne binarne

Często w badaniach ekonomicznych mamy do czynienia ze zmiennymi jakościowymi, które

przyjmują określone stany jakościowe, zwane kategoriami i których wartości nie mogą być

przedstawione za pomocą zbioru liczb rzeczywistych. Takimi zmiennymi jakościowymi jest

na przykład płeć, poziom wykształcenia (podstawowe, średnie, wyższe), region zamieszkania,

czy też efekt sezonowy pewnych wielkości np. konsumpcji owoców, czy zakupu

samochodów. Taką zmienną jakościową jest też zmieniająca się w kolejnych okresach czasu

polityka podatkowa, stosowana przy opodatkowaniu dochodów osobistych ludności, czy też

polityka podatkowa, stosowana względem różnej wielkości przedsiębiorstw itp.

Wpływ jakościowych zmiennych objaśniających można w równaniu regresji przedstawić za

pomocą zmiennych zero-jedynkowych. Rozważania nad zastosowaniem tych zmiennych

ograniczymy do przypadku zmiennych objaśniających, a nie zmiennej objaśnianej, o której

zakładamy tak jak dotąd, że jest zmienną ilościową.

Włączenie zmiennych jakościowych do modelu ekonometrycznego rozpatrzymy na

przykładzie efektów sezonowych dla danych kwartalnych. Przyjmijmy, że mamy model

regresji prostej, a więc z jedną zmienną objaśniającą, co ułatwi prowadzenie rozważań.

(5.6) y x t Tt t t= + + =α β ε ; , , .1 2

Dla podkreślenia, że mamy do czynienia z danymi pochodzącymi z szeregów czasowych,

indeks i n= 1 2, , zastąpiliśmy indeksem t T= 1 2, , .

Page 68: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Najprostszym założeniem o efekcie sezonowym jest przyjęcie, że w zależności od kwartału

zmienia się stała modelu α . Wówczas mamy:

(5.6)

y x w szym kwartale

y x w gim kwartale

y x w cim kwartale

y x w tym kwartale

t t t

t t t

t t t

t t t

= + + −

= + + −

= + + −

= + + −

α β ε

α β ε

α β ε

α β ε

1

2

3

3

1

2

3

4

,

,

,

;

lub ogólnie: y x w i tym kwartale it i t t= + + − =α β ε , , , , .1 2 3 4

Drugą możliwością jest uzmiennienie nachylenia β . Mamy wtedy:

(5.7)

y x w szym kwartale

y x w gim kwartale

y x w cim kwartale

y x w tym kwartale

t t t

t t t

t t t

t t t

= + + −

= + + −

= + + −

= + + −

α β ε

α β ε

α β ε

α β ε

1

2

3

4

1

2

3

4

,

,

,

;

lub ogólnie: y x w i tym kwartalet i t t= + + −α β ε , i = 1 2 3 4, , , .

Trzecią możliwością jest uzmiennienie obydwu parametrów równocześnie, a więc:

(5.8)

y x w szym kwartale

y x w gim kwartale

y x w cim kwartale

y x w tym kwartale

t t t

t t t

t t t

t t t

= + + −

= + + −

= + + −

= + + −

α β ε

α β ε

α β ε

α β ε

1 1

2 2

3 3

4 4

1

2

3

4

,

,

,

;

lub ogólnie: y x w i tym kwartalet i i t t= + + −α β ε .

Ten ostatni przypadek oznacza, że mamy cztery odmienne równania regresji szacowane na

podstawie czterech podprób dla poszczególnych kwartałów, wybranych z całkowitej próby

( t T= 1 2, , ).

Rozpatrzmy przypadek pierwszy, gdy uzmienniona jest stała modelu. Dla tego przypadku

definiujemy trzy zmienne zero-jedynkowe:

Page 69: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(5.9)

Qjesli obserwacja pochodzi z giego kwartalu

jesli obserwacja pochodzi z innego kwartalu

Qjesli obserwacja pochodzi z ciego kwartalu

jesli obserwacja pochodzi z innego kwartalu

Qjesli obserwacja pochodzi z tego kwartalu

jesli obserwacja pochodzi z innego kwartalu

Q Q Q jesli obserwacja pochodzi z pierwszego kwartalu

t

t

t

t t t

2

3

4

2 3 4

1 2

0

1 3

0

1 4

0

0

=−RST

=−RST

=−RST

= = =

, ,

, ;

, ,

, ;

, ,

, ,

.

Zdefiniowaliśmy tylko trzy, a nie cztery zmienne zero-jedynkowe, opuszczając pierwszy

kwartał. Wyjaśnijmy powody tego postępowania. Gdybyśmy wprowadzili taką zmienną

również dla pierwszego kwartału, to zauważmy, że suma czterech zmiennych zero-

jedynkowych dla każdej obserwacji wynosi 1 i przez to w macierzy X suma czterech kolumn

ze zmiennymi zero-jedynkowymi staje się równa kolumnie pierwszej, która jak pamiętamy,

zawiera same jedynki. Oznaczałoby to, że macierz X miałaby rząd niższy od rzędu

kolumnowego, co uniemożliwiłoby odwrócenie macierzy ′X X przy wyznaczaniu

estymatorów MNK, liczonych zgodnie ze wzorem: b X X X y= ′ ′−( ) 1 . Opuszczenie zatem

jednej z kategorii dla zmiennej jakościowej jest podyktowane jedynie względami

rachunkowymi, umożliwiającymi uzyskanie rozwiązania dla b.

Wprowadzamy zatem ogólną zasadę ze względu na warunek rozwiązalności: dla cechy

jakościowej o m kategoriach, należy wprowadzić do równania regresji jedynie m-1

zmiennych zero-jedynkowych, pomijając dowolną z kategorii, która swój efekt przenosi

na wyraz stały równania regresji. pominiętą kategorię nazywamy kategorią referencyjną

albo kategorią bazową. Równanie regresji z nowowprowadzonymi zmiennymi zero-

jedynkowymi ma postać:

(5.10) y Q Q Q xt t t t t t= + + + + +α δ δ δ β ε2 2 3 3 4 4 .

Parametry δ przy zmiennych zero-jedynkowych interpretujemy jako różnice efektów

sezonowych odpowiednich kwartałów w porównaniu z pominiętym 1-szym kwartałem,

którego efekt oddaje parametr α . A więc efekt pierwszego kwartału włączony jest do stałej

α , efekt drugiego kwartału w porównaniu z pierwszym jest o δ 2 wyższy, trzeciego w

porównaniu z pierwszym jest o δ 3 wyższy i czwartego w porównaniu z pierwszym jest

wyższy o δ 4 .

Page 70: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przykład 5.4

Zobrazujmy przedstawione rozumowanie za pomocą przykładu empirycznego.

Wykorzystamy dane kwartalne dla Polski za okres I kwartał 2000 – IV kwartał 2005. i na ich

podstawie oszacujmy związek między stopą bezrobocia wyrażoną w procentach a PKB w

miliardach złotych. Sprawdzimy czy wzrost PKB przekłada się na spadek bezrobocia

uwzględniając efekty sezonowe za pomocą zmiennych zero-jedynkowych. Za kategorie

referencyjną przyjmujemy pierwszy kwartał.

Opis zmiennych:

stopa_bezrob – stopa bezrobocia wyrażona w procentach;

PKB – PKB w miliardach złoty;

Q2, Q3, Q4 – zmienne zero-jedynkowe zdefiniowane jak we wzorze (5.9).

Zajmiemy się interpretacją współczynników przy zmiennych zero-jedynkowych

odpowiadających za efekty sezonowe. Współczynnik przy zmiennej Q2 wynosi –1,34, co

oznacza że średnio bezrobocie w drugim kwartale spada w porównaniu z pierwszym o 1,34 %

(warto podkreślić, że zmienna ta nie jest istotna na poziomie 5%, bo p-value wynosi 0,1).

Współczynnik przy zmiennej Q3 wskazuje, że przeciętnie bezrobocie w trzecim kwartale

roku jest mniejsze od tego w pierwszym o 1,73 %, natomiast współczynnik przy zmiennej

Q4 informuje nas, że przeciętnie bezrobocie w czwartym kwartale roku jest mniejsze od tego

w pierwszym o – 3,2 %.

W powyższym zadaniu musimy zwrócić uwagę na fakt, że parametr przy zmiennej PKB jest

dodatni, co oznacza, że im wyższy poziom PKB, tym większe bezrobocie. Jest to wynik

niezgodny z teorią ekonomii i praktycznie dyskwalifikuje oszacowany model.

Korzystając z regresorów 0-1 możemy uzmiennić parametr nachylenia β :

(5.11) y x Q x Q x Q xt t t t t t t t t= + + + + +α β γ γ γ ε2 2 3 3 4 4

Page 71: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

gdzie współczynniki przy zmiennej x w kolejnych kwartałach oznaczyliśmy przez γ .

Zauważmy, że zdefiniowaliśmy tu nowe zmienne, które są iloczynami zmiennych zero-

jedynkowych Q przez zmienną x , a mianowicie:

(5.12)

Q xx jesli obserwacja pochodzi z giego kwartalu

jesli obserwacja pochodzi z innego kwartalu

Q xx jesli obserwacja pochodzi z ciego kwartalu

jesli obserwacja pochodzi z innego kwartalu

Q xx jesli obserwacja pochodzi z tego kwartalu

jesli obserwacja pochodzi z innego kwartalu

Q x Q x Q x jesli obserwacja pochodzi z pierwszego kwartalu

t tt

t tt

t tt

t t t t t

2

3

4

2 3 4

2

0

3

0

4

0

0

=−RST

=−RST

=−RST

= = =

, ,

, ;

, ,

, ;

, ,

, ,

.

Przykład 5.5

Wykorzystajmy omawiany wyżej przykład dla uzmiennienia parametru stojącego przy

zmiennej PKB. Za poziom referencyjny, jak poprzednio, przyjmujemy pierwszy kwartał.

Definiujemy następujące zmienne:

_ 20

PKB dla drugiego kwartaluPKB

w pozostalych kwartalach

=

_ 30

PKB dla trzeciego kwartaluPKB

w pozostalych kwartalach

=

_ 40

PKB dla czwartego kwartaluPKB

w pozostalych kwartalach

=

Wyniki estymacji:

Zinterpretujmy parametry przy zmiennych PKB: wzrost PKB o 1 mld w pierwszym kwartale

przekłada się na wzrost bezrobocia o 0,075 %. Natomiast współczynnik przy zmiennej

PKB_2 oznacza, że wzrost PKB o 1 mld w drugim kwartale wywoła zmniejszenie bezrobocia

w tym kwartale o 0,007 % w porównaniu z pierwszym. Parametry przy zmiennych PKB_3

oraz PKB_4 mają analogiczną interpretację.

Page 72: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Jest to wynik ekonomicznie akceptowalny. Współczynniki regresji przy zmiennej PKB w

wyróżnionych kwartałach mają teraz sensowne ujemne znaki, ukazując spadek bezrobocia na

w kolejnych kwartałach na skutek wzrostu PKB.

Niektóre cechy ilościowe możemy traktować jako cechy jakościowe i wykorzystać ideę

zmiennych 0-1. Liczby rzeczywiste, jakie mają cechy ilościowe możemy zastąpić

przedziałami, dla których definiujemy zmienne 0-1. W taki sposób możemy na przykład

potraktować staż pracy jako cechę wyjaśniającą wielkość płacy miesięcznej. Przyjęcie stażu

pracy jako cechy ilościowej, mierzonej latami pracy, prowadzi do szacowania współczynnika

regresji, który w tym przypadku jest interpretowany jako krańcowy efekt wynagrodzenia,

wywołany wzrostem stażu pracy o jeden rok. Wartość poznawcza takiego współczynnika jest

ograniczona i to z przynajmniej dwóch powodów. Po pierwsze, roczne zmiany stażu mogą

wywoływać bardzo nieznaczne zmiany płacy, utrudniając wnioskowanie. Po drugie, staż

pracy na ogół wpływa nieliniowo na płacę. Wraz z pierwszymi latami stażu płaca może

szybko wzrastać, zaś w dalszych latach może mieć dodatni, ale malejący, a nawet gasnący

wpływ na wielkość płacy. W takiej sytuacji wygodniej jest wprowadzić zmienne zero-

jedynkowe dla sensownie określonych przedziałów lat stażu.

Page 73: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przykład 5. 6 Zbadajmy związek między płacą (dane z

przykładu 5.1) a stażem pracy,

wykształceniem (mierzone liczbą lat nauki) i

płcią respondenta. Najpierw załóżmy, że

zależność między dochodem a stażem jest

liniowa. Poniżej wyniki estymacji .

Współczynnik przy zmiennej staż oznacza, że wynagrodzenie wzrasta przeciętnie o 5,41 zł

przy wzroście stażu o jeden rok przy pozostałych czynnikach niezmienionych. Zobaczmy

jakie wyniki uzyskamy po rozkodowaniu zmiennej staż na zmienne zero-jedynkowe.

Definiujemy następujące zmienne:

1 12 31_ 2

0

gdy lata stazu ponad a ponizejstaz

w innym przypadku

=

1 30_ 3

0

gdy lata stazu powyżejstaz

w innym przypadku

=

Przyjmujemy, że kategorią referencyjną jest staż pracy poniżej 13 lat. Wyniki estymacji:

Page 74: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Współczynnik przy zmiennej staz_2 wskazuje, że osoby mające staż pracy w przedziale od 13

do 30 lat włącznie zarabiają przeciętnie o 238,45 zł więcej od osób o stażu pracy poniżej 13

lat. Osoby mające staż pracy przekraczający 30 lat zarabiają średnio o 257,34 zł więcej od

osób o stażu pracy poniżej 13 lat.

Do równania regresji możemy wprowadzić zmienne zero-jedynkowe dla dwóch lub większej liczby cech jakościowych w analogiczny sposób; pamiętając o pominięciu jednej z kategorii dla każdej cechy jakościowej. A więc możemy na przykład uzależnić płacę miesięczną od dwóch cech jakościowych: wykształcenia i miejsca zamieszkania (wieś – miasto) itp.

Powstaje komplikacja, gdy dwie zmienne jakościowe (lub większa ich liczba) nie wywierają wpływów niezależnych i dla oddania efektów ich interakcji należy wprowadzić oddzielną zmienną zero-jedynkową dla każdej krzyżowej kombinacji kategorii tych cech. Oznaczałoby to, że zakładamy, iż na przykład wykształcenie wyższe wywiera inny efekt płacowy, gdy osoba zamieszkuje na wsi od tego, gdy zamieszkuje w mieście. Dla oddania efektów interakcyjnych należy wprowadzić tyle zmiennych zero-jedynkowych ile wynosi iloczyn kategorii tych cech minus jeden.

5.3. Restrykcje i modele zagnieżdżone. Łączna istotność zmiennych zero-jedynkowych

Testowanie łącznej istotności zmiennych zero-jedynkowych przebiega podobnie do testowania łącznej istotność równania regresji, omówionego w rozdziale poprzednim. Oszacujmy dwa równania regresji. Pierwsze uwzględniające zmienne zero-jedynkowe, jak w przykładzie (5.10) y Q Q Q xt t t t t t= + + + + +α δ δ δ β ε2 2 3 3 4 4 , w którym obok zmiennej

objaśniającej x znalazły się trzy regresory zero-jedynkowe jako zmienne sezonowe dla drugiego, trzeciego i czwartego kwartału. Równanie to nazwijmy równaniem regresji bez restrykcji o K regresorach, a sumę kwadratów reszt wyznaczoną z estymacji tego równania oznaczmy jak zwykle przez ′e e . Drugim równaniem jest równanie regresji pozbawione zmiennych zero-jedynkowych, a więc (5.6) y xt t t= + +α β ε . Równanie to nazwijmy równaniem regresji z restrykcjami, gdyż usunięto z niego trzy regresory sezonowe. Sumę kwadratów reszt dla tego równania oznaczmy przez ′e eR R . Subskrypt R przy resztach wskazuje na reszty równania z restrykcjami. Zauważmy, że równanie (5.10) staje się równaniem (5.6) jeśli narzucimy restrykcje δ δ δ2 3 4 0= = = . Możemy również powiedzieć, że model bez restrykcji obejmuje model z restrykcjami, zaś o modelu z restrykcjami powiemy, że jest modelem zagnieżdżonym w modelu szerszym, tym bez restrykcji. Zauważmy ponadto, że suma kwadratów reszt równania z restrykcjami ′e eR R , jako równania gorzej dopasowanego do danych (gdyż nie uwzględniającego efektów sezonowych) jest większa od sumy kwadratów reszt ′e e równania bez restrykcji. Różnica ′ − ′e e e eR R określa

zatem ubytek sumy kwadratów reszt z tytułu dołączenia regresorów sezonowych. Gdy różnica ta jest duża, to wnosimy, że uwzględnienie sezonowości istotnie poprawia oszacowanie równania bez restrykcji.

Stawiamy hipotezę łączną: H0

2

3

4

0

0

0

:

δ

δ

δ

L

NMMM

O

QPPP

=

L

NMMM

O

QPPP

wobec hipotezy alternatywnej H1

2

3

4

0

0

0

:

δ

δ

δ

L

NMMM

O

QPPP

L

NMMM

O

QPPP

.

Page 75: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Statystyka testująca ma rozkład F -Fishera-Snedecora Duże wartości statystyki F , większe od wartości krytycznej wskazują na odrzucenie hipotezy zerowej.

Wzór na statystykę Fishera-Snedecora ma postać:

(5.13) F m T Km

T KR R

− − =′ − ′ −

′ −1

1,

( ) / ( )

/ ( )b g e e e e

e e,

gdzie m jest liczbą kategorii cechy jakościowej, zaś K jest liczbą szacowanych parametrów w równaniu bez restrykcji. Z rozważań nad współczynnikiem determinacji R2

(Rozdział 3) wiemy, że RESS

TSS

RSS

TSS TSS2 1 1= = − = −

′e e. Zauważmy, że jeśli we wzorze

(5.13) licznik i mianownik podzielimy przez TSS to otrzymamy:

(5.13`) F m T Km

T K

R R m

R T KR R R( , )

( ) / ( )

/ ( )

( ) ( )

( ) / ( )− − =

′ − ′ −

′ −=

− −

− −1

1 1

1

2 2

2

e e e e

e e, co jest

wyrażeniem łatwiejszym dla praktycznych obliczeń.

Przykład 5.7 Wykorzystamy dane z przykładu 5.4 do przetestowania łącznej istotności zero-jedynkowych

zmiennych sezonowych. Wyniki estymacji dla równania regresji bez restrykcji:

Wyniki estymacji dla równania regresji z restrykcjami:

Przechodzimy do wyznaczenia statystyki testowej:

2 2

2

( ) ( 1) (0,580694-0,312804)/(4-1)4.0462971

(1 ) /( ) (1 0,580694)/(24-5)RR R m

FR T K

− −= = =

− − −

Odczytujemy wartość krytyczną z tablic: F0,95(3,19)= 3,127. Ponieważ wartość statystyki

testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową, która zakłada, iż

parametry przy zero-jedynkowych zmiennych sezonowych wynoszą zero.

Page 76: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przykład 5.7 Wróćmy do przykładu 5.5. Oszacujemy następujące równanie regresji:

1 2 3 4 5_ 2 _ 3 .i i i i i iplaca B B plec B nauka B staz B staz ε= + + + + +

Chcemy przetestować łączną istotność zmiennych zero-jedynkowych dotyczących stażu

pracy. Hipoteza zerowa przyjmuje następującą postać: 0 4 5: 0.H B B= = Szacujemy regresję z

restrykcjami (pomijamy zmienną staz_2 i staz_3):

2 2

2

( ) ( 1) (0,101585-0,0929039))/(3-1)5,2371746

(1 ) /( ) (1 0,101585)/(1089-5)RR R m

FR T K

− −= = =

− − −

Odczytujemy wartość krytyczną z tablic: Fkrytyczne(2,1084)= 3,0040265. Ponieważ wartość

statystyki testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową, która

zakłada, iż parametry przy zero-jedynkowych zmiennych dotyczących stażu pracy wynoszą

zero.

5.4 Jakościowa zmienna objaśniana

W analizach ekonometrycznych stosowane są również modele z jakościową zmienną objaśnianą. Z

sytuacjami takimi mamy do czynienia, gdy chcemy oszacować modele określające na

przykład uwarunkowania aktywności zawodowej kobiet (kobieta pracuje, lub nie pracuje),

Page 77: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

posiadanie domu przez gospodarstwo domowe (rodzina posiada lub nie posiada domu) i tp. Z

rozważań teoretycznych i praktycznego doświadczenia wiadomo jednak, że metoda

najmniejszych kwadratów w takich przypadkach nie zapewnia uzyskania estymatorów

najbardziej efektywnych i dlatego klasyczny model regresji liniowej nie powinien być

stosowany. Metodami zalecanymi w takich przypadkach są dwie metody: metoda probitowa

i metoda logitowa. Będzie o nich mowa w rozdziale 10.

5.5. Wybór regresorów. Skutki pominięcia w równaniu regresji istotnych zmiennych

objaśniających; skutki dodania do równania regresji zmiennych nieistotnych

Rozpatrzymy skutki dwóch sytuacji: pierwszej, gdy w równaniu regresji pomijamy istotne

zmienne objaśniające i drugiej, gdy do równania regresji dodajemy zmienne nieistotne.

Przejdźmy do sytuacji pierwszej.

Konstruując równanie regresji powinniśmy do niego włączyć wszystkie zmienne objaśniające,

które z punktu widzenia teorii ekonomii mogą wyjaśniać zachowanie się zmiennej

objaśnianej, a następnie z duża uwagą eliminować te z nich, które okażą się nieistotne, a

teoria sugeruje, że mają one drugorzędne znaczenie. Pojawia się sensowna pokusa

postępowania odwrotnego. Rozpoczynania od regresji z małą liczbą regresorów i po jego

oszacowaniu sprawdzania, czy dodanie dalszych zmiennych objaśniających polepsza

oszacowane równanie. Ten drugi rodzaj postępowania powinniśmy jednak

zdecydowanie odrzucić, jako niebezpieczny dla procedury estymacyjnej, która może

prowadzić do zdecydowanie błędnego modelu końcowego.

Rozpatrzmy dwa modele:

(5.14) y X= +β ε ε σ, ~ ( , )N I0 2 ;

(5.15) y X Z= + +β γ σu u N I, ~ ( , )0 2 .

W modelu drugim (5.15) dodaliśmy dalszy zbiór zmiennych objaśniających, dla których

macierz obserwacji na J dodatkowych regresorach oznaczyliśmy przez Z o wektorze

współczynników regresji γγγγ. Dla odróżnienia od równania pierwszego wektor zaburzeń

losowych w tym równaniu oznaczyliśmy przez u .

Jeśli γ = 0 , to drugi model (szerszy) bez restrykcji jest równoważny pierwszemu (węższemu) z

restrykcjami. Postawmy pytanie: Co się stanie, jeśli poprawny jest model drugi, a więc

szerszy, a oszacujemy model pierwszy, węższy? Estymator b dla węższego równania jest

Page 78: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

równy b X X X y= ′ ′−( ) 1 . Poprawnym modelem jest jak założyliśmy model szerszy, a więc

za y podstawiamy prawą stronę równania drugiego, skąd otrzymamy:

(5.16)

b X X X y

X X X X Z

X X X Z X X X

= ′ ′

= ′ ′ + +

= + ′ ′ + ′ ′

− −

( )

( ) ( )

( ) ( )

1

1

1 1

β γ

β γ

u

u

.

Biorąc jego wartość oczekiwaną dostaniemy:

(5.17) E E u( ) ( ) ( ) ( )

( )

b X X X Z X X X

X X X Z

= + ′ ′ + ′ ′

= + ′ ′

− −

β γ

β γ

1 1

1

gdyż u ma wartość oczekiwaną równą zero.

Z rozważań tych wynika, że estymator b jest obciążony i obciążenie to wynosi ( )′ ′−X X X Z1 γ ;

z wyjątkiem dwóch sytuacji, gdy γ = 0 , a więc gdy wszystkie zmienne w zbiorze Z są

nieistotne (i ich dodanie okazało się niepotrzebne), lub gdy ′ =X Z 0 , co oznacza, że X i Z

są nieskorelowane, a więc są zbiorami niezależnych zmiennych objaśniających. Jeśli

pominiemy te dwie wyjątkowe i mało prawdopodobne sytuacje to możemy stwierdzić,

że:

pominięcie w równaniu regresji istotnych zmiennych objaśniających powoduje, że estymatory

MNK dla istniejących zmiennych są obciążone.

Jest to groźne w swych skutkach niebezpieczeństwo, wskazujące, że do równania powinniśmy

wstawiać wszystkie zmienne sugerowane przez teorię ekonomii. Nie powinniśmy ich

usuwać z równania regresji nawet, gdyby były nieistotne. Świadczy to bowiem jedynie o

tym, że zbiór danych statystycznych użytych dla oszacowania modelu nie potwierdza

przywoływanej teorii ekonomii, nie zaś o tym, że zmienne te są w równaniu niepotrzebne.

Przykład 5.8 „Model płac” Szacujemy liniowe równanie regresji płac w zależności od wieku, poziomu wykształcenia płci

i stanu cywilnego oraz wielkości miejscowości, w której mieszka respondent. Można przyjąć,

że jest to zbiór najważniejszych zmiennych określających wielkość płac.

Obliczenia oprzemy na danych, dotyczących ludności zamieszkałej w Województwie

Mazowieckim. Pochodzą one z bazy BAEL (Badanie Aktywności Ekonomicznej Ludności

GUS z roku 2000) ze strony internetowej:

http://www.ekonometria.wne.uw.edu.pl/index.php?n=Main.Dane

Próba zawiera 1089 obserwowanych pracujących osób.

Page 79: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Zdefiniujmy zmienne. W praktycznych zastosowaniach w miejsce symboli xi zmiennym

nadajemy czytelne dla użytkownika nazwy.

Zmienną objaśnianą w równaniu regresji jest zmienna, którą oznaczymy jako - stopaplaci i

przyjmujemy, że jest to logarytm naturalny płacy miesięcznej i tej− osoby. Powód dla

którego zamiast płacy bierzemy logarytm naturalny płacy wynika, jak to już zauważyliśmy, z

faktu że logarytm naturalny zmiennej jest w przybliżeniu równy stopie płac, zwanej

przyrostem względnym.

Zmiennymi objaśniającymi są:

pleci - płeć i-tej osoby.

wieki – wiek i-tej osoby mierzony w latach.

wiek2i - wiek do kwadratu i-tej osoby mierzony w latach.

sredniei = 1 jeśli i ta− osoba ma wykształcenie średnie oraz sredniei = 0 jeśli i ta− osoba ma

wykształcenie inne niż średnie;

wyzszei = 1 jeśli i ta− osoba ma wykształcenie wyższe oraz wyzszei = 0 jeśli i ta− osoba ma

wykształcenie inne niż wyższe;

sredniei = 0 oraz wyzszei = 0 jeśli i ta− osoba ma wykształcenie podstawowe.

Ten sam sposób rozumowania zastosujmy dla ustalenia wpływu wielkości miejscowości,

zamieszkiwanej przez badaną osobę.

Wprowadźmy następującą klasyfikację wielkości miejscowości: wieś, małe miasto do 20 tyś.

mieszkańców, średnie miasto od 20 tyś. do 100 tyś. mieszkańców i duże miasto powyżej 100

tyś. mieszkańców. Dla ustalenia wpływu tych czterech kategorii miejscowości możemy

zastosować trzy regresory 0-1:

malemiasto = 1 jeśli i-ta osoba mieszka w mieście do 20 tyś. mieszkańców oraz małemiasto =

0 jeśli i-ta osoba mieszka w miejscowości o innej liczbie mieszkańców;

sredniemiasto = 1 jeśli i-ta osoba mieszka w mieście od 20 tyś. do 100 tyś. mieszkańców,

sredniemiasto = 0 jeśli i-ta osoba mieszka w miejscowości o innej liczbie mieszkańców;

duzemiasto = 1 jeśli i-ta osoba mieszka w mieście powyżej 100 tyś. mieszkańców,

duzemiasto = 0 jeśli i-ta osoba mieszka w miejscowości o innej liczbie mieszkańców:

małemiasto = 0 oraz sredniemiasto = 0 oraz duzemiasto = 0 jeśli i-ta osoba mieszka na wsi.

Ostatnia zmienna, którą umieścimy wśród regresorów, to stan_cywilny – wartość 1, jeśli

kawaler lub panna oraz 0 w innych przypadkach.

Oszacujmy powyższy model. Otrzymujemy następujący wydruk wyników.

Page 80: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wszystkie zmienne objaśniające w powyższym modelu są statystycznie istotne. Stopień

wyjaśnienia zmienności zmiennej objaśnianej nie jest jednak wysoki. Współczynnik

determinacji wynosi bowiem 0,24. Biorąc pod uwagę fakt, że model jest szacowany na

danych przekrojowych wartość tego współczynnika można przyjąć za zadowalającą.

Sprawdźmy jaki wpływ na wyniki oszacowań ma pominięcie istotnych zmiennych objaśniających – usuniemy z modelu zmienne dotyczące wykształcenia. Poniżej wyniki oszacowania równania regresji:

Usunięcie z modelu zmiennych dotyczących wykształcenia (zmienne zero-jedynkowe oznaczające posiadanie wykształcenia średniego i wyższego) spowodowało, iż uzyskaliśmy inne wartości oszacowanych parametrów. Największe różnice można zaobserwować w przypadku ocen przy zmiennych dotyczących miejsca zamieszkania. Ponieważ wiemy, iż

Page 81: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

wykształcenie ma istotny wpływ na płace, więc uzyskane oceny dla modelu z restrykcjami z teoretycznego punktu widzenia należy traktować jako obciążone.

Oceny przy zmiennych w modelu bez restrykcji w modelu z restrykcjami

malemiasto 0,14 0,18

średniemiasto 0,25 0,32

duzemiasto 0,35 0,45

Dodatnie obciążenie wynika z faktu, iż wykształcenie jest dodatnio skorelowane z miejscem zamieszkania – największy odsetek osób z wyższym wykształceniem jest w dużych miastach. Rozpatrzmy drugą sytuację, gdy do równania regresji wstawiamy regresory nieistotne. Korzystając z zapisu dwóch równań regresji (5.14) i (5.15) oznacza to, że równanie drugie niepotrzebnie rozszerzyliśmy o nieistotny zbiór regresorów Z, dla których możemy przyjąć hipotezę zerową, że wektor współczynników γ przy tych zmiennych jest zero: γ = 0 . Bez wchodzenia w bardziej szczegółową analizę, możemy stwierdzić, że nie jest to sytuacja niebezpieczna. Z przypadkami nieistotności zmiennych objaśniających spotykamy się często w praktyce ekonometrycznej, gdzie za pomocą testu t Studenta− weryfikujemy hipotezy o istotności zmiennych. Estymatory są wtedy nieobciążone, a jedną ich ujemną własnością są nieco większe błędy standardowe, co powoduje, że są one mniej efektywne od tych dla równania pomijającego zmienne nieistotne. Większa liczba regresorów, nawet nieistotnych, podwyższa jak wiemy, współczynnik determinacji R2 , sugerując polepszenie dopasowania. Należy więc stosować, przy małej liczbie stopni swobody, skorygowany współczynnik determinacji R 2 . 5.6. Testowanie łącznej istotności podzbioru regresorów Testowanie łącznej istotności podzbioru regresorów, którymi na przykład są pominięte zmienne przebiega analogicznie do sprawdzania istotności zmiennych zero-jedynkowych, omówionych wyżej. Przyjmijmy mianowicie, że oszacowaliśmy dwa równania regresji. Pierwsze bez restrykcji, a więc zawierające wszystkie zmienne objaśniające, dla którego współczynnik determinacji oznaczamy jak zwykle przez R2 . Oraz drugie równanie, z restrykcjami, pozbawione J zmiennych, względem których stawiamy hipotezę, że są one łącznie nieistotne. Założenie to oznacza, że J parametrów przy pominiętych regresorach jest łącznie równych zero. Dla tak postawionej hipotezy zerowej statystyka testująca ma rozkład F – Fishera-Snedecora postaci: (5.18)

Jeśli wartość tej statystyki jest większa od wartości krytycznej wziętej z tablic dla liczby stopni swobody J oraz n - K, to odrzucamy hipotezę o łącznej nieistotności J zmiennych objaśniających.

Przykład 5.9 Wróćmy do przykładu 5.7. Oszacujemy następujące równanie regresji:

1 2 3 4 5_ 2 _ 3 .i i i i i idochod B B plec B nauka B staz B staz ε= + + + + +

2 2

2

( ) ( ) /( , )

( ) (1 ) /( )R R RJ R R J

F J n Kn K R n K

′ ′− −− = =

′ − − −

e e e e

e e

Page 82: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Chcemy przetestować łączną istotność dwóch zmiennych:zmiennej plec oraz zmiennej nauka.

Hipoteza zerowa przyjmuje następującą postać: 0 2 3: 0.H B B= = Szacujemy regresję z

restrykcjami (pomijamy zmienne nauka i plec):

Wyznaczamy wartość statystyki testowej

2 2

2

( ) (0,101585-0,00425766)/258,716093

(1 ) /( ) (1 0,101585)/(1089-5)RR R J

FR T K

−= = =

− − −

Odczytujemy wartość krytyczną z tablic: F(2,1084)= 3,004065. Ponieważ wartość statystyki

testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową, która zakłada, iż

zmienne plec i nauka są łącznie nieistotne.

5.7. Testowanie hipotez złożonych Niekiedy hipotezy mają bardziej złożoną postać; mogą być ograniczeniami narzuconymi na parametry modelu – są to tak zwane warunki poboczne. Mówimy wówczas, że teoria ma testowalne implikacje. Przyjmijmy dla przykładu, że rozważamy model inwestycji, który może mieć postać:

(5.19) ln lnI i p Y tt t t t t= + + + + +β β β β β ε1 2 3 4 5∆ W powyższym modelu przyjmujemy, że inwestorzy reagują na nominalną stopę procentową it, stopę inflacji ∆pt logarytm realnej produkcji lnYt i inne czynniki wywołujące stały trend wzrostowy t . Możemy przetestować hipotezę, że inwestorzy nie reagują na realną stopę procentową H0 2 3 0:β β+ = . Równanie regresji przy tej hipotezie ma postać

(5.20) ln ( ) lnI i p Y tt t t t t= + − + + +β β β β ε1 2 4 5∆ , Rozpatrzmy inny przykład: funkcji produkcji Cobb- Douglasa, zapisanej jako model regresji liniowej względem logarytmów.

Page 83: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

y x x x e gdzie

y produkcja

x naklad pracy

x naklad kapitalu

x naklad K tego czynnika

e podstawa arytmow natura ych

i i i Ki

K

K i=

− −

β β β β ε1 2 3

2

3

2 3 :

,

,

,

log ln .

Założenie stałych efektów skali oznacza, że suma wszystkich parametrów nachyleń przy nakładach jest jednocześnie równa jedności. Wówczas hipoteza zerowa ma postać H0: β β β2 3 1+ + + = K . Uogólniając te rozważania, jeśli mamy J liniowych ograniczeń narzuconych na K parametrów, to możemy zapisać układ równań ograniczających parametry jako:

(5.21) H R q0: β = , gdzie R jest macierzą znanych elementów o wymiarach J na K. Macierz ta ma rząd wierszowy, wynoszący J < K, , co oznacza, że narzucane ograniczenia nie są sprzeczne i żadne z nich nie jest zbędne. O wektorze q zakładamy, że jego elementy są znane. W praktycznych zastosowaniach w macierzy R mamy niewiele wierszy i dużo elementów zerowych. Rozpatrzmy przykłady:

Przykład 1. Jeśli w równaniu regresji mamy na przykład 6 regresorów β

β

βββ

β

β

=

L

N

MMMMMMM

O

Q

PPPPPPP

1

2

3

4

5

6

i stawiamy

hipotezę zerową , jak w przekładzie funkcji produkcji Cobb- Douglasa, to R q= =[ ] ;0111111 1

Przykład 2. Jeden ze współczynników jest zero: np. β 4 0= , to R q= =[ ] ; ;0 00 1 0 0 0

[ ]0111111 1

1

2

3

4

5

6

2 3 4 5 6×

L

N

MMMMMMM

O

Q

PPPPPPP

= + + + + =

β

βββ

β

β

β β β β β

Page 84: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przykład 3. Podzbiór współczynników równa się wektorowi zerowemu: β β β2 3 40 0 0= = =, , , to

R q=

L

NMMM

O

QPPP

=

L

NMMM

O

QPPP

0 1 0 0 0 0

0 0 1 0 0 0

0 0 0 1 0 0

0

0

0

; ,

0 1 0 0 0 0

0 0 1 0 0 0

0 0 0 1 0 0

0

0

0

1

2

3

4

5

6

2

3

4

L

NMMM

O

QPPP

×

L

N

MMMMMMM

O

Q

PPPPPPP

=

L

NMMM

O

QPPP

=

L

NMMM

O

QPPP

β

βββ

β

β

β

β

β

Przykład 4. Dwa współczynniki są sobie równe: np. β β3 5= , to R = −[ ] ;0 01 0 1 0 q = 0 .

[ ]0 01 0 10 0

1

2

3

4

5

6

3 5− ×

L

N

MMMMMMM

O

Q

PPPPPPP

= − =

β

βββ

β

β

β β

Przykład 5. Kilka ograniczeń zachodzi równocześnie: β β β β β β2 3 4 6 5 61 0 0+ = + = + =, , , to

[ ]0 00 1 0 0

1

2

3

4

5

6

L

N

MMMMMMM

O

Q

PPPPPPP

=

β

βββ

β

β

β

Page 85: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

0 1 1 0 0 0

0 0 0 1 0 1

0 0 0 0 1 1

1

0

0

1

2

3

4

5

6

2 3

4 6

5 6

L

NMMM

O

QPPP

×

L

N

MMMMMMM

O

Q

PPPPPPP

=

+

+

+

L

NMMM

O

QPPP

=

L

NMMM

O

QPPP

β

βββ

β

β

β β

β β

β β

.

Hipotezy łączne możemy testować na dwa sposoby. 1. Pierwszy sposób polega na bezpośrednim wbudowaniu narzuconych restrykcji na szacowane parametry w równaniu regresji. Jeśli na przykład na parametry równania regresji y x xt t t t= + + +β β β ε1 2 2 3 3 , którego reszty po oszacowaniu oznaczymy przez ′e e narzucimy restrykcję β β2 3 1+ = , a

więc

R q= =

L

NMMM

O

QPPP

=0 1 1 11

2

3

; ;β

β

β

β

to wstawiając tę restrykcję bezpośrednio do równania otrzymamy: y x x

x x

x x x

y x x x

t t t t

t t t

t t t t

t t t t t

= + + +

= + + − +

= + − + × +

− = + − +

β β β ε

β β β ε

β β ε

β β ε

1 2 2 3 3

1 2 2 2 3

1 2 2 3 3

3 1 2 2 3

1

1

( )

( )

( )

.

Powyższe równanie nazwijmy równaniem z restrykcjami, a jego sumę kwadratów oznaczmy jak zwykle przez ′e eR R . Statystyką testującą hipotezę H0 2 3 1:β β+ = jest statystyka F .

(5.21) ( ) /1

[1, ]( ) /( )

R Re e e eF T K

e e T K

′ ′−− =

′ −.

Jeśli mielibyśmy nie jeden a J warunków ograniczających, to wbudowując te warunki bezpośrednio do równania regresji i postępując analogicznie mielibyśmy statystykę testującą postaci:

(5.22) ( ) /

[ , ]( ) /( )

R Re e e e JF J T K

e e T K

′ ′−− =

′ −

2. Drugi sposób polega na estymacji wyjściowego równania regresji i sprawdzeniu, czy estymator b wyznaczony MNK spełnia narzucone restrykcje H R q0: β = . Rozumowanie przebiega następująco: oznaczmy przez d R q= −β wektor rozbieżności powstający w wyniku niespełnienia narzuconych restrykcji. Jeśli test oprzemy na estymatorze MNK, to d wyznacza różnicę między estymatorem bezwarunkowym b a estymatorem warunkowym, (spełniającym warunek R qb = ). Ponieważ b ma rozkład normalny i d jest liniową funkcją b , to d ma również rozkład normalny. Jeśli H0 jest prawdziwa, to d ma wektor średnich zero i wariancję (5.23) Var d Var R q RVar b R R R( ) ( ) ( ) ( )= − = ′ = ′ ′−β σ 2 1X X .

Page 86: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przypomnijmy, że jeśli x N gdzie nieosobliwan ~ ( , ), ,µ Σ Σ to

(5.24) ( ) ( ) ~x x n− ′ −−µ µ χΣ 1 2 . Korzystając z tego wyrażenia możemy napisać:

(5.25) w d Var d dJ= = ′ −χ 2 1[ ( )] . W testach dużej próby, które omówimy w dalszych rozważaniach, jest to tak zwany test Walda. Jeśli hipoteza H0 jest poprawna, to w ma rozkład χ2 o J stopniach swobody. Intuicyjnie możemy powiedzieć , że im większe jest d to większy jest błąd estymatorów MNK w spełnieniu ograniczeń i większe jest χ J

2 . Duże wartości tej statystyki świadczą przeciw hipotezie zerowej. Jeśli za d i za wariancję d podstawimy odpowiednie wyrażenia i nieznaną σ2 zastąpimy jej oceną z próby σ 2 to możemy skonstruować obliczeniową statystykę testującą F postaci:

(5.25) FR q R R R q J

e e T K

R q R R R q

J=

− ′ ′ ′ −

′ −=

− ′ ′ ′ −− − − −( ) [ ( ) ] ( ) /

( ) / ( )

( ) [ ( ) ] ( )b X X b b X X b1 1 2 1 1σ.

Przykład 5.10 Wróćmy do przykładu 5.8. Model bez restrykcji zdefiniujmy w następujący sposób:

stopaplac wiek wiek plec srednie wyzsze

malemiasto sredniemiasto duzemiasto stcywi i i i i i

i i i i i

= + + + + +

+ + + + +

β β β β β β

β β β β ε1 2 3

24 5 6

7 8 9 10

Załóżmy, iż chcemy przetestować następującą hipotezę złożoną: mężczyźni i kobiety zarabiają tyle samo 4( 0)B = , oraz osoby z wykształceniem średnim i wyższym zarabiają tyle

samo 5 6( )B B= , oraz zarobki osób zamieszkałych w „dużym” mieście są większe o 20% w

porównaniu z mieszkańcami wsi 9( 0,2)B = . Powyższe ograniczenia możemy zapisać w

następujący sposób:

1

09

10

0 0 0 1 0 0 0 0 0 0 0

: 0 0 0 0 1 1 0 0 0 0 0

0 0 0 0 0 0 0 0 1 0 0,2

B

HB

B

− =

lub po wymnożeniu:

4

0 5 6

9

0

: 0

0,2

B

H B B

B

=

− = =

Wprowadzamy powyższe ograniczenia do modelu wyjściowego: 2

1 2 3 5 5 7

8 10

21 2 3 5 7 8

0, 2* _

( )

0, 2

i i i i i i

i i i i

i i i i i i

stopaplac B B wiek B wiek B srednie B wyzsze B malemiasto

B sredniemiasto duzemiasto B stan cyw

B B wiek B wiek B srednie wyzsze B malemiasto B sredniemiasto

duzemiasto

ε

= + + + + + +

+ + + =

+ + + + + + +

10 _i i iB stan cyw ε+ +

Po przeniesieniu wyrażenia 0, 2 duzemiasto× na lewą stronę otrzymujemy 2

1 2 3 5 7

8 10

0, 2 ( )

_i i i i i i i

i i i

stopaplac duzemiasto B B wiek B wiek B srednie wyzsze B malemiasto

B sredniemiasto B stan cyw ε

− = + + + + + +

+ +

Definiujemy następujące zmienne:

Page 87: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

0,2i i i

i i i

y stopaplac duzemiasto

x sredni wyzsze

= − ×

= +

przy ich użyciu możemy zapisać ostateczną postać modelu: 2

1 2 3 5 7 8 10 _i i i i i i i iy B Bwiek Bwiek Bx Bmalemiasto Bsredniemiasto B stan cyw ε= + + + + + + +

Oszacowania modelu : model bez ograniczeń:

Model z ograniczeniami:

Wprowadzamy następujące oznaczenia: J = 3 (liczba ograniczeń) N = 1089 (liczba obserwacji) K = 10 (ilość szacowanych parametrów w modelu bez ograniczeń) Wyznaczamy statystykę testową:

( ) / (349,512-282,64)/385,490669

( ) /( ) 282,64/(1089 10)R Re e e e J

Fe e T K

′ ′−= = =

′ − −

Następnie odczytujemy wartość krytyczną z tablic: F(3,1079)= 2,6131511. Ponieważ wartość statystyki testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową. Podsumowanie

1. β k mierzy oczekiwaną zmianę yi jako efekt zmiany xki o jedną jednostkę, gdy

wartości pozostałych zmiennych objaśniających są niezmienione. Warunek ten zwany

jest warunkiem ceteris paribus.

2. Liniowy model regresji jest modelem liniowym względem parametrów, a nie

względem zmiennych objaśniających.

Page 88: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

3. Dla oddania efektów nieliniowych wprowadza się zmienną i zmienną do kwadratu, jak

w przykładzie „wiek” i „wiek do kwadratu”. Wówczas dla spełnienia warunku ceteris

paribus efekt takiej zmiennej jest mierzony za pomocą parametru przy zmiennej

„wiek” + dwukrotny iloczyn zmiennej „wiek” przez parametr przy zmiennej „wiek do

kwadratu”. gdyż:

∂β β

E y x

wiekwieki i

ii

( )′= +4 52

4. W modelu podwójnie logarytmicznym parametry przy zmiennych są

elastycznościami, a więc określają o ile procent zmieni się zmienna

objaśniana, jeśli zmienna objaśniająca zmieni się o jeden procent, gdy wartości

pozostałych zmiennych objaśniających modelu pozostają niezmienione.

5. Zmienne zero-jedynkowe przyjmują jedynie wartości 0 lub 1. Są stosowane dla

oddania efektów zmiennych jakościowych.

6. Gdy zmienna jakościowa ma m kategorii, to do równania wprowadza się m-1

regresorów zero-jedynkowych, pomijając dowolną kategorię zwaną kategorią

referencyjną albo kategorią bazową..

7. Niektóre wygodnie jest cechy ilościowe podzielić na przedziały i traktować jako cechy

jakościowe,. wykorzystując ideę zmiennych 0-1.

8. Dla oddania efektów interakcyjnych iloczynu dwóch lub większej liczby zmiennych

jakościowych wprowadza się tyle zmiennych zero-jedynkowych ile wynosi iloczyn

kategorii tych cech minus jeden.

9. W przypadkach jakościowej zmiennej objaśnianej stosowane są modele ligitowe lub

probitowe, omówione w rozdziale 10

10. Testowanie łącznej istotności zmiennych zero-jedynkowych przebiega analogicznie do

testowania łącznej istotność równania regresji. Wymaga oszacowania dwóch równań

regresji. Pierwszego bez restrykcji i drugiego z restrykcjami (usunięte zmienne zero-

jedynkowe) i wyznaczenia testu F postaci: F m T Km

T KR R

− − =′ − ′ −

′ −1

1,

( ) / ( )

/ ( )b g e e e e

e e

gdzie m jest liczbą kategorii cechy jakościowej, zaś K jest liczbą szacowanych

parametrów w równaniu bez restrykcji.

11. Pominięcie w równaniu regresji istotnych zmiennych objaśniających powoduje, że

estymatory MNK dla istniejących zmiennych są obciążone.

Page 89: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

12. Dodanie do równania regresji nieistotnych zmiennych objaśniających powoduje, że

estymatory równania rozszerzonego są nieobciążone i jedną ujemną cechą są nieco

większe błędy standardowe, co powoduje mniejszą efektywność rozszerzonego

równania.

13. Testowanie łącznej istotności podzbioru regresorów, którymi na przykład są pominięte

zmienne przebiega analogicznie do sprawdzania istotności zmiennych zero-

jedynkowych.

14. Przy testowaniu hipotez złożonych wykorzystywany jest test Walda, omówiony na

stronach 26-28.

Page 90: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

6. PROBLEMY DANYCH STATYSTYCZNYCH

Dotychczas przyjmowaliśmy, że dane statystyczne służące do estymacji modelu nie budzą

naszego niepokoju, że są poprawne ze względu na wymogi modelowania. Bieżący

rozdział ukazuje jednak duże zagrożenia dla budowy modeli, wynikające z niedostatków

danych statystycznych.

6.4 Współliniowość i jej konsekwencje. Wykrywanie współliniowości i środki

zaradcze

Współliniowość oznacza dokładną lub bardzo wysoką korelację między regresorami.

Dokładna korelacja jest błędem ekonometryka, który do zbioru zmiennych

objaśniających wprowadził regresor lub regresory, będące kombinacją liniową innych

regresorów. Jeśli na przykład dla wyjaśnienia mechanizmu zakupu dóbr trwałych w

gospodarstwie domowym, zgodnie z hipotezą dochodów permanentnych Miltona

Friedmana, za regresory wstawimy trzy wielkości:1. dochody, 2. dochody permanentne

(dochody trwale uzyskiwane) i 3. dochody tranzytywne (przechodnie, okazjonalne), to

z definicji suma dochodów permanentnych i tranzytywnych jest równa kategorii

dochodów, co spowoduje, że kolumny obserwacji na trzech kategoriach dochodów są

dokładnie liniowo zależne.

Typowym jednak przypadkiem współliniowości jest wysoka korelacja między

regresorami, co utrudnia, a niekiedy uniemożliwia wydzielenie indywidualnego

wpływu każdej ze zmiennych objaśniających na zmienną objaśnianą. W sytuacji

współliniowości poszczególna zmienna wywiera swój własny wpływ na zmienną

objaśnianą, jak również przenosi wpływ wszystkich innych zmiennych z nią

skorelowanych. Na przykład przy szacowaniu płacy jako funkcji wykształcenia, płci,

wieku, stażu pracy możemy oczekiwać, że wiek badanej osoby i jej staż pracy wykażą

silną dodatnią korelację.

Współliniowość nie jest więc cechą populacji, a cechą próby, w której zmienne są

zbyt silnie ze sobą powiązane liniowo.

Współliniowość wywiera negatywny wpływ na oszacowanie modelu i dlatego jest

zjawiskiem niebezpiecznym. Gdy pojawia się współliniowość to estymatory są nadal

BLUE, ale mają zbyt duże błędy standardowe, co zmniejsza precyzję oszacowania.

Page 91: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Symptomy współliniowości

Występowaniu współliniowości towarzyszą następujące objawy:

1. Współczynniki mają bardzo duże błędy standardowe i w związku z tym znaczna

liczba regresorów jest nieistotna, nawet wtedy, gdy łącznie są one istotne, a R2 jest

wysokie.

2. Współczynniki regresji mogą mieć niewłaściwe znaki i niedopuszczalną wielkość.

3. Małe zmiany w zbiorze danych statystycznych (na przykład dodanie jednej lub

kilku nowych obserwacji) mogą prowadzić do znacznych zmian oszacowań

współczynników regresji przy niektórych zmiennych.

Analogiczne zjawiska obserwujemy, gdy w próbie jest mała liczba obserwacji i mała

zmienność zmiennych objaśniających.

Wykrywanie współliniowości

Zaobserwowanie objawów występowania współliniowości skłania do sprawdzenia, czy

rzeczywiście mamy do czynienia ze współliniowością. Wykrywanie współliniowości

odbywa się za pomocą wyznaczania K − 2 regresji pomocniczych, w których

kolejno zmienną objaśnianą jest jedna z dotychczasowych zmiennych objaśniających

na przykład - xk , zaś zmiennymi objaśniającymi są pozostałe regresory wyjściowego

równania regresji. Współczynnik determinacji z regresji pomocniczej dla k tej−

zmiennej objaśniającej, pełniącej w równaniu pomocniczym rolę zmiennej objaśnianej

oznaczmy przez Rk2 .Wówczas statystyką testującą jest

(6.1) FR K

R n Kn KK k

k( ( )

/ ( )

( ) / ( ( ))− −− =

− − −2

22

2

2

1 2 o liczbie stopni swobody K − 2 i

n K− −( )2 .

Jest to znana już nam postać statystyki testującej łączną istotność równania regresji.

Duże wartości tej statystyki, większe od wartości krytycznej, wskazują na silne

skorelowanie k tej− zmiennej objaśniającej z pozostałymi regresorami.

Zamiast przeprowadzać kłopotliwe testowanie statystyki F , dla każdego k , gdzie

k K= 2 3, , , ; (gdyż pomijamy stałą), proponuje się „regułę kciuka”, sprowadzającą

się do porównania Rk2 z k tej− regresji pomocniczej z R2 dla równania wyjściowego.

Page 92: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Jeśli R Rk2 2> , uznajemy, że k ta− zmienna jest zbyt silnie skorelowana z pozostałymi

regresorami i może się stać kandydatką do usunięcia z wyjściowego równania regresji.

Innym proponowanym wskaźnikiem współliniowości jest statystyka zwana

czynnikiem powiększenia wariancji (Variance Inflation Factor), oznaczana skrótem

VIFk , która mierzy przyrost wariancji bk (a więc i błędu standardowego), wywołany

skorelowaniem k tej− zmiennej objaśniającej z pozostałymi regresorami. Czynnik ten

zdefiniowany jest następująco:

(6.2) VIFRk

k

=−

1

1 2 .

Jeśli VIFk > 10 , to k ta− zmienną należy traktować jako ważny czynnik sprawczy

współliniowości. Wygodną statystyką jest łączna statystyka współliniowości

(6.3) k

K

kVIF

K=

∑−

2

2.

Jeśli wielkość ta znacznie przekracza 1 , to wskazuje to na wysoką współliniowość i

konieczność jej usuwania.

Środki zaradcze

W literaturze proponuje się szereg działań, mających na celu usunięcie lub jedynie

złagodzenie negatywnych skutków współliniowości. Wszystkie z nich są jednak mało

doskonałe. Opuszczenie zmiennej, zgodnie z VIFk lub „regułą kciuka” sprowadza się w

zasadzie do wymuszania, aby teoria ekonomii dopasowała się do złych danych. Wiemy,

że usunięcie ważnej z punktu widzenia teorii zmiennej prowadzi do obciążenia

pozostałych estymatorów. Ten środek zaradczy może być niekiedy gorszy od samej

choroby. Proponuje się również szacowanie modelu na pierwszych różnicach

wyjściowych zmiennych, wychodząc z założenia, że będą one słabiej skorelowane

między sobą niż pierwotne zmienne. Inną propozycją jest wprowadzenie w charakterze

dodatkowych regresorów, oprócz zmiennych pierwotnych, również kwadratów

zmiennych pierwotnych, oczekując, że zmniejszy to negatywny efekt współliniowości.

Oprócz proponowanych w literaturze również innych działań (jak np. zastosowanie

regresji grzbietowej), najlepszym środkiem, (o ile jest to możliwe) jest rozszerzenie

zbioru pierwotnych obserwacji o obserwacje dodatkowe, które złagodzą niepożądane

skutki współliniowości.

Page 93: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Podkreślmy jeszcze raz, że współliniowość nie jest cechą populacji, a wyraźną

niedomogą zbyt ubogiej zmienności zmiennych objaśniających i ich znacznego

skorelowania w próbie.

Przykład 6.1.: Badamy zależność między zgonami niemowląt – zmienna

„Niemowl”(na 1000 urodzeń żywych) a PKB - zmienna „PKB” (na mieszkańca ), stopą

bezrobocia – zmienna „Bezrob” i udziałem żywności w spożyciu indywidualnym w

sektorze gospodarstw domowych w krajach Unii Europejskiej w 2004 roku *

* Dane z publikacji GUS: Polska w Unii Europejskiej 2006. Tablica 6.1.

Tablica 6.1.

Zgony niemowląt (na 1000 urodzeń żywych) , PKB (na mieszkańca w PPP w euro), stopa

bezrobocia i udział żywności w spożyciu indywidualnym w sektorze gospodarstw

domowych w krajach Unii Europejskiej w 2004 roku.

Kraj Niemowl PKB Bezrob Spo

Austria 9,1 28900 5,2 10,6

Belgia 9,8 27600 8,4 13,6

Cypr 7 19500 5,3 16,4

Dania 10,3 29100 4,8 11,4

Estonia 13,2 13400 7,9 20,5

Finlandia 9,1 26200 8,4 12,5

Francja 8,4 25500 9,5 14,1

Grecja 9,4 19200 9,8 15

Hiszpania 8,7 23100 9,2 16

Irlandia 6,9 32100 4,3 9,3

Litwa 12 12200 8,3 29,7

Luksemburg 7,9 58000 4,5 9,7

Łotwa 13,8 11000 8,9 22,2

Malta 7,2 16200 7,3 17,3

Niderlandy 8,4 28900 4,7 11

Niemcy 9,9 25700 9,5 11,7

Polska 9,5 11700 17,7 19,2

Portugalia 9,7 16700 7,6 17

Rep. Czeska 10,5 17100 7,9 17,2

Słowacja 9,6 12900 16,3 19,7

Słowenia 9,3 18700 6,5 15,8

Szwecja 10,1 26900 7,8 12,3

Węgry 13,1 14300 7,2 17,7

W. Brytania 9,7 27000 4,7 8,9

Włochy 9,4 24100 7,7 14,5

Oszacowanie modelu za pomocą MNK przedstawia poniższy wydruk.

Page 94: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Model 1: Estymacja KMNK z wykorzystaniem 25 obserwacji 1-25 Zmienna zależna: Niemowl

Zmienna Współczynnik Błąd stand. Statystyka t wartość p

const 8,62847 2,72757 3,1634 0,004684 *** PKB -4,19039e-05 5,10776e-05 -0,8204 0,421205 Bezrob -0,0857566 0,1164 -0,7367 0,469432 Spo 0,175073 0,102611 1,7062 0,102721

Srednia arytmetyczna zmiennej zależnej = 9,68 Odchylenie standardowe zmiennej zależnej = 1,79374 Suma kwadratów reszt = 50,7446 Błąd standardowy reszt = 1,55448 Wsp. determinacji R2 = 0,342856 Skorygowany R2 = 0,248978 Statystyka F (3, 21) = 3,65216 (wartość p = 0,0291) Logarytm wiarygodności = -44,3226 Kryterium informacyjne Akaika = 96,6452 Kryterium bayesowskie Schwarza = 101,521

Wnosimy, że żadna ze zmiennych objaśniających nie jest istotna, chociaż

zwroty przy współczynnikach są zgodne z oczekiwaniami, zaś współczynnik

determinacji R2 = 0,342856 należy uznać, jak dla próby przekrojowej, za dostatecznie

wysoki. Można podejrzewać występowanie współliniowości. Policzmy współczynniki

determinacji w równaniach pomocniczych oraz czynniki powiększenia wariancji VIFk

dla każdej zmiennej objaśniającej zgodnie ze wzorem (6.2). Otrzymamy:

Rownanie wyjsciowe R

R VIF

R VIF

R VIF

PKB PKB

Bezr Bezr

Spo Spo

: ,

, ,

, ,

, ,

2

2

2

2

0 342856

0 699542 3 328252

0 287029 1 402582

0 57001 2 325635

=

= =

= =

= =

Z powyższego wynika, że zarówno równania pomocnicze dla PKB , jak i dla Spożycia

mają współczynniki determinacji wyższe od tego dla równania wyjściowego i

zgodnie z „Regułą kciuka” te obydwie zmienne mogłyby być usunięte.

Jeśli policzymy dodatkowo łączną statystykę współliniowości zgodnie ze wzorem

(6.3)

to otrzymamy:

VIF

K

kk=2

4

∑=

+ +=

3 328252 1 402582 2 325635

32 352156

, , ,,

Jest to liczba dużo większa od 1 , co wskazuje na współliniowość.

Page 95: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Sens ekonomiczno-społeczny szacowanego równania wyjściowego wskazuje jednak, że

PKB jako ogólny wskaźnik rozwoju ekonomicznego, i co za tym idzie, rozwoju

społecznego, jest zmienną o większym znaczeniu dla wyjaśnienia zjawiska zgonów

niemowląt niż udział wydatków żywnościowych w dochodach ludności. Usuńmy zatem

z równania wyjściowego zmienną „Spo”. Otrzymamy:

Model 2: Estymacja KMNK z wykorzystaniem 25 obserwacji 1-25

Zmienna zależna: Niemowl

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 12,4184 1,65024 7,5252 < 0,00001 *** PKB -0,000100285 3,95351e-05 -2,5366 0,018798 ** Bezrob -0,0586655 0,120216 -0,4880 0,630378

Srednia arytmetyczna zmiennej zależnej = 9,68 Odchylenie standardowe zmiennej zależnej = 1,79374 Suma kwadratów reszt = 57,779 Błąd standardowy reszt = 1,62059 Wsp. determinacji R2 = 0,251761 Skorygowany R2 = 0,18374 Statystyka F (2, 22) = 3,70119 (wartość p = 0,0412) Logarytm wiarygodności = -45,9453 Kryterium informacyjne Akaika = 97,8907 Kryterium bayesowskie Schwarza = 101,547

W równaniu tym stopa bezrobocia jest zmienną statystycznie nieistotną i ma

niedopuszczalny znak współczynnika. Należy tę zmienną usunąć z równania regresji.

Otrzymamy:

Model 3: Estymacja KMNK z wykorzystaniem 25 obserwacji 1-25

Zmienna zależna: Niemowl

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 11,722 0,815062 14,3817 < 0,00001 *** PKB -9,01949e-05 3,31347e-05 -2,7221 0,012154 **

Wsp. determinacji R2 = 0,243662 Skorygowany R2 = 0,210777

Skorygowany współczynnik determinacji tego równania jest wyższy niż w

poprzednim przypadku i wynosi: Skorygowany R2 = 0,210777, zaś poprzednio:

Skorygowany R2 = 0,18374.

Końcowym zatem równaniem, w którym przezwyciężyliśmy negatywny efekt

współliniowości jest regresja opisana przez model 3.

Page 96: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

6.5 Obserwacje opuszczone

Obserwacje opuszczone (missing observations) oznaczają sytuacje braku obserwacji. Można wyróżnić dwa powody tej sytuacji:

1. Brak danych lub wystąpienie tak zwanych danych niekompletnych (brak niektórych

informacji) z niewiadomych dla badacza przyczyn.

2. Z powodów samoankietowania lub samoselekcji dane nie zostały podane przez

ankietowanego (np. niechęć ujawnienia wielkości dochodów).

Nic nie wiadomo o własnościach estymatorów opartych na danych zawierających luki

w obserwacjach. Wiadomo natomiast, że zastępowanie brakujących informacji średnią

arytmetyczną lub w przypadku szeregów czasowych, średnią ruchomą - prowadzi do

obciążenia estymatorów i zabiegi takie nie są zalecane.

6.3. Wykrywanie nietypowych wartości zmiennej objaśnianej i nietypowych

wartości zmiennych objaśniających (obserwacje znaczące)

Tak zwane obserwacje nietypowe pojawiające się w próbie, zniekształcają efekty

oszacowania modelu i dlatego ich badanie jest sprawą ważną.

Można wyróżnić dwa rodzaje obserwacji nietypowych:

Pierwszy ich rodzaj zwany nietypowymi obserwacjami zmiennej objaśnianej

(outliers) charakteryzuje się nieoczekiwanie dużymi resztami e y yi i i= − . Ilustruje to

poniższy rysunek 6.1.

y

x

Rys. 6.1 Przypadek dwóch nietypowych obserwacji zmiennej objaśnianej (duże reszty)

Page 97: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Drugi rodzaj, to tak zwane nietypowe obserwacje zmiennych objaśniających lub

punkty dźwigniowe (leverage points).

y y b b xi i= ′ + ′1 2

y b b xi i= +1 2

x

Rys. 6.2. Przypadek punktu dźwigniowego

Cechą charakterystyczną punktów dźwigniowych jest ich znaczne oddalenie od środka

zmienności zmiennych objaśniających, co istotnie wpływa na wyznaczone oceny

parametrów przy jednocześnie małej wielkości reszty, jak na Rys.6.2 . Brak ostatniej

„dźwigniowej obserwacji” zmienia znacząco równanie regresji, i zamiast ′b1 oraz ′b2

otrzymujemy b1 oraz b2 . Wskazuje to na fakt, że jeśli opuścimy obserwację

dźwigniową, to uzyskamy inny model. Rodzi się pytanie, który z tych dwóch modeli

jest zgodny z danymi? Odpowiedź wymaga głębszego wniknięcia w powody

wystąpienia nietypowości obserwacji dźwigniowych. Może się bowiem okazać, że

obserwacja dźwigniowa jest po prostu błędem w zapisie danych, ale może być również

wywołana bliżej nierozpoznanymi przyczynami, które wymagają wnikliwszej analizy.

O wystąpieniu jednego z dwóch zjawisk nietypowości informuje wykres reszt ei dla

kolejnych obserwacji oraz wykres wartości wyliczonych yi . Na podstawie tych

wykresów łatwo odnajdziemy obydwa rodzaje obserwacji znaczących. Formalnymi

statystykami ukazującymi obserwacje nietypowe i dźwigniowe łącznie jest indeks

zwany DFITSi , który jest liczony w ekonometrycznie bardziej zaawansowanych

pakietach. Czytelników zainteresowanych tą statystyką odsyłam do podręcznika

pakietu ekonometrycznego STATA 9.

Page 98: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Podsumowanie

1. Typowym przypadkiem współliniowości jest wysoka korelacja między

regresorami, co utrudnia, a niekiedy uniemożliwia wydzielenie

indywidualnego wpływu każdej ze zmiennych objaśniających na zmienną

objaśnianą. Przy współliniowości estymatory są nadal nieobciążone, ale mają

zbyt duże błędy standardowe, co zmniejsza precyzję oszacowania.

2. objawy współliniowości: współczynniki mają bardzo duże błędy

standardowe i w związku z tym znaczna liczba regresorów jest nieistotna,

nawet wtedy, gdy łącznie są one istotne, a R2 jest wysokie. Współczynniki

regresji mogą mieć niewłaściwe znaki i niedopuszczalną wielkość. Małe

zmiany w zbiorze danych statystycznych (na przykład dodanie jednej lub

kilku nowych obserwacji) mogą prowadzić do znacznych zmian oszacowań

współczynników regresji przy niektórych zmiennych.

3. Wykrywanie współliniowości odbywa się za pomocą wyznaczania K − 2

regresji pomocniczych, w których kolejno zmienną objaśnianą jest jedna z

dotychczasowych zmiennych objaśniających na przykład - xk , zaś

zmiennymi objaśniającymi są pozostałe regresory wyjściowego równania

regresji.

4. miarą współliniowości jest statystyka zwana czynnikiem powiększenia

wariancji (Variance Inflation Factor).

5. Środki zaradcze są jednak mało doskonałe: opuszczenie zmiennej

wywołującej współliniowość, szacowanie modelu na pierwszych różnicach

wyjściowych zmiennych, wprowadzenie w charakterze dodatkowych

regresorów obok zmiennych pierwotnych, również kwadratów zmiennych

pierwotnych. Środek najlepszy (o ile jest to możliwe) to rozszerzenie zbioru

pierwotnych obserwacji o obserwacje dodatkowe.

6. Nic nie wiadomo o własnościach estymatorów opartych na danych

zawierających luki w obserwacjach.

7. Wykrywanie nietypowych wartości zmiennej objaśnianej i nietypowych

wartości zmiennych objaśniających jest ważne, gdyż obecność takich

obserwacji prowadzi do zniekształceń oszacowania modelu.

Page 99: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

7. PROGNOZOWANIE NA PODSTAWIE KMRL

7.1 Prognoza i błąd standardowy prognozy

Oszacowany na podstawie szeregów czasowych model może być wykorzystany dla celów prognozowania (predykcji).

Predykcją ekonometryczną nazywamy wnioskowanie w przyszłość na podstawie

modelu ekonometrycznego.

Niech poniższa linia oznacza oś czasu, na której jest zaznaczony przedział próby dla

t T= 1 2, , ; oraz przyszły w stosunku do przedziału próby moment czasu, na który

wyznaczana jest prognoza, zwany okresem prognozy T + S.

Oś czasu

t = 1, . . . , T; T + S

przedział próby okres prognozy

Dla podkreślenia , że obserwacje w modelu dotyczą kolejnych jednostek czasu, zamiast

indeksu i n= 1 2, , ; wprowadzamy indeks t T= 1 2, , ; . t ta− obserwacja na zmiennej

objaśnianej jest równa:

(7.1) yt t t= ′ +x β ε ,

gdzie ′xt jest wektorem wierszowym t tej− obserwacji na kolejnych zmiennych

objaśniających, a więc ′ =xt t t Ktx x x1 2 3, , , , . Przyjmijmy, że prawidłowość opisana

równaniem regresji w próbie obowiązuje również w okresie prognozy, a więc

(7.2) yT S T S T S+ + += ′ +x β ε ,

gdzie ′ +xT S jest wektorem wierszowym wartości, jakie przyjmują zmienne objaśniające w

okresie prognozowanym: ′ =+ + + +xT S T S T S K T Sx x x1 2 3, , , ,, , , . Wielkość yT S+ nazwiemy

pojedynczą realizacją zmiennej prognozowanej.

Przyjmijmy również, że zaburzenie losowe w okresie prognozy ε T S+ ma te same

własności, co zaburzenia w próbie, a więc wartość oczekiwaną wynoszącą 0

E T S( )ε + = 0 , stałą wariancję var( ) var( )ε ε σT S t+ = = 2 i że jest nieskorelowane z

zaburzeniami z próby cov( , )ε εt T S+ = 0 . Wówczas możemy wykorzystać oszacowany

model z okresu próby yt t= ′x b dla prognozowania poza próbę.

Prognozą nazywamy wartość wyliczoną z modelu regresji:

(7.3) yT S T S+ += ′x b ,

Page 100: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

gdzie b zostało oszacowane z próby, zaś zmienne objaśniające dotyczące okresu prognozy

przyjmują wartości ′ +xT S : ′ =+ + + +xT S T S T S K T Sx x x1 2 3, , , ,, , , .

Błąd jaki popełniamy przyjmując prognozę yT S+ zamiast pojedynczej wartości zmiennej

prognozowanej yT S+ wynosi: y yT S T S+ +− . Jest to tak zwany błąd prognozy.

Podstawiając za yT S+ prawą stronę równania (7.2), a za yT S+ prawą stronę równania (7.3)

dostaniemy:

(7.4) y yT S T S T S T S+ + + +− = ′ − + ( )x bβ ε .

Równanie to ukazuje dwa źródła błędu prognozy. Pierwsze źródło bierze się stąd, że

zamiast nieznanego wektora parametrów β przyjmujemy w prognozie wektor ocen b,

zaś drugim źródłem błędu jest fakt, że w okresie prognozowanym zrealizuje się nieznane

zaburzenie losowe ε T S+ , które wywrze wpływ na wartość zmiennej prognozowanej yT S+ .

Zauważmy, że wartość oczekiwana tego błędu jest zero. Mamy bowiem:

(7.5) E y y E ET S T S T S T S

T S

( ) ( ) ( )+ + + +

+

− = ′ − +

= ′ × + =

x b

x

β ε

0 0 0,

gdyż pierwszy składnik prawej strony równania znika na skutek tego, że b jest

nieobciążonym estymatorem β , a drugi też wynosi zero z założenia, że wartość

oczekiwana zaburzeń losowych jest zero. Możemy przeto powiedzieć, że prognoza jest

dobrym estymatorem dla wartości zmiennej prognozowanej.

Zauważmy ponadto, że wariancja błędu prognozy, którą oznaczymy przez σ yT S+

2 wyniesie:

(7.6)

σ β ε

β σ

σ σ

σ

var( ) var[ ( )] var( )

var( )

( ) ( . )

[ ( ) ]

y T S T S T S T S

T S T S

T S T S

T S T S

T Sy y

z B

+= − = ′ − +

= ′ − +

= ′ ′ +

= + ′ ′

+ + + +

+ +

+−

+

+−

+

2

2

2 1 2

2 1

13

1

x b

x b x

x X X x

x X X x

.

Podstawmy do (7.6) za nieznaną wariancję σ 2 jej nieobciążony estymator z próby σ 2 i

weźmy pierwiastek kwadratowy z tego wyrażenia. Otrzymamy tak zwany standardowy

błąd prognozy którego nie można mylić z błędem prognozy zdefiniowanym przez (7.4)).

Zgodnie z (7.6) standardowy błąd prognozy wyniesie:

(7.7) [ ( ) ] σ σ σy y T S T ST S T S+ += = + ′ ′+

−+

2 2 11 x X X x .

Page 101: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Znając standardowy błąd prognozy możemy wyznaczyć przedział prognozy, który jest

przedziałem ufności dla wartości yT S+ . Jest on wyznaczony analogicznie do przedziału

ufności dla pojedynczego parametru β k (4.16):

(7.8) P y t y y tT S n k y T S T S n k yT S T S( ); ; + − + + −− ≤ ≤ + = −

+ +α ασ σ α2 2 1

W rozważaniach nad prognozowaniem zakładamy, że wektor wartości, jakie przyjmują

zmienne objaśniające w okresie prognozowanym: ′ =+ + + +xT S T S T S K T Sx x x1 2 3, , , ,, , , jest

znany badaczowi. Dla wyznaczenia prognozy znajomość tego wektora jest niezbędna.

Należy więc podjąć wysiłki dla jego wyznaczenia. Niekiedy wartości te możemy poznać z

założeń planu gospodarczego, niekiedy z innych oszacowań, z ekstrapolacji trendów dla

tych zmiennych, lub gdy zmiennymi objaśniającymi są opóźnione wielkości ekonomiczne

możemy je obserwować z ich realizacji. Dobór wartości zmiennych objaśniających dla

okresu prognozy jest niewątpliwie najtrudniejszym fragmentem prognozowania

ekonometrycznego.

7.2. Wykorzystanie modelu dla celów symulacji Modele ekonometryczne są w praktyce coraz częściej wykorzystywane dla celów symulacji. W takich sytuacjach do zbioru zmiennych objaśniających, w zależności od przeznaczenia modelu, wstawiane są regresory opisujące różne warianty decyzji polityki ekonomicznej, społecznej, fiskalnej itp. Nadając tym zmiennym pożądane przez decydentów wartości, można za pomocą oszacowanego modelu ekonometrycznego oceniać efekty proponowanych wariantów polityki. Na przykład na podstawie modelu podatków od dochodów osobistych ludności, można wyznaczać oczekiwane wielkości podatków przy różnych progach podatkowych, stawkach podatku, czy różnych formach ulg podatkowych.

Podsumowanie 1. Predykcją ekonometryczną nazywamy wnioskowanie w przyszłość na podstawie

modelu ekonometrycznego.

2. Standardowy błąd prognozy jest średnim błędem o który różni się prognoza

yt t= ′x b od pojedynczej realizacji zmiennej prognozowanej yT S T S T S+ + += ′ +x β ε .

3. Przedział prognozy jest przedziałem ufności dla pojedynczej realizacji zmiennej

prognozowanej yT S+ . Jest on wyznaczony analogicznie do przedziału ufności dla

pojedynczego parametru β k .

Page 102: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

CZĘŚĆ II ZŁAGODZENIE ZAŁOŻEŃ MODELU KLASYCZNEGO 8. UOGÓLNIONA METODA NAJMNIEJSZYCH KWADRATÓW (UMNK) Uogólniona metoda najmniejszych kwadratów zwana jest w języku angielskim Generalised Least Squares (GLS)

8.1 Heteroskedastyczność i autokorelacja zaburzeń losowych w KMRL W licznych praktycznych zastosowaniach modelowania ekonometrycznego nie jest spełnione

założenie 5 KMRL o sferyczności zaburzeń, a więc o tym, że warunkowa macierz wariancji-

kowariancji wektora zaburzeń ε przy danej macierzy X ma postać:

(8.1) Var E Var E( ) ( ) ( ) ( )ε εε ε εε σX X I= ′ = = ′ = 2 .

Przypomnijmy sobie, że założenie sferyczności zaburzeń oznacza:

Po pierwsze, wariacje kolejnych zaburzeń (elementy stanowiące diagonalną macierzy

jednostkowej I) są takie same dla wszystkich obserwacji. Sytuację tę nazywamy

homoskedastycznością zaburzeń, lub jednorodnością zaburzeń. Wariancje ε i mogą się

jednak zmieniać wraz z numerem obserwacji i sytuację tę nazywamy

heteroskedastycznością, lub niejednorodnością zaburzeń.

Po drugie, elementy pozadiagonalne, które są kowariancjami zaburzeń dla różnych obserwacji

są równe zero, a więc zaburzenia są ze sobą nieskorelowane. Sytuację tę nazywamy brakiem

autokorelacji zaburzeń.

Niespełnienie założenia o homoskedastyczności lub braku autokorelcji powoduje, że

estymatory MNK są nadal nieobciążone i zgodne, ale przestają być estymatorami

najbardziej efektywnymi, co oznacza, że ich błędy standardowe nie są najmniejsze z

możliwych.

Zanim podamy ekonomiczne przykłady ilustrujące takie sytuacje, zauważmy, że na ogół

heteroskedastyczność występuje w modelach szacowanych na podstawie danych

przekrojowych, zaś autokorelacja – w modelach opartych na szeregach czasowych.

Przykłady heteroskedastyczności i autokorelacji.

Zacznijmy od przypadku heteroskedastyczności. Przyjmijmy, że chcemy określić regresję

wydatków żywnościowych na jednostkę konsumpcyjną w gospodarstwach domowych w

zależności od dochodów osobistych, liczonych również na jednostkę konsumpcyjną.

Podzielmy gospodarstwa na pewną liczbę grup dochodowych według rosnącego dochodu i w

każdej grupie wyznaczmy średnie wydatki żywnościowe i wariancję tych wydatków wokół

średniej. Zauważymy, że wariancja ta wzrasta wraz z przechodzeniem od niskich do

Page 103: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

wysokich grup dochodowych. Oznacza to, że mamy do czynienia z heteroskedastycznością

zaburzeń. Powód wzrostu wariancji jest oczywisty. Gospodarstwa z dolnego krańca rozkładu

dochodów są gospodarstwami biednymi, które wydają na żywność około 70 % swoich

dochodów. W rodzinach tych ograniczenie dochodowe jest niezwykle dotkliwe, a presja

niezaspokojonych potrzeb i to nie tylko żywnościowych, nadzwyczaj silna. Muszą się one

zachowywać w podobny sposób, a więc kupować najtańszą żywność, aby sprostać

dotkliwemu ograniczeniu budżetowemu. W gospodarstwach tych wariancja wydatków wokół

średniej jest względnie mała w porównaniu z gospodarstwami o wzrastającej zamożności.

Gospodarstwa o najwyższych dochodach wydają na żywność zaledwie kilka procent dochodu

i tu łatwiej o zróżnicowanie wydatków wokół średniej ze względu na czynniki

pozaekonomiczne, takie jak upodobania, przyzwyczajenia, styl odżywiania itp. Wariancja

wydatków jest dlatego znacznie wyższa niż w przypadkach rodzin mniej zamożnych.

Możemy przeto stwierdzić, że w prezentowanym przykładzie modelu regresyjnego występuje

heteroskedastyczność zaburzeń losowych.

Sytuacja autokorelacji zaburzeń losowych jest typowa przy szacowaniu modeli na podstawie

szeregów czasowych, gdzie zaburzenie z jednego okresu czasu jest często skorelowane z

zaburzeniem z okresu wcześniejszego. Zapiszemy to jako E t t( )ε ε − ≠1 0 . Powodem

skorelowania zaburzeń jest inercja zjawisk ekonomicznych. Takie zmienne jak PKB,

zatrudnienie, inflacja wykazują powolne procesy wzrostu lub spadku, trwające dłużej niż

jeden okres czasu.

Przykładem modelu z autokorelacją zaburzeń jest model wzrostu produkcji zwierzęcej

wyjaśnianej przez wielkości nakładów kapitałowych, zużycia pasz, struktury rasowej bydła

itp. Zaburzenia pogodowe w roku nieurodzaju lub zmiany w regulacjach ekonomicznych

mogą wywierać wpływ na produkcję zwierzęcą przez kilka najbliższych lat. Oznacza to

skorelowanie zaburzenia losowego w określonym roku z zaburzeniami w latach następnych,

aż do czasu ustabilizowania się produkcji na pożądanym poziomie.

Zauważmy w związku z tym, że sytuacje niesferyczności są zjawiskami częstymi i raczej

typowymi dla modelowania ekonometrycznego. Pytanie zatem brzmi: nie czy występuje

heteroskedastyczność lub autokorelacja, ale jak silna jest heteroskedastyczność czy

autokorelacja? Przy nieznacznej heteroskedastyczności lub autokorelacji utrata efektywności

oszacowań jest nieznaczna, ale przy sinych procesach tych zjawisk może istotnie podwyższać

błędy standardowe estymatorów, pogarszając tym samym efektywność oszacowań.

Page 104: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

8.2. Estymatory uogólnionej metody najmniejszych kwadratów (UMNK)

Rozważania nad uogólnioną metodą najmniejszych kwadratów zwaną również od

nazwiska jej autora metodą Aitkena rozpoczniemy od uchylenia dotychczasowego założenia

MNK o sferyczności zaburzeń (8.1.) i przyjmijmy założenie bardziej ogólne

(8.2) Var E Var E( ) ( ) ( ) ( )ε εε ε εε σX X= ′ = = ′ = 2Ω , gdzie o macierzy Ω zakładamy, że może mieć elementy diagonalne różne, a więc dopuszczamy heteroskedastyczność , oraz może mieć elementy pozadiagonalne różne od zera, a więc dopuszczamy autokorelację zaburzeń losowych. Macierz Ω jako macierz wariancji-kowariancji wektora losowego jest z definicji macierzą dodatnio określoną, co oznacza, że ma wyznacznik dodatni i jest macierzą odwracalną. Dla rozważań teoretycznych przyjmijmy, że macierz Ω jest znana. Oczywiście w praktycznych zastosowaniach macierz tę będziemy musieli oszacować. Z algebry macierzy wiemy, że dla macierzy dodatnio określonej istnieje taka macierz dolnotrójkątna P, że (8.3) ′ = ′ =−P P P P IΩ Ω1 oraz .

Istnienie takiej macierzy jest kluczem do wyznaczenia estymatorów UMNK.

Przyjmijmy dla rozważań teoretycznych, że macierz Ω jest znana, a więc można wyznaczyć

dla niej macierz P. Jeśli teraz przemnożymy lewostronnie równanie regresji y X= +β ε , w

którym zaburzenia są niesferyczne, (a więc dla którego zachodzi var( )ε σ= 2Ω ) przez P to

otrzymamy:

(8.4) Py PX P= +β ε ,

gdzie wektor zaburzeń spełnia założenie klasycznego modelu regresji, gdyż wariancja tego

zaburzenia jest równa

(8.5) var( ) var( )P P P P P Iε ε σ σ= ′ = ′ =2 2Ω .

Oznacza to, że model uogólnionej metody najmniejszych kwadratów można sprowadzić

poprzez lewostronne przemnożenie przez macierz P do modelu klasycznej metody

najmniejszych kwadratów.

Stąd już krok do wyznaczenia estymatora uogólnionej metody najmniejszych kwadratów.

Jak wiemy, estymator MNK ma postać b X X X y= ′ ′−( ) 1 . Jeśli w tym wzorze zastąpimy y

przez Py, X przez PX oraz ε przez Pε , to otrzymamy estymator UMNK, który dla

odróżnienia oznaczmy przez ~b :

(8.6) ~[( ) ( )] ( ) ( )b PX PX PX Py X X X y= ′ ′ = ′ ′− − − −1 1 1 1Ω Ω .

Drogą analogicznych podstawień uzyskamy inne statystyki w UMNK.

Page 105: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Jeśli w MNK var( ) ( )b X X= ′ −σ 2 1 , to w UMNK przyjmie ona postać

(8.7) var(~

) ( )b X X= ′ − −σ 2 1 1Ω .

Oznaczmy reszty w UMNK przez ~ ~e y Xb= − . Wtedy podobnie do wariancji resztowej w

MNK σ 2 =′

e en K

otrzymamy:

(8.8) ~~ ~

σ 21

=′

−e eΩ

n K.

Sensowne jest pytanie o konsekwencje zastosowania MNK w sytuacji, gdy powinna być

użyta UMNK, a więc gdy macierz wariancji-kowariancji powinna mieć postać var( )ε σ= 2Ω

zamiast var( )ε σ= 2I .

Oczywiste jest, że estymator MNK jest nadal nieobciążony, gdyż do dowodu nieobciążoności

niepotrzebna jest informacja o postaci macierzy wariancji-kowariancji zaburzeń losowych. W

rozdziale 4 dowodząc twierdzenia Gaussa-Markowa pokazaliśmy, że

b X X X y X X X X X X X= ′ ′ = ′ ′ + = + ′ ′− − −( ) ( ) ( ) ( )1 1 1β ε β ε ,

a biorąc wartość oczekiwaną b otrzymaliśmy:

(8.9) E E( ) ( ) ( )b X X X= + ′ ′ =−β ε β1 , co oznacza nieobciążoność estymatora b .

Jednak macierz wariancji-kowariancji estymatora MNK przy założeniu UMNK (8.2) wynosi:

(8.10) var( ) [( )( ) ] [( ) ( ) ]

( ) ( ) ( )

b b b X X X X X X

X X X X X X

= − − ′ = ′ ′ ′ ′

= ′ ′ ′

− −

− −

E Eβ β εε

σ

1 1

1 2 1Ω

i jest obciążona, gdyż jak przedstawiliśmy powyżej w (8.7) dla UMNK nieobciążona macierz

wariancji-kowariancji wynosi var(~

) ( )b X X= ′ − −σ 2 1 1Ω .

A więc

(8.11) var( ) ( ) ( ) ( ) var(~

) ( )b X X X X X X b X X= ′ ′ ′ ≠ = ′− − − −1 2 1 2 1 1σ σΩ Ω .

Ponadto wariancja resztowa σ 2 =′

e e

n Kjest obciążona, o nieznanym kierunku obciążenia w

przypadku heteroscedastyczności i jest niedoszacowana - w przypadku autokorelacji.

W konsekwencji testy hipotez oparte na statystykach t Studenta− i F są niepoprawne, co

prowadzi do błędnych wniosków wyprowadzanych na ich podstawie. Z tego powodu należy

Page 106: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

zawsze rozpoznać, czy nie mamy do czynienia z przypadkiem heteroscedastyczności lub

autokorelacji i jeśli tak, to należy zastosować UMNK zamiast MNK.

Temu zadaniu służą testy statystyczne na heteroskedastyczność i na autokorelację. Zwykle

rozgraniczamy te dwa przypadki i oddzielnie przeprowadzamy test heteroscedastyczności,

gdy model oparty jest na danych przekrojowych i oddzielnie na autokorelację, gdy model

zbudowany jest na szeregach czasowych. Z tego powodu testy te omówimy oddzielnie.

8.3.Testowanie heteroskedastyczności: testy Goldfelda-Quandta, Breuscha-Pagana oraz

White‘a

Przy badaniu heteroscedastyczności wykorzystywane są trzy podstawowe testy. Kolejność ich

prezentacji nie jest przypadkowa. Ich stosowanie zależy od stopnia złożoności

heteroskedastyczności, co z kolei wyznacza ich moc, a więc zdolność do odrzucania hipotezy

o homoskedastyczności, gdy jest ona fałszywa. Ta ogólna uwaga stanie się zrozumiała w

trakcie dalszych wywodów.

Test Goldfelda-Quandta jest stosowany w przypadkach, gdy znamy cechę wywołującą

heteroskedastyczność. Najczęściej cecha ta jest reprezentowana przez jedną ze zmiennych

objaśniających równania regresji. W przypadkach badań zachowań konsumpcyjnych jest nią z

reguły dochód, którego wzrost wywołuje powiększanie się wariancji zaburzeń prawie

wszystkich rodzajów wydatków konsumpcyjnych, rejestrowanych w budżetach gospodarstw

domowych.

Użycie tego testu sprowadza się do wykonania następujących kroków:

1. Przenumerowujemy obserwacje według rosnących wartości cechy, wywołującej

heteroskedastyczność (np. według rosnącego dochodu).

2. Opuszczamy c środkowych obserwacji, gdzie c dobrane jest tak, że c n≈ 5 oraz n c−

jest parzyste. (Opuszczenie c środkowych obserwacji zwiększa moc testu, a więc zdolność

testu do wykrycia homoskedastyczności, gdy ona rzeczywiście występuje). W ten sposób

uzyskujemy dwie podpróby; nazwijmy je 1 i 2 o jednakowych liczebnościach n c−

2 każda.

3. Oddzielnie oszacowujemy dwa równania regresji dla pierwszej i drugiej części próby i

wyznaczamy dwie wariancje resztowe, oznaczone odpowiednio subskryptami 1 i 2 dla

pierwszej i drugiej części próby: σ 12 1 1

2

=′

−−

e en c

Koraz σ 2

2 2 2

2

=′

−−

e en c

K.

Page 107: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

4. Stawiamy hipotezę zerową H0 22

12:σ σ= (występuje homoskedastyczność) wobec

hipotezy alternatywnej H1 22

12:σ σ≠ (występuje heteroskedastyczność).

5. Wyznaczamy statystykę Fn c

Kn c

K

n cK

n cK

( , )

−−

−− =

−−

FHG

IKJ

−−

FHG

IKJ

2 22

2

22

12

σ

σ

, gdzie liczby

przy statystyce F są liczbami stopni swobody odpowiednio licznika i mianownika.

6. Weryfikujemy hipotezę zerową: jeśli F Fobl krytyczne. > (gdzie Fobl. oznacza wyliczoną

wartość statystyki, zaś Fkrytyczne wartość tablicową), to odrzucamy hipotezę zerową o

homoskedastyczności i przyjmujemy hipotezę alternatywną o heteroskedastyczności.

Korzystając z wartości p dla wyliczonej statystyki F możemy również stwierdzić, że jeśli

p < 0 05, , to odrzucamy hipotezę zerową o homoskedastyczności i przyjmujemy hipotezę

alternatywną o heteroscedastyczności. Badania symulacyjne nad tym testem wskazują, że jest

on czuły na spełnienie założenia o normalności zaburzeń.

Przykład 8.1

Dane wykorzystane w tym przykładzie pochodzą ze strony internetowej:

http://www.ekonometria.wne.uw.edu.pl (diagnoza społeczna 2005). Przedmiotem analizy jest

czas (wyrażony w godzinach) poświęcany w ciągu tygodnia na korzystanie z internetu

(zmienna internet). Lista zmiennych objaśniających uwzględnionych w analizie znajduje się

poniżej:

dochod – dochód miesięczny netto w złotówkach;

wiek – wiek wyrażony w latach;

duze_miasto – wartość 1, jeżeli respondent mieszka w mieście powyżej 100 tyś. mieszkańców

oraz 0 w pozostałych przypadkach;

male_miasto – wartość 1, jeżeli respondent mieszka w mieście poniżej 100 tyś. mieszkańców

oraz 0 w pozostałych przypadkach;

plec - wartość 1 dla mężczyzn oraz 0 dla kobiet.

Poniżej wyniki regresji w modelu, w którym ilość godzin korzystania w ciągu tygodnia z

internetu uzależniamy od wieku, dochodu, miejsca zamieszkania (za poziom referencyjny

przyjmujemy wieś) oraz płci respondenta:

Page 108: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Za pomocą testu Goldfelda – Quandta sprawdzimy czy zmienna wiek wywołuje

heteroskedastyczność. Budowę testu rozpoczynamy od uporządkowania obserwacji według

rosnących wartości zmiennej wiek. Następnie opuszczamy 300 środkowych obserwacji.

Wyniki regresji na podpróbie zawierającej respondentów młodszych:

Wyniki regresji na podpróbie zawierającej respondentów starszych:

Page 109: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wyznaczamy statystykę testową (do licznika wstawiamy większą sumę kwadratów reszt.

Zauważmy, że wariancja dla podpróby młodszych jest większa od tej dla podpróby starszych.

Oznacza to, że heteroskedastyczność maleje wraz z wiekiem respondenta):

2 2 1492 300

2

1492 3002

1 1

107915 /( 6)22,43

44382,9/( 6)2

n ce e K

Fn c

e e K

− ′ − − = = ≈− − ′ −

Wyznaczamy wartość krytyczną: (590,590) 1,15.krytyczneF = Wartość statystyki testowej jest

większa od wartości krytycznej, co jest równoznaczne z odrzuceniem hipotezy zerowej

zakładającej homoskedastyczność. Wniosek z przeprowadzonego testu jest następujący: w

modelu występuje heteroskedastyczność wywoływana przez wiek respondenta. Nie jest to

jednak heteroskedastyczność znaczna, gdyż wartość obliczona statystyki F jest niedużo

większa od wartości krytycznej.

Test Breuscha-Pagana (oznaczany skrótem BP) jest stosowany w sytuacjach, gdy

wzrost wariancji zależy nie od jednej zmiennej, a od większej ich liczby. Dla odróżnienia

zmiennych objaśniających w wyjściowym równaniu regresji od zmiennych wpływających na

wariancję oznaczmy te drugie symbolami z z zm2 3, , , . Jeśli na przykład wyjaśniamy wydatki

kulturalne gospodarstw domowych, to do równania wyjściowego regresji wstawimy zmienne

objaśniające oznaczone przez x x xK2 3, , , , wśród których mogą się znaleźć zmienne:

dochód, poziom wykształcenia głowy gospodarstwa domowego, zawód głowy gospodarstwa

Page 110: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

domowego, liczba osób w gospodarstwie domowym, liczba dzieci w wieku szkolnym itp. Do

zbioru zmiennych Z wpływających na wariancję możemy wstawić niektóre ze zmiennych

objaśniających z równania wyjściowego, a mianowicie: z2 - dochód i z3 - poziom

wykształcenia głowy gospodarstwa domowego. Są to dwie zmienne, które

najprawdopodobniej odpowiadają za wzrost wariancji zaburzenia losowego, a więc i wzrost

wariancji wydatków kulturalnych.

Idea testu jest następująca: Szacujemy dwa równania regresji. Pierwsze - równanie

wyjściowe:

(8.12) y x xi i K Ki i= + + + +β β β ε1 2 2 ;

oraz drugie - wyznaczające wariancję zaburzenia losowego:

(8.13) σ α α αi i m mi iz z u21 2 2= + + + + .

Jeśli α α α2 3 0= = = = m , to σ αi2

1= , a więc zaburzenie jest homoskedastyczne.

Procedurę testowania testem Breuscha-Pagana możemy ująć w kolejnych krokach:

1. Szacujemy za pomocą MNK równanie (8.12) i wyznaczamy reszty ei .

2. Wyznaczamy wariancję resztową σ 2

2

1= =

∑e

n

i

i

n

. Zauważmy, że przy liczeniu wariancji

resztowej sumę kwadratów reszt dzielimy nie przez n K− , a przez n . Tak wyznaczona

wariancja resztowa jest estymatorem metody największej wiarogodności.

3. Konstruujemy nową zmienną pe

ii=2

2σ. Jest to kwadrat i-tej reszty podzielony przez

wariancję resztową.

4. Szacujemy regresję pomocniczą

(8.14) p z z ui i m mi i= + + +α α α1 2 2 .

5. Z oszacowania równania regresji pomocniczej (8.14) wyznaczamy wyjaśnioną sumę

kwadratów ESS , gdzie ESS p pii

n

= −=

∑ ( )1

2 i definiujemy statystykę testującą BP ESS=1

2( ) .

Tak zdefiniowana statystyka ma asymptotyczny rozkład χ 2 o m-1 stopniach swobody5, co

zapisujemy BP Asy m~ . χ −12 .

6. Stawiamy hipotezę zerową H m0 2 3 0:α α α= = = = , która oznacza, że zaburzenia

losowe są homoskedastyczne.

5 Rozkładem asymptotycznym, mówiąc niezbyt precyzyjnie, nazywamy rozkład graniczny (przy T → ∞ ), który przyjmujemy jako przybliżenie dla nieznanego rozkładu rzeczywistego zmiennej losowej.

Page 111: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

7. Weryfikujemy hipotezę H m0 2 3 0:α α α= = = = za pomocą statystyki BP. Jeśli

BP m> −χ 12 to odrzucamy hipotezę zerową o homoscedastyczności i przyjmujemy, że

występuje heteroskedastyczność.

Przykład 8.2

Kontynuacja przykładu 8.1. Za pomocą testu BP sprawdzimy czy w wyjściowym modelu

dwie zmienne płeć oraz dochód wywołują heteroskedastyczność. Procedurę testowania

rozpoczynamy od oszacowania regresji, w której zmienną zależną jest liczba godzin

poświęcanych w ciągu tygodnia na korzystanie z internetu, zaś zmienne objaśniające to płeć,

wiek, dochód oraz miejsce zamieszkania6. Z tak oszacowanego modelu wyznaczamy reszty, a

następnie zmienną ip - kwadraty reszt podzielone przez wariancję resztową.

Po obliczeniu zmiennej pe

ii=2

2σ szacujemy regresję pomocniczą:

p dochod plec ui i i i= + + +α α α1 2 3

Poniżej wyniki estymacji regresji pomocniczej (zmienna zależna - ip , zmienne niezależne –

płeć oraz dochód):

6 Regresja ta została oszacowana w przykładzie 8.1, więc wydruk z programu Gretl tym razem zostaje pominięty.

Page 112: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Kolejny krok to wyznaczenie ESS. Dysponując powyżej zamieszczonym wydrukiem z

programu GRETL wielkość tę można wyliczyć według wzoru:

2

2

0,0039828620861,9* 83,42.

1 1-0,00398286

RESS RSS

R= = =

− Wartość statystyki testowej wynosi

1( ) 41,71,

2BP ESS= = natomiast wartość krytyczna odczytana z tablic to: 2 (2) 5,99.χ =

Statystyka testowa przewyższa wartość krytyczną, co oznacza odrzucenie hipotezy zerowej

zakładającej homoskedastyczność.

Test White‘a stosujemy w sytuacjach, gdy nie wiemy która ze zmiennych objaśniających

wywołuje heteroskedastyczność. Test ten wykrywa również błędną specyfikację równania,

a więc wskazuje, że aktualnie zastosowana postać równania regresji jest niepoprawna. Nie

podpowiada jednak jaka forma spełnia wymogi poprawności. Do zagadnienia poprawności

specyfikacji równania regresji wrócimy w rozdziale następnym, w którym omówimy test

błędnej specyfikacji RESET Ramsey‘a.

Użycie testu White`a przedstawimy dla prostoty zapisu na przykładzie regresji z dwiema

zmiennymi objaśniającymi. Idea tej procedury sprowadza się do uzależnienia wariancji

zaburzenia losowego od regresorów, ich kwadratów i iloczynów. Procedura testowania dla

przypadku dwóch regresorów sprowadza się do następujących kroków:

1. Szacujemy za pomocą MNK równanie wyjściowe regresji, w tym przypadku z dwiema

zmiennymi objaśniającymi:

(8.15) y x xi i i i= + + +β β β ε1 2 2 3 3

i wyznaczamy reszty ei .

2. Wyznaczamy regresję pomocniczą:

(8.16) e x x x x x x ui i i i i i i i2

1 2 2 3 3 4 22

5 32

6 2 3= + + + + + +α α α α α α ,

w której regresorami są zmienne objaśniające równania wyjściowego (8.15), ich kwadraty i

iloczyny.

3. Wyznaczamy R2 dla regresji pomocniczej. Statystyka n R× 2 ma asymptotyczny rozkład

χ 2 o m-1 stopniach swobody, (gdzie m jest liczbą regresorów w regresji pomocniczej), co

zapisujemy n R Asy m× −2

12~ .χ .

Page 113: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

4. Stawiamy hipotezę zerową H m0 2 3 0:α α α= = = = , która oznacza, że zaburzenia losowe

są homoskedastyczne.

5. Weryfikujemy hipotezę H0 2 3 4 5 0:α α α α= = = = za pomocą statystyki n R× 2 . Jeśli

n R m× > −2

12χ to odrzucamy hipotezę zerową o homoskedastyczności i przyjmujemy, że

występuje heteroskedastyczność.

Przykład 8.3

Sprawdzimy czy w modelu, w którym czas korzystania z internetu uzależniamy od

wieku i dochodu występuje heteroskedastyczność. Posłużymy się tymi samymi danymi

co w przykładzie 8.1. Do weryfikacji hipotezy o homoskedastyczności zaburzenia

losowego posłużymy się testem White’a. Wyniki regresji podstawowej:

Poniżej wyniki regresji pomocniczej, gdzie uhat^2 oznacza reszty z wyjściowej regresji

podniesione do kwadratu; sq_wiek i sq_dochod to odpowiednio zmienne wiek i dochod

podniesione do kwadratów, zaś wiek_dochod – iloczyn zmiennych wiek i dochod:

Page 114: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wyznaczamy wartość statystyki testowej: 2 1492*0,014664 21,88,n R× = ≈ natomiast

wartość krytyczna wynosi: 2 (5) 11,07χ = (liczba stopni swobody jest równa liczbie

zmiennych w regresji pomocniczej, czyli 5). Statystyka testowa jest większa od wartości

krytycznej, co oznacza odrzucenie hipotezy zerowej o homoskedastyczności.

8.4 Estymacja macierzy wariancji-kowariancji zaburzeń losowych w przypadku

heteroskedastyczności. Stosowalna uogólniona metoda najmniejszych kwadratów

Uwzględnienie heteroskedastyczności wymusza znajomość macierzy Ω . Musimy ją

oszacować na podstawie informacji z próby. W praktyce modelowania brak jest dobrego

wzorca heteroskedastyczności, który mógłby być zalecany do powszechnego stosowania.

Dlatego eliminacja tego zjawiska jest możliwa jedynie w przypadkach bardzo znacznej

heteroskedastyczności.

Poniżej omówimy najprostszy przypadek, gdy wariancje zaburzeń losowych wzrastają

wraz ze wzrostem jednej ze zmiennych objaśniających. Taki właśnie schemat

przyjmowaliśmy w przykładzie wzrostu wariancji w modelu wydatków żywnościowych

zależnych od wzrostu dochodu. Przyjmijmy, że w modelu regresji

y x x xi i i K Ki i= + + + + +β β β β ε1 2 2 3 3 , w którym zmienną objaśnianą są wydatki

żywnościowe na głowę w i-tym gospodarstwie domowym regresorem odpowiedzialnym

za wzrost wariancji zaburzeń jest x i2 - dochód do dyspozycji na głowę. Przyjmujemy

zatem, że

(8.17) σ σi ix2 222= .

Stąd

Page 115: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(8.18) Ω =

L

N

MMMM

O

Q

PPPP

x

x

x n

212

222

22

0 0

0 0

0 0

, gdzie „daszek” nad macierzą Ω oznacza,

że wartość teoretyczna wariancji-kowariacji zaburzeń losowych jest zastąpiona jej

estymatorem z próby.

Dla macierzy (8.18) łatwo wyznaczymy macierze Ω −1

(8.19) Ω − =

L

N

MMMMMMMM

O

Q

PPPPPPPP

1

212

222

22

10 0

01

0

0 01

x

x

x n

oraz P . (Dla macierzy z „daszkiem” obowiązuje (8.3), a więc ′ = ′ =− P P P P IΩ Ω1 oraz .)

Mamy zatem

(8.20) P =

L

N

MMMMMMMM

O

Q

PPPPPPPP

10 0

01

0

0 01

21

22

2

x

x

x n

.

Wówczas transformacja pierwotnego równania regresji ma postać:

(8.21) Py PX P= +β ε .

Dla równania i – tej obserwacji każdy składnik równania jest podzielony przez x i2 :

(8.22) y

x x

x

x

x

x xi i

i

iK

Ki

i

i

i

1

2

1

22 3

3

2 2 2

= + + + + +β

β β βε

.

Wielkość x2i możemy traktować jako wagę, przypisaną i-tej obserwacji. W związku z

tym opisany wyżej zabieg usuwania heteroscedastyczności sprowadzający się do

przeważenia i-tej obserwacji przez x2i zwany jest również ważoną uogólnioną metodą

najmniejszych kwadratów.

Zauważmy, że nowa zmienna objaśniana y

x i

1

2

transformowanego równania regresji

(8.22) ma sensowną interpretację ekonomiczną. Jest to udział wydatków żywnościowych

Page 116: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

w dochodach i –tego gospodarstwa domowego. Modele postaci (8.22) są często stosowane

w ekonometrii i zwane są ze względu na interpretację zmiennej objaśnianej - modelami

„na udziałach”.

8.5 Odporny na heteroskedastyczność estymator White`a macierzy wariancji-

kowariancji dla b wyznaczonego za pomocą MNK

Z rozważań podrozdziału 8.2. wiemy, że estymatory MNK stosowane w sytuacji UMNK są

nadal nieobciążone, ale przestają być najbardziej efektywne. W podrozdziale 8.4.

zapoznaliśmy się z jedną z najprostszych metod poszukiwania estymatora bardziej

efektywnego w sytuacji heteroscedastyczności. Można odnieść nie pozbawione zdrowego

rozsądku przekonanie, że zabiegi usuwania efektów heteroscedastyczności są w praktyce

niezwykle uciążliwe , a ponadto są one oparte na dość arbitralnych założeniach co do postaci

heteroscedastyczności.

Rodzi się pytanie, czy nie ma sposobu prostszego na przezwyciężenie ujemnych efektów

heteroscedastyczności? Oczekiwaniom pozytywnej odpowiedzi na to pytanie przychodzi

metoda White`a, pozwalająca wyznaczyć odporny na heteroskedastyczność estymator

macierzy wariancji-kowariancji dla b wyznaczonego za pomocą MNK.

Przywołajmy wzór (8.10) na wariancję estymatora b wyznaczonego metodą najmniejszych

kwadratów

(8.10) var( ) ( ) ( ) ( )b X X X X X X= ′ ′ ′− −1 2 1σ Ω

White wykazał, że przy bardzo ogólnych założeniach co do postaci heteroscedastyczności,

zgodnym estymatorem macierzy wariancji-kowariancji b jest :

(8.23) Est Var

n n ne

n

n S

i ii

n

i. ( )b X X x x X X

X X X X

= ′FHG

IKJ ′

FHG

IKJ ′FHG

IKJ

= ′ ′

=

− −

∑1 1 1 1

12

1

1

1

0

1b g b g

gdzie skrót Est. oznacza estymator,

(8.24) zaś Sn

ei ii

n

i02

1

1= ′

=

∑ x x .

Page 117: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

W literaturze ekonometrycznej błędy standardowe dla bk od nazwiska autora noszą nazwę

błędów standardowych White`a.

Przykład 8.4

Kontynuacja przykładu 8.1. Porównamy wyniki estymacji modelu, gdzie błędy standardowe

są wyznaczone tak, jak w metodzie najmniejszych kwadratów, z estymacją, w której

wykorzystano „odporne” błędy standardowe. Poniżej wyniki obu estymacji:

Obie estymacje różnią się nieznacznie wielkością błędów standardowych, a tym samym

wartościami statystyki t-studenta. Po zastosowaniu odpornych błędów standardowych

wartości tych błędów nie uległy wyraźnemu zmniejszeniu (co do wartości bezwzględnej), co

oznacza że heteroskedastyczność w modelu jest wielkością zaniedbywalną.

8.6 Testowanie autokorelacji: testy Durbina-Watsona i Breuscha-Godfrey‘a

Page 118: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Jak już sygnalizowaliśmy, autokorelacja zaburzeń losowych jest częstym zjawiskiem w

modelach szacowanych na podstawie szeregów czasowych. W związku z tym dla oznaczenia

numeru obserwacji będziemy używać indeksu t i zakładać, że t T= 1 2, , , .

Test Durbina-Watsona jest powszechnie stosowanym testem wykrywania autokorelacji

pierwszego rzędu, a więc autokorelacji między sąsiednimi zaburzeniami losowymi.

Autokorelację pierwszego rzędu opisuje równanie:

(8.25) ε ρεt t tu= +−1

gdzie ρ jest współczynnikiem autokorelacji zaburzeń, zaś u iiNt ~ ( , )0 2σ jest zaburzeniem o

identycznych i niezależnych rozkładach normalnych; (iiN jest anglojęzycznym skrótem

nazwy „independent and identically normally distributed”.

Idea testu jest następująca: Weźmy sumę kwadratów różnic sąsiednich reszt podzieloną przez

sumę kwadratów reszt, po przekształceniach otrzymujemy:

(8.26) de e

e

e e e e

e

t tt

T

tt

T

t t t tt

T

t

T

t

T

tt

T=

=

+ −

≈ −−

=

=

− −

===

=

∑∑∑

( )

12

2

2

1

21

21

222

2

1

22 2ρ

gdzie ρ jest współczynnikiem autokorelacji reszt pierwszego rzędu

(8.27) ρ =−

=

=

=

∑ ∑

e e

e e

t tt

T

tt

T

tt

T

12

2

11

2

2

,

zaś symbol " "≈ oznacza „w przybliżeniu równe”.

Wyrażenie (8.26) oznaczone przez d lub niekiedy przez DW znane jest pod nazwą statystyki

Durbina-Watsona.

Statystyka ta jest rutynowo liczona przy szacowaniu regresji w prawie wszystkich pakietach

ekonometrycznych.

Ponieważ

(8.28) d ≈ −2 1( )ρ , zaś − ≤ ≤1 1ρ , to

(8.29) 0 4≤ ≤d .

Powyższy wzór wskazuje, że obliczona wartość d leży między tymi granicami. Z (8.28)

wynika, że jeśli ρ = 0 to d = 2. A więc jeśli nie zachodzi dodatnia autokorelacja pierwszego

rzędu to oczekujemy, że wartość d winna wynosić około 2. Dlatego przyjmujemy jako

„regułę kciuka”, że jeśli w szacowanym modelu d wynosi 2 lub jest w przybliżeniu równe

Page 119: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

2, to nie występuje autokorelacja pierwszego rzędu, ani dodatnia, ani ujemna. Jeśli

ρ = +1, to w modelu zachodzi doskonała dodatnia korelacja reszt, wówczas d ≈ 0 . Stąd im

obliczone d leży bliżej zera to mamy do czynienia z wyższą dodatnią autokorelacją.

W praktycznych zastosowaniach testu Durbina-Watsona wykonujemy następujące kroki.

1. Szacujemy za pomocą MNK równanie regresji i wyznaczamy reszty ei .

2. Obliczamy statystykę d (większość programów komputerowych wykonuje takie

obliczenia rutynowo).

3. Stawiamy hipotezę zerową H0 0:ρ = (brak autokorelacji) wobec hipotezy

alternatywnej H1 0:ρ > . Ten rodzaj hipotezy jest zdecydowanie najczęstszym przypadkiem,

gdyż korelacja ujemna, chociaż teoretycznie możliwa, w praktyce jest sytuacją wyjątkową.

4. Weryfikujemy hipotezę zerową. Z tablic rozkładu statystyki d – Durbina-Watsona dla

danej wielkości próby T oraz danej liczby regresorów K znajdujemy dwie wartości:

d oraz dL U , gdzie L oznacza (lower - dolną) oraz U (upper – górną) granicę przedziału,

między którymi znajduje się rzeczywista wartość krytyczna, na ogół podawana dla poziomu

istotności α = 0 05, . Dodajmy, że dokładna wartość krytyczna tej statystyki jest nieznana,

gdyż zależy ona od macierzy obserwacji na zmiennych objaśniających X. Tablice Durbina-

Watsona znajdują się w większości rozszerzonych podręczników ekonometrii. Dla przykładu

podamy dolne i górne granice dla 5 % poziomu istotności testu Durbina-Watsona dla kilku

wybranych wielkości próby T oraz kilku wybranych liczb regresorów K. Szersza tablica

załączona jest niżej.

TABLICA 8.1 : Granice dla 5 % poziomu istotności dL oraz dU STATYSTYKI DURBINA-

WATSONA

Liczba regresorów (z wyłączeniem stałej) K = 3 K = 5 K = 7 K = 9 Liczba Obserwacji dL dU dL dU dL dU dL dU T = 25 1,206 1,550 1,038 1,767 0,868 2,012 0,702 2,280

T = 50 1,462 1,628 1,378 1,721 1,291 1,822 1,201 1,930

Page 120: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

T = 75 1,571 1,680 1,515 1,739 1,458 1,801 1,399 1,867

T = 100 1,634 1,715 1,592 1,758 1,550 1,803 1,506 1,850

T = 200 1,748 1,789 1,728 1,810 1,707 1,831 1,686 1,852

Page 121: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

a k' is the number of regressors excluding the intercept. Źródło: N. E. Savin; Kenneth J. White Econometrica, Vol. 45, No. 8. (Nov., 1977), pp. 1989-1996.

Page 122: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Jeśli d dL< to odrzucamy H0 0:ρ = i przyjmujemy H1 0:ρ > , oznacza to, że występuje

dodatnia autokorelacja zaburzeń losowych.

Jeśli d d dL U≤ ≤ , to test jest nie rozstrzygnięty, oznacza to, że za pomocą testu Durbina-

Watsona nie możemy rozstrzygnąć czy istnieje, czy nie istnieje dodatnia autokorelacja.

Jeśli d dU> , to przyjmujemy H0 0:ρ = , oznacza to brak dodatniej autokorelacji zaburzeń

losowych.

Niekiedy alternatywną hipotezą jest występowanie ujemnej autokorelacji. Przy doskonałej

ujemnej autokorelacji wartość statystyki d, jak wynika z (8.29) jest równa 4. Stąd, ze

względu na symetrię statystyki d wokół wartości 2 , przy weryfikacji ujemnej autokorelacji

za granicę dolną możemy przyjmować 4 − dU i za górną 4 − dL .

Okazało się w praktycznych zastosowaniach, że nadzwyczaj popularny test Durbina-Watsona

ma szereg istotnych wad. Wymienimy jedynie najważniejsze z nich:

1. Istotnym jego mankamentem jest przedział nie rozstrzygnięcia testu. Jest to sytuacja bardzo

częsta w praktyce modelowania, a jednocześnie niezwykle niewygodna dla badacza, gdyż nie

wiadomo, czy występuje, czy nie występuje autokorelacja. Zauważmy jednak, że im większa

jest próba, tym węższy jest przedział nie rozstrzygnięcia testu.

Wśród dalszych niedogodności tego testu wymienimy następujące:

2. Test ten ma zdolność wykrywania autokorelacji tylko pierwszego rzędu. W danych

kwartalnych lub miesięcznych możemy oczekiwać autokorelacji równej liczbie obserwacji w

cyklu sezonowym (np. czwartego rzędu dla obserwacji kwartalnych).

3. Test daje odpowiedzi poprawne, gdy zmienne objaśniające są stałe w powtarzalnych

próbach, a nie losowe, co jest najczęstszym przypadkiem.

4. Model nie może zawierać jako regresorów zmiennych opóźnionych, co jest nierzadkim

przypadkiem modelowania dynamicznego.

5. Test jest bardzo czuły na założenie normalności zaburzeń losowych i zawodzi, gdy

zaburzenia nie mają tego rozkładu.

Przykład 8.5

W przykładzie posłużymy się danymi miesięcznymi za lata 2003 – 2006 dla Polski dotyczącymi wielkości produkcji sprzedanej w przemyśle w mln. zł wyrażonej w cenach ze stycznia 2003 oraz przeciętnego zatrudnienia w przemyśle wyrażonego w tysiącach zatrudnionych. Oszacujemy model na logarytmach – zmienna zależną jest logarytm produkcji, natomiast zmienną objaśniającą - logarytm zatrudnienia. Za pomocą statystyki Durbina – Watsona sprawdzimy, czy w modelu występuje autokorelacja reszt.

Page 123: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Ponieważ próbkowe oszacowanie korelacji pierwszego rzędu jest dodatnie, to testujemy

0 : 0H ρ = (brak autokorelacji pierwszego rzędu) wobec 1 : 0H ρ > (autokorelacja dodatnia). Z tablic odczytujemy wartości krytyczne dla K = 2 (liczba szacowanych parametrów) i T = 39 (ilość obserwacji): 1,43Ld = i 1,54.Ud = Statystyka testowa jest mniejsza od dolnej wartości

krytycznej ( L0,474074 < 1,43 = dd = ), więc odrzucamy hipotezę zerową o braku autokorelacji pierwszego rzędu na rzecz hipotezy alternatywnej – w modelu występuje dodatnia autokorelacja.

Wymienionych wad nie posiada test Breuscha-Godfrey‘a, oznaczony skrótem BG, (zwany

również niekiedy testem LM – od anglojęzycznej nazwy Lagrange Multiplier – test

mnożników Lagrange‘a) który jest testem ogólnym wykrywania autokorelacji w tym sensie,

że wykrywa autokorelacje wyższych rzędów, zachodzące między zaburzeniami

losowymi.

Idea testu jest następująca. Niech model z K regresorami ma tradycyjną postać:

(8.30) y x xt t K Kt t= + + + +β β β ε1 2 2 .

Załóżmy, że występuje autokorelacja zaburzeń losowych rzędu p, którą przedstawia

równanie:

(8.31) ε ρ ε ρ ε ρ εt t t p t p tu= + + + +− − −1 1 2 2 , gdzie u I~ ( , )N 0 2σ , tak jak poprzednio.

Na przykład dla danych kwartalnych p = 4.

Weryfikujemy hipotezę H0 :

(8.32) H p0 1 2 0:ρ ρ ρ= = = = ,

co oznacza, że między zaburzeniami nie zachodzi autokorelacja żadnego rzędu.

Procedurę tego testu możemy ująć w następujących krokach:

1. Szacujemy za pomocą MNK wyjściowe równanie regresji (8.30) i wyznaczamy reszty

et .

2. Szacujemy równanie regresji pomocniczej, w którym zmienną objaśnianą są reszty et

z równania wyjściowego (8.30), zaś zmiennymi objaśniającymi wszystkie regresory z

równania wyjściowego oraz dodatkowo p opóźnionych reszt: e e et t t p− − −1 2, , , wyznaczonych

również z tego równania. Równanie regresji pomocniczej ma więc postać:

Page 124: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(8.33) e x x e e e ut t K Kt t t p t p t= + + + + + + + +− − −α α α ρ ρ ρ1 2 2 1 1 2 2 .

Zauważmy, że przy oszacowaniu regresji pomocniczej (8.33) , ze względu na opóźnione

reszty, tracimy p pierwszych obserwacji, w związku z tym dysponujemy jedynie T-p

obserwacjami. Dla regresji pomocniczej (8.33) wyznaczamy R2 .

3. Stawiamy hipotezę zerową H p0 1 2 0:ρ ρ ρ= = = = wobec hipotezy alternatywnej,

że nie wszystkie ρ są jednocześnie równe zero. Hipoteza H0 jest hipotezą o braku

autokorelacji.

4. Breusch i Godfrey wykazali, że dla dużych prób, a więc asymptotycznie - statystyka

(T-p) R2 ma rozkład chi-kwadrat o p stopniach swobody, a więc:

(8.34) ( ) ~ .T p R Asy p− 2 2χ .

5. Weryfikujemy hipotezę H p0 1 2 0:ρ ρ ρ= = = = za pomocą statystyki (T-p) R2 . Jeśli

( )T p R p− >2 2χ to odrzucamy hipotezę zerową, że między zaburzeniami nie zachodzi

autokorelacja żadnego rzędu i przyjmujemy hipotezę alternatywną o występowaniu

autokorelacji.

Test BG nie nakłada żadnych ograniczeń na zmienne objaśniające, tak jak czyni to test

Durbina-Watsona. Gdy p = 1 , a więc - gdy proces autoregresyjny jest procesem pierwszego

rzędu to test BG znany jest wtedy pod nazwą Testu M – Durbina.

Istotną wadą tego testu jest brak wskazówek, co do wyboru wartości p , określającej rząd

procesu autoregresyjnego. Dobór p wymaga eksperymentowania. Niekiedy jest to ilość

obserwacji w cyklu sezonowym (na przykład p = 4 dla danych kwartalnych). W praktyce

wybieramy większą wartość p od postulowanej przez sens ekonomiczny równania i

testujemy hipotezę, czy ρ p = 0 . Jeśli tak, to zmniejszamy liczbę opóźnień o 1 i powtarzamy

procedurę tak długo, aż odrzucimy hipotezę, że ρ p = 0 . W ten sposób wyznaczone p jest

żądaną liczbą opóźnień.

Przykład 8.6

Kontynuacja przykładu 8.5 . Za pomocą testu BG zweryfikujemy hipotezę o występowaniu

autokorelacji rzędu drugiego. Poniżej wyniki estymacji regresji pomocniczej (uhat – reszty z

regresji podstawowej; uhat_1, uhat_2 – reszty opóźnione odpowiednio o 1 i 2 okresy):

Page 125: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wyznaczamy wartość statystyki testowej:

2( ) (39 2)*0,476811=17,642007T p R− = −

Natomiast wartość krytyczna wynosi:

2* 20,95;2 5,9914645χ χ= =

Statystyka testowa przewyższa wartość krytyczną, co implikuje odrzucenie hipotezy zerowej

zakładającej brak autokorelacji rzędu drugiego.

8.7 Estymacja macierzy wariancji-kowariancji zaburzeń losowych w przypadku autokorelacji

zaburzeń pierwszego rzędu

Analogicznie jak w przypadku praktycznego usuwania negatywnych efektów

heteroscedastyczności, usuwanie efektów autokorelacji nazywamy stosowalną uogólniona

metodą najmniejszych kwadratów.

Przyjmijmy, że oczekujemy, że zaburzenia losowe powiązane są procesem

autokorelacyjnym pierwszego rzędu, opisanym równaniem (8.21) ε ρεt t tu= +−1

gdzie ρ jest współczynnikiem autokorelacji zaburzeń.

Można łatwo pokazać, że w tym przypadku macierz wariancji-kowariancji zaburzeń ma

postać:

(8.35) Var

T

T

T

T T T

( )ε σ σ

ρ ρ ρ

ρ ρ ρ

ρ ρ ρ

ρ ρ ρ

X = =

L

N

MMMMMM

O

Q

PPPPPP

− − −

2 2

2 1

2

2 3

1 2 3

1

1

1

1

Ω

Jeśli taką macierz wstawimy do równania

(8.6) ~[( ) ( )] ( ) ( )b PX PX PX Py X X X y= ′ ′ = ′ ′− − − −1 1 1 1Ω Ω , to oszacujemy efektywny

estymator ~b .

Page 126: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

W praktycznych zastosowaniach szacujemy ρ na podstawie wzoru:

(8.27) ρ =−

=

=

=

∑ ∑

e e

e e

t tt

T

tt

T

tt

T

12

2

11

2

2

, a następnie szacujemy za pomocą MNK model:

(8.36) y y x x x xt t t t K Kt Kt t t− = − + − + + − + −− − − − ( ) ( ) ρ β ρ β ρ β ρ ε ρ ε1 1 2 2 2 1 1 11b g ,

w którym , jak wynika z (8.23), nowe zaburzenie ut t t= − −ε ρε 1 nie zawiera

autokorelacji. Przy tej metodzie, zwanej od nazwisk jej autorów metodą Cochrane-

Orcutta, tracimy pierwszą obserwację, w związku z czym w próbie użytej do

oszacowania mamy jedynie T-1 obserwacji.

Przykład 8.7

Do regresji z przykładu 8.5 zastosujemy przekształcenie Cochrane – Orcutta.

Zaczynamy od oszacowania .ρ Najprościej oszacować ten parametr na podstawie

regresji pomocniczej:

1 ,t t te e uρ −= +

gdzie te są resztami z estymacji metodą najmniejszych kwadratów modelu

wyjściowego. Wyniki oszacowania regresji poniżej:

Następnie wyznaczamy przekształcone zmienne zgodnie z formułą:

1

1

_ 0,692423* _

_ 0,692423* _t t t

t t t

y l prod l prod

x l zatr l zatr−

= −

= −

Poniżej wyniki regresji na przekształconych zmiennych:

Page 127: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wartość statystyki Durbina – Watsona tym razem wskazuje na brak autokorelacji pierwszego

rzędu ( U1,8749 > 1,53 = dd = ).

8.8 Odporny na heteroskedastyczność i odporny na autokorelację estymator Newey`a-

Westa macierzy wariancji-kowariancji dla b oszacowanego za pomocą MNK

Analogicznie do odpornego na heteroskedastyczność estymatora White`a ekonometrycy

Newey i West zaproponowali odporny na heteroskedastyczność i na autokorelację (o

niesprecyzowanej strukturze) estymator macierzy wariancji-kowariancji dla b ,

oszacowanego za pomocą MNK.

Newey i West wykazali, że odpornym na przypadek heteroscedastyczności i jednocześnie

odpornym na bliżej nieokreśloną strukturę autokorelacji jest zgodny estymator macierzy

wariancji-kowariancji dla b , postaci:

(8.37) Est Var ST

j

Le e

j

L

t j

T

t t j t t j t j t. ( )b x x x x= + −+

FHG

IKJ ′ + ′

= = +

− − −∑ ∑01 1

11

1d i ,

gdzie S0 jest wyrażeniem określonym przez

(8.24) ST

et tt

T

t02

1

1= ′

=

∑ x x , zaś L jest maksymalną liczbą opóźnień.

W praktycznych zastosowaniach gdy nieznana jest maksymalna liczba opóźnień

przyjmuje się, że jest ona liczbą całkowitą w przybliżeniu równą L T≈1

4 . Estymator

odporny Newey`a-Westa jest liczony standardowo przez większość pakietów

ekonometrycznych.

Podsumowanie

1. Przypadki heteroskedastyczności lub autokorelacji zaburzeń losowych wymagają

stosowania uogólnionej metody najmniejszych kwadratów, co niekiedy znacznie

poprawia efektywność oszacowań.

2. Wykrywanie heteroskedastyczności przeprowadza się za pomocą testów

Goldfelda-Quandta, Breuscha-Pagana lub White`a.

3. Usuwanie efektów heteroskedastyczności wymaga oszacowania macierzy

wariancji-kowariancji reszt.

Page 128: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

4. W sytuacji bliżej nieznanej postaci heteroskedastyczności rekomendowane jest

stosowania odpornego na heteroskedastyczność estymatora White`a.

5. Wykrywanie autokorelacji przeprowadza się za pomocą testów Durbina-

Watsona lub Breuscha-Godfreya.

6. Usuwanie efektów autokorelacji wymaga oszacowania macierzy wariancji-

kowariancji reszt.

7. W sytuacji bliżej nieznanej postaci heteroskedastyczności i autokorelacji

rekomendowane jest stosowania odpornego na heteroskedastyczność i

autokorelację estymatora Newey`a-Westa.

Page 129: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

9. DIAGNOSTYKA W KMRL

Diagnostyką nazywamy sprawdzanie poprawności specyfikacji równania regresji. Jest to

ważny etap modelowania, następujący po oszacowaniu równania regresji. Sprawdzeniu temu

służą testy, zwane testami diagnostycznymi lub testami specyfikacji. Niektóre z nich

omówiliśmy już poprzednio, jak na przykład testy t – Studenta weryfikacji istotności

pojedynczych zmiennych objaśniających, test łącznej istotności równania regresji, czy test

pominiętych zmiennych, zaprezentowany w rozdziale 5, czy też wreszcie testy

heteroskedastyczności i autokorelcji, przedstawione w rozdziale 8.

Na szczególną uwagę zasługują test White`a i test Ramsey`a, zwany testem RESET.

9.1. Test White`a

Test ten, jak już wspomnieliśmy w rozdziale 8, można traktować jako ogólny test

niewłaściwej specyfikacji równania regresji. Sprawdza on hipotezę:

1. Czy równanie regresji ma poprawną specyfikację matematyczną? Błąd

niepoprawnej specyfikacji oznacza, że niektóre lub wszystkie zmienne y lub X

winny być transformowane, a więc przedstawione jako funkcje potęgowe,

logarytmiczne, odwrotności lub inne funkcje wyjściowych zmiennych.

2. Czy występuje homoskedastyczność zaburzeń losowych?.

3. Czy zmienne objaśniające ze zbioru X nie są skorelowane z zaburzeniem

losowym ε ? Występowanie takiej korelacji wywołuje obciążoność i niezgodność

estymatorów MNK.

Małe wartości statystyki White`a wskazują, że żaden z tych trzech przypadków nie jest

naruszony, jednak niespełnienie któregokolwiek z nich prowadzi do dużej wartości statystyki.

Test White`a nie podpowiada, jak należy zmodyfikować równanie regresji, aby warunki te

były spełnione. Uzyskanie poprawnego modelu wymaga w takiej sytuacji dalszych żmudnych

zabiegów, popartych dobrym przygotowaniem ekonomicznym w zakresie istoty

modelowanego zagadnienia.

9.2 Test RESET błędu specyfikacji postaci funkcyjnej równania regresji Ramsey`a.

Błąd specyfikacji jest ogólnym określeniem dla odchyleń od założeń przyjętych w modelu. W

rozważanym przez nas przypadku, modelem tym jest klasyczny model regresji liniowej. Test

Page 130: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

RESET (Regression Specification Error Test) jest ogólnym testem wychwytującym

następujące błędy:

1. Błąd poprawnej specyfikacji matematycznej równania regresji. Błąd ten oznacza,

analogicznie jak w teście White`a, że niektóre lub wszystkie zmienne y lub X

winny być transformowane, a więc przedstawione jako funkcje potęgowe,

logarytmiczne, odwrotności lub inne funkcje wyjściowych zmiennych.

2. Błąd pominiętych zmiennych. Jak wiemy błąd ten występuje, gdy w macierzy X

pominięte zostały istotne zmienne objaśniające.

3. Błąd korelacji między X i ε wywołany skorelowaniem niektórych zmiennych ze

zbioru X z zaburzeniem losowym ε lub błędem pomiaru niektórych zmiennych

objaśniających lub autokorelacją zaburzenia losowego. W takich przypadkach ze

względu na obciążoność i niezgodność estymatorów MNK zawodzą procedury

testowania wykorzystujące testy t – Studenta, 2χ oraz F.

Test RESET jest oparty na regresji rozszerzonej, w której obok zmiennych objaśniających X

występuje drugi zbiór zmiennych Z, zawierający potęgi wartości wyliczonych zmiennej

objaśnianej y, (najczęściej drugie i trzecie, niekiedy również wyższe), a więc:

Z y y= , 2 3c h .

Procedura testowania przebiega w następujących krokach:

1. Rozwiązujemy wyjściowe równanie regresji, które oznaczmy przez

(9.1) y X= +β ε .

Z rozwiązania wyznaczamy wartości wyliczone zmiennej objaśnianej y , a następnie ich

kwadraty y2 i trzecie potęgi y3 , a więc macierz Z oraz współczynnik determinacji tego

równania , który oznaczymy przez R12 .

2. Szacujemy równanie regresji rozszerzonej

(9.2) y X Z u= + +β γ ,

w której obok regresorów równania wyjściowego (9.1) dodane są regresory Z i wyznaczamy

współczynnik determinacji tego równania, oznaczony przez R22 , a łączną liczbę regresorów

tego równania oznaczmy jak zwykle przez K.

3. Stawiamy hipotezę zerową H0 0:γ = (równanie regresji jest poprawnie

wyspecyfikowane) wobec hipotezy alternatywnej H1 0:γ ≠ (równanie regresji jest

niepoprawnie wyspecyfikowane).

Page 131: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

4. Wyznaczamy statystykę F Fishera-Snedecora

(9.3) F n KR R

R n K( , )

( )2

2

1

22

12

22

− =−

− −

c hc h .

5. Weryfikujemy hipotezę zerową. Jeśli obliczone F jest większe od wartości krytycznej, to

odrzucamy hipotezę zerową o poprawności wyspecyfikowania równania wyjściowego.

Test Ramsey`a jest uważany za test dużej mocy, mający zdolność odrzucenia hipotezy

zerowej w sytuacji, gdy jest ona fałszywa. Liczne badania nad testem Ramsey`a wskazały, że

test ten wykrywa niepoprawną specyfikację równania regresji, o którym z góry wiadomo, że

jest źle wyspecyfikowane, a w którym zarówno R2 , jak i test autokorelacji Durbina-Watsona,

jak i statystyki t-Studenta wskazują, że równanie należałoby uznać za poprawne. Test ten jest

rekomendowany we wszystkich sytuacjach, w których podejrzewamy niewłaściwą

specyfikację równania. Niestety, test ten nie wskazuje w hipotezie alternatywnej - jaka

powinna być specyfikacja poprawna. Zadanie to musi rozwiązać badacz.

Przykład 9.1

W przykładzie tym posłużymy się danymi z przykładu 5.8. Ponownie oszacujemy regresję, w

której zmienną zależną jest logarytm płac, natomiast zmienne niezależne to: wiek, wiek

podniesiony do kwadratu, płeć, wykształcenie (średnie, wyższe; za poziom bazowy

przyjmujemy wykształcenie podstawowe), miejsce zamieszkania (małe miasto, średnie

miasto, duże miasto; za poziom referencyjny przyjmujemy wieś) oraz stan cywilny – zmienna

ta przyjmuje wartość 1, jeśli kawaler lub panna oraz 0 w pozostałych przypadkach.

. Poniżej wyniki estymacji:

Page 132: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Następnie szacujemy równanie regresji rozszerzonej (zmienne y_2 i y_3 to odpowiednio

wartości wyliczone podniesione do 2 i 3 potęgi):

Obie regresje zostały oszacowane na próbie liczącej 1089 obserwacji (n = 1089), natomiast

liczba szacowanych parametrów w regresji rozszerzonej wynosi 12

(K = 12). Wyznaczamy wartość statystyki testowej:

( )( )

2 22 1

22

2 (0,248313-0,238005)/27,3845337

(1-0,248313)/(1089-12)1 ( )

R RF

R n K

−= = =

− −

Odczytujemy wartość krytyczną z tablic:

(2,1077) 3,0040805krytyczneF =

Ponieważ wartość statystyki testowej przewyższa wartość krytyczną, więc odrzucamy

hipotezę zerową, co oznacza, że równanie ma złą formę funkcyjną.

9.3 Test niezagnieżdżonych alternatyw

Przypomnijmy rozważania z rozdziału 5, w którym określiliśmy model szerszy, z wszystkimi

zmiennymi objaśniającymi i model węższy - z niepełną listą zmiennych objaśniających.

Powiedzieliśmy, że model szerszy , a więc bez restrykcji obejmuje model z restrykcjami, zaś

o modelu z restrykcjami powiedzieliśmy, że jest modelem zagnieżdżonym w modelu

szerszym, tym bez restrykcji. Testowanie poprawności specyfikacji takich modeli

przeprowadzaliśmy za pomocą test F , porównując sumy kwadratów reszt obydwu modeli.

Było to możliwe, gdyż model węższy był zagnieżdżony w modelu szerszym. Jeśli jednak

Page 133: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

chcemy porównać dwa modele o odmiennych zbiorach zmiennych objaśniających, a więc

dwa modele alternatywne, nie zagnieżdżone jeden w drugim, to poprzednio omówiona

procedura testowania staje się niepoprawna.

W sytuacjach takich należy zastosować test Mizona – Richarda lub test Davidsona –

MacKinnona. Omówimy je kolejno.

Test Mizona – Richarda

Rozważmy przykład, w którym chcemy ustalić, czy poprawną specyfikacją jest jeden z

dwóch modeli, a mianowicie model w którym zmienne objaśniające są zmiennymi

pierwotnych obserwacji, które nazwijmy zmiennymi pierwotnymi i model ze

zlogarytmowanymi zmiennymi pierwotnymi. Niech modele te mają postać:

(9.4) y x xi i i i= + + +α α α ε1 2 2 3 3 ,

(9.5) y x x ui i i i= + + +β β β1 2 2 3 3ln ln .

Model te nie są modelami zagnieżdżonymi, a więc nie możemy zastosować standardowego

testu F dla weryfikacji, który z nich ma poprawną specyfikację.

Mizon i Richard proponują utworzenie pomocniczego modelu, zagnieżdżającego obydwa

modele. Model pomocniczy przyjmuje postać:

(9.6) y x x x x vi i i i i i= + + + + +γ γ γ γ γ1 2 2 3 3 4 2 5 3ln ln .

Dla testowania poprawności modelu (9.4) stawiamy hipotezę H0 4 5 0:γ γ= = , zaś dla

testowania modelu (9.5) stawiamy hipotezę H0 2 3 0:γ γ= = . Dalej postępujemy jak w

przypadku modeli zagnieżdżonych.

.

Test Davidsona – MacKinnona.

Inny test zaproponowali Davidson i MacKinnon. Test jest oparty na następującym

rozumowaniu. Jeśli model (9.4) jest modelem poprawnym, to wartości wyliczone z modelu

(9.5) dodane do modelu (9.4) winny być statystycznie nieistotne. Tak więc dla testowania

(9.4) szacujemy najpierw za pomocą MNK model (9.5) i wyznaczamy wartości wyliczone,

oznaczone przez yi . Tworzymy równanie pomocnicze:

Page 134: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(9.7) y x x y zaburzeniei i i i= + + + +γ γ γ α1 2 2 3 3

Wówczas test Davidsona – MacKinona poprawności specyfikacji równania (9.4) jest testem

t – Studenta dla hipotezy H0 0:α = .

Podobnie, jeśli przez yi oznaczymy wartości wyliczone z równania (9.4) , to równanie

pomocnicze przyjmie formę:

(9.8) y x x y zaburzeniei i i i= + + + +β β β δ1 2 2 3 3ln ln

W tej sytuacji test poprawności specyfikacji równania (9.5) jest testem t – Studenta dla

hipotezy H0 0:δ = .

Może się zdarzyć, że testy wskażą, że żaden z dwóch konkurujących modeli nie jest

poprawny i obydwa powinny być odrzucone lub odwrotnie, obydwa modele mogą być

akceptowane. W pierwszym przypadku należy poszukiwać innych specyfikacji dla

poszukiwanego modelu, na przykład modelu z potęgami. W drugim przypadku można przyjąć

za poprawny model ten o wyższym skorygowanym współczynniku R 2 , a ostateczny wybór

uzależnić od ekonomicznego sensu rozważanego problemu.

Daleko bardziej złożony jest problem, gdy obydwa modele mają inne zmienne objaśniane, na

przykład yi oraz ln yi . Istnieją propozycje testowania takich sytuacji, lecz złożoność procedur

testowania jest tak znaczna, że wykracza poza ramy tego podręcznika.

Przykład 9.2

Celem przykładu jest prezentacja testu Mizona – Richarda. Dysponujemy następującymi

zmiennymi:

płaca – miesięczne zarobki w złotówkach;

wiek – wiek wyrażony w latach;

edukacja – liczba lat nauki wyrażona w latach.

Zmienne ln_wiek oraz ln_edukacja to wyjściowe zmienne po zlogarytmowaniu. Chcemy

oszacować regresję, w której płace uzależnimy od wieku i oraz liczby lat nauki. Pojawia się

pytanie, czy powinniśmy logarytmować zmienne objaśniające? Do sprawdzenia tego posłuży

nam test Mizona – Richarda. Poniżej wyniki regresji, w której zagnieżdżone są modele 9.4 i

9.5:

Page 135: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Sprawdźmy najpierw czy poprawnym modelem jest ten, w którym zmienne niezależne są

zlogarytmowane. Sprowadza się to do przetestowania następującej hipotezy:

0 : 0.wiek edukacjaH β β= = Poniżej wyniki estymacji modelu z ograniczeniami:

Liczba obserwacji wynosi 1087 (n = 1087). Wyznaczamy statystykę testową:

2 2

2

( ) (0,0476209-0,0407576)/23,8987051

(1 ) /( ) (1 0,0476209)/(1087-5)RR R J

FR T K

−= = =

− − −

Wyznaczamy wartość krytyczną:

(2,1082) 3,0040419krytyczneF =

Ponieważ wartość statystyki testowej jest większa od wartości krytycznej, więc odrzucamy

hipotezę zerową. Oznacza to, że model, w którym zmienne niezależne zostały

zlogarytmowane jest niepoprawny.

Sprawdzimy jeszcze, czy właściwym modelem jest model, w którym wyjściowe zmienne nie

zostały zlogarytmowane. Jeśli tak jest, to nie powinniśmy mieć podstaw do odrzucenia

hipotezy 0 ln_ ln_: 0.wiek edukacjaH β β= = Poniżej wyniki regresji z ograniczeniami:

Wyznaczamy statystykę testową:

Page 136: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

2 2

2

( ) (0,0476209-0,0443279)/21,8705923

(1 ) /( ) (1 0,0476209)/(1087-5)RR R J

FR T K

−= = =

− − −

Ponieważ wartość statystyki testowej jest mniejsza od wartości krytycznej (ta sama, co w

poprzednim teście), więc nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że

model, w którym zmienne niezależne nie zostały zlogarytmowane jest poprawny.

Sprawdzimy jeszcze czy te same wnioski można wyciągnąć za pomocą testu Davidsona –

MacKinona. Wyniki regresji 1 2 3ln_ ln_ ,i i i i iplaca wiek edukacja yβ β β δ ε= + + + + gdzie y

oznacza wartości wyliczone z regresji, w której wyjściowe zmienne nie zostały

zlogarytmowane, znajdują się poniżej:

Zmienna y jest istotna na poziomie istotności 0,05 (p-value = 0,04313 < 0,05), co implikuje,

że model na logarytmach nie jest właściwy.

Wyniki regresji 1 2 3 ,i i i i iplaca wiek edukacja yβ β β δ ε= + + + + gdzie y oznacza wartości

wyliczone z regresji, w której wyjściowe zmienne zostały zlogarytmowane, znajdują się

poniżej:

Zmienna y jest nieistotna na poziomie istotności 0,05 (p-value = 0,46084 > 0,05), co

implikuje, że model, w którym wyjściowe zmienne nie zostały zlogarytmowane jest

poprawny. Oba testy dają więc ten sam rezultat.

9.4 Testy stabilność parametrów Chowa

Testy stabilności sprawdzają hipotezy, czy parametry modelu są stabilne w różnych

podpróbach dla przypadku danych przekrojowych lub w różnych podokresach czasu dla

przypadku szeregów czasowych. W tym drugim przypadku testy stabilności zwane są testami

punktu zwrotnego lub testami zmian strukturalnych.

Page 137: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Rozpoczniemy od przypadku danych przekrojowych. Załóżmy, że szacujemy regresję płac

dla kobiet i mężczyzn za pomocą równania:

(9.9) placa plec nauka wiek wiek staz stazi i i i i i i i= + + + + + + +β β β β β β β ε1 2 3 4 52

6 72

gdzie: placai - płaca miesięczna i tej− osoby,

pleci - płeć i tej− osoby,

naukai - lata nauki i tej− osoby,

wieki - wiek i tej− osoby mierzony w latach,

wieki2 - wiek do kwadratu i tej− osoby,

stazi - staż pracy i tej− osoby mierzony w latach,

stazi2 - staż pracy do kwadratu i tej− osoby mierzony w latach.

Z rozważań nad zmiennymi 0-1 wiemy, że wpływ wykształcenia, ze względu na walory

interpretacyjne, lepiej oddają zmienne postaci 0-1. Zdefiniujmy dwie takie zmienne, a

mianowicie:

wyzszejesli i ta osoba ma wyksztalcenie wyzsze

jesli inne

sredniejesli i ta osoba ma wyksztalcenie srednie

jesli inne

i

i

=−RST

=−RST

1

0

1

0

,

,

,

,

gdzie kategorią referencyjną jest wykształcenie podstawowe.

Model regresji wygląda wtedy następująco:

(9.10)

placa plec wyzsze srednie wiek wiek staz stazi i i i i i i i i= + + + + + + + +β β β β β β β β ε1 2 3 4 5 62

7 82

Zauważmy, że przy takiej specyfikacji równania zakładamy, że zróżnicowanie płac ze

względu na płeć oddaje parametr β 2 , zaś efekty wykształcenia, wieku i stażu są dla obu płci

jednakowe. Możemy jednak sensownie zakładać, że efekty wykształcenia, wieku i stażu są

odmienne dla mężczyzn i dla kobiet, a więc, że parametry β β3 8do przyjmują inne wartości

dla mężczyzn i inne dla kobiet.

Hipotezę taką możemy zweryfikować przy wykorzystaniu testu stabilności parametrów

Chowa. Szacujemy trzy jednakowe modele regresji, jednak każdy z nich jest oparty na innej

próbie: 1-szy jest modelem dla próby połączonej mężczyzn i kobiet, 2-gi – dla podpróby tylko

mężczyzn i 3-ci - dla podpróby tylko kobiet. We wszystkich trzech modelach postaci (9.10)

Page 138: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

mamy identyczne zmienne objaśniające, różniące się od (9.10) brakiem zmiennej pleci i

związanego z nią parametru β 2 . A zatem:

(9.11) placa wyzsze srednie wiek wiek staz stazi i i i i i i i= + + + + + + +β β β β β β β ε1 3 4 5 62

7 82

Hipoteza zerowa brzmi - H do0 3 8:β β są takie same dla mężczyzn, jak i dla kobiet, zaś

hipoteza alternatywna - H do1 3 8:β β są różne dla mężczyzn i kobiet.

Statystyka testująca opiera się na porównaniu sumy kwadratów reszt dla modelu próby

połączonej, w której obserwowani są jednocześnie mężczyźni i kobiety z sumami kwadratów

reszt z modeli estymowanych oddzielnie dla każdej z tych dwóch podprób. Oznaczmy przez

′e e - sumę kwadratów reszt dla próby połączonej, przez ′e e1 1 - sumę kwadratów reszt dla

modelu z podpróby mężczyzn, zaś przez ′e e2 2 - sumę kwadratów reszt dla modelu z podpróby

kobiet. Wówczas statystyka testu Chowa, przy założeniu, że zaburzenia losowe są normalne,

przyjmuje dla naszego przykładu postać następującej statystyki F – Fishera-Snedecora:

(9.12) F nn

( , )( ) /

( ) / ( )6 2 6

6

2 61 1 2 2

1 1 2 2

− × =′ − ′ − ′

′ + ′ − ×

e e e e e e

e e e e.

Zauważmy, że stawiamy hipotezę, że 5 parametrów z równania dla mężczyzn jest identyczne

z 6-cioma parametrami z równania dla kobiet. Wzór ogólny, gdy liczba porównywanych

parametrów wynosi J, ma postać:

(9.13) F J n JJ

n J( , )

( ) /

( ) / ( )− × =

′ − ′ − ′

′ + ′ − ×2

21 1 2 2

1 1 2 2

e e e e e e

e e e e.

W rozważanym dotychczas przypadku próbę dzieliliśmy na dwie podpróby. Podprób takich

może być oczywiście więcej niż dwie. Moglibyśmy na przykład założyć, że mechanizm

kształtowania płac jest odmienny dla każdego poziomu wykształcenia. W tym przypadku

próbę dzielilibyśmy na trzy podpróby osób o wykształceniu podstawowym, średnim i

wyższym i dalsza procedura testowania przebiegałaby analogicznie, z tym że we wzorze na

statystykę testującą w jej mianowniku sumy kwadratów reszt dzielilibyśmy nie przez

n J− ×2 , a przez n J− ×3 . W przypadku, gdy takich podprób byłoby m , to dzielnikiem

Page 139: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

byłoby wyrażenie n m J− × . Warunkiem testowania jest wymóg, aby liczba obserwacji w

każdej podpróbie była większa od liczby szacowanych współczynników.

Przykład 9.3 Przeprowadzimy test stabilności parametrów Chowa dla modelu opisanego równaniem 9.11.

Poniżej wyniki estymacji dla całej próby – 1087 obserwacji (dla kobiet i mężczyzn):

Tę samą regresję szacujemy na próbie kobiet:

oraz na próbie zawierającej tylko mężczyzn:

Przechodzimy do wyznaczenia statystyki testowej (J = 7 – liczba porównywanych

parametrów, m = 2 – liczba wyodrębnionych podprób):

Page 140: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

1 1 2 2

1 1 2 2

( ) /( 1)* (702590000 51014800 602427000) /(2 1)*711,529285

( ) /( ) (51014800 602427000) /(1087 2*7)

m JF

n m J

′ ′ ′− − − − − −= = =

′ ′+ − × + −

e e e e e e

e e e e

Wyznaczamy wartość krytyczną:

*0,95 (7,1074) 2,0180978F F= =

Ponieważ wartość statystyki testowej przewyższa wartość krytyczną, więc odrzucamy

hipotezę zerową zakładającą stabilność parametrów w obu próbach.

Test punktu zwrotnego Chowa (Test stabilności parametrów dla szeregów czasowych).

Gdy szacujemy modele na podstawie szeregów czasowych, to często interesuje nas, czy

parametry równania nie uległy zmianie w czasie. Testem wykorzystywanym w tej sytuacji

jest test stabilności Chowa, zwany wówczas testem punktu zwrotnego. Dla testowania takiej

hipotezy dzielimy zbiór obserwacji z całego okresu próby na dwa lub więcej podokresów. Dla

ustalenia uwagi przyjmijmy, że T – elementowy przedział próby dzielimy na pierwszy

podokres, zawierający T1 obserwacji i drugi, zawierający T2 obserwacji, tak, że T1 + T2 = T.

Obowiązuje ten sam wymóg, aby liczba obserwacji w każdym z podokresów była większa od

liczby szacowanych współczynników. Dalej procedura testowania przebiega analogicznie jak

w przypadku testu stabilności.

Teoria ekonometrii nie dostarcza wyraźnych i szybkich reguł dzielenia próby o liczebności T

na dwie podpróby T1 i T2. Niekiedy podziały takie są oczywiste, jak na przykład w

przypadku szeregów czasowych z okresu przed transformacją i w jej trakcie, gdzie rok 1989

oddziela okres gospodarki centralnie planowanej od gospodarki o orientacji rynkowej.

Niekiedy może to być data wprowadzenia nowych przepisów, jak na przykład importu

używanych samochodów, lub zmiana stałego kursu walutowego na płynny itp. Gdy brak jest

a priori wskazówek określających czas wprowadzenia zmiany strukturalnej, to praktyczną

zasadą (regułą kciuka) jest użycie 85% do 90% obserwacji dla estymacji i wykorzystanie

dalszej części próby dla testowania stabilności parametrów. Dla testu punktu zwrotnego

obowiązuje ten sam wzór (9.12) na statystykę testującą, jak w przypadku stabilności

parametrów, z tym, że na ogół wielkość próby oznaczamy w tej sytuacji przez T , a liczbę

szacowanych parametrów jak zwykle przez K.

(9.14) F K T KK

T K( , )

( ) /

( ) / ( )− × =

′ − ′ − ′

′ + ′ − ×2

21 1 2 2

1 1 2 2

e e e e e e

e e e e

Page 141: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przykład 9.4 W przykładzie posłużymy się danymi miesięcznymi za lata 2003 – 2006 dla Polski

dotyczącymi wielkości produkcji sprzedanej w przemyśle w mln. zł wyrażonej w cenach ze

stycznia 2003 oraz przeciętnego zatrudnienia w przemyśle wyrażonego w tysiącach. Za

pomocą testu punktu zwrotnego Chowa sprawdzimy, czy relacja między poziomem

zatrudnienia a wielkością sprzedaną w przemyśle zmieniła się po wejściu Polski do Unii

Europejskiej (maj 2004). Wszystkie regresje przeprowadzone są na zlogarytmowanych

zmiennych. Wyniki oszacowań modelu na całej próbie:

Regresja dla okresu przed wstąpieniem do Unii Europejskiej:

oraz po wstąpieniu do Unii Europejskiej:

Przechodzimy do wyznaczenia statystyki testowej:

1 1 2 2

1 1 2 2

( ) / (0,367255 0,10983 0,0691056)/2( , 2 ) 14,806749

( ) /( 2 ) (0,10983+0,0691056)/(39-2*2)

KF K T K

T K

′ ′ ′− − − −− × = = =

′ ′+ − ×

e e e e e e

e e e e

Wyznaczamy wartość krytyczną:

Page 142: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

*0,95 (2,35) 3,2674235F F= =

Wartość statystyki testowej jest większa od wartości

krytycznej, co implikuje odrzucenie hipotezy zerowej.

Oznacza to, że parametry nie są stabilne w

wyodrębnionych próbach, czyli nastąpiła zmiana

strukturalna.

Test prognozy Chowa Ten sam test jest stosowany w przypadkach wykorzystania modelu regresji dla

prognozowania nie na jeden okres, jak to zakładaliśmy w rozważaniach rozdziału 7,

poświęconego prognozowaniu, a na kilka lub kilkanaście okresów w przód. Test prognozy

Chowa jest testem ex post, a więc testem, który jesteśmy w stanie przeprowadzić po

zrealizowaniu się prognoz. Przyjmijmy, że model jest oszacowany na podstawie T1

obserwacji. Model ten jest następnie wykorzystany do prognozowania wartości zmiennej

objaśnianej w T2 dalszych punktach czasowych. Duże różnice między rzeczywistymi a

predykowanymi z modelu wartościami poddają w wątpliwość stabilność równania w obydwu

podpróbach.

Statystyka testująca F jest w tej sytuacji liczona zgodnie z wzorem:

(9.15) F T T KT

T K( , )

( ) /

/ ( )2 11 1 2

1 1 1

− =′ − ′

′ −

e e e e

e e,

gdzie ′e e jest sumą kwadratów dla regresji liczonej na T1 + T2 = T obserwacjach, ′e e1 1 jest

sumą kwadratów dla regresji liczonej na T1 obserwacjach, zaś K jest liczbą estymowanych

współczynników. Zauważmy, że w tym teście T2 (a więc liczba punktów czasowych

prognozy) może być mniejsze od K (liczby szacowanych parametrów).

Przykład 9.5 Posłużymy się tymi samymi danymi co w przykładzie 9.4 dla zobrazowania budowy testu

prognoz Chowa. Okresem prognozy są trzy pierwsze miesiące roku 2006 ( 2 3T = ), natomiast

okres próby stanowią wszystkie pozostałe obserwacje ( 1 36T = ). Poniżej wyniki estymacji

modelu na podstawie danych z obu okresów (okres próby i prognozy):

Page 143: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Następnie szacujemy model tylko dla okresu próby:

Przechodzimy do wyznaczenia statystyki testowej:

1 1 2

1 1 1

( ) / (0,367255 0,354147) / 30,41947929

/( ) 0,354147 /(36 2)

TF

T K

′ ′− −= = =

′ − −

e e e e

e e

Odczytujemy wartość krytyczną:

(3,34) 2,8826042F =

Wartość statystyki testowej jest mniejsza od wartości krytycznej, co oznacza, że nie ma

podstaw do odrzucenia hipotezy zerowej – parametry modelu w okresie prognozy i w okresie

próby są takie same.

9.5 Test Jarque-Bera`y normalności zaburzeń.

Założeniem o istotnych konsekwencjach dla wnioskowania na podstawie klasycznego modelu

regresji liniowej jest założenie o normalności zaburzeń losowych. Jeśli założenie to nie jest

spełnione, to procedury testowania oparte na rozkładach związanych z rozkładem normalnym,

takich jak rozkład χ 2 , t Studenta− , czy F nie są procedurami uprawnionymi w małych

próbach7, gdyż obliczone wartości statystyk nie mają pożądanych rozkładów.

Normalność zaburzeń jest zwykle sprawdzana za pomocą miary skośności i miary kurtozy dla

reszt, wyznaczonych metodą najmniejszych kwadratów. Oznaczmy drugi moment reszt

7 Zwróćmy uwagę, że testy te w dużych próbach (przy n → ∞ ) są nadal ważne asymptotycznie nawet jeśli zaburzenia nie mają rozkładu normalnego.

Page 144: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

wokół zerowej średniej, (tak zwany drugi moment centralny) przez σ 2 2

1

==

∑ e nii

n

.

(Zauważmy, że sumę kwadratów reszt nie dzielimy w tym wypadku przez n - K , a przez n).

Oznaczmy go przez µ2 , zaś pierwiastek z tego wyrażenia jest odchyleniem standardowym

reszt i wynosi σ ==

∑e nii

n2

1

. Podobnie zapiszemy trzeci i czwarty moment: µ33

1

==

∑ e nii

n

,

µ44

1

==

∑e nii

n

.

Miarę skośności oznaczaną zwykle przez S definiuje się jako iloraz trzeciego momentu przez

odchylenie standardowe reszt podniesione do trzeciej potęgi, a więc:

(9.16) Se ni

i

n

= = =

∑µ

σ σ33

3

13

.

Jeśli S jest dodatnie, to mówimy o prawostronnej skośności (prawy ogon rozkładu jest

dłuższy od lewego) i odwrotnie. Dla rozkładu normalnego S = 0 , co oznacza symetrię

rozkładu, a więc brak skośności.

Miarę kurtozy oznaczaną zwykle przez K definiuje się jako iloraz czwartego momentu przez

odchylenie standardowe reszt podniesione do czwartej potęgi, a więc:

(9.17) Ke ni

i

n

= = =

∑µ

σ σ44

4

14

.

Dla rozkładu normalnego kurtoza wynosi 3. Gdy K > 3 rozkład staje się platokurtyczny (jest

spłaszczony; mówimy, że rozkład ma grube ogony) zaś rozkład, w którym K < 3 nazywamy

rozkładem leptokurtycznym (jest on smuklejszy od rozkładu normalnego).

W oparciu o skośność i kurtozę zbudowany jest test Jarque-Bera normalności zaburzeń.

Od nazwiska autorów oznaczany jest przez JB i zdefiniowany następująco:

(9.18) JB nS K

= +−L

NMM

OQPP

2 2

6

3

24

b g, gdzie S oznacza skośność, zaś K - kurtozę.

Test ten ma rozkład chi-kwadrat o dwóch stopniach swobody:

(9.19) JB ~ χ 22 . Jeśli JB krytyczne> χ 2

2 to odrzucamy hipotezę o normalności zaburzeń.

Page 145: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przykład 9.6

Dla modelu oszacowanego w przykładzie 5.8 przeprowadzimy test Jarque – Bera na

normalność składnika losowego. Poniżej wyniki testu oraz histogram reszt z nałożoną

gęstością rozkładu normalnego:

Wartość statystyki testowej wynosi 16809,934, natomiast p-value jest praktycznie równe

zero, co oznacza odrzucenie hipotezy zerowej, zakładającej normalność zaburzenia losowego.

9.6 Ocena wyników analizy regresji

Z przedstawionych dotychczas rozważań wnosimy, że etap diagnozowania modelu jest szczególnie

ważny dla oceny poprawności modelu, a niestety, często niezbyt wnikliwie przeprowadzany.

Ocenę wyników analizy możemy ująć w następujących pytaniach:

1. Czy model jest zgodny z teorią i z postawionymi hipotezami?

2. Czy oszacowane współczynniki mają poprawne znaki?

3. Czy zmienne objaśniające są istotne?

4. Czy wyliczone R2 wyjaśnia dostatecznie dobrze zmienność zmiennej objaśnianej?

5. Czy dane statystyczne użyte do estymacji modelu są poprawne?

6. Czy model spełnia założenia klasycznego modelu regresji liniowej?

6.1. Czy nie występuje heteroscedastyczność?

6.2. Czy nie występuje autokorelacja?

6.3. Czy nie zostały pominięte istotne zmienne objaśniające?

6.4. Czy zachodzi stabilność parametrów?

Page 146: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

6.5. Czy funkcja regresji ma poprawną specyfikację?

6.6. Czy reszty są losowe?

Pozytywne odpowiedzi na powyższe pytania są gwarancją poprawności oszacowanego

modelu.

Podsumowanie

1. Poprawność specyfikacji matematycznej równania regresji sprawdza się za pomocą

testu White`a lub testu RESET Ramseya.

2. Dla porównania dwóch modeli o odmiennych zbiorach zmiennych objaśniających (z

których jeden nie jest zagnieżdżony w drugim) należy zastosować test Mizona –

Richarda lub test Davidsona – MacKinnona.

3. Testy stabilności Chowa sprawdzają hipotezy, czy parametry modelu są stabilne w

różnych podpróbach dla przypadku danych przekrojowych lub w różnych

podokresach czasu dla przypadku szeregów czasowych. W tym drugim przypadku

testy stabilności zwane są testami punktu zwrotnego lub testami zmian strukturalnych.

4. Test ex post prognozy Chowa jest testem sprawdzającym stabilność parametrów w

okresie próby i w okresie prognozowanym.

5. Test Jarque-Bera`y normalności zaburzeń weryfikuje założenie o normalności reszt w

oszacowanym modelu regresji.

6. Po oszacowaniu model należy przeprowadzić w sposób systematyczny ocenę

uzyskanych wyników.

Page 147: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

CZĘŚĆ III. SZCZEGÓLNIE WAŻNE MODELE EKONOMETRYCZNE

13. OGRANICZONA ZMIENNA OBJAŚNIANA

W badaniach ekonometrycznych spotykamy sytuacje, gdy nie tylko zmienne objaśniające

mają charakter jakościowy i w związku z tym w równaniu regresji są przedstawiane za

pomocą zmiennych zero-jedynkowych, co prowadziło do modeli opisanych w 5.2.

Często również zmienna objaśniana jest zmienną typu jakościowego i zdarza się, że przyjmuje ona tylko dwie wartości. Z sytuacjami takimi mamy do czynienia przy wyjaśnianiu powodów, dla których niektórzy kończą studia wyższe, a inni nie kończą, lub niektóre kobiety podejmują pracę zawodową, a inne nie podejmują, lub niektóre rodziny korzystają z internetu, a inne nie, lub posiadają własny dom, a inne nie posiadają. We wszystkich przedstawionych sytuacjach zmienna objaśniana jest zmienną binarną,

przyjmującą wartość 1 gdy badane zjawisko występuje oraz 0 gdy nie występuje.

Metodami estymacji tego rodzaju modeli są dwie równoważne metody: metoda logitowa i

metoda probitowa.

13.1. Liniowa funkcja prawdopodobieństwa

Wstępem do rozważań nad metodą logitową i probitową jest liniowa funkcja prawdopodobieństwa. Dla jej omówienia posłużmy się przykładem korzystania przez badaną osobę z internetu. Oznaczmy zmienną yi = 1 gdy i-ta osoba (i=1, 2,...n) korzysta z internetu oraz yi = 0 , gdy nie korzysta. Załóżmy rozsądnie, że wykorzystywanie internetu zależy od zarobków badanej osoby, jej płci, wieku i poziomu wykształcenia. Przyjmijmy, zgodnie z konwencjonalnym zapisem, że liczba tych zmiennych wynosi K. Przyjmijmy, że chcemy zastosować klasyczny model regresji. Wówczas równanie regresji dla posługiwania się internetem przez i-tą osobę przyjmie postać: (10.1) y x x x i ni i i K Ki i= + + + + + =β β β β ε1 2 2 3 3 1 2 3 , , ; lub krócej yi i i= ′ +x β ε ,

gdzie yi równa się jeden lub zero,

zaś xi i i Kix x x′= 1 2 3, , , jest wektorem wierszowym zmiennych objaśniających dla i-tej

osoby używającej internet.

Stojąc na gruncie założeń klasycznej metody najmniejszych kwadratów przyjmujemy: (10.2) E x( )ε i i′ =0 , a stąd oczekiwana wartość warunkowa korzystania z internetu przez i-tą osobę wyniesie: E x x( )yi i i′ = ′β .

Page 148: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Z definicji wartości oczekiwanej, przy przyjętym założeniu, że mamy jedynie dwa zdarzenia: korzystanie lub nie korzystanie z internetu, możemy napisać:

(10.3) E x x x

x x

( ) ( ) ( )

( )

y P y P y

P y

i i i i i i i i

i i i i

′ = × = ′ + × = ′

= = ′ = ′

1 1 0 0

1 β,

gdzie Pi( . ) oznacza prawdopodobieństwo analizowanego zdarzenia.

Z powyższego zapisu wnosimy, że model liniowy implikuje: Po pierwsze, że ′xiβ jest prawdopodobieństwem, a więc winno leżeć między 0 a 1 . Jest

to możliwe jedynie wtedy, gdy na wektor β nałożymy sensowne ograniczenia.

Po drugie: zaburzenie losowe ε i w modelu (10.1) nie ma rozkładu normalnego, gdyż

przyjmuje jedynie dwie wartości: 1- ′xiβ , gdy yi = 1 , oraz - ′xiβ gdy yi = 0 . Stąd

wariancja zaburzenia losowego nie jest stała i wynosi

( ) ( ) ( ) ( ) [ ] ( )1 1 1 1 12 2− ′ ′ + − ′ − ′ = − ′ ′ − ′ + ′ = − ′ ′x x x x x x x x x xi i i i i i i i i iβ β β β β β β β β β . Oznacza to,

że w liniowym modelu prawdopodobieństwa występuje heteroskedastyczność.

Po trzecie: z (10.3) wynika, że ze wzrostem wartości zmiennych objaśniających liniowo

wzrasta prawdopodobieństwo Pi , co oczywiście jest niezgodne z naszymi odczuciami,

gdyż nie prawdą jest, że np. wraz ze wzrostem zarobków wzrasta liniowo

prawdopodobieństwo używania internetu. Te trzy główne powody sprawiają, że liniowy

model prawdopodobieństwa nie jest poprawnym narzędziem dla modelowania równania

regresji z binarną zmienną objaśnianą.

10.2. Metody logitowa i probitowa

Alternatywnymi metodami estymacji modeli z binarną zmienną objaśnianą są modele: logitowy i probitowy. Obydwa wyznaczają prawdopodobieństwo Pi tego, że yi = 1 w zależności od zmiennej, którą oznaczmy przez Zi , a którą potraktujemy jako liniową kombinację zmiennych, opisujących cechy mające wpływ na wystąpienie zdarzenia: (10.4) Zi i Ki ix x= + + +β β β1 2 2 2 Podobieństwo dystrybuant rozkładów logitowego i probitowego przedstawia rysunek (10.1) Pi

Probit 1

Page 149: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Logit

Zi

0

Rys. 10.1 Dystrybuanty rozkładów logitowego i probitowego W modelu probitowym8 zakładamy, że prawdopodobieństwo Pi , (które nazywamy probitem) jest opisane dystrybuantą rozkładu normalnego:

(10.5) P F t dti i

i

= = −−∞

z( ) exp ZZ

1

2

1

22

π

Szerzej zajmiemy się prezentacją modelu logitowego, ze względu na jego prostszą matematyczną postać i w związku z tym na częstsze zastosowania. W modelu logitowym9 zamiast prawdopodobieństwa Pi , którego dystrybuanta dana jest wzorem

(10.6) Pe

ei

i

i=

+

x

x

β

β1,

(dla zdarzenia yi = 1) szacujemy model

(10.7) lnP

Pi

ii i1−

FHG

IKJ = ′ +x β ε .

Ponieważ w naszym przykładzie Pi jest prawdopodobieństwem używania przez i-tą osobę

internetu, to 1− Pi jest prawdopodobieństwem nie używania. Zaś iloraz P

Pi

i1−, zwany

ilorazem szans jest szansą używania do jego nieużywania. Jeśli dwie trzecie osób korzysta z internetu to szansa używania internetu przez losowo wybraną osobę wynosi jak dwa do jednego. Logarytm naturalny ilorazu szans zwany jest logitem. Model logitowy, jako model nieliniowy względem szacowanych parametrów, jest estymowany metodą największej wiarygodności, a prawdopodobieństwa Pi są następnie wyliczane z funkcji regresji (10.7). Istotną zaletą modelu logitowego (podobnie jak i probitowego) jest utrzymywanie prawdopodobieństw w logicznie sensownych granicach między 0 a 1. Z rysunku (10.1) widzimy, że prawdopodobieństwo wystąpienia zdarzenia (w naszym przypadku używania internetu) nie zmienia się liniowo (jak ma to miejsce w liniowym modelu prawdopodobieństwa). Prawdopodobieństwo to wzrasta lub maleje w coraz wolniejszym

8 Nazwa model probitowy pochodzi od anglojęzycznego skrótu słów „probability unit” (jednostka prawdopodobieństwa). 9 Nazwa logitowy pochodzi od logistycznego rozkładu prawdopodobieństwa.

Page 150: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

tempie zbliżając się do jedności lub do zera, gdy wartości zmiennej Zi wzrastają lub maleją. Zwykle koncentrujemy uwagę na wpływie k-tej zmiennej objaśniającej na prawdopodobieństwo wystąpienia badanego zdarzenia. Jak pamiętamy w klasycznym modelu regresji liniowej parametr β k określa, o ile jednostek zmieni się zmienna objaśniana, gdy k-ta zmienna objaśniająca zmieni się o jednostkę, przy pozostałych zmiennych niezmienionych . Model logitowy, podobnie jak model probitowy nie jest, jak wynika z (10.6), modelem liniowym i stąd interpretacja parametrów nie jest tak oczywista jak w modelu liniowym. Pochodna Pi ze wzoru (10.6) wynosi

(10.8) ∂

∂=

+

P

x

e

ei

kik

i

β

β

x

x[ ]1 2

Ponieważ wyrażenia licznika i mianownika ułamka z prawej strony są prawdopodobieństwami, a więc są dodanie, to znak parametru β k określa kierunek wpływu k-tej zmiennej xki na prawdopodobieństwo wystąpienia badanego zdarzenia, a więc dodatnia jego wartość zwiększa, a ujemna zmniejsza to prawdopodobieństwo. O ile znak pochodnej (10.8) jest określony wyłącznie przez znak β k , o tyle wielkość pochodnej zależy od wektora ′xiβ . Dlatego w praktycznych zastosowaniach oblicza się

średnie wartości zmiennych objaśniających w próbie, a więc wektor 2(1, , , )Kx x′ =x i

dla nich ze wzoru (10.8) wylicza się wartość pochodnej. W wydruku komputerowym GRETLa wielkości te podane są w ostatniej kolumnie i nazywane w zależności od wersji pakietu GRETL „efekt krańcowy dla średnich” lub „nachylenie (do średniej)”. Użyteczną interpretację parametrów uzyskamy wyliczając z (12.8) pochodne dla dwóch różnych zmiennych objaśniających na przykład xk oraz xl a następnie obliczając ich iloraz.

(10.9) ∂

∂=

P

x

P

xi

li

i

ki

l

k

β

β

Jeśli celowo wybrany parametr uznamy za układ odniesienia (oznaczmy go przez β k ), - w naszym przykładzie niech to będzie parametr przy zmiennej dochodu, mierzonego w tysiącach złotych miesięcznie - zaś parametr β l niech będzie parametrem przy zmiennej „wykształcenie wyższe”, to iloraz tych parametrów β βl k wskaże, ile razy silniejszy jest wpływ na prawdopodobieństwo używania internetu wykształcenia wyższego od wzrostu miesięcznego dochodu o tysiąc złotych. Jest to jeden z możliwych sposobów interpretacji parametrów. Dla zapoznania się z innymi możliwymi sposobami interpretacji odsyłam do książki M. Gruszczyńskiego [2002]. Jak już wspomnieliśmy modele logitowe i probitowe szacowane są metodą największej wiarygodności. Obydwa modele dają podobne wyniki; wszystkie miary dopasowania obydwu modeli są identyczne. W praktycznych zastosowaniach korzysta się z jednej z tych dwóch metod. W odróżnieniu od KMRL, w którym powszechnie stosowaną miarą dobroci dopasowania jest R2 , w modelach binarnych istnieje wiele takich miar (patrz A.Cameron i F. Windmeijer [1997]. Powszechnie używaną miarą dobroci dopasowania w modelach binarnych jest test ilorazu wiarygodności (likelihood ratio test), zwany pseudoR

2. Niech lnL1 oznacza maksimum funkcji wiarygodności szacowanego modelu i niech lnL0 oznacza maksimum

Page 151: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

funkcji wiarygodności, gdy wszystkie parametry z wyjątkiem stałej są zero. Oczywiście ln lnL L1 0≥ . Im większa jest różnica, tym zmienne objaśniające przydają więcej wyjaśnienia zero-jedynkowej zmiennej objaśnianej. Stąd pseudoR2 jest określone następująco:

(10.11) pseudoRL L n

2

1 0

11

1 2= −

+ −(ln ln ) /,

gdzie n jest liczbą obserwacji.

Przykład 10.1.

Dane wykorzystane w przykładzie pochodzą ze strony http://www.diagnoza.com/ i

dotyczą roku 2003. Celem modelu jest znalezienie determinantów korzystania z internetu.

Poniżej znajduje się opis zmiennych.

Zmienna objaśniana:

internet –; 1- korzysta z internetu, 0 – nie korzysta z internetu;

Zmienne objaśniające:

plec - płeć respondenta; 1- mężczyzna, 0 – kobieta;

wiek - wiek respondenta;

dochod - miesięczne zarobki;

wyzsze – 1 dla osób o wykształceniu wyższym;

srednie – 1 dla osób o wykształceniu średnim;

Za poziom referencyjny przyjmujemy wykształcenie podstawowe.

Poniżej oszacowanie modelu logitowego:

Page 152: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wysokie wartości bezwzględne statystyki t wskazują na odrzucenie hipotezy zerowej o

nieistotności poszczególnych zmiennych objaśniających.

W przypadku modelu logitowego, jak wiemy z równania (10.8), interpretujemy tylko

znaki oszacowanych parametrów.

I tak, dodatni współczynnik przy zmiennej plec oznacza, że mężczyźni mają większe

prawdopodobieństwo korzystania z internetu w porównaniu z kobietami. Ujemny znak

współczynnika przy zmiennej wiek oznacza, że wraz z wiekiem maleje

prawdopodobieństwo korzystania z internetu. Dodatnie znaki współczynników przy

zmiennych zero-jedynkowych dotyczących wykształcenia oznaczają, że osoby z

wykształceniem średnim oraz wyższym częściej korzystają z internetu w porównaniu z

osobami o wykształceniu podstawowym. Dodatni współczynnik przy zmiennej dochod

oznacza, że wzrost zarobków przyczynia się do zwiększenia prawdopodobieństwa

korzystania z internetu.

Page 153: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Interesujące jest wyznaczenie ilorazów oszacowanych współczynników zgodnie z

wyrażeniem (10.9)

∂=

P

x

P

xi

li

i

ki

l

k

β

β

Za układ odniesienia przyjmijmy współczynnik przy zmiennej dochód, który po

przemnożeniu przez 1000 mierzy efekt płacowy wyrażony w tysiącach złotych zarobków

miesięcznych. Z wydruku Gretla wynika że jest to wielkość 0,877388. - zaś

współczynnik przy zmiennej „wykształcenie wyższe” wynosi 1,33560, stąd iloraz tych

współczynników wskazuje, że wykształcenie wyższe wywiera przeszło 1,5 razy silniejszy

wpływ na prawdopodobieństwo używania internetu niż wzrost miesięcznego dochodu o

tysiąc złotych. Zestawiając analogicznie współczynnik płci ze współczynnikiem dochodu

uzyskujemy wynik wynoszący 0,49, co oznacza, że płeć męska osoby badanej ma o

połowę mniejszy wpływ na korzystania z internetu w porównaniu ze wzrostem dochodów

o 1000 złotych.

W przypadku modelu logitowego interpretację ilościową mają efekty krańcowe

wyznaczone dla średnich wartości zmiennych objaśniających 2(1, , , )Kx x′ =x (ostatnia

kolumna tabeli). I tak, mężczyźni w porównaniu z kobietami mają o 0,0879 wyższe

prawdopodobieństwo korzystania z internetu w porównaniu z kobietami. Wzrost wieku o

1 rok przekłada się na spadek prawdopodobieństwa korzystania z internetu o 0,0148.

Osoby z wykształceniem średnim i wyższym mają odpowiednio o 0,0883 i 0,2729

większe prawdopodobieństwo korzystania z internetu w porównaniu z osobami o

wykształceniu podstawowym. Wzrost zarobków miesięcznych o 1000 zł powoduje wzrost

prawdopodobieństwa korzystania z internetu o 0,1793.

Zwróćmy jeszcze uwagę na lewy dolny fragment wydruku Gretla, który powtórzymy

poniżej :

Prognoza

Page 154: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

0 1

0 360 595

Empiryczne

1 221 1852

W wierszach tablicy określone są, zgodnie z przyjętymi oznaczeniami empiryczne

wartości zmiennej objaśnianej: 0 oraz 1, a w kolumnach „Prognoza” - wartości wyliczone

na podstawie modelu logitowego: 0 oraz 1, zaś w czterech kratkach tablicy podane są

liczebności. Tablica uzewnętrznia zgodność wartości wyliczonych (prognoz) z

wartościami empirycznymi. Koncentrując uwagę na wierszu „ 0 – nie korzystanie z

internetu„ obserwujemy 360 przypadków poprawnego trafienia prognozy i 595

przypadków nie trafienia prognozy. W wierszu drugim: „1 - korzystania z internetu”

sytuacja jest daleko lepsza. Prognoza nietrafiona pojawiła się jedynie w 221 przypadkach,

zaś trafiona aż w 1852 przypadkach. Wnosimy stąd że model poprawniej prognozuje

korzystanie niż nie korzystanie z internetu. Oczywiście w sytuacji doskonałych prognoz

pojawiać się powinny liczebności tylko na głównej przekątnej tablicy. W wydruku

komputerowym Gretla znajduje się informacja: „Liczba przypadków poprawnej predykcji

= 2212 (73,1%)”

Często model binarny jest wyprowadzany z założeń o zachowaniu się jednostek, będących przedmiotem badania. Rozumowanie prowadzi wówczas do modelu z tak zwaną zmienną ukrytą. Istotne jest jednak podkreślenie, że wprowadzenie koncepcji zmiennej ukrytej nie jest konieczne dla stosowania modeli binarnych. Rozważmy model decyzji mężatki o podjęciu pracy zarobkowej. Podjęcie płatnej pracy zależy z jednej strony od wielkości oferowanej płacy przez pracodawcę, a z drugiej od płacy oczekiwanej przez kobietę (zwanej płacą referencyjną). Można sądzić, że płaca referencyjna zależy silnie nie tylko od wieku, stażu w zawodzie, poziomu wykształcenia, stanu rodzinnego, dzietności itd, ale również od cech osobowościowych kobiety: jej aspiracji zawodowych, pracowitości i wytrwałości w realizacji celów życiowych itp.. Dla i-tej kobiety możemy przeto sformułować równanie różnicy użyteczności między płacą referencyjną a płacą oferowaną przez pracodawcę. Przyjmijmy rozsądną zasadę, że jeśli oczekiwana przez mężatkę płaca referencyjna jest wyższa od oferowanej to różnica użyteczności jest ujemna i nie podejmie ona pracy, jeśli odwrotnie, to podejmie. Ponieważ różnica użyteczności jest nieobserwowalna, to tworzy ona tak zwaną zmienną ukrytą. Różnicę użyteczności oznaczmy przez yi

* i zapiszmy:

(10.12) yi i i* = ′ +x β ε .

Zgodnie z tymi założeniami obserwujemy yi = 1 (kobieta jest zatrudniona) wtedy i tylko

wtedy, gdy yi* > 0 , oraz yi = 0 gdy kobieta nie pracuje. Możemy wówczas napisać:

(10.13) P y P y P P Fi i i i i i i( ) ( ) ( ) ( ) ( ),*= = > = ′ + > = − ≤ ′ = ′1 0 0x x xβ ε ε β β

Page 155: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

gdzie F oznacza funkcję dystrybuanty standardowego rozkładu normalnego lub rozkładu logistycznego zmiennej. Dalsze rozważania nad zastosowaniem modelu są analogiczne jak poprzednio omówione. 10.3. Wielomianowa metoda logitowa, metoda tobitowa, modele samoselekcji próby Jakościowa zmienna objaśniana może przyjmować więcej niż dwie wartości. Gdy na

przykład modelujemy czynniki określające poziom wykształcenia, to zmienna objaśniana

przyjmie wartości wykształcenia wyższego, średniego lub podstawowego, a więc nie dwa

stany jakościowe, a trzy. W przypadkach modelowania bardziej złożonych zjawisk – jak

na przykład w przypadku modelowania stopnia satysfakcji z osiąganego dochodu -

zmienna objaśniana może przyjmować kilka stanów jakościowych; na przykład: bardzo

zadowolony, zadowolony, ani zadowolony ani niezadowolony, niezadowolony, bardzo

niezadowolony. Właściwą metodą estymacji jest wówczas wielomianowa metoda

logitowa, w której prawdopodobieństwo każdego z możliwych stanów jakościowych jest

przedstawione jako funkcja cech badanej jednostki. Istotną własnością metody jest

opisanie tych prawdopodobieństw za pomocą ograniczonej liczby nieznanych parametrów

i to w sposób zgodny z logiką problemu, a mianowicie prawdopodobieństwa leżą w

przedziale 0 i 1, oraz suma tych prawdopodobieństw dla wszystkich alternatyw wynosi 1.

Istnieją dwie wersje wielomianowej metody logitowej, a mianowicie modele dla

alternatyw uporządkowanych i modele dla alternatyw nieuporządkowanych.

Stosowanie modeli alternatyw uporządkowanych jest możliwe w sytuacjach, gdy istnieje

logiczne uporządkowanie alternatyw, jak na przykład w przypadku satysfakcji z dochodu.

Wówczas prawdopodobieństwa dla kolejnych alternatyw są zależne od ich

uporządkowania.

W modelach alternatyw nieuporządkowanych przyjmowane jest założenie, że wybór

określonej alternatywy jest wynikiem maksymalizacji użyteczności płynącej z wyboru

jednej z możliwych alternatyw. Klasycznym przykładem jest modelowanie wyboru środka

transportu (autobus, metro, samochód, rower, pieszo).

Ze względu na złożoność wielomianowych modeli logitowych i trudności interpretacyjne uzyskanych wyników, pominiemy prezentację tych modeli, odsyłając Czytelnika do bardziej zaawansowanych podręczników ekonometrii, na przykład W.Greene [2003]. Zmienna objaśniana może mieć również inne ograniczenia. Przy modelowaniu na

przykład wydatków na zakup samochodu - zmienna ciągła (ilość wydanych złotówek)

może przyjmować wartość 0 w gospodarstwach domowych, które nie zakupiły w

rozpatrywanym okresie samochodu lub wartości liczb rzeczywistych (ilości złotówek) w

Page 156: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

przypadku rodzin, które zakupiły samochód. Modelowanie wydatków na zakup

samochodów za pomocą MNK na podstawie próby gospodarstw domowych, w której

znajdują się jedynie nabywcy daje niepoprawne wyniki i należy wówczas stosować

specjalne modele dla prób ocenzurowanych. Modelem takim jest model tobitowy10,

zwany często modelem regresji cenzurowanej.

Wróćmy do przykładu wydatków na zakup samochodów i przyjmijmy, że wydatki te w

i-tej rodzinie zależą od zestawu cech opisanych wektorem zmiennych objaśniających xi.

Oznaczmy przez y*i wielkość tych wydatków zależną od xi.. A więc

(10.10) yi i i* = ′ +x β ε ,

przy czym yi = yi* jeśli yi

* > 0

= 0 jeśli yi* ≤ 0

o ε i zakładamy, że n i d. . .( , )0 2σ i jest niezależne od xi.

W rozpatrywanym przykładzie zmienna ukryta y*i ocenzurowana jest od dołu, z granicą

ocenzurowania w punkcie 0. Zmienna objaśniana może być nieobserwowana dla

wartości mniejszych od określonego progu dolnego, oznaczanego przez yL (L – lower),

lub większych od określonego progu górnego, oznaczonego przez yU (U – upper), może

być również ocenzurowana jednocześnie od dołu i od góry.

Metodą estymacji modeli tobitowych jest również metoda największej wiarogodności, ale

stopień matematycznej komplikacji jest znaczny i z tego powodu prezentacja tych modeli

zostanie pominięta.

Zwróćmy uwagę na podobieństwo modelu tobitowego z modelem probitowym. Różnica

tkwi w odwzorowaniu zmiennej ukrytej y*i w zmienną obserwowalną yi.

Metodą godną szczególnego podkreślenia jest tak zwana metoda samoselekcji próby Heckmana. Często zdarza się, że próba, na podstawie której szacowany jest model, nie jest próbą losową, (co jest niezbędnym wymogiem zastosowania MNK- zaburzenia losowe mają rozkłady normalne), a próbą dobraną nielosowo. Na przykład kobiety pracujące zawodowo nie są losowo wybranymi osobami spośród wszystkich kobiet, a stanowią zbiór kobiet o wyjątkowych predyspozycjach do podjęcia pracy i stąd model oparty na próbie kobiet pracujących nie jest poprawnym modelem dla wszystkich kobiet, zarówno pracujących jak i niepracujących. W takich przypadkach właściwym modelem jest model samoselekcji próby Heckmana. Czytelników zainteresowanych

10 Nazwa upodobniona do nazw modele probitowe lub logitowe nawiązuje do nazwiska twórcy tej metody Jamesa Tobina, który w 1958 zastosował ją do modelowania wydatków gospodarstw domowych na dobra trwałego użytku.

Page 157: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

zastosowaniami zasygnalizowanych wyżej metod odsyłamy do bardziej zaawansowanych podręczników ekonometrii, na przykład W.Greene [2003].

Podsumowanie 1. Często zmienna objaśniana jest zmienną typu jakościowego i zdarza się, że przyjmuje

ona tylko dwie wartości. Z sytuacjami takimi mamy do czynienia przy wyjaśnianiu

powodów, dla których niektórzy kończą studia wyższe, a inni nie kończą, lub niektóre

kobiety podejmują pracę zawodową, a inne nie podejmują, lub niektóre rodziny

korzystają z internetu, a inne nie, lub posiadają własny dom, a inne nie posiadają.

2. Metodami estymacji modeli z binarną zmienną objaśnianą są modele: logitowy i probitowy. Obydwa wyznaczają prawdopodobieństwo Pi tego, że yi = 1 w zależności od zmiennej Zi , która jest liniową kombinację zmiennych, opisujących cechy mające wpływ na wystąpienie zdarzenia:

Zi i Ki ix x= + + +β β β1 2 2 2 14. Model logitowy, podobnie jak model probitowy nie jest modelem liniowym i stąd

interpretacja parametrów jest odmienna niż w modelu liniowym. Pochodna Pi ze

wzoru wynosi

∂=

+

P

x

e

ei

kik

i

β

β

x

x[ ]1 2

W praktycznych zastosowaniach oblicza się średnie wartości zmiennych objaśniających w próbie, a więc wektor 2(1, , , )Kx x′ =x i dla niego wylicza się wartość pochodnej. W wydruku komputerowym GRETLa wielkości te podane są w ostatniej kolumnie i nazywane w zależności od wersji pakietu GRETL „efekt krańcowy dla średnich” lub „nachylenie (do średniej)”.

3. Użyteczną interpretację parametrów uzyskuje się wyliczając pochodne dla dwóch

różnych zmiennych objaśniających na przykład xk oraz xl a następnie obliczając ich iloraz.

∂=

P

x

P

xi

li

i

ki

l

k

β

β.

15. Powszechnie używaną miarą dobroci dopasowania w modelach binarnych jest test

ilorazu wiarygodności (likelihood ratio test), zwany pseudoR2

Page 158: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

11. MODELE POJEDYNCZEGO SZEREGU CZASOWEGO 11.1 Analiza klasyczna

Modele regresyjne rozważane dotychczas miały na celu ustalenie struktury zjawiska, uzależniając tę strukturę od zbioru zmiennych objaśniających. Znajomość zmiennych objaśniających była więc niezbędna dla opisu i prognozowania. Doświadczenie podpowiada, że nie zawsze znamy wartości tych zmiennych dla okresu prognozowanego. Dla względnie prostych w swej strukturze zjawisk, budowa modelu regresji wielorakiej wydaje się zabiegiem niepotrzebnym. W takich sytuacjach możemy korzystać z modeli opartych na analizie pojedynczego szeregu czasowego. Klasyczna analiza statystyczna sprowadzała się do dekompozycji szeregu na elementy składowe, jak na przykład: (11.1) y T S Ct t t t t= + + + ε , gdzie: yt - badane zjawisko w czasie t,

Tt - składnik trendu w czasie t, St - składnik sezonowy w czasie t,

Ct - składnik cykliczny w czasie t, ε t - składnik losowy w czasie t. Niekiedy była to dekompozycja z elementami multiplikatywnymi: (11.2) y T S Ct t t t t= × × × ε . Czasem stosowane są specjalne metody analizy, jak na przykład wyrównywanie wykładnicze (Exponential Smooting).

11.2. Szereg czasowy jako realizacja procesu stochastycznego

Przypomnijmy, że szereg czasowy rozumiemy jako zbiór równo rozmieszczonych w czasie obserwacji badanego zjawiska w określonym przedziale czasu. W przedstawionych niżej rozważaniach będziemy traktować szereg czasowy jako pojedynczą realizację procesu stochastycznego, przez który rozumiemy ciąg zmiennych losowych o argumencie naturalnym.

W szeregach czasowych, traktowanych jako realizacje procesu stochastycznego, będziemy

badać, oprócz dotychczas zauważonych cech nowe własności szeregów.

1. Trend deterministyczny:

(11.3) trend liniowy : y tt t= + +γ γ ε1 2 ,

(11.4) trend wielomianowy rzędu p : y tt ii

i

p

t= + +−

=

∑γ γ ε11

2

,

Page 159: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

2. Trend stochastyczny:

(11.5) : y yt t t= + +−δ ε1 1 .

Zauważmy, że w tym ostatnim przypadku (modelu zwanego modelem błądzenia losowego z

dryfem), opóźniając zmienną y t razy i dokonując t-krotnego podstawienia otrzymamy:

(11.6) y y tt t ii

t

= + + −

=

∑0 11

δ ε .

Z powyższego zapisu widać, że parametr dryfu δ 1 pełni podobną rolę jak parametr trendu

deterministycznego γ 2 w (11.3). Jednak w (11.3) losowe efekty szoków ε t rozpraszają się z

upływem czasu, albo jak mogli byśmy powiedzieć – wygasają z upływem czasu. W (11.5) co

widać z (11.6) szoki wywierają trwały wpływ na yt. Taki trwały wpływ na produkcję

wywiera postęp technologiczny, lub obowiązujące w kolejnych latach formy polityki

fiskalnej. O szeregu z trwałym wpływem zaburzeń mówimy, że jest szeregiem z długą

pamięcią.

3. Błądzenie losowe (bez dryfu), jako model typowy dla badania relacji kursów walutowych

ma postać:

(11.7) y yt t t= +−1 ε ε σt IID~ ( , )0 2 ,

gdzie zaburzenie losowe εt zwane jest również białym szumem.

4. Szeregi w niektórych przedziałach czasu mogą wykazywać większą od przeciętnej

zmienność (silne wahania wokół średniej), jak na przykład na poniższym rysunku.

-50

5

sze

reg

0 200 400 600 800 1000t

Page 160: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Po okresach podwyższonej zmienności następują okresy uspokojenia. Zachowania takie są

typowe dla zjawisk giełdowych i są modelowane za pomocą modeli z warunkową

heteroskedastycznością.

5. Szeregi mogą wykazywać niesymetryczność reakcji na szoki losowe, jak to ma na

przykład miejsce w reakcjach graczy giełdowych na silne wzrosty lub spadki kursów akcji.

11.3. Procesy autoregresyjne rzędu p -AR(p) (Autoregressive),

procesy średniej ruchomej rzędu q – MA(q) (Moving Average),

zintegrowane rzędu d procesy autoregresyjne rzędu p ze średnią ruchomą

rzędu q - ARIMA(p,d,q) (Autoregressive Integrated Moving Average).

Dysponując jedynie pojedynczym szeregiem staramy się ustalić relacje dynamiczne, jakie

mogą zachodzić między różnymi obserwacjami badanego zjawiska. Przyjmijmy, że zachodzi

następujący prosty związek:

(11.8) y yt t t= +−θ ε1 ε σt IID~ ( , )0 2 . Proces opisany równaniem (11.8) zwany jest procesem autoregresyjnym rzędu

pierwszego AR(1). Określa on, że bieżąca wartość szeregu równa się poprzedniej razy

parametr θ plus zaburzenie . Z procesami tego rodzaju mieliśmy do czynienia przy badaniu

autokorelacji zaburzenia losowego w klasycznym modelu regresji liniowej.

Mechanizm opisany procesem autoregresyjnym możemy uogólnić pisząc:

(11.9) y y y yt t t p t p t= + + + +− − −θ θ θ ε1 1 2 2 ε σt IID~ ( , )0 2

Jest to proces autoregresyjny rzędu p - AR(p).

Inną formą związku są procesy średniej ruchomej.

Proces średniej ruchomej rzędu pierwszego opisuje równanie:.

(11.10) y IIDt t t t= + −ε αε ε σ120, ~ ( , ) .

gdyż yt jest opisane średnią ruchomą bieżącego zaburzenia i minionego.

Jego uogólnieniem jest proces średniej ruchomej rzędu q: MA(q).

(11.11) y IIDt t t t q t q t= + + + +− − −ε α ε α ε α ε ε σ1 1 2 220 , ~ ( , )

Page 161: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

O ile mechanizm procesu autoregresyjnego jest akceptowalnym procesem ekonomicznym, w

którym obecny stan procesu jest uzależniony od jego historii, o tyle mechanizm procesu

średniej ruchomej może się wydawać niezrozumiały. Po wnikliwszym oglądzie różnych

procesów ekonomicznych możemy jednak znaleźć takie, w których nawarstwianie się

kolejnych innowacji (szoków) wywiera stały wpływ na bieżącą wartość procesu. Przykładem

może być postęp techniczny. Nowe rozwiązania technologiczne i organizacyjne oraz nowe

produkty, które pojawiają się w pewnych okresach czasu i zaburzają dotychczasowy rytm

wytwórczy, często wpisują się na trwałe w mechanizm innowacyjny. Model średniej

ruchomej oddaje właśnie tego typu uwarunkowania.

Procesy autoregresyjne i średniej ruchomej można połączyć otrzymując proces mieszany:

autoregresyjny ze średnią ruchomą, zapisywany jako ARMA(p,q). Identyfikację procesów

ARMA(p,q) umożliwiają funkcja autokorelacji i cząstkowej autokorelacji.

Obserwując pojedynczy szereg możemy jedynie wyznaczyć jego średnią, wariancję i

kowariancje między równooddalonymi od siebie obserwacjami.

Dotychczas zakładaliśmy, że rozpatrywane szeregi są stacjonarne.

Proces jest stacjonarny, jeśli jego średnia i wariancja są stałe, zaś kowariancja zależy

tylko od opóźnienia występującego między dwoma okresami czasu i nie zależy od

konkretnego okresu czasu, począwszy od którego kowariancja ta jest liczona.

Stosując zapis formalny możemy napisać, że szereg stochastyczny jest stacjonarny (ściślej

– kowariancyjnie stacjonarny lub słabo stacjonarny) , jeśli spełnia następujące trzy

warunki:

(11.12) Warunek średniej: E(yt) = µ

(11.13) Warunek wariancji: E(yt – µ)2 = σ2= γ0

(11.14) Warunek kowariancji: E[(yt – µ) (yt-k – µ)] = γk, k=1, 2, 3, ...

gdzie σ 2 = γ0 oznacza wariancję, zaś γk oznacza kowariancję o opóźnieniu k , a więc

kowariancję między wartościami y oddzielonymi od siebie o k okresów. Używając dalej w

tekście określenia „stacjonarny”, będziemy przez nie rozumieć „kowariancyjnie stacjonarny”.

Page 162: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Funkcja autokorelacji, oznaczana w skrócie ACF.

Ponieważ kowariancje zachowują miano zmiennych (zmienna mierzona w złotych ma

kowariancję mierzona w złotych do kwadratu), to powszechnie stosuje się wielkości

niemianowane, jakimi są autokorelacje ρ k zdefiniowane jako:

(11.15) ργ

γk

t t k

t

kCov y y

Var y= =−( , )

( ) 0

.

Zauważmy, że ρ0 1= oraz − ≤ ≤1 1ρ k .

Autokorelacje traktowane jako funkcja k zwane są funkcją autokorelcji (ACF) lub

niekiedy kolerogramem szeregu yt .

ACF gra ważną rolę w modelowaniu zależności między obserwacjami, gdyż opisuje przebieg

yt w czasie. Obok średniej i wariancji jest ważną charakterystyką procesu, na podstawie

której możemy wnosić, jak pojedyncza obserwacja w szeregu jest powiązana z poprzednimi

obserwacjami. Na tej podstawie możemy wnioskować o parametrach procesu ARMA(p,q), a

stąd o długości i sile pamięci, cechującej badany proces, a więc określać jak długo i jak silnie

zaburzenie ε t wpływa na wartość yt.

Funkcja cząstkowej autokorelacji (PACF) – (Partial Autocorrelation Function)

Przy wstępnym doborze parametrów procesu ARMA (p,q) obok funkcji autokorelacji

korzystamy z pojęcia funkcji cząstkowej autokorelacji. Współczynnik cząstkowej

autokorelacji dla procesu autoregresyjnego rzędu p mierzy cząstkowy efekt procesu

autoregresyjnego rzędu p , jaki przydaje dodatkowo ten proces ponad to, co wyznacza proces

autoregresyjny rzędu p-1. Zgodnie z przyjętą konwencją zapiszmy proces autoregresyjny

rzędu p-1 i rzędu p jako:

(11.16) y y y y AR pt t t p t p t= + + + + −− − − −θ θ θ ε1 1 2 2 1 1 ( ) ( )

(11.17) y y y y y AR pt t t p t p p t p t= + + + + +− − − − −θ θ θ θ ε1 1 2 2 1 ( ) ( ) .

Wówczas współczynnikiem cząstkowej autokorelacji rzędu p jest θ p . Funkcją cząstkowej

autokorelacji jest ciąg współczynników autokorelacji cząstkowych traktowanych jako

Page 163: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

funkcja argumentu naturalnego k. Dla podkreślenia, że są to współczynniki cząstkowe

dodajemy podwójny subskrypt pisząc: (11.18) PACF pp: , , ,θ θ θ11 22 lub krótko: θ kk k p; , , ,= 1 2 . Eliminacja niestacjonarności Procesy ekonomiczne często są niestacjonarne. Najczęściej jest to niestacjonarność względem

średniej, rzadziej względem wariancji. Niestacjnarność względem średniej jest widoczna nie

tylko z wykresu szeregu, na którym zauważalny jest rosnący lub malejący trend, ale również z

postaci funkcji autokorelacji, która to funkcja nawet dla kilkudziesięciu opóźnień nie wygasa,

obniżając swoje wartości niezwykle powoli. Niestacjnarność względem średniej usuwa

różnicowanie szeregu, zaś niestacjnarność względem wariancji eliminuje w znacznym stopniu

logarytmowanie szeregu.

Zajmiemy się przede wszystkim niestacjonarnością względem średniej.

Zapiszmy: ∆y y yt t t= − −1

Jeśli ∆yt jest procesem ARMA(p,q) powstałym z procesu yt przez jednokrotne jego

zróżnicowanie, to yt zwane jest procesem zintegrowanym rzędu pierwszego: I(1)

zapisywanym jako: ARIMA(p,1,q), co jest skrótem anglojęzycznej nazwy: Autoregressive

Integrated Moving Average. O procesie yt mówimy, że ma pierwiastek jednostkowy.

Proces, który dla zapewnienia stacjonarności wymaga d – krotnego różnicowania

zapisujemy jako: ARIMA(p,d,q).

Procesy zintegrowane rzędu d oznaczamy ogólnie I(d).

Doświadczenie podpowiada, że większość szeregów makroekonomicznych przedstawiających

strumienie lub zasoby powiązanych z liczbą ludności , takich jak produkcja lub zatrudnienie

jest stopnia I(1). Szeregi I(2) wzrastają według stale rosnącej stopy. Są to w większości

przypadków szeregi powiązane z poziomem cen. Szeregi I(3) lub wyższe występują

niezmiernie rzadko. Są to na przykład zasoby pieniądza, poziomy cen przy hiperinflacji.

11,4, Procedura Boxa – Jenkinsa

Procedurą Boxa – Jenkinsa nazywamy metodę wstępnego wyznaczania parametrów p,d,q

modelu ARIMA, adekwatnego dla danego szeregu czasowego. Procedura zwyczajowo

dzielona jest na trzy etapy:

Page 164: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

1. Identyfikacja,

2. estymacja,

3. diagnozowanie.

1. Identyfikacja. Estymacja parametrów modelu ARIMA wymaga wstępnej

identyfikacji trzech parametrów określających:

a) rząd procesu autoregresyjnego p,

b) rząd integracji d, oraz

c) rząd średniej ruchomej q.

Identyfikację rozpoczynamy od oglądu wykresu, z którego wnosimy o jego

niestacjonarności względem średniej i/lub wariancji, skupiskach lokalnej

podwyższonej zmienności itp.

Istotnym elementem identyfikacji jest analiza funkcji autokorelacji i cząstkowej autokorelacji

(ACF i PACF). Możemy wyróżnić następujące sytuacje wstępnej identyfikacji parametrów: p,

d, q.

1. ACF nie wygasa. Oznacza to niestacjonarność. Należy zróżnicować szereg wyjściowy

jednokrotnie d = 1 lub co najwyżej dwukrotnie d = 2.

2. ACF wykładniczo gaśnie, zaś PACF jest ucięta, to znaczy dla k > p θ kk = 0. Oznacza

to proces AR(p).

3. ACF jest ucięta, to znaczy ρk = 0 dla k > q, a PACF szybko gaśnie. Oznacza to proces

MA(q).

4. Jeśli ani ACF ani PACF nie mają punktu ucięcia, to proces jest mieszany

ARIMA(p,q).

Wygodnym postępowaniem jest estymacja modeli przeidentyfikowanych w porównaniu z

modelem o wstępnie dobranych parametrach. Liczymy więc kolejno modele powiększając za

każdym razem tylko jeden parametr o jedną jednostkę. W praktycznie liczonych modelach

parametry p oraz q bardzo rzadko przekraczają liczbę 2, co istotnie ogranicza procedurę

estymacyjną.

Jeśli okaże się, że mimo procedury przeidentyfikowania otrzymujemy nieakceptowalny ze

względu na normalność reszt model, oznacza to, że metoda ARIMA jest niewłaściwą metodą

estymacji dla danego szeregu.

Page 165: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

2, Estymacja. Estymujemy model przy wstępnie dobranych parametrach. Dla szacowania

modeli ARIMA, ze względu na nieliniowość procesu, szacuje się metodą największej

wiarogodności.

3. Diagnozowanie. Po oszacowaniu modelu sprawdzamy wykresy reszt i przeprowadzamy

test Jarque-Bera`y na normalność reszt.

Często stosowanym testem na autokorelację reszt oszacowanego modelu jest test Q Ljunga-

Boxa. Statystyka testująca przy hipotezie zerowej „brak autokorelacji reszt wyższej od k”

liczona jest wzorem:

(11.19) Q T Tr

T jLBj

j

k

= +−=

∑( )22

1

gdzie: rj - współczynnik autokorelacji rzędu j,

T – liczba obserwacji.

Współczynnik autokorelacji rzędu j mierzący autokorelację reszt opóźnionych o k

obserwacji dany jest wzorem:

(11.20) ry y y y

y yk

t t kt k

T

tt

T=

− −

= +

=

( )( )

( )

1

2

1

gdzie: y - średnia szeregu y .

Statystyka ta ma asymptotyczny rozkład χ 2 z liczbą stopni swobody k .

Powszechnie stosowanym kryterium porównania modeli o różnych zestawach parametrów są

kryterium informacyjne Akaike lub kryterium informacyjne Schwartza-Bayesa, omówione w

zakończeniu rozdziału 3. Istotna uwaga przy stosowaniu tych kryteriów dotyczy liczby

szacowanych parametrów. Za liczbę K oznaczającą liczbę szacowanych parametrów należy

podstawić p+q. Za model lepiej dopasowany należy uznać ten o najniższej wartości

kryterium informacyjnego.

Przykład 11.1 Rozpatrzmy przykład szeregu notowań dziennych indeksu Down Jones

(średnia notowań 30 największych przedsiębiorstw przemysłowych Stanów Zjednoczonych) z

giełdy nowojorskiej za okres od 1980/01/02 do 1985/12/30 liczącym 1516 obserwacji.

Tytułem egzemplifikacji poniżej zamieszczone są dane za styczeń 1980 roku.

Nazwa zmiennej „djclose” oznacza wartości zamknięcia dla indeksu Down Jones.

Page 166: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Obs djclose Czas

80/01/02 824,57 1

80/01/03 820,31 2

80/01/04 828,84 3

80/01/07 832,00 4

80/01/08 851,71 5

80/01/09 850,09 6

80/01/10 858,96 7

80/01/11 858,53 8

80/01/14 863,57 9

80/01/15 868,60 10

80/01/16 865,19 11

80/01/17 863,57 12

80/01/18 867,15 13

80/01/21 872,78 14

80/01/22 866,21 15

80/01/23 877,56 16

80/01/24 879,95 17

80/01/25 876,11 18

80/01/28 878,50 19

80/01/29 874,40 20

80/01/30 881,91 21

80/01/31 875,85 22

Wykres całego szeregu zawiera rys. 11.1

Page 167: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Rys. 11.1 Wykres indeksu Down Jones

Na wykresie obserwujemy trend wzrostowy indeksu z wyraźną tendencją do zwiększania się

amplitudy wahań wokół trendu. Oznacza to niestacjonarność szeregu względem średniej i

jednocześnie względem wariancji.

Śledząc wydruk funkcji autokorelacji (niżej rys. 11.2) zauważamy bardzo powolne

zmniejszanie się autokorelacji, które nawet dla autokorelacji rzędu 25 jest równy 0,9595, co

jest oznaką niestacjonarności.

Funkcja autokorelacji (ACF): djclose

Ljung-Box Q' = 60852,5588

Stopnie swobody = 25, wartość p = 0,0000

1) 0,9983 2) 0,9965 3) 0,9949 4) 0,9932 5) 0,9917

6) 0,9901 7) 0,9885 8) 0,9869 9) 0,9853 10) 0,9836

11) 0,9819 12) 0,9803 13) 0,9786 14) 0,9770 15) 0,9753

16) 0,9738 17) 0,9721 18) 0,9704 19) 0,9688 20) 0,9672

21) 0,9656 22) 0,9641 23) 0,9626 24) 0,9610 25) 0,9595

Funkcja autokorelacji cząstkowej (PACF):

1) 0,9983 2) 0,0007 3) 0,0279 4) 0,0049 5) 0,0245

6) -0,0108 7) -0,0037 8) -0,0140 9) 0,0036 10) -0,0148

11) -0,0057 12) -0,0021 13) 0,0037 14) 0,0192 15) -0,0168

16) 0,0172 17) -0,0229 18) -0,0013 19) 0,0053 20) 0,0146

21) 0,0161 22) 0,0060 23) -0,0039 24) -0,0032 25) -0,0065

5% wartość krytyczna: 1,96/T^0,5 = 0,0389823

Rys. 11.2 Korelogram dla szeregu Down Jones Fakt ten ilustruje również wykres funkcji autokorelacji 11.3.

Page 168: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

11.3 Funkcja autokorelacji i cząstkowej autokorelacji szeregu Down Jones

Rekomendowanym w takim przypadku przekształceniem jest:

(11.21) ydjclose

djclosedjclose djcloset

t

tt t=

FHG

IKJ = −

−ln ln ln1

1 ,

gdzie: djclosei - wartość zamknięcia indeksu Down Jonesa w dniu t,

yt - stopa zwrotu w dniu t .

Zauważmy, że dokonana transformacja polega na wzięciu różnic logarytmów szeregu

wyjściowego, co nadaje nowej zmiennej sensowną interpretację ekonomiczną jako stopy

zwrotu z indeksu. Transformacja ta, poprzez zlogarytmowanie, usunęła niestacjonarność

względem wariancji, a poprzez odjęcie logarytmów usunęła niestacjonarność względem

średniej.

Wykres stóp zwrotów prezentuje poniższy rysunek 11.3.

Page 169: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Rys. 11.3 Wykres stóp zwrotów z indeksu Down Jonesa

Zabieg transformacji przyniósł oczekiwane rezultaty. Po wstępnej transformacji danych

zapewniających stacjonarność przystępujemy do oszacowania modelu ARIMA(p,q) na

zlogarytmowaanych danych wyjściowych.

Oszacowanie modeli ARIMA Rozpocznijmy od modelu ARIMA(3,1,3), jako modelu

przeidentyfikowanego. Wydruk oszacowania niżej.

Model 1: Estymacja ARIMA z wykorzystaniem 1515 obserwacji 80/01/03-85/10/23 Zmienna zależna: (1-L) l_djclose

Zmienna Współczynnik Błąd stand. Statystyka t wartość p

const 0,000416998 0,000251204 1,6600 0,09691 * phi_1 -0,526945 0,340371 -1,5481 0,12159 phi_2 -0,758814 0,272141 -2,7883 0,00530 *** phi_3 0,269148 0,332688 0,8090 0,41851 theta_1 0,579897 0,343972 1,6859 0,09182 * theta_2 0,816474 0,277616 2,9410 0,00327 *** theta_3 -0,227348 0,343894 -0,6611 0,50855

Srednia arytmetyczna zmiennej zależnej = 0,000416795 Odchylenie standardowe zmiennej zależnej = 0,00915638 średnia z zaburzeń losowych = 2,92549e-007 wariancja z zaburzeń losowych = 8,2649e-005 Logarytm wiarygodności = 4969,29 Kryterium informacyjne Akaike'a = -9922,58 Kryterium bayesowskie Schwarza = -9879,99 Kryterium infor. Hannana-Quinna = -9906,72 Istotność statystyczna ocen sugeruje, że modelem poprawnym może być model ARIMA(3,1,2). Wydruk:

Page 170: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Model 2: Estymacja ARIMA z wykorzystaniem 1515 obserwacji 80/01/03-85/10/23 Zmienna zależna: (1-L) l_djclose

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 0,000416787 0,000247378 1,6848 0,09202 * phi_1 -0,755214 0,0256337 -29,4617 <0,00001 *** phi_2 -0,941394 0,021265 -44,2697 <0,00001 *** phi_3 0,0458533 0,0256135 1,7902 0,07342 * theta_1 0,807275 0,00243143 332,0158 <0,00001 *** theta_2 1 0,00419616 238,3128 <0,00001 ***

Srednia arytmetyczna zmiennej zależnej = 0,000416795 Odchylenie standardowe zmiennej zależnej = 0,00915638 średnia z zaburzeń losowych = 3,51085e-007 wariancja z zaburzeń losowych = 8,2669e-005 Logarytm wiarygodności = 4969,09 Kryterium informacyjne Akaike'a = -9924,18 Kryterium bayesowskie Schwarza = -9886,92 Kryterium infor. Hannana-Quinna = -9910,31 Jest to model lepszy od poprzedniego, na co wskazuje bardziej ujemna wartość kryterium informacyjnego Akaike. Dopasowanie modelu ilustruje wykres wartości obserwowanych i wyliczonych indeksu Down Jones.

Rys. 11.4 Wykres wartości obserwowanych i wyliczonych indeksu Down Jones.

Wykres ukazuje dobre dopasowanie wartości wyliczonych do danych empirycznych.

Page 171: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Rys. 11.5 Wykres normalności rozkładu reszt modelu ARIMA(3,1,2) Down Jones

Test na normalność, zamieszczony w lewym górnym rogu wykresu wskazuje, że reszty z

oszacowanego modelu ARIMA(3,1,2) nie mają rozkładu normalnego. Potwierdza to również

ogląd wykresu reszt, który jest bardziej smukły od normalnego, są znacznie leptokurtyczne.

Sygnalizuje to, że poszukiwania poprawnego modelu nie zostały zakończone.

Program Gretla umożliwia wykorzystanie oszacowanego modelu dla wyznaczenia prognozy

indeksu Down Jones (na przykład 10 dni naprzód.) Poniżej wykres 11.5.

11.5. Dziesięciodniowa prognoza indeksu Down Jones

Page 172: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Z wykresu widzimy, że prognozowanie nawet na tak krótki, bo zaledwie 10-cio dniowy przedział czasu jest obarczone znacznymi błędami, pozbawiającymi wyznaczone prognozy znaczących wartości poznawczych. 11.5 Procesy ARIMA dla danych sezonowych

W praktycznych zastosowaniach często mamy do czynienia z danymi sezonowymi o

sezonowym cyklu miesięcznym lub kwartalnym. Modele ARIMA mogą również służyć do

wyrównywania szeregów, w których dodatkowo występują parametry sezonowe. Modele są

wówczas oznaczane jako ARIMA(p,d,q)(ps,ds,qs), gdzie parametry w drugim nawiasie z

subskryptami „s” oznaczają rzędy analogicznych procesów sezonowych. Wynika stąd, że

sezonowy proces ARIMA zawiera nie trzy a sześć parametrów wymagających wstępnej

identyfikacji.

Procedura estymacyjna rozpoczynana jest zwykle od wyznaczenia funkcji autokorelacji

sezonowej i cząstkowej autokorelacji sezonowej. Autokorelacje w takich przypadkach są

wyznaczane dla obserwacji oddalonych od siebie o wielokrotność cyklu sezonowego „s”( dla

danych kwartalnych oznacza to przeskok o 4 obserwacje, dla danych miesięcznych – o 12

obserwacji). Znajomość tych funkcji umożliwia ustalenie, za pomocą procedury Boxa-

Jenkinsa, wstępnych wartości trzech parametrów sezonowości: ps, ds, qs. Następnie

ponawiana jest procedura Boxa-Jenkinsa dla wyznaczenia parametrów zasadniczego procesu

ARIMA. Postępowanie takie jest jednak niezwykle żmudne i nie zawsze prowadzi najkrótszą

drogą do poprawnego modelu.

W ostatnim okresie zostały opracowane programy o nazwach X-12-ARIMA i

TRAMO/SEATS, Zawarte są one w nowszych wersjach Gretla.

X-12-ARIMA zredagowany został w oparciu o podobny program kanadyjski przez B.

Monsella i M. Otto na potrzeby Amerykańskiego Biura Spisów Powszechnych.

Program TRAMO/SEATS autorstwa V. Gomeza i A. Maravella jest rekomendowanym

programem Eurostatu, a anglojęzyczny skrót TRAMO oznacza Time series Regression with

ARIMA noise, Missing values and Outliers, zaś SEATS – Signal Extraction in ARIMA Time

Series.

Obydwa programy mają tę istotną zaletę, że nie wymagają od badacza wstępnej identyfikacji

sześciu poszukiwanych parametrów, a zatem niepotrzebna staje się procedura Boxa-Jenkinsa.

Obydwa programy same wyznaczają model optymalny. Są to programy nadzwyczaj złożone,

dające głęboki wgląd w mechanizm generowania modelowanych szeregów. Ich pełne

omówienie przerasta zakres tematyczny niniejszej książki. Można jedynie odesłać

Page 173: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

zainteresowanego Czytelnika do bardziej zaawansowanych prac z tej tematyki: M. Verbeek

[2000], J. D. Hamilton [1994].

Zaprezentujemy fragmenty analizy przeprowadzonej w programie X-12-ARIMA przy

wykorzystaniu miesięcznych danych o inflacji w Polsce. Dane te zostały zestawione przez

Prof. T. Kufla i udostępnione autorowi dla potrzeb niniejszej książki. Niech to będzie

jednocześnie okazja dla złożenia najlepszego podziękowania.

Niżej wykres inflacji.

11.6 Wykres miesięcznej inflacji w Polsce

Obserwujemy wyraźnie gasnący trend inflacji i malejącą amplitudę jej wahań.

Trzy pierwsze wydruki, opisane w prawych górnych rogach przedstawiają kolejno: 1. wykres

inflacji i jego wyrównanie sezonowe, 2. wykres inflacji z naniesionym trendem i 3. wahania

Page 174: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

przypadkowe (reszty oszacowanego modelu). Analogiczną dekompozycję zawiera program

TRAMO/SEATS.

Program X-12-ARIMA jak już sygnalizowaliśmy, jest niezwykle szczegółowy. Oto istotne

dla nas szczegóły:

Kryterium odrzucenia jest test Q Ljunga-Boxa dany wzorem (11.19) Statystyka ta ma

asymptotyczny rozkład χ 2 z liczbą stopni swobody k, gdzie k = p+q+ps+qs.

Sprawdzane są kolejno modele rozpoczynając od najprostszego (zawierającego najmniejszą

liczbę parametrów) aż do uzyskania modelu o statystyce χ 2 (Q Ljunga-Boxa) o

prawdopodobieństwie większym od 0, 05.

Kolejno testowane modele:

Model 1: (0 1 1)(0 1 1) – odrzucony, Chi Square Probability: 2.58% Model 2: (0 1 2)(0 1 1) – odrzucony, Chi Square Probability: 2.77% Model 3: (2 1 0)(0 1 1) – odrzucony, Ljung-Box Q chi-square probability < 5.00% Model 4: (0 2 2)(0 1 1) – odrzucony, Ljung-Box Q chi-square probability < 5.00% Model 5: (2 1 2)(0 1 1) – przyjęty - Chi kwadrat prawdopodobieństwo: 21.68% .

Szczególy akceptowanego modelu:

Różnicowanie niesezonowe: 1 Różnicowanie sezonowe: 1

Oceny Błędy standardowe Niesezonowe AR Lag 1 0.0200 0.17315 Lag 2 -0.3575 0.08583 Niesezonowe MA Lag 1 0.6603 0.17877 Lag 2 0.0940 0.16298 Sezonowe MA Lag 12 0.4536 0.07060

Podsumowanie

1. W statystycznej analizie klasycznej szereg jest dekomponowany na elementy składowe: trend, wahania cykliczne, wahania sezonowe, wahania przypadkowe.

Page 175: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

2. W nowoczesnej analizie ekonometrycznej szereg czasowy traktowany jest jako pojedyncza realizacja procesu stochastycznego.

3. W procesie autoregresyjnym rzędu p AR(p) zmienna objaśniana jest wyjaśniana przez swoje opóźnienia: y y y yt t t p t p t= + + + +− − −θ θ θ ε1 1 2 2 ε σt IID~ ( , )0 2 .

4. Proces średniej ruchomej rzędu q MA(q) jest opisany przez bieżące i minione

zaburzenia:. y IIDt t t t q t q t= + + + +− − −ε α ε α ε α ε ε σ1 1 2 220 , ~ ( , ) .

5. Procesy autoregresyjne i średniej ruchomej można połączyć otrzymując proces

mieszany: autoregresyjny ze średnią ruchomą, zapisywany jako ARMA(p,q).

6. Jeśli proces ARMA jest dodatkowo procesem zintegrowanym rzędu d, to tworzy

proces ARIMA(p,d,q).

7. Proces jest stacjonarny, jeśli jego średnia i wariancja są stałe, zaś kowariancja zależy

tylko od opóźnienia występującego między dwoma okresami czasu i nie zależy od

konkretnego momentu czasu, począwszy od którego kowariancja ta jest liczona.

8. Strukturę dynamiczną szeregu opisuje jego funkcja autokorelacji i cząstkowej

autokorelacji.

9. Procedurą Boxa – Jenkinsa nazywamy metodę wstępnego wyznaczania parametrów

p,d,q modelu ARIMA, adekwatnego dla danego szeregu czasowego. Procedura

zwyczajowo dzielona jest na trzy etapy: 1. Identyfikacja, 2. estymacja,3.

diagnozowanie.

10. Dla wyrównywania szeregów sezonowych (kwartalnych lub miesięcznych) stosowana

jest procedura ARIMA(p,d,q)(ps,ds,qs), gdzie parametry w drugim nawiasie z

subskryptami „s” oznaczają rzędy procesów sezonowych.

11. Programy badania sezonowości o nazwach X-12-ARIMA i TRAMO/SEATS są

częścią nowszych wersji Gretla.

Page 176: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

12. MODELE DYNAMICZNE

Większość z dotychczas rozważanych modeli była oparta na danych przekrojowych.

Oznaczało to, że zmienna objaśniana była zależna od równoczesnych obserwacji na

zmiennych objaśniających.

Relacje ekonomiczne bardzo często przebiegają w czasie, co oznacza, że w równaniu regresji

zmienna objaśniana może zależeć nie tylko od równoczesnych, ale i od opóźnionych

(minionych) obserwacji na zmiennych objaśniających, jak też od opóźnionych obserwacji

na zmiennej objaśnianej. Modele tego rodzaju zwane są modelami dynamicznymi, gdyż

wyznaczane są na podstawie szeregów czasowych dla obserwacji pochodzących z różnych

okresów czasu.

Można wyróżnić co najmniej trzy podstawowe powody, dla których w badaniach

ekonomicznych występują opóźnienia w reakcjach.

Po pierwsze – są one wynikiem opóźnień reakcji psychicznych podmiotów gospodarczych. Z

reguły, ludzkie przyzwyczajenia i nawyki wywołują pewną bezwładność zachowań, która

powoduje, że zmiany na przykład dochodów lub cen nie wywierają natychmiastowych reakcji

rynkowych. Potrzebny jest pewien upływ czasu dla wykształcenia się nowych przyzwyczajeń

postępowania.

Po drugie – przystosowanie się podaży do zmian rynkowych następuje z opóźnieniem,

wymuszonym warunkami technologicznymi uruchamiania nowych inwestycji, produkcji,

importu i tp.

Po trzecie – działają czynniki instytucjonalne, takie jak umowy dostaw, warunki

długookresowych kontraktów, terminy wchodzenia w życie nowych przepisów i tp.

Z tych i wielu podobnych powodów opóźnienia odgrywają w procesach ekonomicznych

ważną rolę. Są one powodem wprowadzenia do rozważań teorii ekonomii pojęcia krótkiego i

długiego okresu.

Problemy ekonometryczne modeli dynamicznych.

Szacowanie modeli na podstawie szeregów czasowych tworzy nowe, niespotykane przy

danych przekrojowych problemy. Wynikają one z niebezpiecznego zjawiska

niestacjonarności szeregów czasowych. Dodatkowym, często pojawiającym się problemem

jest skorelowania zmiennych objaśniających z równoczesnym zaburzeniem losowym.

Zagadnienia te omówimy w dalszej części tego rozdziału.

Page 177: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

12.1. Modele o opóźnieniach rozłożonych (Distributed Lag Models)

Modele dynamiczne, w których zmiana objaśniana jest zależna od opóźnień zmiennej

objaśniającej nazywane są modelami o opóźnieniach rozłożonych, określanych

anglojęzycznym skrótem DL. Model DL(q) opisany jest równaniem:

(12.1) y x x x yt t t t q t q t= + + + + + +− − −α β β β β ε0 1 1 2 2

Po prawej stronie równania mamy regresory, które nie są różnymi zmiennymi objaśniającymi,

jak to miało miejsce w dotychczas rozpatrywanych przypadkach danych przekrojowych, a są

tą samą zmienną, obserwowaną w coraz wcześniejszych jednostkach czasu. Regresory te

nazywamy zmiennymi opóźnionymi; zaś q – rzędem opóźnienia lub długością

opóźnienia. Skoncentrujemy uwagę na przypadku jednej zamiennej objaśniającej i jej

opóźnieniach, jednak nasze rozważania mają charakter ogólny i mogą być uogólnione na

przypadki wielu zmiennych objaśniających, z których każda ma swoje własne opóźnienia.

W równaniu regresji (12.1) parametr β0 zwany jest mnożnikiem krótkookresowym, gdyż

przedstawia on wpływ jednostkowej zmiany zmiennej objaśniającej (obserwowanej w tym

samym przedziale czasu) na wartość oczekiwaną zmiennej objaśnianej. Jeśli taka sama

jednostkowa zmiana zmiennej objaśniającej ma miejsce w czasie t – 1 , to w następnym

okresie wartość oczekiwana zmiennej objaśnianej zmieni się o (β0 + β1), zaś w okresie

dalszym o jednostkę czasu o (β0 + β1 + β2). Te cząstkowe sumy parametrów zwane są

mnożnikami pośrednimi. Wreszcie suma (β0 + β1 + β2 +...+ βq) zwana jest mnożnikiem

całkowitym lub mnożnikiem długookresowym.

Przykładem takiego modelu jest funkcja konsumpcji, w której wydatki konsumpcyjne zależą

nie tylko od bieżących dochodów, ale również od minionych. Rozważmy hipotetyczny

przykład, w którym wydatki konsumpcyjne gospodarstw domowych w t-tym roku, które

oznaczymy przez yt zależą od dochodów do dyspozycji w tym samym roku xt , od

dochodów opóźnionych o jeden rok xt-1 i o dwa lata xt-2.

Dla ilustracji rozważamy model:

(12.2) y x x xt t t t t= + + + +− −α β β β ε0 1 1 2 2

Page 178: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przyjmijmy, że współczynniki przy dochodach bieżących i opóźnionych wynoszą:

(12.3) yt = stała + 0,4 xt + 0,3 xt-1 + 0,2 xt-2 ,

oraz, że badana osoba uzyskała stałą podwyżkę dochodów, nie zmieniającą się w ciągu

pewnego okresu czasu, wynoszącą 1000 złotych. Jeśli funkcja konsumpcji tej osoby opisana

jest równaniem (12.3), to w pierwszym roku konsumpcja tej osoby przyrośnie o 0,4 razy 1000

złotych, a więc o 400 złotych, w drugim roku o dalsze 300 złotych, a w trzecim – o dalsze 200

złotych. W przykładzie tym mnożnik krótkookresowy wynosi 0,4, a długookresowy (0,4 +0,3

+ 0,2 ) = 0,9; pozostałe 0,1 dochodu jest oszczędzane. Ilustruje to poniższy rysunek Rys.

(12.1).

Wydatki

konsumpcyjne

w 3-cim roku

200

w 2-gim roku

900 300

w 1-szy roku

400

przed

podwyżką

0 t1 t2 t3 czas

Rys.12.1 Długookresowe przystosowanie się wydatków konsumpcyjnych do wzrostu dochodów

12.2. Estymacja modeli DL i wybór rzędu opóźnienia

Page 179: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Jeśli zmienna objaśniająca x jest nielosowa to model z opóźnieniami rozłożonymi możemy

szacować za pomocą MNK. Powstaje jednak praktyczny problem wyboru rzędu opóźnienia.

Niekiedy rząd ten zależy od rodzaju modelowanych danych statystycznych. Jeśli są to dane

miesięczne lub kwartalne, to opóźnienie może wynosić jednokrotną, dwukrotną (lub przy

długim szeregu czasowym - wielokrotną) liczbę obserwacji w cyklu sezonowym (a więc dla

danych kwartalnych q = 4 lub wielokrotność 4, dla miesięcznych q = 12 lub wielokrotność

12). Wprowadzenie zbyt wielu opóźnień zmniejsza liczbę stopni swobody, co wpływa istotnie

na obniżenie precyzji oszacowania modelu. Sprawa ta staje się szczególnie ważna, gdy model

zawiera większą liczbę zmiennych objaśniających.

Inną istotną komplikacją pojawiającą się przy zbyt dużej liczbie opóźnień jest

współliniowość, gdyż dla większości zmiennych ekonomicznych kolejne wartości tych

zmiennych są ze sobą silnie skorelowane, a z rozważań nad współliniowością wiemy, że

obniża ona efektywność ocen, co powoduje, że stają się one zbyt często statystycznie

nieistotne.

W związku z powyższymi uwagami można postulować następujące postępowanie:

Rozpocząć od rozsądnie dużej liczby opóźnień qmax i sprawdzić za pomocą testu t - studenta,

czy współczynnik o najwyższym rzędzie opóźnienia β qmax jest statystycznie różny od zera.

Jeśli tak, to jest to poszukiwany rząd opóźnienia. Jeśli akceptujemy hipotezę, że β qmax = 0, to

szacujemy ponownie model z obniżonym o jeden rzędem opóźnień i ponawiamy procedurę

weryfikacji. Postępowanie to powtarzamy aż do uzyskania rzędu opóźnienia, dla którego

współczynnik jest statystycznie różny od zera. Jest to poszukiwany rząd opóźnienia.

Może się zdarzyć, że szacowany współczynnik przy którymś opóźnieniu zmienia znak z

dodatniego na ujemny, co podważa sensowność interpretacji sumy współczynników jako

mnożnika reakcji długookresowej. Oznacza to, że równanie regresji zostało

niepoprawnie wyspecyfikowane i winno być zastąpione równaniem regresji o innej

specyfikacji.

12.3. Modele autoregresyjne i modele autoregresyjne z opóźnieniami rozłożonymi

(AutoRegressive Distributed Lag Models – Modele ADL lub ARDL)

Zapiszmy model

(12.4.) y x yt t t t= + + +−β β β ε1 2 3 1

Page 180: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Jest to model autoregresyjny rzędu 1 - AR (1), gdyż opóźniona zmienna objaśniana yt-1 pełni

tu funkcję zmiennej objaśniającej. Zauważmy, że w modelu z opóźnieniami rozłożonymi

(12.1) musieliśmy oszacować dużą liczbę parametrów przy zmiennych opóźnionych, co przy

względnie krótkich szeregach czasowych może istotnie ograniczyć liczbę stopni swobody. W

modelu (12.4) mamy znacznie mniejszą liczbę parametrów do oszacowania, a przez to

oszczędzamy dużą liczbę stopni swobody. Zauważmy ponadto, że opóźniona zmienna

objaśniana zastępuje w powyższym równaniu dużą liczbę opóźnionych zmiennych x z

równania (12.1). Jeśli bowiem opóźnimy (14.3) o jednostkę czasu to otrzymamy:

(12.5) y x x x xt t t t q t q t− − − − − + −= + + + + + +1 0 1 1 2 2 3 1 1α β β β β ε ( )

a więc zmienna yt-1 zastępuje ciąg opóźnionych zmiennych x.

Uogólnieniem modelu autoregresyjnego rzędu 1 jest model autoregresyjny rzędu p – AR(p):

(12.6) y y y yt t t p t p t= + + + + +− − −α α α α ε0 1 1 2 2

Szacowanie modeli autoregresyjnych rodzi nowe problemy ekonometryczne. Ponieważ yt

jest losowe, to i yt-1 jest również losowe, co oznacza, że zmienna objaśniająca yt-1 jest

zmienną losową, a nie wielkością stałą i może być skorelowana z zaburzeniem losowym εt,

jeśli w zaburzeniu tym występuje autokorelacja.. Jest to problem zwany endogenicznością

zmiennej objaśniającej, co oznacza, że proces generujący tę zmienną nie jest dany z zewnątrz,

a jest zależny od zmiennej objaśnianej.

W teorii ekonometrii udowadnia się, że jeśli występuje takie skorelowanie, to estymatory

MNK są nie tylko obciążone, ale również niezgodne, a stąd procedury testujące oparte na

statystykach t , χ 2 oraz F są niepoprawne, gdyż statystyki te nie mają w takich sytuacjach

pożądanych rozkładów. Dlatego szacując model autoregresyjny za pomocą MNK musimy się

upewnić, że zmienne objaśniające nie są nieskorelowane z zaburzeniem losowym εt. Dlatego

przy szacowaniu modeli autoregresyjnych ważne staje się testowanie, czy reszty modelu

nie wykazują autokorelacji (najczęściej autokorelacji pierwszego rzędu testowanej

statystyką Durbina-Watsona), co sprawdza ich niezależność od opóźnionej zmiennej yt-1.

Model opisany równaniem (12.6) możemy uogólnić zapisując postać

(12.7) y y y y x x x xt t t p t p t t t q t q t= + + + + + + + + + +− − − − − −α α α α β β β β ε0 1 1 2 2 0 1 1 2 2

Page 181: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Jest to model autoregresyjny rzędu p z opóźnieniami rozłożonymi rzędu q - ADL(p,q).

Poczynione wyżej uwagi, dotyczące estymacji modeli autoregresyjnych ważne są oczywiście

również dla przypadku modeli uogólnionych ADL(p,q).

Przykład 12.1

Celem poniższego przykładu jest oszacowanie długookresowej relacji pomiędzy konsumpcją

a PKB dla Stanów Zjednoczonych. Dysponujemy danymi rocznymi za okres 1960-2000

pochodzącymi ze strony http://www.fgn.unisg.ch/eumacro/macrodata/dmtrxneu.htm.

Zarówno konsumpcja, jak i PKB są wyrażone w bilionach dolarów 1990 roku. Zaczynamy od

oszacowania modelu o rozłożonych opóźnieniach (przyjmijmy, że maksymalne opóźnienie

wynosi 2). Opis zmiennych:

l_konsumpcja – logarytm konsumpcji

l_PKB – logarytm PKB

l_PKB_1 – pierwsze opóźnienie dla logarytmu PKB

l_PKB_2 – drugie opóźnienie dla logarytmu PKB

Poniżej wyniki oszacowania modelu:

Page 182: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

W modelu tym mnożnik krótkookresowy wynosi 1,31 i oznacza, że wzrost PKB o 1%

powoduje w tym samym roku wzrost konsumpcji 1,31%. Mnożnik długookresowy wynosi

1,13. (1,31383 – 0,224497 + 0,0449443 = 1,1342773). Wielkość tę należałoby zinterpretować

następująco: wzrost PKB o 1% w danym roku spowoduje łączny (w długim okresie) wzrost

konsumpcji o 1,13%.

Zauważmy jednak, że wartość poznawczą oszacowanego modelu DL dyskwalifikuje ujemna

wartość oceny przy pierwszym opóźnieniu logarytmu PKB, gdyż sensowna interpretacja

mnożników nie toleruje wartości ujemnych dla mnożników pośrednich. Ponadto statystyka

Durbina-Watsona wynosi 0,456, co wskazuje na autokorelację reszt, a stąd na endogeniczność

zmiennej objaśniającej.

W związku z tym oszacujmy model autoregresyjny o opóźnieniach rozłożonych

ADL(p=2,q=2). Wyniki oszacowania poniżej:

Dołączenie do zbioru zmiennych objaśniających pierwszego i drugiego opóźnienia logarytmu

konsumpcji doprowadziło do uzyskania wyniku, który jest sensownie interpretowalnym

modelem. Zastrzeżenia mogą budzić jedynie bardzo wysokie wartości p-value w teście na

istotność drugich opóźnień logarytmu konsumpcji i logarytmu PKB, wskazując na ich

statystyczną nieistotność.

Page 183: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Co jednak jest szczególnie ważne, to wysoka wartość testu Durbina-Watsona, wynosząca

2,00961, która oznacza brak autokorelacji reszt. Wiemy, że jest to ważny sygnał o

nieobciążoności estymatorów i ich zgodności. Wynik ten pozwala przyjąć, że zaburzenie

losowe εt nie jest skorelowane z opóźnioną zmienną objaśniającą yt-1. Możemy oczekiwać,

że usunięcie z modelu dwóch zmiennych nieistotnych. nie wpłynie znacząco na zmianę

wyniku.

Eliminacja z modelu drugich opóźnień logarytmu konsumpcji i logarytmu PKB nie wpłynęła

znacząco na wyniki estymacji.

Próba zastosowania modelu ADL okazała się pomyślna i model należy uznać za poprawny.

12.4. Niestacjonarność i integracja szeregu ; konsekwencje

Szacowanie modeli regresyjnych na podstawie niestacjonarnych szeregów czasowych często

może prowadzić niekiedy do tak zwanej regresji pozornej (Spurious Regression), co

powoduje niepoprawne wartości statystyki t-Studenta i innych statystyk, które przyjmują

zbyt duże wartości.

Z regresją pozorną mamy do czynienia w sytuacjach, gdy modelujemy regresję między

szeregami, z których każdy ma swój własny niezależny trend. Wówczas możemy uzyskać

Page 184: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

regresję pozorną, w której w rzeczywistości nie występuje zależność uwidoczniona w

równaniu regresji, a szeregi powiązane ze sobą podobnymi trendami tworzą pozorną

zależność. Wyniki estymacji noszą wszelkie pozory poprawności (oszacowany model może

zawierać istotne zmienne objaśniające, współczynnik determinacji R2 może być

satysfakcjonująco wysoki), jednak w takich przypadkach niepokój budzi współczynnik

autokorelacji reszt Durbina-Watsona, który jest bliski zeru, wskazując na występowanie

znacznej autokorelacji.

Powodem regresji pozornej jest na ogół niestacjonarność szeregów czasowych.

Pojęcie stacjonarności wprowadziliśmy już w poprzednim rozdziale dyskutując modele

ARIMA.

Przypomnijmy zatem, że stochastyczny szereg czasowy jest stacjonarny, jeśli jego średnia i

wariancja są stałe, zaś kowariancja zależy tylko od opóźnienia występującego między dwiema

obserwacjami i nie zależy od konkretnego okresu czasu, począwszy od którego kowariancja

ta jest liczona.

Powtórzmy również zapis formalny. Szereg stochastyczny jest stacjonarny (ściślej –

kowariancyjnie stacjonarny lub słabo stacjonarny) , jeśli spełnia następujące trzy

warunki:

(12.8) Warunek średniej: E(yt) = µ

(12.9) Warunek wariancji: E(yt – µ)2 = σ2

(12.10) Warunek kowariancji: E[(yt – µ) (yt+k – µ)] = γk,

gdzie µ , σ 2 oznaczają średnią i wariancję, zaś γk oznacza kowariancję o opóźnieniu k , a

więc kowariancję między wartościami y oddzielonymi od siebie o k okresów.

Z warunku kowariancyjnej stacjonarności wynikają istotne dla analizy ekonomicznej

własności, a mianowicie:

1. zdolność szeregu do powrotu do średniej, oraz

2. przejściowość zaburzeń, co oznacza, że efekty zaburzeń (lub jak je czasem nazywamy

– szoków) rozpraszają się z upływem czasu i szereg powraca do poziomu

długookresowej średniej.

14.5. Test pierwiastka jednostkowego Dickeya-Fullera (Test DF)

Page 185: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wykrycie niestacjonarności umożliwia test niestacjonarności, zwany również testem

pierwiastka jednostkowego. Omówimy ten test, a następnie przedstawimy jego

zastosowania.

Rozpocznijmy od znanego z rozdziału poprzedniego procesu autoregresyjnego

(12.10) y yt t t= +−θ ε1 , w którym ε σt iiN~ ( , )0 2 jest białym

szumem.

Jeśli θ = 1 to mamy do czynienia z przypadkiem pierwiastka jednostkowego (wariancja

procesu wzrasta do nieskończoności).

Wprowadźmy powszechnie używane oznaczenie dla procesu niestacjonarnego. Jeśli

jednokrotne różnicowanie procesu yt prowadzi do jego stacjonarności, to mówimy że jest

on zintegrowany stopnia pierwszego i zapisujemy yt ~I(1). Jeśli proces wymaga podwójnego

różnicowania dla osiągnięcia stacjonarności, to jest zintegrowany stopnia drugiego, a więc

yt ~I(2) i jeśli jest stacjonarny, to mówimy że jest zintegrowany stopnia 0, co zapisujemy

yt ~I(0).

Na pierwszy rzut oka wydaje się, że jeśli szacowalibyśmy regresję yt względem jego

wielkości opóźnionej yt −1 to moglibyśmy przetestować hipotezę, że θ = 1 . Zastosowanie

testu t – Studenta jest jednak w tym przypadku błędne, gdyż jeśli θ = 1 , to proces jest

błądzeniem losowym i jest niestacjonarny. Statystyka t nie ma wówczas rozkładu t –

Studenta nawet w dużych próbach.

Dlatego wygodnym zapisem równania regresji jest odjęcie stronami yt −1 w (12.10), co

prowadzi do postaci:

(12.11) ∆y yt t t= − +−( )θ ε1 1 ,

gdzie (∆yt = yt - yt-1).

Jeśli θ = 1 , to ∆yt jest stacjonarne, a więc ∆y It ~ ( )0 gdyż z założenia zaburzenie losowe

ε t jest białym szumem. Możemy więc oszacować (12.11) i przetestować hipotezę H0: θ −1

jest zero. Jeśli jest zero (θ = 1 ), to yt jest niestacjonarne, a więc y It ~ ( )1 (występuje

pierwiastek jednostkowy), jeśli zaś jest ujemne, to wnosimy, że yt jest stacjonarne.

(θ w szeregu stacjonarnym musi spełniać warunek θ < 1, gdyż inaczej proces jest

wybuchowy).

Page 186: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Dickey i Fuller wykazali, że w tym przypadku poprawną statystyką jest tak zwana statystyka

τ (tau), nazywana również od nazwisk jej autorów statystyką Dickey`a - Fullera lub testem

DF. Wartości krytyczne statystyki τ zależą od postaci testowanego równania. Wyróżnia się

trzy następujące przypadki gdy θ = 1 :

(12.12) yt jest błądzeniem losowym: ∆y yt t t= − +−( )θ ε1 1 ,

(12.13) yt jest błądzeniem losowym z dryfem: ∆y yt t t= + − +−β θ ε1 11( ) ,

(12.14) yt jest błądzeniem losowym z dryfem

wokół trendu deterministycznego: ∆y t yt t t= + + − +−β β θ ε1 2 11( ) .

Procedura testowania dowolnego z trzech powyższych równań przebiega w znany nam

sposób.

Krok 1. Wyznaczamy nową zmienną ∆yt = yt - yt-1.

Krok 2. Szacujemy za pomocą MNK parametry jednego z tych równań. (Niżej wyjaśnimy,

które z nich należy wybrać).

Krok 3. Stawiamy hipotezę zerową H H0 11 0 1 0: :θ θ− = − <

Zerowa hipoteza zakłada, że istnieje pierwiastek jednostkowy. Nie stawiamy hipotezy

alternatywnej postaci H1 1 0:θ − > , gdyż oznaczałoby to, że model ma charakter wybuchowy,

co jest nieprawdopodobne w szeregach ekonomicznych.

Krok 4.Wyznaczamy statystykę testującą tak, jakby pochodziła ona z rozkładu t-Studenta

t =−

( )

θ

σθ

1

1

, ale oznaczmy ją przez τ. τθ

σθ

obl =−

( )

1

1

.

Krok 5. Weryfikujemy hipotezę zerową. Jeśli τ τobl krytyczne< to odrzucamy hipotezę, że

istnieje pierwiastek jednostkowy H0 1 0:θ − = , a więc przyjmujemy, że proces jest

stacjonarny.

Tablica wartości krytycznych zamieszczona jest niżej.

Page 187: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Tablica 12.1 1% i 5% wartości krytyczne τ testu Dickey`a-Fullera (Fuller, 1976, str. 373)

Bez stałej i bez trendu Ze stałą i bez trendu Ze stałą i z trendem

Poziomy istotności

Wielkość próby 1% 5% 1% 5% 1% 5%

T = 25 -2,66 -1,95 -3,75 -3,00 -4,38 -3,60

T = 50 -2,62 -1,95 -3,58 -2,93 -4,15 -3,50

T = 100 -2,60 -1,95 -3,51 -2,89 -4,03 -3,45

T = 250 -2,58 -1,95 -3,46 -2,88 -3,99 -3,43

T = 500 -2,58 -1,95 -3,44 -2,87 -3,98 -3,42

T = ∞ -2,58 -1,95 -3,43 -2,86 -3,96 -3,41

Uwaga: Wartości krytyczne testu τ są ujemne, gdyż stosujemy test jednostronny przy hipotezie alternatywnej H1: θ − <1 0 .

Wartości krytyczne testu τ są bardziej ujemne od odpowiednich wartości krytycznych

statystyki t – Studenta, co wskazuje, że estymatory θ −1 mają ujemne obciążenie,

skutkiem czego stosowanie tradycyjnego testu . t – Studenta prowadziłoby do nadmiernie

częstego odrzucania hipotezy pierwiastka jednostkowego.

Teoria testowania podpowiada, że jeśli będziemy testować niepoprawnie wybrane równanie

spośród trzech wyżej przedstawionych, to popełnimy błąd specyfikacji, którego

konsekwencje są poważne. Przystępując do testowania równania nie wiemy jednak, która z

trzech specyfikacji jest poprawna. Dlatego w praktyce testujemy równanie trzecie (tj.

równanie ze stałą i trendem liniowym). Jeśli parametr regresji przy trendzie liniowym β2 jest

różny od zera, to za poprawną specyfikację uznajemy to właśnie równanie. Jeśli z wykresu

szeregu wnosimy, że trend jest wykładniczy, jak to ma miejsce w szeregach PKB czy w

szeregach zmian ludnościowych, to szereg wyjściowy należy zlogarytmować, co przekształca

trend wykładniczy w trend liniowy i do tak przekształconego szeregu zastosować równanie

trzecie.

Jeśli parametr regresji przy trendzie deterministycznym β2 jest zero, to testujemy równanie

drugie (ze stałą i bez trendu). Jeśli w tym równaniu parametr stałej β1 jest różny od zera, to za

Page 188: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

poprawną specyfikację uznajemy równanie drugie. Jeśli możemy przyjąć, że jest zero, to za

poprawnie wyspecyfikowane równanie przyjmujemy pierwsze.

12.6. Rozszerzony test pierwiastka jednostkowego zwany w języku angielskim

Augmented Dickey-Fuller Test (Test ADF).

Przy testowaniu pierwiastka jednostkowego na podstawie równań (12.12), (12.13) lub

(12.14) przyjmowaliśmy założenie, że nie występuje w nich skorelowanie zaburzeń

losowych. Jeśli testy Durbina-Watsona lub Breuscha-Godfrey`a wykazują na skorelowanie

reszt w którymś z szacowanych równań, to należy je uzupełnić dodatkowymi wartościami

opóźnionymi zmiennej zależnej ∆yt i stosować tak zwany „rozszerzony test DF” oznaczany

jako ADF (Augmented Dickey-Fuller Test), gdzie regresja jest rozszerzona o opóźnione

zmiany ∆yt i− . Dla równania trzeciego (ze stałą i trendem liniowym) test ten jest oparty na

estymacji następującego równania:

(12.15) ∆ ∆y t y yt t ii

p

t i t= + + − + +−

=

−∑β β θ α ε1 2 11

1( ) .

Stosowanie w charakterze dodatkowych regresorów opóźnionych przyrostów zmiennej

objaśnianej ∆yt i− , a nie bezpośrednio samej zmiennej yt , podyktowane jest koniecznością

uniknięcia współliniowości, która zachodzi z reguły między kolejnymi obserwacjami

zmiennej yt .

Wartości krytyczne i reguła odrzucania hipotezy zerowej są dla rozszerzonego testu DF takie

same jak w teście DF poprzednio omówionym.

Koleje kroki testowania przebiegają następująco:

Krok 1. Tworzymy równanie regresji (12.15) ze stałą i regresorami:

t, yt i− , ∆yt −1 , ∆yt−2 ,...aż do ∆yt p− .

Page 189: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Zauważmy, że ponieważ ∆y y yt p t p t p− − − −= − 1 jest określone jedynie dla obserwacji

począwszy od p+2 do T, to tracimy p+1 pierwszych obserwacji. Im więcej opóźnień

włączymy do równania regresji (12.15) tym więcej tracimy początkowych obserwacji. Przy

małych próbach prowadzi to do spadku mocy testu (maleje liczba stopni swobody). Jeśli

jednak włączymy zbyt mało opóźnień, to narażamy się na efekty autokorelacji zaburzeń

losowych. Często liczba opóźnień jest podyktowana częstotliwością zbieranych danych (dane

miesięczne, kwartalne). Brak jest jednak jednoznacznych reguł postępowania w doborze

liczby opóźnień. Dla danych rocznych zwykle wystarczy jedno lub dwa opóźnienia.

Krok 2. Szacujemy za pomocą MNK równanie (12.15).

Krok 3. Procedurę testowania rozpoczynamy od określenia rzędu opóźnienia przy zmiennej

∆ yt p− . Jeśli współczynnik regresji α p przy tym opóźnieniu ∆ yt p− nie jest statystycznie

istotny (co sprawdzamy testem t-Studenta), to zmniejszamy rząd opóźnienia i ponownie

szacujemy model. Jeśli współczynnik regresji α p−1 jest statystycznie istotny, to

poszukiwanym rzędem opóźnienia jest p-1. W przypadku przeciwnym powtarzamy

procedurę dla równania o rzędzie opóźnionym o dalszą jednostkę.

Krok 4. Testujemy istotność parametru przy trendzie liniowym β2 (testem t-Studenta). Jeśli

jest on nieistotny, usuwamy z równania trend liniowy.

Krok 5. Stawiamy hipotezę H0 1 0:θ − = wobec hipotezy alternatywnej H1 1 0:θ − <

Zerowa hipoteza zakłada, że istnieje pierwiastek jednostkowy.

i wyznaczamy statystykę testującą: τθ

σθ

obl =−

( )

1

1

.

Krok 6. Weryfikujemy hipotezę zerową. Jeśli τ τobl krytyczne< to odrzucamy hipotezę, że

istnieje pierwiastek jednostkowy H0 1 0:θ − = , a więc przyjmujemy, że proces jest

stacjonarny.

Przykłady testowania pierwiastka jednostkowego:

Przykład 12.2.

Page 190: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Dla θ = 1 yt jest błądzeniem losowym opisanym równaniem:

(12.16) ∆yt t= ε .

Celem modeli regresji jest opisanie zmian zmiennej objaśnianej za pomocą zbioru zmiennych

objaśniających. W modelu błądzenia losowego (12.16) zmienna objaśniana jest białym

szumem, a więc zmiany tej zmiennej są nieprzewidywalne. Rodzi się uzasadnione pytanie o

celowość badania tego rodzaju procesu. Tkwi ona w tak zwanej „zmienności” (ang.

Volatility) badanego procesu. Jeśli badamy stopy zwrotu z papierów wartościowych to

interesującą kwestią jest ustalenie, jak zmienia się owa „zmienność” w czasie.

Pierwszymi badaniami nad zmiennością były analizy zmienności inflacji, w których pytanie

badawcze nie dotyczyło poziomu inflacji (chociaż i to zagadnienie jest niezwykle ważne), a

wariancji inflacji. Nawet przy wysokiej inflacji można sensownie planować przyszłość, jeśli

wariancja inflacji jest niska. Wysoka wariancja oznacza trudności w ustalaniu przewidywań

co do poziomu stopy inflacji w następnym okresie. Z tych powodów wariancja

interpretowana jest jako miara ryzyka przypisywanego badanemu zjawisku. Jednakże, jak

podkreśla model CAPM ryzyko związane z portfelem aktywów zależy nie tylko od

zmienności poszczególnych aktywów, ale również od współczynnika korelacji między

różnymi aktywami.

Modele błądzenia losowego (choć nie tylko one) są często stosowane do modelowania stóp

zwrotu akcji i innych papierów wartościowych.

Dane dzienne WIG 20 od 1991/04/16 do 2004/01/09 – 3324 obserwacje

Adres internetowy: www.bosssa.pl/pub/futires/mstock/mstfut.zip

Rys. 12.1. Obserwacje dzienne WIG20 od 1991/04/16 do 2004/01/09 – 3324 obserwacje. Test Dickeya-Fullera dla zmiennej CLOSE

Page 191: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

liczebność próby 3323 Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1) test z wyrazem wolnym (const) model: (1 - L)y = b0 + (a-1)*y(-1) + e estymowana wartość (a-1) wynosi: 0,000568226 statystyka testu: t = 0,938416 wartość p 0,996 Równanie regresji testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 3323 obserwacji 91/04/17-04/01/09 Zmienna zależna: d_CLOSE Zmienna Współczynnik Błąd stand. Statystyka t Wartość p const 3,50711 10,8185 0,324 CLOSE_1 0,000568226 0,000605516 0,938 0,996034 Wartości p z pracy MacKinnon (Journal of Applied Econometrics, 1996) Test wskazuje na istnienie pierwiastka jednostkowego. Ponieważ dane są obserwacjami dziennymi, to możemy podejrzewać 5 dniową autokorelację zaburzeń. Zastosujmy dwukrotny cykl 5-dniowy ( a więc 10 opóźnionych przyrostów zmiennej). Otrzymamy: (Wydruk zawiera standardowo wyniki testu kolejno: 1. bez trendu liniowego, 2. z trendem liniowym, 3. z trendem kwadratowym.) Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia 10, dla zmiennej CLOSE liczebność próby 3314 Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1) test z wyrazem wolnym (const) model: (1 - L)y = b0 + (a-1)*y(-1) + ... + e estymowana wartość (a-1) wynosi: 7,03484e-005 statystyka testu: t = 0,115465 asymptotyczna wartość p = 0,967 Równanie regresji rozszerzonego testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 3314 obserwacji 91/04/30-04/01/09 Zmienna zależna: d_CLOSE Zmienna Współczynnik Błąd stand. Statystyka t Wartość p

Page 192: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

const 8,42493 10,7841 0,781 CLOSE_1 7,03484E-05 0,000609260 0,115 0,966971 d_CLOS_1 0,170512 0,0174019 9,798 d_CLOS_2 -0,0622081 0,0176897 -3,517 d_CLOS_3 0,0265374 0,0177233 1,497 d_CLOS_4 0,0134319 0,0177919 0,755 d_CLOS_5 0,0346023 0,0178022 1,944 d_CLOS_6 0,0132368 0,0178413 0,742 d_CLOS_7 -0,0240834 0,0178431 -1,350 d_CLOS_8 0,0198504 0,0178626 1,111 d_CLOS_9 0,00718660 0,0178452 0,403 d_CLO_10 0,0413314 0,0175963 2,349 z wyrazem wolnym i trendem liniowym model: (1 - L)y = b0 + b1*t + (a-1)*y(-1) + ... + e estymowana wartość (a-1) wynosi: -0,00125752 statystyka testu: t = -1,16609 asymptotyczna wartość p = 0,9162 Równanie regresji rozszerzonego testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 3314 obserwacji 91/04/30-04/01/09 Zmienna zależna: d_CLOSE Zmienna Współczynnik Błąd stand. Statystyka t Wartość p const 7,63172 10,7952 0,707 CLOSE_1 -0,00125752 0,00107841 -1,166 0,916163 d_CLOS_1 0,171220 0,0174051 9,837 d_CLOS_2 -0,0613152 0,0176965 -3,465 d_CLOS_3 0,0273909 0,0177292 1,545 d_CLOS_4 0,0143619 0,0177995 0,807 d_CLOS_5 0,0355838 0,0178110 1,998 d_CLOS_6 0,0142169 0,0178500 0,796 d_CLOS_7 -0,0230645 0,0178529 -1,292 d_CLOS_8 0,0209141 0,0178735 1,170 d_CLOS_9 0,00815636 0,0178537 0,457 d_CLO_10 0,0424991 0,0176104 2,413 time 0,0131686 0,00882510 1,492 z wyrazem wolnym, trendem liniowym i trendem kwadratowym model: (1 - L)y = b0 + b1*t + b2*t^2 + (a-1)*y(-1) + ... + e estymowana wartość (a-1) wynosi: -0,00184567 statystyka testu: t = -1,67 asymptotyczna wartość p = 0,9152 Równanie regresji rozszerzonego testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 3314 obserwacji 91/04/30-04/01/09 Zmienna zależna: d_CLOSE

Page 193: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Zmienna Współczynnik Błąd stand. Statystyka t Wartość p const 37,2862 16,4112 2,272 CLOSE_1 -0,00184567 0,00110520 -1,670 0,915231 d_CLOS_1 0,170017 0,0173998 9,771 d_CLOS_2 -0,0622978 0,0176886 -3,522 d_CLOS_3 0,0263044 0,0177222 1,484 d_CLOS_4 0,0132362 0,0177929 0,744 d_CLOS_5 0,0344330 0,0178047 1,934 d_CLOS_6 0,0131688 0,0178426 0,738 d_CLOS_7 -0,0241211 0,0178455 -1,352 d_CLOS_8 0,0197461 0,0178673 1,105 d_CLOS_9 0,00713840 0,0178460 0,400 d_CLO_10 0,0413173 0,0176047 2,347 time -0,0308438 0,0203644 -1,515 timesq 1,44253E-05 6,01623E-06 2,398 Wartości p z pracy MacKinnon (Journal of Applied Econometrics, 1996) Wyniki wskazują, że występują efekty autokorelacji reszt. Wyznaczmy zatem test przy 2 opóźnieniach: Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia 2, dla zmiennej CLOSE liczebność próby 3322 Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1) test z wyrazem wolnym (const) model: (1 - L)y = b0 + (a-1)*y(-1) + ... + e estymowana wartość (a-1) wynosi: 0,000380397 statystyka testu: t = 0,635213 asymptotyczna wartość p = 0,9907 Równanie regresji rozszerzonego testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 3322 obserwacji 91/04/18-04/01/09 Zmienna zależna: d_CLOSE Zmienna Współczynnik Błąd stand. Statystyka t Wartość p* const 5,11922 10,6797 0,479 CLOSE_1 0,000380397 0,000598849 0,635 0,990722 d_CLOS_1 0,170580 0,0173465 9,834 d_CLOS_2 -0,0584541 0,0173853 -3,362 *Wartości p z pracy MacKinnon J. G. [1991] Procedurą weryfikacji hipotezy o niestacjonarności (o istnieniu pierwiastka jednostkowego możemy uznać za zakończoną.

Page 194: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

12.7. Kointegracja szeregów czasowych

Stwierdźmy, że jeśli szeregi są stacjonarne, to nie ma żadnych przeciwwskazań do ich

stosowania w analizie regresji. Doświadczenia badań podpowiadają jednak, że większość

szeregów czasowych jest niestacjonarna. Zatem stosowanie ich w modelowaniu

ekonometrycznym może prowadzić niekiedy do regresji pozornych. Wniosek taki

przekreślałby możliwość wykorzystania w badaniach ekonometrycznych znacznej części

dostępnych danych statystycznych. Sytuacja jednak nie jest aż tak niepomyślna. Jeśli obydwa

szeregi są niestacjonarne, to jest całkiem możliwe, że istnieje między nimi długookresowa

stabilna zależność mająca swoje źródło w złożonych procesach ekonomicznych,

występujących w gospodarce. Jeśli tak jest, to mówimy, że szeregi są skointegrowane.

Engle i Grenger [1987] zauważają, że jeśli zachodzi długookresowa równowaga między

dwoma szeregami czasowymi, to „błąd równowagi” nie powinien zbytnio odchylać się od

zera i powinien często przekraczać linię zero, a więc powinien być procesem stacjonarnym o

średniej zero.

Przykłady szeregów skointegrowanych:

1. Spożycie i PKB

2. Siła nabywcza pieniądza (Purchasing Power Parity) i dochody permanentne.

3. Krótko i długookresowe stopy procentowe wkładów oszczędnościowych.

4. Szeregi cen na dobra substytucyjne (np. masło i margarynę).

Załóżmy, że mamy dwa niestacjonarne procesy xt oraz yt i jeśli są one powiązane

długookresową relacją, to błąd równowagi, będący ich liniową kombinacją powinien być

stacjonarny. Sformułujmy liniową regresję między yt a xt .

(12.16) y xt t t= + +β β ε0 1 , zaś błąd równowagi jako

(12.17) ε β βt t ty x= − −0 1 .

Page 195: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Błąd ten, jako błąd długookresowej równowagi, powinien być stacjonarny. Oznaczmy reszty

równania (12.16) przez et . Możemy wówczas sformułować równanie testujące pierwiastek

jednostkowy dla reszt postaci podobnej do (12.12), ale bez stałej:

(12.18) ∆e e ut t t= − +−( )θ 1 1

i wyznaczyć statystykę τ, którą porównamy z wartością krytyczną statystyki τ – Dickeya-

Fullera wziętą z tablic. Jeśli wyliczone τ co do wartości absolutnej jest większe od wartości

krytycznej, to oznacza, że szereg et jest stacjonarny, a stąd wnosimy, że obydwa szeregi yt i

xt mimo, że są niestacjonarne, to są skointegrowane i nie zagraża niebezpieczeństwo

uzyskania pozornej regresji.

Przykład 12.3.:

Model 1: Estymacja KMNK z wykorzystaniem 14 obserwacji 1991-2004

Zmienna zależna: SPO

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -2,92007 6,79024 -0,4300 0,674788 PKB 0,63894 0,010212 62,5678 < 0,00001 ***

Srednia arytmetyczna zmiennej zależnej = 415,897 Odchylenie standardowe zmiennej zależnej = 74,155 Suma kwadratów reszt = 218,461 Błąd standardowy reszt = 4,26674 Wsp. determinacji R2 = 0,996944 Skorygowany R2 = 0,996689 Stopnie swobody = 12 Statystyka testu Durbina-Watsona = 1,6828 Autokorelacja reszt rzędu pierwszego = 0,0697639 Logarytm wiarygodności = -39,098 Kryterium informacyjne Akaika = 82,196 Kryterium bayesowskie Schwarza = 83,4741

Zapisujemy równanie testujące: ∆e e ut t t= − +−( )θ 1 1 .

Testujemy pierwiastek jednostkowy:

Page 196: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Test Dickeya-Fullera dla zmiennej uhat1

liczebność próby 12

Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1)

test bez wyrazu wolnego (const)

model: (1 - L)y = (a-1)*y(-1) + e

estymowana wartość (a-1) wynosi: -1,14296

statystyka testu: t = -7,04585

wartość p 1,171e-005

Równanie regresji testu Dickeya-Fullera

Estymacja KMNK z wykorzystaniem 12 obserwacji 1991-2002

Zmienna zależna: d_uhat1

Zmienna Współczynnik Błąd stand. Statystyka t Wartość p

uhat1_1 -1,14296 0,162218 -7,046 0,000012

Wartości p z pracy MacKinnon (Journal of Applied Econometrics, 1996)

Bez pierwszej obserwacji.

Model 1: Estymacja KMNK z wykorzystaniem 12 obserwacji 1991-2002

Zmienna zależna: Y

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -11,4663 9,15579 -1,2523 0,238939 X 0,653854 0,0143708 45,4987 < 0,00001 ***

Srednia arytmetyczna zmiennej zależnej = 400,091 Odchylenie standardowe zmiennej zależnej = 67,5013 Suma kwadratów reszt = 240,949 Błąd standardowy reszt = 4,90866 Wsp. determinacji R2 = 0,995193 Skorygowany R2 = 0,994712 Stopnie swobody = 10 Statystyka testu Durbina-Watsona = 1,45466 Autokorelacja reszt rzędu pierwszego = 0,09591 Logarytm wiarygodności = -35,0253 Kryterium informacyjne Akaika = 74,0507 Kryterium bayesowskie Schwarza = 75,0205 Zapiszmy reszty: Uhat 2

Obs uhat2

1991 4,055344

1992 2,867868

1993 1,066808

1994 1,020503

1995 -9,692711

1996 -1,397581

1997 -1,872785

1998 -2,568921

1999 1,725358

2000 -4,478993

2001 0,052888

Page 197: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

2002 9,222223

Test Dickeya-Fullera dla zmiennej uhat2

liczebność próby 11

Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1)

test bez wyrazu wolnego (const)

model: (1 - L)y = (a-1)*y(-1) + e

estymowana wartość (a-1) wynosi: -0,90409

statystyka testu: t = -2,39009

wartość p 0,02233

Równanie regresji testu Dickeya-Fullera

Estymacja KMNK z wykorzystaniem 11 obserwacji 1992-2002

Zmienna zależna: d_uhat2

Zmienna Współczynnik Błąd stand. Statystyka t Wartość p

uhat1_2 -0,904090 0,378266 -2,390 0,022331

Wartości p z pracy MacKinnon (Journal of Applied Econometrics, 1996)

Odrzucamy hipotezę pierwiastka jednostkowego dla statystyki testującej. PKB i Konsumpcja

są skointegrowane.

12. 8. Przyczynowość w ekonometrii

Dobierając zmienne objaśniające modelu regresyjnego często upatrujemy w nich przyczyn,

które wywołują zmiany zmiennej objaśnianej. Niekiedy jednak mogą powstawać wątpliwości,

czy dobrane regresory są rzeczywistymi przyczynami. Niepewność ta zrodziła potrzebę

testowania przyczynowości w modelach ekonometrycznych.

Przyczynowość w ekonometrii jest koncepcją różną od przyczynowości w sensie

filozoficznym. Problem ten podjął C. Granger formułując test przyczynowości. Od nazwiska

autora pochodzi też nazwa „przyczynowość w sensie Grangera” –(Granger Causality).

x jest przyczyną w sensie Grangera dla y jeśli bieżąca wartość zmiennej y może być

przewidywana z większą dokładnością przy wykorzystaniu minionych wartości zmiennej x

niż bez nich, przy pozostałej niezmienionej informacji, a więc przy założeniu ceteris paribus.

Celem zweryfikowania hipotezy, że x jest przyczyną y szacujemy równanie

(12.19) y y y x xt t l t l t l t l t= + + + + +− − − −α α α β β ε0 1 1 1 1 .

Hipoteza zerowa brzmi: x nie jest przyczyną w sensie Grangera dla y . Weryfikacja tej hipotezy sprowadza się do zweryfikowania hipotezy, że parametry β1 do β l są łącznie

Page 198: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

równe zero. Dla zweryfikowania tej hipotezy stosujemy test F – Fishera-Snedecora opisany w 5.3 postaci:

(12.20) FR R l

R n Kn Kl R− =

− −

( ) /

( ) / ( )

2 2

21,

gdzie l jest liczbą zastosowanych opóźnień. Test przyczynowości Grangera umożliwia

weryfikację hipotez o przyczynowości zmiennych sezonowych, trendów itp.

Drugim testem przyczynowości jest test Simsa. Punktem wyjściowym rozważań nad tym

testem jest oczywista teza, że przyszłość nie może być przyczyną teraźniejszości.

Dla zweryfikowania hipotezy, że x jest przyczyną w sensie Grangera dla y szacowane jest

równanie

(12.21) x x x x y y y

y y yt t t t t t t

t t t t

= + + + + + +

+ + + +

− − − + + +

− − −

γ γ γ γ δ δ δ

δ δ δ ε0 1 1 2 2 3 3 1 3 2 2 3 1

4 1 5 2 6 3

,

gdzie dla uproszczenia ograniczyliśmy liczbę opóźnień i wyprzedzeń do trzech.

Zauważmy, że w tym równaniu zamiast y zmienną objaśnianą jest x Wśród regresorów

włączone są wartości wyprzedzające y . Jeśli x jest przyczyną y , to oczekujemy

zależności między x a wyprzedzającymi wartościami y , a więc przyczynowość nie wystąpi

jeśli δ δ δ1 2 3 0= = = . Oczywiście nie może zajść sytuacja odwrotna, gdyż przyszłość nie

wyznacza teraźniejszości. Niezerowe wartości δ oznaczają, że przyczynowość biegnie od x

do przyszłych y . Zauważmy, że wartości różne od zera dla każdego δ δ δ1 2 3, , z osobna nie

wyznaczają przyczynowości.

Nie wiadomo który z dwóch testów jest lepszy. Test Simsa zużywa większą liczbę stopni

swobody. Powstaje pytanie, jak wiele opóźnień lub wyprzedzeń należy stosować przy

formułowaniu równania testującego. Zaleca się włączenie takiej ich ilości, aby nie wystąpiła

autokorelacja reszt. Jeśli bowiem ona wystąpi, to kombinacja autokorelacji i opóźnień

zmiennej zależnej spowoduje, że test F nie będzie miał poprawnego rozkładu.

Przykłady: Czy zmiany dochodu są przyczyną zmian konsumpcji?

Czy wzrost gospodarczy jest przyczyną wzrostu oszczędności?

Czy wzrost poziomu wykształcenia jest przyczyną wzrostu gospodarczego?

Czy inflacja płac jest przyczyną inflacji cen?

Podsumowanie

Page 199: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

1. W modelach dynamicznych zmienna objaśniana zależy nie tylko od równoczesnych,

ale i od opóźnionych (minionych) obserwacji na zmiennych objaśniających, jak też od

opóźnionych obserwacji na zmiennej objaśnianej.

2. Szacowanie modeli na podstawie szeregów czasowych tworzy nowe, niespotykane

przy danych przekrojowych problemy. Wynikają one z niebezpiecznego zjawiska

niestacjonarności szeregów czasowych. Dodatkowym, często pojawiającym się

problemem jest skorelowania zmiennych objaśniających z równoczesnym

zaburzeniem losowym.

3. W modelach o opóźnieniach rozłożonych (DL) zmiana objaśniana jest zależna od

opóźnionych wartości zmiennej objaśniającej.

y x x x yt t t t q t q t= + + + + + +− − −α β β β β ε0 1 1 2 2

4. Modele DL umożliwiają wyznaczanie mnożników krótko okresowych, pośrednich i

długo okresowych.

5. Modele DL można szacować za pomocą MNK, dobierając poprawnie rząd

opóźnienia. jedynie w sytuacjach, gdy zaburzenie losowe εt nie jest skorelowane z

opóźnioną zmienną objaśniającą yt-1 . W przeciwnym przypadku, jak dowodzi teoria

ekonometrii, estymatory MNK są nie tylko obciążone, ale również niezgodne.

6. Dobór liczby opóźnień przeprowadzamy według zasady „od ogólnego do

szczególnego” sprawdzając statystyczną istotność parametru przy najwyższym

opóźnieniu i w sytuacji jego nieistotności redukujemy liczbę opóźnień o jeden i

ponawiamy procedurę estymacji modelu.

7. W modelach autoregresyjnych (AR) zmiennymi objaśniającymi są zmienne, będące

opóźnieniami zmiennej objaśnianej.

8. Modele AR można szacować za pomocą MNK w sytuacjach, gdy zaburzenie losowe

εt nie jest skorelowane ze zmienną objaśniającą yt-1 . W przeciwnym przypadku, jak

dowodzi teoria ekonometrii, estymatory MNK są nie tylko obciążone, ale również

niezgodne.

9. Szereg stochastyczny jest stacjonarny (ściślej – kowariancyjnie stacjonarny lub słabo

stacjonarny), jeśli spełnia następujące trzy warunki: Warunek średniej: E(yt) = µ,

warunek wariancji: E(yt – µ)2 = σ2 i warunek kowariancji: E[(yt – µ) (yt+k – µ)] = γk,.

10. Wykrycie niestacjonarności umożliwia test niestacjonarności, zwany również testem

pierwiastka jednostkowego Dickeya-Fullera (Test DF).

Page 200: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

11. Jeśli dwa szeregi są niestacjonarne, to możliwe, że istnieje między nimi

długookresowa stabilna zależność. Jeśli tak jest, to mówimy, że szeregi są

skointegrowane. Dla szeregów skointegrowanych możliwa jest analiza regresji.

12. x jest przyczyną w sensie Grangera dla y jeśli bieżąca wartość zmiennej y może być

przewidywana z większą dokładnością przy wykorzystaniu minionych wartości

zmiennej x niż bez nich, przy pozostałej niezmienionej informacji.

Page 201: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

13. MODELE WEKTOROWEJ AUTOREGRESJI - VAR (Vector AutoRegressive

Models) I MODLE KOREKTY BŁĘDEM (Error Correction Models).

Omówimy dwie grupy szeroko stosowanych modeli dynamicznych, a mianowicie: modele

wektorowej autoregresji i modele korekty błędem.

13. 1. Modele wektorowej autoregresji (Vector AutoRegressive Models (VAR)

Modele autoregresyjne z rozłożonymi opóźnieniami (modele ADL) omawiane w poprzednim

rozdziale można uogólnić na przypadek wielu zmiennych, gdzie proces stochastyczny

generuje nie pojedynczy szereg czasowy a wektor złożony na ogół z kilku zmiennych.

Jednym z takich uogólnień jest zaproponowana przez Simsa, powszechnie dziś stosowana

metoda wektorowej autoregresji, zwanej w skrócie VAR. W metodzie VAR modelujemy

zjawiska za pomocą ich historii.

Rozważmy przypadek dwóch zmiennych y1 oraz y2 tworzących dwurównaniowy model

VAR pierwszego rzędu - VAR(1). Niech na przykład wektor obserwacji na zmiennej y1

oznacza roczną zagregowaną produkcję przemysłową w cenach stałych liczoną w mld zł., zaś

y2 - import również przedstawiony w tych samych jednostkach. Model VAR możemy

wówczas zapisać jak niżej:

(13.1.) y y y

y y yt t t t

t t t t

1 1 1 1 1 1 2 1 1

2 2 2 1 1 2 2 1 2

= + + +

= + + +

− −

− −

µ α β ε

µ α β ε,

gdzie zaburzenia losowe ε1t oraz ε 2 t zwane są w języku VAR szokami lub impulsami lub

innowacjami.

Formalny zapis równań wskazuje, że mają one postać analogiczną do równań testujących

przyczynowość w sensie Grangera, a więc można za ich pomocą testować przyczynowość. W

takich przypadkach najczęściej zakłada się, że każde równanie zawiera k opóźnionych

wartości zmiennych y1 oraz y2 tworzących model VAR rzędu k - VAR(k). A więc:

(13.2)

y y y

y y y

t i t ii

k

i t ii

k

t

t i t ii

k

i t ii

k

t

1 1 1 11

1 21

1

2 2 2 11

2 21

2

= + + +

= + + +

=

=

=

=

∑ ∑

∑ ∑

µ α β ε

µ α β ε

Page 202: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

gdzie pierwsze subskrypty przy parametrach α oraz β są subskryptami numeru równania,

zaś drugie subskrypty oznaczają rząd opóźnienia. Zauważmy, że zmienne y1 oraz y2 są

zmiennymi endogenicznymi, gdyż są określane przez równania modelu (a nie przez funkcje

generujące ich wartości poza modelem).

Model VAR może być rozszerzony o dalsze zmienne endogeniczne oraz o zmienne

egzogeniczne, (których funkcje generujące są określone poza modelem).

Oznaczmy zmienne egzogeniczne dołączone do modelu VAR przez xj, ( j = 1, 2, ..., m).

Wówczas dwurównaniowy model VAR(k) z m zmiennymi egzogenicznymi możemy

zapisać:

(13.3)

y y y x

y y y x

t i t ii

k

i t ii

k

j jtj

m

t

t i t ii

k

i t ii

k

j jtj

m

t

1 1 1 11

1 21

11

1

2 2 2 11

2 21

21

2

= + + + +

= + + + +

=

= =

=

= =

∑ ∑ ∑

∑ ∑ ∑

µ α β γ ε

µ α β γ ε

Metoda VAR ma kilka niezaprzeczalnie korzystnych własności, godnych podkreślenia.

1. Pierwszą istotną własnością VAR jest struktura równań, w której jedynie historia

procesów ekonomicznych kształtuje teraźniejszość (regresorami są minione

obserwacje na zmiennych endogenicznych). Jest to zatem uzewnętrznienie koncepcji

przyczynowości w sensie Grangera, dyskutowanej w poprzednim rozdziale, zgodnie z

którą jedynie przeszłość określa teraźniejszość.

2. Drugą własnością tej metody jest brak skorelowania równoczesnych obserwacji

zmiennych objaśniających z zaburzeniem losowym, co powoduje, że spełnione jest

założenie o niezależności regresorów od zaburzeń losowych. Z tego powodu

estymacja za pomocą MNK daje zawsze estymatory zgodne, zaś UMNK – estymatory

zgodne i asymptotycznie normalne.

3. Ważną zaletą VAR jest mała liczba równań, składających się na model

wielorównaniowy. Doświadczenia stosowania VAR wskazują, że metoda ta lepiej

wyjaśnia modelowane procesy i daje dokładniejszą predykcję od tradycyjnie

stosowanych modeli wielorównaniowych o równaniach równoczesnych, złożonych z

dużej liczby równań nie uwzględniających w sposób dostateczny opóźnień w

procesach ekonomicznych.

4. Krytycy VAR wskazują, że jest to metoda ateoretyczna, gdyż poza określeniem

zmiennych objaśnianych nie odwołuje się do żadnej teorii ekonomicznej, której

Page 203: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

operacjonalizacją jest konkretna postać modelu wielorównaniowego, zawierającego

sformalizowany opis procesów gospodarczych. Entuzjaści VAR podkreślają jednak,

że po oszacowaniu modelu za pomocą MNK można wyeliminować z niego zmienne,

które okazały się statystycznie nieistotne. Taką drogą zawężając liczbę regresorów

można następnie poszukiwać teorii zgodnej z danymi, na podstawie których

oszacowany był model.

5. Modele VAR są wykorzystywane dla sprawdzania efektów polityki ekonomicznej,

przez którą rozumie się analizę nagłych, szokowych zmian zaburzeń (w terminologii

VAR zwanych szokami) w którymkolwiek równaniu na inne zmienne endogeniczne

modelu w kolejnych jednostkach czasu. Jest to tak zwana funkcja reakcji na impulsy

(an impulse response function), pozwalająca ukazać jak szybko i jak silnie zamierzone

oddziaływanie polityki, opisanej określonym równaniem modelu, rozprzestrzenia się

na zjawiska modelowane przez inne równania.

6. Metoda VAR umożliwia dekompozycję wariancji (opisującej zmienność dowolnej

zmiennej endogenicznej) na składowe płynące z szoków w innych zmiennych.

Te niezaprzeczalne zalety powodują, że w analizie makroekonomicznej metoda VAR

znajduje coraz szersze zastosowanie.

Mankamentem VAR jest duża liczba szacowanych parametrów. Na przykład przy 5

zmiennych (5 równaniach) i 3 opóźnieniach w każdym oddzielnie szacowanym równaniu

mamy łącznie ze stałymi i współczynnikami trendów liniowych 2+5*3 = 17 parametrów.

Często model może okazać się zbyt duży dla ograniczonej liczby obserwacji.

Przed szacowaniem modelu należy wybrać maksymalną liczbę opóźnień k, jednakową

dla wszystkich zmiennych endogenicznych. Zbyt duże k może wywoływać

współliniowość regresorów. Zwiększa również istotnie liczbę szacowanych parametrów,

obniżając tym samym liczbę stopni swobody T - k . Dobór liczby opóźnień przeprowadza

się według zasady „od ogólnego do szczególnego” sprawdzając statystyczną istotność

parametru przy najwyższym opóźnieniu i w sytuacji jego nieistotności redukuje się liczbę

opóźnień o jeden i ponawia procedurę. Przy porównaniu dwóch modeli o różnej liczbie

opóźnień możemy wykorzystać test kryterium informacyjnego Akaike lub kryterium

informacyjnego Schwartza, przedstawione w zakończeniu rozdziału 3.

W modelu VAR może wystąpić równoczesne skorelowanie zaburzeń z różnych równań,

co wymaga dla efektywnego oszacowania zastosowania UMNK, celem wyeliminowania

efektów tego skorelowania. W poniższym przykładzie oznaczałoby to, że szok w roku t

Page 204: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

zaburzający zmienną „produkcja przemysłowa” jest skorelowany z szokiem tego samego

roku zaburzającym drugą zmienną, jaką jest „import”. Uwzględnienie tego skorelowania

zwiększa efektywność estymatorów. Z drugiej jednak strony istotnie komplikuje

procedurę określania funkcji reakcji na impuls, gdyż szoki w równaniach są w tej sytuacji

zależne. Dlatego w praktycznych zastosowaniach, używanych we wszystkich pakietach

ekonometrycznych, w tym również w Gretlu, innowacje, traktowane jako impulsy są

transformowane do postaci innowacji ortogonalnych. Ortogonalizacja ta, zapewniająca

nieskorelowanie zaburzeń, wymaga przekształcenia, które jednak zależy od kolejności

równań usytuowanych w modelu

Dla estymacji parametrów VAR można zastosować MNK szacując kolejno pojedyncze

równania i pomijając efekty skorelowania równoczesnych szoków różnych równań, (co

jak wiemy daje estymatory zgodne, ale nieefektywne) lub też zastosować UMNK szacując

macierz wariancji-kowariancji szoków na podstawie reszt MNK.

Procedury VAR są stosowane dla szeregów kowariancyjnie stacjonarnych, co oznacza

brak trendów i sezonowości. Wymaga to wstępnej transformacji danych, lub w

przypadkach szeregów z trendami liniowymi i efektami sezonowymi wprowadzenia

trendu liniowego i zmiennych sezonowych jako zmiennych egzogenicznch do równań

VAR-u, chyba, że rozważane szeregi są skointegrowane i wykazują tę samą sezonowość..

Przykład 13.1.

Zastosujmy metodę VAR do estymacji związku między produkcją przemysłową i

importem (dane miesięczne obejmujące 156 obserwacji w mld zł) w Polsce w

latach 1993 -2005. Powyższe szeregi zostały zestawione przez Tadeusza Kufla i

w tej postaci udostępnione autorowi, za co w tym miejscu składam

podziękowania.

Ideą modelu jest teoria, że w Polsce okresu transformacji produkcja przemysłowa jest

silnie uzależniona od niezbędnego dla jej realizacji importu, związanego z

nowymi technologiami, wprowadzanymi do polskiej gospodarki. Z drugiej

jednak strony wielkość tego importu zależy od już zainstalowanych mocy

produkcyjnych, wyznaczających rozmiary produkcji przemysłowej i w coraz

większym zakresie wytwarzających wyroby uprzednio importowane. Zatem

obydwie wielkości wzajemnie się warunkują. Można również rozsądnie założyć,

że we wzajemnym uzależnieniu występują opóźnienia, związane z naturalnymi

procesami dostosowawczymi obydwu wielkości.

Page 205: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Poniżej zamieszczamy wykresy obydwu szeregów.

Rys. 13.1. Dane miesięczne produkcji przemysłowej i importu w Polsce

w latach 1993 –2005

Wykresy ukazują:

1 Obydwa szeregi są niestacjonarne. Mają jednak podobne trendy liniowe, co podpowiada, że

obydwa szeregi mogą być skointegrowane i ich modelowanie nie będzie

wymagało wprowadzenia egzogenicznej zmiennej – trendu, zapewniającej

stacjonarność względem średniej.

2 Obydwa szeregi mają analogiczne wahania sezonowe. W związku z tym nie ma potrzeby

wprowadzania do modelu oddzielnych egzogenicznych zmiennych sezonowych

wychwytujących tego rodzaju wahania.

3 Widoczny jest wyraźny wzrost wariancji zaburzeń wraz z upływem czasu. Usunięcie

efektów wzrastającej wariacji można osiągnąć przez logarytmowanie.

Alternatywnie można skorzystać z opcji odpornej heteroskedastyczności (odporny

estymator White`a).To ostatnie rozwiązanie jako wygodniejsze przyjmiemy w

rozpatrywanym przykładzie.

Page 206: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wykorzystując Gretla sprawdzamy kointegrację obydwu szeregów.

Poniżej fragment wydruku Gretla:

Krok 1: test na pierwiastek jednostkowy dla zmiennej produk

Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia 12, dla zmiennej produk

liczebność próby 143

Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1)

z wyrazem wolnym, trendem liniowym i trendem kwadratowym

estymowana wartość (a-1) wynosi: -0,145117

Statystyka testu: tau_ctt(1) = -2,08416

asymptotyczna wartość p = 0,7827

Test wskazuje na przyjęcie hipotezy o występowaniu pierwiastka jednostkowego.

Krok 2: test na pierwiastek jednostkowy dla zmiennej import

Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia 12, dla zmiennej import

liczebność próby 143

Hipoteza zerowa: występuje pierwiastek jednostkowy a = 1; proces I(1)

z wyrazem wolnym, trendem liniowym i trendem kwadratowym

estymowana wartość (a-1) wynosi: -0,228034

Statystyka testu: tau_ctt(1) = -1,94415

asymptotyczna wartość p = 0,8378

Podobnie jak w przypadku zmiennej produk przyjmujemy hipotezę o występowaniu

pierwiastka jednostkowego.

Krok 3: równanie kointegrujące

Równanie kointegrujące -

Estymacja KMNK z wykorzystaniem 156 obserwacji 1993:01-2005:12

Zmienna zależna: produk

Zmienna Współczynnik Błąd stand. Statystyka t Wartość p

Page 207: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

const 7246,88 435,453 16,642 <0,00001 ***

import 1,17937 0,0789996 14,929 <0,00001 ***

time 123,281 17,6991 6,965 <0,00001 ***

timesq -0,170084 0,0758749 -2,242 0,02643 **

Wsp. determinacji R-kwadrat = 0,984592

Skorygowany wsp. R-kwadrat = 0,984288

Statystyka testu Durbina-Watsona = 1,20481

Autokorelacja reszt rzędu pierwszego = 0,392342

Kryterium informacyjne Akaike'a (AIC) = 2770,34

Kryterium bayesowskie Schwarza (BIC) = 2782,54

Kryterium infor. Hannana-Quinna (HQC) = 2775,3

Zmienne objaśniające w równaniu kointegrującym są statystycznie istotne. Wysoki jest

współczynnik determinacji. Wskazuje to, że obydwa szeregi są skointegrowane.

Mimo uzasadnionych podejrzeń co do możliwości pominięcia efektów trendu i wahań

sezonowych oszacujmy model VAR z 12 opóźnieniami stóp zmian produkcji i importu i

ze zmiennymi egzogenicznymi: liniowym składnikiem trendu i zmiennymi sezonowymi.

Poniżej wydruk Gretla.

System VAR (model wektorowej autoregresji), rząd opóźnienia 12

Estymacja KMNK dla obserwacji 1994:01-2005:12 (T = 144) Logarytm wiarygodności = -2384,55

Wyznacznik macierzy kowariancji = 8,28590e+011 AIC = 34,1465 BIC = 35,6727 HQC = 34,7667

Portmanteau test: LB(36) = 109,647 (st. swobody = 96, wartość p 0,161248)

Równanie 1: produk Błędy standardowe parametrów według odpornej heteroskedastyczności, wariant HC1

Zmienna Współczynnik Błąd stand. Statystyka t wartość p

const 1884,62 1245,33 1,5133 0,13314 produk_1 0,518838 0,154593 3,3562 0,00109 *** produk_2 0,247012 0,105388 2,3438 0,02093 ** produk_3 0,184878 0,109978 1,6810 0,09567 * produk_4 -0,289434 0,112844 -2,5649 0,01171 ** produk_5 0,271969 0,139187 1,9540 0,05331 * produk_6 0,0851527 0,135354 0,6291 0,53062 produk_7 -0,185357 0,16934 -1,0946 0,27616 produk_8 -0,133048 0,1181 -1,1266 0,26244

Page 208: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

produk_9 0,0902039 0,115388 0,7817 0,43609 produk_10 -0,174601 0,146814 -1,1893 0,23697 produk_11 0,0872537 0,141701 0,6158 0,53936 produk_12 0,0356618 0,106492 0,3349 0,73837

import_1 -0,0133694 0,139959 -0,0955 0,92408 import_2 -0,00884825 0,100364 -0,0882 0,92991 import_3 0,0595432 0,103021 0,5780 0,56450 import_4 0,0311821 0,133964 0,2328 0,81639 import_5 0,0481205 0,105499 0,4561 0,64923 import_6 0,09262 0,123793 0,7482 0,45599 import_7 0,147976 0,110943 1,3338 0,18510 import_8 -0,224945 0,106346 -2,1152 0,03673 ** import_9 -0,0141789 0,124056 -0,1143 0,90922 import_10 -0,0441688 0,108424 -0,4074 0,68455 import_11 0,052077 0,0912617 0,5706 0,56944 import_12 0,17067 0,107459 1,5882 0,11518 S1 -1086,28 888,128 -1,2231 0,22397 S2 -660,737 757,761 -0,8720 0,38518 S3 2967,63 883,405 3,3593 0,00108 *** S4 573,148 950,302 0,6031 0,54770 S5 148,898 684,076 0,2177 0,82811 S6 1200,69 769,713 1,5599 0,12173 S7 2094,74 906,677 2,3103 0,02279 ** S8 1481,03 831,778 1,7806 0,07782 * S9 1855,16 750,903 2,4706 0,01507 ** S10 2599,17 817,508 3,1794 0,00193 *** S11 -227,224 816,382 -0,2783 0,78130 time 25,6581 20,7914 1,2341 0,21988

Srednia arytmetyczna zmiennej zależnej = 34761,7 Odchylenie standardowe zmiennej zależnej = 12467 Suma kwadratów reszt = 1,72575e+008 Błąd standardowy reszt = 1269,98 Wsp. determinacji R2 = 0,992235 Statystyka F (36, 107) = 636,611 (wartość p < 0,00001) Statystyka testu Durbina-Watsona = 1,92395 Autokorelacja reszt rzędu pierwszego = 0,0337527 Test F dla hipotezy o braku restrykcji: Wszystkie opóźnienia zm. produk F(12, 107) = 7,5653, wartość p 0,0000 Wszystkie opóźnienia zm. import F(12, 107) = 1,2279, wartość p 0,2737 Wszystkie zm. opóźnione o 12 F(2, 107) = 2,2359, wartość p 0,1119

Równanie 2: import Błędy standardowe parametrów według odpornej heteroskedastyczności, wariant HC1

Zmienna Współczynnik Błąd stand. Statystyka t wartość p

const -1382,88 1310,98 -1,0548 0,29388 produk_1 0,316869 0,234458 1,3515 0,17939 produk_2 0,0961718 0,092246 1,0426 0,29950 produk_3 -0,0146351 0,109234 -0,1340 0,89367 produk_4 -0,411343 0,126051 -3,2633 0,00148 *** produk_5 0,216749 0,104042 2,0833 0,03961 **

Page 209: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

produk_6 0,161629 0,120307 1,3435 0,18196 produk_7 0,00303864 0,134582 0,0226 0,98203 produk_8 -0,340293 0,164651 -2,0668 0,04117 ** produk_9 0,0134218 0,131388 0,1022 0,91883 produk_10 -0,152422 0,154726 -0,9851 0,32679 produk_11 0,224567 0,121636 1,8462 0,06762 * produk_12 -0,00883495 0,113971 -0,0775 0,93836 import_1 0,0827486 0,228247 0,3625 0,71766 import_2 0,180549 0,0985989 1,8311 0,06986 * import_3 0,167323 0,106535 1,5706 0,11923 import_4 0,102486 0,0915901 1,1190 0,26566 import_5 0,0161572 0,113069 0,1429 0,88664 import_6 -0,0976078 0,091613 -1,0654 0,28908 import_7 0,176705 0,119784 1,4752 0,14309 import_8 -0,0788993 0,10257 -0,7692 0,44346 import_9 0,151407 0,143108 1,0580 0,29244 import_10 -0,0160554 0,129099 -0,1244 0,90126 import_11 -0,0478742 0,108147 -0,4427 0,65889 import_12 -0,0168177 0,103143 -0,1631 0,87079 S1 -428,268 786,976 -0,5442 0,58744 S2 44,6861 745,8 0,0599 0,95233 S3 1899,64 836,862 2,2700 0,02521 ** S4 1270,49 758,97 1,6740 0,09706 * S5 354,818 679,078 0,5225 0,60240 S6 1275,15 682,849 1,8674 0,06458 * S7 2608,99 876,593 2,9763 0,00361 *** S8 430,656 876,36 0,4914 0,62414 S9 486,887 735,832 0,6617 0,50960 S10 1352,01 837,105 1,6151 0,10923 S11 218,76 752,753 0,2906 0,77191 time 34,9134 19,2667 1,8121 0,07277 *

Srednia arytmetyczna zmiennej zależnej = 15676,6 Odchylenie standardowe zmiennej zależnej = 7383,06 Suma kwadratów reszt = 1,38779e+008 Błąd standardowy reszt = 1138,86 Wsp. determinacji R2 = 0,982196 Statystyka F (36, 107) = 376,112 (wartość p < 0,00001) Statystyka testu Durbina-Watsona = 1,97842 Autokorelacja reszt rzędu pierwszego = -0,00960004 Test F dla hipotezy o braku restrykcji: Wszystkie opóźnienia zm. produk F(12, 107) = 1,9244, wartość p 0,0391 Wszystkie opóźnienia zm. import F(12, 107) = 2,862, wartość p 0,0019 Wszystkie zm. opóźnione o 12 F(2, 107) = 0,022876, wartość p 0,9774 Dla systemu jako całości Hipoteza zerowa: najdłuższe opóźnienie wynosi 11 Hipoteza alternatywna: najdłuższe opóźnienie wynosi 12 Test ilorazu wiarygodności: Chi-kwadrat(4) = 7,82722 (wartość p 0,098117)

Page 210: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Stwierdzamy, że zgodnie z oczekiwaniem ani zmienna trendu liniowego ani znaczna

liczba zmiennych sezonowych nie są w obydwu równaniach statystycznie istotne.

Istotność zmiennych sezonowych wydaje się być przypadkowa, bez głębszego

ekonomicznego sensu. Można nawet podejrzewać, że dodanie zmiennych sezonowych

istotnie zaburzyło efekty opóźnionych zmiennych produkcji i importu, które same są pod

wpływem sezonowości. Ponadto poczynając od 7 opóźnienia w obydwu równaniach nie

są również istotne opóźnione zmienne produkcji i importu.

Powyższe wyniki skłaniają do oszacowania VAR z sześcioma opóźnieniami bez

zmiennych egzogenicznych, a więc bez trendu i sezonowości.

Poniżej wydruk Gretla.

System VAR (model wektorowej autoregresji), rząd opóźnienia 6

Estymacja KMNK dla obserwacji 1993:07-2005:12 (T = 150) Logarytm wiarygodności = -2575,57

Wyznacznik macierzy kowariancji = 2,81255e+012 AIC = 34,6875 BIC = 35,2094 HQC = 34,8995

Portmanteau test: LB(37) = 215,825 (st. swobody = 124, wartość p 0,000001)

Równanie 1: produk Błędy standardowe parametrów według odpornej heteroskedastyczności, wariant HC1

Zmienna Współczynnik Błąd stand. Statystyka t wartość p

const 2620,89 854,724 3,0664 0,00261 *** produk_1 0,734196 0,122323 6,0021 <0,00001 *** produk_2 -0,0616156 0,137338 -0,4486 0,65440 produk_3 0,142502 0,130166 1,0948 0,27554 produk_4 -0,48089 0,100576 -4,7814 <0,00001 *** produk_5 0,154403 0,130781 1,1806 0,23980 produk_6 0,271404 0,134067 2,0244 0,04487 ** import_1 -0,173312 0,145592 -1,1904 0,23595 import_2 -0,0614768 0,17607 -0,3492 0,72750 import_3 0,299548 0,157501 1,9019 0,05929 * import_4 0,133376 0,149465 0,8924 0,37377 import_5 0,373228 0,161161 2,3159 0,02205 ** import_6 -0,15407 0,160917 -0,9575 0,34003

Srednia arytmetyczna zmiennej zależnej = 33795,4 Odchylenie standardowe zmiennej zależnej = 13106,1 Suma kwadratów reszt = 4,407e+008 Błąd standardowy reszt = 1793,54 Wsp. determinacji R2 = 0,982781 Statystyka F (12, 137) = 752,108 (wartość p < 0,00001) Statystyka testu Durbina-Watsona = 1,96802 Autokorelacja reszt rzędu pierwszego = 0,0124592

Test F dla hipotezy o braku restrykcji:

Page 211: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wszystkie opóźnienia zm. produk F(6, 137) = 16,982, wartość p 0,0000 Wszystkie opóźnienia zm. import F(6, 137) = 2,2748, wartość p 0,0400 Wszystkie zm. opóźnione o 6 F(2, 137) = 2,236, wartość p 0,1108

Równanie 2: import Błędy standardowe parametrów według odpornej heteroskedastyczności, wariant HC1

Zmienna Współczynnik Błąd stand. Statystyka t wartość p

const -569,538 796,99 -0,7146 0,47607 produk_1 0,388875 0,180374 2,1559 0,03283 ** produk_2 -0,0912049 0,110107 -0,8283 0,40892 produk_3 -0,149033 0,122558 -1,2160 0,22607 produk_4 -0,288851 0,091849 -3,1448 0,00204 *** produk_5 -0,0404802 0,0863549 -0,4688 0,63998 produk_6 0,315225 0,0882136 3,5734 0,00049 *** import_1 0,0367302 0,208725 0,1760 0,86057 import_2 0,177549 0,146569 1,2114 0,22784 import_3 0,282435 0,15361 1,8386 0,06813 * import_4 0,181649 0,119138 1,5247 0,12964 import_5 0,297326 0,115643 2,5711 0,01121 ** import_6 -0,207594 0,114385 -1,8149 0,07173 *

Srednia arytmetyczna zmiennej zależnej = 15170,1 Odchylenie standardowe zmiennej zależnej = 7650,06 Suma kwadratów reszt = 2,51401e+008 Błąd standardowy reszt = 1354,64 Wsp. determinacji R2 = 0,97117 Statystyka F (12, 137) = 659,159 (wartość p < 0,00001) Statystyka testu Durbina-Watsona = 1,98139

Autokorelacja reszt rzędu pierwszego = -0,00434948 Test F dla hipotezy o braku restrykcji: Wszystkie opóźnienia zm. produk F(6, 137) = 3,1599, wartość p 0,0062 Wszystkie opóźnienia zm. import F(6, 137) = 7,3906, wartość p 0,0000 Wszystkie zm. opóźnione o 6 F(2, 137) = 6,6307, wartość p 0,0018 Dla systemu jako całości Hipoteza zerowa: najdłuższe opóźnienie wynosi 5 Hipoteza alternatywna: najdłuższe opóźnienie wynosi 6 Test ilorazu wiarygodności: Chi-kwadrat(4) = 14,7892 (wartość p 0,005159) Zauważmy, że w zredukowanej o zmienne egzogeniczne i ograniczonej do sześciu opóźnień wersji modelu tylko nieznacznie wzrosła wartość testu AIC ( z 34,1465 do 34,6875, zaś wartość testu BIC nawet zmalała ( z 35,6727 do 35,2094). Oszacowanie modelu VAR możemy uznać za zadowalające.

Page 212: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Kontynuując powyższy przykład przeanalizujmy sposób, w jaki model reaguje na impulsy

w zaburzeniach, zwanych w tym przypadku szokami lub innowacjami Innowację w

równaniu produkcji lub importu możemy traktować jako nagłą zmianę polityki

produkcyjnej lub importowej, wywołującej nagłą zmianę tych wielkości. W teorii VAR,

jak już to sygnalizowaliśmy, zdefiniowana jest tak zwana funkcja reakcji na impuls zwana

w języku angielskim „impulse-response function”. Wyznacza ona efekt innowacji o

wielkości jednego odchylenia standardowego, w wybranej przez badacza zmiennej

endogenicznej, na bieżące i przyszłe wartości wszystkich zmiennych endogenicznych w

modelu VAR. Szok i-tej zmiennej wywiera bezpośredni efekt (krótkookresowy) na i-tą

zmienną w tej samej jednostce czasu i jest z opóźnieniami przekazywany poprzez

dynamiczną strukturę VAR-u innym zmiennym endogenicznym. Początkowy szok

rozprzestrzeniając się w kolejnych jednostkach czasu na inne zmienne wraca również

drogą sprzężenia zwrotnego do zmiennej endogenicznej będącej jego źródłem. Kolejne

jego nawarstwienia tworzą efekt długookresowy.

Przykład 13.2. Oszacujmy funkcję reakcji na impuls w wyżej rozważanym

dwurównaniowym modelu produkcji i importu w Polsce. Przyjmijmy, że innowacje mają

wielkości jednego błędu standardowego zarówno dla pierwszej jak i dla drugiej zmiennej

endogenicznej i prześledźmy ich efekty w ciągu kolejnych dwunastu miesięcy. Poniżej

wartości i wykresy reakcji.

Odpowiedź na impuls wielkości jednego błędu standardowego reszt w zmiennej produkcja

okres produk import

1 1714,1 847,76 2 1111,5 697,69 3 537,43 452,06 4 703,06 232,08 5 71,238 3,4586 6 345,71 40,842 7 980,31 544,48 8 751,49 524,57 9 666,04 374,94

10 654,81 384,2 11 302,93 146,36 12 491 239,23

Odpowiedź na impuls wielkości jednego błędu standardowego reszt w zmiennej import

okres produk import

Page 213: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

1 0 978,42 2 -169,57 35,937 3 -190,88 109,1 4 142,27 227,97 5 187,1 313,63 6 517,22 517,45 7 290,64 191,33 8 158,83 205,01 9 270,41 127,95

10 222,42 170,29 11 354,51 202,63 12 405,75 243,19

Obserwując wykresy zauważamy, że innowacja produkcji wywiera wraz z upływem

kolejnych miesięcy gasnący wpływ na przyszłe wartości produkcji, zaś wzmaga

wraz z upływem czasu efekty importowe (górne wykresy). Innowacja importu

przez pierwsze półrocze osłabia produkcję (możliwe, że jest to związane z

Page 214: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

opóźnieniem skutków modernizacyjnych) by w następnych miesiącach przynosić

już widoczne efekty produkcyjne. Zaobserwowane reakcje wydają się być

ekonomicznie sensowne.

Wariancja jest miarą zmienności. Metoda VAR umożliwia dekompozycję wariancji dla

każdej ze zmiennych objaśnianych na szoki w różnych równaniach.. Dekompozycja ta

pozwala wykryć dynamiką systemu, ukazując najbardziej znaczące miejsca w strukturze

VAR-u, Wskazuje które szoki wywierają dominujący wpływ na błąd standardowy każdej

ze zmiennych endogenicznych modelu.

Dekompozycja wariancji dla zmiennej: produkcja

okres błąd standardowy

produkcja import

1 1714,06 100,0000 0,0000 2 2049,94 99,3157 0,6843 3 2127,8 98,5602 1,4398 4 2245,45 98,3056 1,6944 5 2254,36 97,6302 2,3698 6 2338,62 92,9065 7,0935 7 2552,38 92,7482 7,2518 8 2665,45 92,9953 7,0047 9 2760,68 92,5108 7,4892

10 2845,98 92,3422 7,6578 11 2883,92 91,0313 8,9687 12 2953,43 89,5611 10,4389

Dekompozycja wariancji dla zmiennej: import

okres błąd

standardowy produkcja import

1 1294,61 42,8819 57,1181 2 1471,08 55,7042 44,2958 3 1542,83 59,2286 40,7714 4 1576,76 58,8739 41,1261 5 1607,65 56,6334 43,3666 6 1689,37 51,3454 48,6546 7 1785,22 55,2814 44,7186 8 1871,96 58,1300 41,8700 9 1913,42 59,4778 40,5222

10 1959,03 60,5870 39,4130 11 1974,91 60,1657 39,8343 12 2004,16 59,8473 40,1527

Page 215: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Błąd standardowy produkcji jest zależny przede wszystkim (w dziewięćdziesięciu kilku

procentach) od zmienności w samej produkcji, a jedynie w kilku procentach od zaburzeń

importu. Inaczej wygląda sprawa importu. W około sześćdziesięciu zmienność importu

zależy od wahań produkcji. Wynik ten należy uznać za rozsądny.

Czytelnika zainteresowanego modelami VAR odsyłam do specjalistycznej literatury:

A Harvey [1990].

13. 2. Model korekty błędem (równowagi) (Error Correction Model – ECM) W badaniach rzeczywistych procesów gospodarczych częste są przypadki, gdy rozważane

procesy są skointegrowane. Przyjmijmy, że rozważamy dwa takie procesy: yt oraz xt . Jeśli yt

jest wywoływane przez xt to ich kointegracja oznacza, że obydwa mają podobne trendy i że

zachodzi między nimi równowaga, utrzymująca obydwa zjawiska na podobnej ścieżce

długookresowych zmian i występuje liniowa regresja między nimi.

W niektórych badaniach wystarcza znajomość relacji długookresowej opisanej regresją yt

względem xt , niekiedy jednak chcemy głębiej wniknąć w mechanizm kształtujący procesy

powstawania odchyleń i przywracania długookresowej równowagi.

Wówczas możemy zastosować model korekty błędem (Error correction Model ECM).

Twierdzenie o reprezentacji Grangera głosi, że jeśli yt oraz xt są skointegrowane, to zależność

między nimi może być przedstawiona jako model korekty błędem.

Dla zrozumienia własności ECM rozpocznijmy od najprostszej jego wersji:

(13.6) ∆ ∆y e xt t t t= + + +−α λ γ ε1 gdzie et −1 jest błędem z oszacowania modelu regresji e y b b xt t t− − −= − −1 1 0 1 1 . O parametrze

λ zakładamy, że λ < 0 .

W modelu ECM przyrost zmiennej objaśnianej ∆yt zależy nie tylko od przyrostu zmiennej

objaśniającej ∆xt ale również częściowo od wielkości błędu o jaki yt −1 odchyliła się od

stanu długookresowej równowagi β β0 1+ xt . Stąd nazwa metody: Model korekty błędem (w

domyśle – błędem równowagi).

Własności ECM.

1. Mechanizm przywracania równowagi w ECM jest ekonomicznie sensowny.

2. Model zapewnia, że znika obawa regresji pozornej mimo, że obydwa wyjściowe szeregi są

niestacjonarne.

Page 216: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

3. ∆yt oraz ∆xt występujące jako zmienne ECM są stacjonarne. .

4. Ponieważ wyjściowe zmienne są skointegrowane, to błąd równowagi jest stacjonarny.

Oznacza to, że ECM możemy szacować za pomocą MNK a statystyki testujące mają

standardowe rozkłady.

Wyznaczanie modelu korekty błędem nie jest zabiegiem złożonym. Można go przedstawić w

dwóch krokach:

1, Wyznaczamy regresję yt względem xt i zapisujemy reszty.

2. Wyznaczamy regresję ∆yt względem ∆xt i opóźnionych reszt.

Należy podkreślić, że przed oszacowaniem ECM trzeba sprawdzić, czy obydwa szeregi mają

pierwiastki jednostkowe i czy są skointegrowane.

W modelach rozbudowanych typu modeli autoregresyjnych z opóźnieniami rozłożonymi

ADL(p.q), dyskutowanymi w rozdziale poprzednim, model korekty błędem może mieć

również bardziej złożoną budowę, a mianowicie:

(13.7) ∆ ∆ ∆ ∆ ∆y t e y y x xt t t p t p t q t p t= + + + + + + + + +− − − −α β λ γ γ δ δ ε1 1 1 0

Przykład:

Krok 1. Szacujemy regresję relacji długookresowej:

Model 1: Estymacja KMNK z wykorzystaniem 14 obserwacji 1991-2004

Zmienna zależna: SPO

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -2,92007 6,79024 -0,4300 0,674788 PKB 0,63894 0,010212 62,5678 < 0,00001 ***

Srednia arytmetyczna zmiennej zależnej = 415,897 Odchylenie standardowe zmiennej zależnej = 74,155 Suma kwadratów reszt = 218,461 Błąd standardowy reszt = 4,26674 Wsp. determinacji R2 = 0,996944 Skorygowany R2 = 0,996689 Stopnie swobody = 12 Statystyka testu Durbina-Watsona = 1,6828 Autokorelacja reszt rzędu pierwszego = 0,0697639 Logarytm wiarygodności = -39,098 Kryterium informacyjne Akaika = 82,196 Kryterium bayesowskie Schwarza = 83,4741

Page 217: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Krok 2. Wyznaczamy regresję ∆yt względem zmiennej czasu t , opóźnionych reszt et-1

oraz ∆xt :

∆ ∆y t e xt t t t= + + + +−α β λ γ ε1

Model 2: Estymacja KMNK z wykorzystaniem 13 obserwacji 1992-2004

Zmienna zależna: d_SPO

Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 5,32846 3,27545 1,6268 0,138226 time 0,194609 0,271142 0,7177 0,491128 uhat1_1 -1,11248 0,277685 -4,0063 0,003081 *** d_PKB 0,377103 0,093989 4,0122 0,003054 ***

Srednia arytmetyczna zmiennej zależnej = 16,51 Odchylenie standardowe zmiennej zależnej = 7,1733 Suma kwadratów reszt = 111,479 Błąd standardowy reszt = 3,51946 Wsp. determinacji R2 = 0,819459 Skorygowany R2 = 0,759279 Statystyka F (3, 9) = 13,6167 (wartość p = 0,00108) Statystyka testu Durbina-Watsona = 2,11238 Autokorelacja reszt rzędu pierwszego = -0,105733 Logarytm wiarygodności = -32,414 Kryterium informacyjne Akaika = 72,828 Kryterium bayesowskie Schwarza = 75,0878

Podsumowanie 1. Za pomocą metody wektorowej autoregresji, zwanej w skrócie VAR można

modelowć nie jedno, a kilka powiązanych ze sobą zjawisk za pomocą ich historii.

2. Dwurównaniowy model VAR z m zmiennymi egzogenicznymi możemy zapisać:

y y y x

y y y x

t i t ii

k

i t ii

k

j jtj

m

t

t i t ii

k

i t ii

k

j jtj

m

t

1 1 1 11

1 21

11

1

2 2 2 11

2 21

21

2

= + + + +

= + + + +

=

= =

=

= =

∑ ∑ ∑

∑ ∑ ∑

µ α β γ ε

µ α β γ ε

3. Zalety metody VAR zasługujących na podkreślenie:

1. Jedynie historia procesów ekonomicznych kształtuje ich teraźniejsze stany.

2. Estymacja VAR za pomocą MNK daje zawsze estymatory zgodne, zaś za

pomocą UMNK – estymatory zgodne i asymptotycznie normalne.

3. Ważną zaletą VAR jest mała liczba równań, składających się na model

wielorównaniowy.

Page 218: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

4. Modele VAR są wykorzystywane dla sprawdzania efektów polityki

ekonomicznej, przez którą rozumie się analizę nagłych, szokowych zmian

zaburzeń w którymkolwiek równaniu na inne zmienne endogeniczne modelu w

kolejnych jednostkach czasu. Jest to tak zwana (an impulse response function).

5. Metoda VAR umożliwia dekompozycję wariancji (opisującej zmienność

dowolnej zmiennej endogenicznej) na składowe płynące z szoków w innych

zmiennych.

4. W modelu korekty błędem - Error correction Model, określanym skrótem ECM przyrost

zmiennej objaśnianej ∆yt zależy nie tylko od przyrostu zmiennej objaśniającej ∆xt ale

również częściowo od wielkości błędu o jaki yt −1 odchyliła się od stanu długookresowej

równowagi β β0 1+ xt . Stąd nazwa metody: Model korekty błędem (w domyśle – błędem

równowagi).

5. Własności ECM.

1. Mechanizm przywracania równowagi w ECM jest ekonomicznie sensowny.

2. Model zapewnia, że znika obawa regresji pozornej mimo, że obydwa wyjściowe szeregi są

niestacjonarne.

3. ∆yt oraz ∆xt występujące jako zmienne ECM są stacjonarne. .

4. Ponieważ wyjściowe zmienne są skointegrowane, to błąd równowagi jest stacjonarny.

Oznacza to, że ECM możemy szacować za pomocą MNK a statystyki testujące mają

standardowe rozkłady.

Page 219: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

OPRACOWYWANIE PROJEKTÓW BADAWCZYCH

Już przy pisaniu pracy dyplomowej lub magisterskiej podejmowany jest wysiłek

samodzielnego opracowania projektu badawczego. Istotnym problemem jest wybór tematu.

Ważkim pytaniem, które należy sobie zadać jest pytanie „Co mnie interesuje?” Wybór

interesującego tematu istotnie poprawia samopoczucie piszącego i wzmaga wysiłek

badawczy, przyczyniając się odniesienia sukcesu. Jeśli jednak zaczynamy pracę nad tematem,

którym nie jesteśmy zafascynowani, to powinniśmy pamiętać, że zainteresowanie wzrasta

wraz z postępami w studiowaniu literatury, formułowaniu hipotez badawczych i

poszukiwaniu danych. Czas poświęcony na tym etapie dociekań na pewno nie będzie

zmarnowany. Korzystajmy intensywnie z pomocy opiekuna naukowego.

Badania o charakterze naukowym stają się coraz powszechniejszym zajęciem ekonomistów

uczestniczących przy podejmowaniu decyzji ekonomicznych na różnych szczeblach

zarządzania i w różnych dziedzinach działalności gospodarczej, społecznej czy politycznej.

Zadaniom takim towarzyszy konieczność pisania raportów z badań, wykorzystujących dane

empiryczne. W zależności od celu opracowania i audytorium, do którego jest ono

adresowane, może mieć ono różnorodne formy. Niezależnie jednak od szczegółowych

uwarunkowań większość sprawozdań badawczych winno posiadać elementy, które pokrótce

przedyskutujemy.

1. Wprowadzenie. Przy pisaniu pracy dyplomowej lub magisterskiej pamiętajmy o

napisaniu krótkiego streszczenia zamierzonej pracy, w którym określony byłby cel

pracy, główne hipotezy - będące przedmiotem weryfikacji w modelu

ekonometrycznym i pokrótce opisane dane statystyczne, które zamierzamy

wykorzystać.

Raport z badań rozpoczyna wprowadzenie, w którym w sposób skrótowy

przedstawione jest uzasadnienie podjęcia badania, przedstawione są jego

najważniejsze problemy i zaprezentowane główne wyniki badań empirycznych.

Wprowadzenie winno być pisane w języku powszechnie zrozumiałym, bez

nadużywania terminów statystycznych i ekonometrycznych. Powinno ono być

zrozumiałe dla osób nie będących ekspertami w danej dziedzinie.

2. Przegląd literatury. Przegląd literatury powinien w syntetyczny sposób omawiać

prace tematycznie bliskie podejmowanemu problemowi. Jest to ważny element

raportu. Umożliwia on również autorowi raportu pogłębienie wiedzy nad

podejmowanym tematem. Nieocenionym źródłem jest internet, w którym niektóre

Page 220: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

przeglądarki literatury ekonomicznej, takie na przykład jak „EconLit”, czy „Social

Science Citation Index” są przeglądem wiedzy na niemal każdy temat ekonomiczny

czy społeczny.

3. Teoria ekonomiczna. Dla pogłębienia wartości poznawczych opracowanie winno

zawierać formalny model teoretyczny, będący podstawą sformułowania

estymowanego modelu regresji. Wobec opracowań dla celów polityki ekonomicznej, a

zwłaszcza społecznej na ogół nie stawia się tak wysokich formalnych wymagań.

Przywołanie właściwej teorii ekonomicznej i sformułowanie hipotez badawczych

zgodnych z teorią, nadaje całemu opracowaniu właściwego poziomu naukowego i

niezbędnej precyzji badawczej.

4. Dane statystyczne. W tej części raportu omawiamy szczegółowo dane statystyczne,

wykorzystane w badaniu. Prezentujemy ich źródło, sposób ich gromadzenia, główne

zmienne oraz przeprowadzamy czyszczenie danych wynikające z ich niespójności,

niekompletności i dyskutujemy źródła obserwacji nietypowych.

5. Szacowany model. Należy zaprezentować model wykorzystujący dane statystyczne,

rozwinięty w swej części analitycznej o hipotezy, które będą przedmiotem

weryfikacji. Określenie rodzaju modelu, zmiennej objaśnianej i zmiennych

objaśniających są istotnymi składnikami tego punktu raportu. W przypadku

korzystania z danych w formie szeregów czasowych należy przeprowadzić testowanie

integracji i kointegracji szeregów.

6. Wyniki estymacji. Jest to najważniejszy element raportu. Należy skomentować

uzyskane wyniki i odnieść je do problemów ekonomicznych, będących przedmiotem

badania. Istotnym członem tego punktu raportu jest opis informacji statystycznych,

towarzyszących estymacji modelu. Należy podać wyniki testów statystycznych,

opisujących jakość oszacowań, skomentować sens ekonomiczny doboru długości

przyjętych opóźnień, a także, co ma niezwykle istotne znaczenie ocenić statystyczną

istotność postawionych hipotez. Zauważmy, że nie ma dobrych lub złych wyników

(jeśli tylko model oszacowany jest zgodnie z zasadami teorii ekonometrii). Wyniki

empiryczne stwierdzają jedynie to, co jest zawarte w danych statystycznych. Równie

wartościowym rezultatem jest potwierdzenie przez model postawionych hipotez, jak

też falsyfikacja tych hipotez. Ten ostatni przypadek oznacza jedynie, że dane

statystyczne dobrane dla oszacowania modelu nie potwierdzają naszych przypuszczeń

co do postaci zależności między zmienną objaśnianą a zmiennymi objaśniającymi.

Możliwe, że na podstawie innego zbioru danych uzyskalibyśmy podobne, a może

Page 221: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

nieco odmienne wyniki. Ważne jest uzupełnianie zbioru danych o najnowsze

obserwacje, co poprawia wiarogodność zabiegów estymacyjnych. Możliwe jest

również, że zmieniając postać matematyczną modeli lub zmiennych objaśniających

można by uzyskać wynik bardziej zgodny z oczekiwanym. Należy jednak pamiętać, że

przytaczanie modeli zachowujących się zgodnie z oczekiwaniami badacza, przy

jednoczesnym pominięciu innych mniej pomyślnych prób oznacza świadome

wprowadzanie w błąd czytelnika.

7. Wnioski. Zakończeniem raportu są wnioski. Zawierają one syntetyczną prezentację

uzyskanych wyników. Należy zwrócić baczną uwagę na selektywność prezentacji, a

więc na nie nadmierne przeładowanie opisu informacjami o wartościach

przeprowadzonych testów o drugorzędnym znaczeniu itd. Rodzaj badania i

audytorium słuchające raportu decydują o wyborze ważnych wątków. Raport może

zamykać krótka dyskusja nad jego niedoskonałościami, analizą przyczyn

zauważonych niedostatków oraz wskazaniami dalszych badań podnoszonego

problemu.

Page 222: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

CZĘŚĆ IV ANEKSY

ANEKS A. ELEMENTY ALGEBRY MACIERZY

Macierzą nazywamy zbiór liczb rzeczywistych uporządkowanych w wierszach i kolumnach.

Pojedynczą liczbę nazywamy skalarem lub elementem macierzy.

(A.1) A =

L

N

MMMMMM

O

Q

PPPPPP

a a a a

a a a a

a a a a

a a a a

n

n

n

m m m mn

11 12 13 1

21 22 23 2

31 32 33 3

1 2 3

A jest macierzą złożoną z m wierszy i n kolumn. Każdy element macierzy jest

liczbą rzeczywistą. Liczby m oraz n nazywamy wymiarami macierzy, a macierz A

zapisujemy często jako Am n× .

Za pomocą macierzy będziemy zapisywać zbiory danych statystycznych, użytych przy

budowie modeli ekonometrycznych. Każdy wiersz macierzy jest wówczas jedną

obserwacją na zmiennych modelu, zaś każda kolumna tworzy zbiór wszystkich

obserwacji na wybranej zmiennej. Oznaczając przez xik i-tą obserwację na k-tej zmiennej

objaśniającej macierz obserwacji na zmiennych objaśniających zapiszemy:

(A. 2) X

x x x

x x x

x x x

x x x

K

K

K

n n nK

=

L

N

MMMMMM

O

Q

PPPPPP

1

1

1

1

12 13 1

22 23 2

32 33 3

2 3

.

W macierzy tej pierwsza kolumna jest kolumną jedynek. Potrzebę takiego zapisu wyjaśnia

klasyczny model regresji liniowej.

Page 223: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Macierz złożoną z tylko jednej kolumny nazywamy wektorem kolumnowym. Na przykład

a =

F

HGG

I

KJJ

aa

a

1

2

3

jest trójelementowym wektorem kolumnowym. Dla odróżnienia wektory

wierszowe oznaczamy dodatkowo symbolem „prim” , który wskazuje na transpozycję. Na

przykład ′b czteroelementowy wektor wierszowy zapiszemy jako:

′ =b b b b b1 2 3 4b g .

Macierze, w których liczba wierszy jest różna od liczby kolumn nazywamy macierzami

prostokątnymi, zaś macierze, w których liczba wierszy jest równa liczbie kolumn

nazywamy macierzami kwadratowymi.

Macierz złożoną z samych zer nazywamy macierzą zerową i zapisujemy jako 0, zaś

wektor złożony z samych zer – jako o lub ′o .

Równość macierzy Dwie macierze A oraz B są sobie równe wtedy i tylko wtedy, gdy mają te same wymiary

i identyczne elementy, a więc

(A.3) A B= aij = bij .

Na macierzach, podobnie jak na liczbach rzeczywistych możemy wykonywać różne

działania arytmetyczne.

Mnożenie macierzy przez skalar

Dla utworzenia macierzy C będącej iloczynem (liczby rzeczywistej) skalar b i

macierzy każdy element macierzy A należy przemnożyć przez skalar b, a więc :

(A.4) C A= b c baij ij= .

Dodawanie i odejmowanie macierzy

Page 224: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Suma (lub różnica) macierzy A B+ istnieje wtedy i tylko wtedy, gdy macierze mają te

same wymiary oraz każdy element macierzy sumy C jest sumą odpowiednich elementów

dodawanych (lub odejmowanych) macierzy. A więc

(A.5) C A B= + c a bij ij ij= + .

Dodawanie lub odejmowanie macierzy ma własność przemienności, analogicznie do

dodawania lub odejmowania liczb rzeczywistych. Na przykład

A B C A B C B A C− + = + − = − + + .

Przykład: 2 4

3 1

3 2

1 3

1 6

4 4

LNM

OQP

+−LNM

OQP

=−LNM

OQP

.

Mnożenie macierzy

Jeśli macierz A ma wymiary m p× , macierz B ma wymiary p n× to macierz C o

wymiarach m n× jest iloczynem, którego ij-ty element jest iloczynem skalarnym i-tego

wiersza macierzy mnożnej A przez j-tą kolumnę macierzy mnożnika B. A więc

(A.6) C A B= × c a bij ikk

p

kj==

∑1

.

Dla macierzy A =

L

NMMM

O

QPPP

a a

a a

a a

11 12

21 22

31 32

oraz B =LNM

OQP

b b

b b11 12

21 22

Ich iloczyn C A B= ×

wynosi: C =

+ +

+ +

+ +

L

NMMM

O

QPPP

a b a b a b a b

a b a b a b a b

a b a b a b a b

11 11 12 21 11 12 12 22

21 11 22 21 21 12 22 22

31 11 32 21 31 12 32 22

Przykład: 1 3 2

2 1 4

1 2

3 2

2 1

1 1 3 3 2 2 1 2 3 2 2 1

2 1 1 3 4 2 2 2 1 2 4 1

13 10

13 10

LNM

OQP

×

L

NMMM

O

QPPP

=× + × + × × + × + ×

× + × + × × + × + ×

LNM

OQP

=LNM

OQP

Page 225: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Podkreślmy, że z powyższej reguły (mnożenia wiersza przez kolumnę) wynika, że

mnożone macierze muszą posiadać zgodne wymiary. A mianowicie macierz mnożna A

musi mieć tyle kolumn, co ma wierszy macierz mnożnika B, macierz iloczynu C ma tyle

wierszy, co macierz mnożna A i tyle kolumn, co macierz mnożnika B. Z powyższego

wynika, że nie wszystkie macierze można przez siebie mnożyć. Licząc iloczyny

macierzowe należy skrupulatnie sprawdzać, czy działanie mnożenia jest wykonalne.

Odmiennie niż jest to w algebrze liczb rzeczywistych, mnożenie macierzy na ogół nie jest

przemienne: AB BA≠ .

Dlatego mnożąc macierz B przez macierz A zaznaczamy, że macierz B jest mnożona

lewostronnie przez macierz A lub prawostronnie, jak ma to miejsce w przypadku BA.

W rozważaniach ekonometrycznych często będziemy liczyć sumę kwadratów pewnej

zmiennej. Niech to będzie zmienna e przyjmująca wartości e e en1 2, , , . Sumę

kwadratów tej zmiennej wyznaczymy jako eii

n2

1=

∑ . Za pomocą algebry macierzy wyrażenie

to możemy zapisać eii

n2

1=

∑ = ′e e , gdzie przez e oznaczyliśmy wektor kolumnowy e =

F

H

GGGG

I

K

JJJJ

e

e

en

1

2

.

Rozpatrzmy inny wektor ε

ε

ε

ε

=

F

H

GGGG

I

K

JJJJ

1

2

n

i wyznaczmy εε ′ . Otrzymamy macierz o wymiarach

n n× postaci εε

ε ε ε ε ε

ε ε ε ε ε

ε ε ε ε ε

′ =

F

H

GGGG

I

K

JJJJ

12

1 2 1

2 1 22

2

1 22

n

n

n n n

. Macierz ta ma na diagonalnej kwadraty

kolejnych wartości ε , a poza diagonalną wszystkie krzyżowe iloczyny.

Transpozycja macierzy Transpozycja macierzy jest przestawieniem wierszy macierzy na kolumny (i-ty wiersz

macierzy A staje się i-tą kolumną macierzy A`. A więc

Page 226: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(A.7) a aij ji= ′ .

Przykład:

2 4

1 3

3 0

5 1

2 1 3 5

4 3 0 1

L

N

MMMM

O

Q

PPPP

=LNM

OQP

.

Zgodnie z zasadą transpozycji transpozycja wektora kolumnowego b =

F

H

GGGG

I

K

JJJJ

b

b

bn

1

2

staje się

wektorem wierszowym ′ =b b b bn1 2 b g .

Macierz, której transpozycja nie zmienia zwana jest macierzą symetryczną, a więc

(A.8) A A= ′ a aij ji= .

Dla transpozycji macierzy zachodzą relacje:

′′

=A Ab g ,transpozycja macierzy transponowanej jest równa macierzy pierwotnej;

A B A B+′

= ′ + ′b g , transpozycja sumy jest sumą macierzy transponowanych;

AB B Ab g′ = ′ + ′ , transpozycja iloczynu macierzy jest równa iloczynowi macierzy

transponowanych przemnożonych w odwrotnej kolejności.

Ślad macierzy

W macierzy kwadratowej A o wymiarach n n× główną przekątną macierzy tworzą

elementy leżące na linii zaczynającej się elementem a11 i kończącej elementem ann .

Oznacza to, że główna przekątna składa się z elementów a a ann11 22, , , . Śladem macierzy

A nazywamy sumę elementów leżących na jej głównej przekątnej i oznaczamy symbolem

tr( )A .

(A.9) tr a a a ann iii

n

( )A = + + + ==

∑11 221

Z powyższego wynika, że:

tr tr tr( ) ( ) ( )A B A B+ = +

Page 227: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

tr tr

tr tr

tr tr

( ) ( ),

( ) ( ),

( ) ( ).

A B B A

A A

AB BA

+ = +

′ =

=

Macierz odwrotna

Pojęcie macierzy odwrotnej jest analogiczne do pojęcia liczby odwrotnej. Dla każdej

liczby rzeczywistej a różnej od zera istnieje taka liczba 1 1/ a a= − , że a a× =−1 1.

Analogiczna własność zachodzi dla macierzy.

Dla każdej macierzy kwadratowej A o wyznaczniku różnym od zera (pojęcie wyznacznika

poniżej) istnieje taka macierz A−1 , zwana macierzą odwrotną, że A A I× =−1 , gdzie

symbol I oznacza macierz jednostkową, która jest zdefiniowana następująco:

I =

F

H

GGGG

I

K

JJJJ

1 0 0

0 1 0

0 0 1

. Jest to macierz kwadratowa, która na diagonalnej ma jedynki, a poza

diagonalną zera.

Pojęcie macierzy jednostkowej jest analogiczne do pojęcia liczby rzeczywistej 1, gdzie

każda liczba pomnożona przez 1 równa jest tej liczbie, a więc mnożenie przez 1 nie

zmienia liczby. Analogiczna własność zachodzi dla macierzy jednostkowej, a więc

A I I A A× = × = . Mnożenie lewostronne lub prawostronne przez macierz jednostkową

nie zmienia macierzy.

Podamy kilka zastosowań dla dotychczasowych ustaleń.

Układ n równań liniowych z n niewiadomymi zapisujemy:

a x a x a x b

a x a x a x b

a x a x a x b

n n

n n

n n nn n n

11 1 12 2 1 1

21 1 22 2 2 2

1 1 2 2

+ + + =

+ + + =

+ + + =

Page 228: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Oznaczmy: A =

L

N

MMMMMM

O

Q

PPPPPP

a a a a

a a a a

a a a a

n

n

n n n nn

11 12 13 1

21 22 23 2

1 2 3

; x =

F

H

GGGG

I

K

JJJJ

x

x

xn

1

2

; b =

F

H

GGGG

I

K

JJJJ

b

b

bn

1

2

.

Wówczas możemy napisać:

(A.10) Ax b= .

Jest to równanie macierzowe równoważne układowi n równań liniowych z n

niewiadomymi.

Jeśli równanie to przemnożymy lewostronnie przez macierz odwrotną do A, to otrzymamy:

A Ax A b− −=1 1

Ix= A b−1

(A.11) x A b= −1

co jest rozwiązaniem równania.

Wyznaczniki macierzy drugiego i trzeciego stopnia.

Każdej macierzy kwadratowej można przyporządkować liczbę rzeczywistą, zwaną jej

wyznacznikiem . Wyznacznik macierzy A oznaczamy det( )A lub A .

Wyznacznik macierzy drugiego stopnia, a więc o wymiarach 2 2× liczymy następująco: od

iloczynu elementów na diagonalnej (przekątnej) odejmujemy iloczyn elementów

przeciwdiagonalnej,

(A12) A = = × − ×a a

a aa a a a11 12

21 2211 22 12 21 .

Wyznacznik macierzy trzeciego stopnia łatwo jest wyznaczyć tzw. metodą Sarrusa. Liczenie

polega na dopisaniu pod macierzą 3 3× ponownie pierwszego i drugiego wiersza, a więc

Page 229: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

a a a

a a a

a a a

a a a

a a a

11 12 13

21 22 23

31 32 33

11 12 13

21 22 23

L

N

MMMMMM

O

Q

PPPPPP

i policzenie iloczynu elementów diagonalnej a a a11 22 33× × , iloczynu

elementów poniżej diagonalnej a a a21 32 13× × oraz iloczynu jeszcze niżej położonych

elementów a a a31 12 23× × i wzięcie ich ze znakiem +, a następnie analogiczne policzenie

iloczynu elementów przeciwdiagonalnej i dwóch iloczynów poniżej i wzięcie ich ze znakiem

-. Zgodnie z tą regułą wyznacznik macierzy A jest równy

(A13) A = a a a11 22 33× × + a a a21 32 13× × +

a a a31 12 23× × − × × − × × − × ×a a a a a a a a a13 22 31 23 32 11 33 12 21 .

Przykład:, Jeśli A =

L

NMMM

O

QPPP

1 2 3

4 5 6

7 8 10

, to

A = × × + × × + × ×

− × × − × × − × × = −

1 5 10 4 8 3 7 2 6

3 5 7 6 8 1 10 2 4 3.

Minory i dopełnienia algebraiczne

Zanim przejdziemy do wyznaczania wyznaczników wyższych stopni określimy dwa nowe

pojęcia: minora i dopełnienia algebraicznego. Weźmy macierz 3 3×

a a a

a a a

a a a

11 12 13

21 22 23

31 32 33

L

NMMM

O

QPPP

i wykreślmy z niej na przykład pierwszy wiersz i drugą kolumnę.

Otrzymamy podmacierz a a

a a21 23

31 33

LNM

OQP

. Minorem elementu a12 , stojącym na przecięciu

wykreślonego pierwszego wiersza i wykreślonej drugiej kolumny jest wyznacznik z

podmacierzy pozostałej po skreśleniu wiersza i kolumny. Minor ten oznaczmy przez m12 .

Page 230: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

ma a

a a1221 23

31 33

= .

Podobnie możemy policzyć minory dla wszystkich elementów macierzy A .

Minory mij macierzy Aopatrzone znakiem + lub – nazywamy dopełnieniami algebraicznymi

elementów aij . Dopełnienia algebraiczne oznaczmy symbolami cij i definiujemy następująco:

(A.14) c miji j

ij=+−( )1 .

Ze sposobu wyznaczania znaku dla dopełnienia algebraicznego widzimy, że gdy suma

numeru wiersza i numeru kolumny jest parzysta to znakiem przydanym minorowi jest znak +,

a jeśli nieparzysta, to znak - .

Obliczmy macierz odwrotną do macierzy w przykładzie liczbowym, dla którego

wyznaczyliśmy wyznacznik. A mianowicie A =

L

NMMM

O

QPPP

1 2 3

4 5 6

7 8 10

. Minory wyniosą:

m m m

m m m

m m m

11 12 13

21 22 23

31 32 33

5 10 6 8 2 4 10 6 7 2 4 8 5 7 3

2 10 3 8 4 1 10 3 7 11 1 8 2 7 6

2 6 3 5 3 1 6 3 4 12 1 5 2 4 3

= × − × = = × − × = − = × − × = −

= × − × = − = × − × = − = × − × = −

= × − × = − = × − × = − = × − × = −

Zestawmy je w macierz m

m =

− −

− − −

− − −

L

NMMM

O

QPPP

2 2 3

4 11 6

3 12 3

. Dla wyznaczenia macierzy dopełnień algebraicznych opatrzmy minory

znakami zgodnie ze wzorem (A.14). Dostaniemy

2 2 3

4 11 6

3 12 3

− −

L

NMMM

O

QPPP

Wyznaczniki macierzy wyższych stopni.

Metodę wyznaczania wyznaczników wyższych stopni zaczniemy od przypadku stopnia

trzeciego, dla którego wyznaczyliśmy już wyznacznik metodą Sarrusa. Tę samą wartość

wyznacznika otrzymamy „metodą przez rozwinięcie” względem dowolnego wiersza lub

dowolnej kolumny. Dla przykładu obliczymy wyznacznik przez rozwinięcie względem

pierwszego wiersza:

A = = × + × + ×

a a a

a a a

a a a

a c a c a c11 12 13

21 22 23

31 32 33

11 11 12 12 13 13 .

Page 231: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wartość wyznacznika równa się sumie elementów pierwszego wiersza mnożonych przez

dopełnienia algebraiczne elementów pierwszego wiersza. Tę samą wartość wyznacznika

otrzymamy rozwijając go według dowolnej kolumny na przykład drugiej:

A = = × + × + ×

a a a

a a a

a a a

a c a c a c11 12 13

21 22 23

31 32 33

12 12 22 22 32 32 .

Podobnie obliczamy wyznaczniki czwartego i wyższych stopni rozwijając je według

dowolnego wiersza lub kolumny. Zauważmy, że liczenie wyznacznika „przez rozwinięcie”

sprowadza się do przedstawienia wyznacznika za pomocą dopełnień algebraicznych, a więc

wyznaczników o stopień niższych, które następnie można rozwinąć według tej samej reguły.

Dla macierzy Am m× wyznacznik rozwinięty według pierwszego wiersza jest równy:

(A.15) A = + +a c a c a cm m11 11 12 12 1 1

Odwracanie macierzy Transponowaną macierz dopełnień algebraicznych macierzy A nazywamy macierzą

dołączoną i oznaczmy adj( )A . Macierz odwrotna A−1 jest równa

(A.16) AA

A− =1 1adj( ) .

A więc macierzą odwrotną jest macierz dołączona mnożona przez odwrotność wyznacznika.

Obliczmy macierz odwrotną do macierzy w przykładzie liczbowym, dla którego

wyznaczyliśmy wyznacznik. A mianowicie A =

L

NMMM

O

QPPP

1 2 3

4 5 6

7 8 10

. Minory wyniosą:

m m m

m m m

m m m

11 12 13

21 22 23

31 32 33

5 10 6 8 2 4 10 6 7 2 4 8 5 7 3

2 10 3 8 4 1 10 3 7 11 1 8 2 7 6

2 6 3 5 3 1 6 3 4 6 1 5 2 4 3

= × − × = = × − × = − = × − × = −

= × − × = − = × − × = − = × − × = −

= × − × = − = × − × = − = × − × = −

Zestawmy je w macierz m :

Page 232: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

m =

− −

− − −

− − −

L

NMMM

O

QPPP

2 2 3

4 11 6

3 6 3

. Dla wyznaczenia macierzy dopełnień algebraicznych opatrzmy minory

znakami zgodnie ze wzorem (A.14). Dostaniemy

2 2 3

4 11 6

3 6 3

− −

L

NMMM

O

QPPP

. Macierzą dołączoną jest

transponowana macierz dopełnień algebraicznych, a więc

adj( )A =

− −

L

NMMM

O

QPPP

=

− −

L

NMMM

O

QPPP

2 2 3

4 11 6

3 6 3

2 4 3

2 11 6

3 6 3

. Zgodnie ze wzorem (A.14) macierz odwrotna

wynosi: A− =−

− −

L

NMMM

O

QPPP

=

− −

− −

L

NMMM

O

QPPP

1 1

3

2 4 3

2 11 6

3 6 3

2 3 4 3 1

2 3 11 3 2

1 2 1

/ /

/ / . Dla sprawdzenia możemy ją

przemnożyć przez macierz pierwotną i uzyskamy macierz jednostkową.

1 2 3

4 5 6

7 8 10

2 3 4 3 1

2 3 11 3 2

1 2 1

L

NMMM

O

QPPP

×

− −

− −

L

NMMM

O

QPPP

/ /

/ /

=

× − + × − + × × − + × + × − × + × − + ×

× − + × − + × × − + × + × − × + × − + ×

× − + × − + × × − + × + × − × + × − + ×

L

NMMM

O

QPPP

1 2 3 2 2 3 3 1 1 4 3 2 11 3 3 2 1 1 2 2 3 1

4 2 3 5 2 3 6 1 4 4 3 5 11 3 6 2 4 1 5 2 6 1

7 2 3 8 2 3 10 1 7 4 3 8 11 3 10 2 7 1 8 2 10 1

( / ) ( / ) ( / ) / ( ) ( )

( / ) ( / ) ( / ) / ( ) ( )

( / ) ( / ) ( / ) / ( ) ( )

=

L

NMMM

O

QPPP

1 0 0

0 1 0

0 0 1

Liniowa zależność wektorów i rząd macierzy

Liniowa zależność wektorów

Zbiór m wektorów a a a1 2, ,..., m ( n ×1) elementowych jest liniowo zależny, jeśli istnieje taki

zbiór skalarów λ i , nie wszystkich jednocześnie równych zero, że

(A.17) λ λ λ1 1 2 2a a am m+ + + =... o ,

Page 233: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

gdzie o oznacza wektor zerowy.

Rząd macierzy Macierz m n× możemy traktować jako n wektorów kolumnowych ( m ×1):

A a a a= ( ... )1 2 n . Rzędem macierzy A nazywamy maksymalną liczbę niezależnych

kolumn tej macierzy i oznaczamy r( )A . Macierz m n× możemy również traktować jako m

wektorów wierszowych ( n ×1) : A a a a=′ ′ ′( ... )1 2 m i wówczas rzędem macierzy A

nazywamy maksymalną liczbę niezależnych wierszy tej macierzy. Z powyższego wynika, że

zawsze maksymalna liczba niezależnych kolumn jest równa maksymalnej liczbie

niezależnych wierszy.

Można również pokazać, że dla macierzy A rzędu k każdy minor rzędu k +1 jest równy

zero i co najmniej jeden minor rzędu k jest różny od zera.

Macierz kwadratową o wymiarach n n× rzędu n nazywamy macierzą nieosobliwą. Macierz

ta, jak wynika z powyższych wywodów ma wyznacznik różny od zera.

Wróćmy do macierzowego zapisu układu n równań liniowych z n niewiadomymi Ax b= .

Rozwiązanie tego równania macierzowego jest jednoznaczne, gdy r n( )A = , a więc gdy

macierz A jest nieosobliwa.

Ważna własność, z której często będziemy korzystać dotyczy rzędu iloczynu macierzy. Rząd

iloczynu macierzy AB nie przewyższa niższego z rzędów macierzy A i B. A więc

r r r( ) min ( ), ( )AB A B≤ b g .

Macierz idempotentna Macierzą idempotentną nazywamy macierz symetryczną, której kwadrat jest równy jej samej,.

Czyli

(A.18) ′ = =A A AA Aoraz .

Najprostszym przykładem takiej macierzy jest macierz jednostkowa I: ′ = × =I I I I I, .

Jeśli A jest macierzą idempotentną, to

(A.19) r tr( ) ( )A A= ,

a więc rząd macierzy idempotentnej jest równy jej śladowi.

Page 234: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

W klasycznym modelu regresji liniowej wektor reszt e drogą kolejnych podstawień możemy

przedstawić jako:

(A.20) e y Xb y X X X X y X X X X y My= − = − ′ ′ = − ′ ′ =− −( ) ( ( ) )1 1I , gdzie I jest macierzą

jednostkową, zaś

(A.21) M X X X X= − ′ ′×−In n ( ) 1

jest tak zwaną podstawową macierzą idempotentną. W zapisie powyższym podkreślilismy,

że macierz jednostkowa I jest macierzą o wymiarach n n× . Łatwo zauważyć, że spełnia ona

warunki macierzy idempotentnej, gdyż ′ =M M oraz ′ =M M M . Podstawowa macierz

idempotentna M ma jeszcze jedną wygodną własność, a mianowicie MX = 0 . Iloczyn

podstawowej macierzy idempotentnej M przez macierz obserwacji na zmiennych

objaśniających X jest równy macierzy zerowej. Mamy bowiem

MX X X X X X X X X X X X X X X X= − ′ ′ = − ′ ′ = − = − =− −( ( ) ) ( )I I1 1 0

Można pokazać, że rząd macierzy M wynosi n K− .

r tr tr In n( ) ( ) ( ( ) )M M X X X X= = − ′ ′×−1 gdyż rząd macierzy idempotentnej jest równy jej

śladowi;

= − ′ ′×−tr I trn n( ) ( ( ) )X X X X1 gdyż tr tr tr( ) ( ) ( )A B A B+ = + ;

= − ′ ′×−tr I trn n( ) [( ) )X X X X1 gdyż tr tr( ) ( )AB BA= ;

= −× ×tr I tr In n K K( ) ( ) gdyż w drugim wyrażeniu mamy iloczyn macierzy odwrotnej

przez pierwotną;

= −n K gdyż ślad macierzy jednostkowej jest równy sumie jedynek na przekątnej.

a więc r n K( )M = −

Zauważmy, że korzystając z tej własności, jeśli w (A.21) w ostatniej równości za y

podstawimy prawą stronę równania y X= +β ε , to dostaniemy

(A.22) e M X M= + =( )β ε ε . Jest to ważny wynik wskazujący, że wektor reszt jest

iloczynem podstawowej macierzy idempotentnej przez wektor zaburzeń losowych ε.

Formy kwadratowe

Page 235: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

W rozważaniach ekonometrycznych często korzysta się z pojęcia formy kwadratowej.

Załóżmy, że x jest niezerowym wektorem n ×1 oraz A jest kwadratową i symetryczną

macierzą n n× . Wówczas formą kwadratową nazywamy liczbę rzeczywistą

(A.23) ′ ===

∑∑x Ax a x xij i jj

n

i

n

11

.

Przykład: Niech x =LNM

OQP

x

x1

2

oraz A =LNM

OQP

a a

a a11 12

21 22

. Wówczas

′ = ×LNM

OQP

×LNM

OQP

= ×+

+

LNM

OQP

= + + + = + +

x Ax x xa a

a a

x

xx x

a x a x

a x a x

a x a x x a x x a x a x a x x a x

1 211 12

21 22

1

21 2

11 1 12 2

21 1 22 2

11 12

12 1 2 21 1 2 22 22

11 12

12 1 2 22 222

Symetryczna macierz A zwana jest macierzą dodatnio określoną, jeśli ′ >x Ax 0 i nieujemnie

określoną, jeśli ′ ≥x Ax 0 . Podobnie A jest ujemnie określona, jeśli ′ <x Ax 0 i

niedodatnio określona, jeśli ′ ≤x Ax 0. Macierze wariancji-kowariancji są zawsze macierzami

dodatnio określonymi.

Jeśli r n( )A = , to ′x Ax nazywamy formą kwadratową rzędu n . Jeśli A jest macierzą

idempotentną, to ′x Ax nazywamy idempotentną formą kwadratową rzędu n .

Korzystając z równości (A.23) e M X M= + =( )β ε ε możemy napisać

′ = ′ = ′ ′ = ′e e M M M M M( )ε ε ε ε ε ε .

możemy zatem przedstawić jako formę kwadratową idempotentnej macierzy M rzędu n K−

oraz wektora zaburzeń losowych ε. Wynik ten wykorzystamy przy wnioskowaniu

statystycznym w Aneksie B.

Określoność macierzy Macierz symetryczną A o wymiarach n n× nazywamy macierzą określoną dodatnio, gdy dla

dowolnego wektora x ≠ 0 zachodzi: ′ >x Ax 0 .

Page 236: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Dla dodatnio określonej macierzy jej wyznacznik jest dodatni: A > 0 , a więc jest macierzą

nieosobliwą, oraz r n( )A = .

Macierz symetryczną A o wymiarach n n× nazywamy macierzą określoną nieujemnie, gdy

dla dowolnego wektora x ≠ 0 zachodzi: ′ ≥x Ax 0 .

Określoność dodatnia jest więc szczególnym przypadkiem określoności nieujemnej.

Macierz symetryczną A o wymiarach n n× nazywamy macierzą określoną ujemnie, gdy dla

dowolnego wektora x ≠ 0 zachodzi: ′ <x Ax 0 oraz macierz symetryczną A o wymiarach

n n× nazywamy macierzą określoną niedodatnio, gdy dla dowolnego wektora x ≠ 0

zachodzi: ′ ≤x Ax 0.

Pojęcie określoności stosuje się również do form kwadratowych. Formę kwadratową ′x Ax

nazywamy określoną dodatnio, ujemnie lub niedodatnio i nieujemnie zależnie od tego, czy

macierz A jest określona dodatnio, ujemnie lub niedodatnio i nieujemnie.

Pochodne cząstkowe po wektorach zmiennych

Weźmy iloczyn wektorowy ′ = + + +a x a x a x a xn n1 1 2 2 , gdzie a oraz x są kolumnowymi

wektorami n elementowymi. Wówczas pochodną cząstkową względem każdej zmiennej

wektora x zapiszemy

(A.24) ∂

∂∂

′=

L

N

MMMMMMM

O

Q

PPPPPPP

=

L

N

MMMM

O

Q

PPPP=

a xx

a x

a x

a x

a

x

x

x

a

a

a

n

n

1

2

1

2

Stosując tę samą regułę możemy wyznaczyć pochodne cząstkowe formy kwadratowej

′ ===

∑∑x Ax a x xij i jj

m

i

m

11

, która jest równa

(A.25) ∂

′=

x Ax

xAx2 .

Page 237: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

ANEKS B. WYBRANE FRAGMENTY ROZKŁADÓW PRAWDOPODOBIEŃSTWA

Wartość oczekiwana zmiennej losowej

Średnią lub wartością oczekiwaną zmiennej losowej jest

(B.1) E x

x f x x

x f x dx x

x( )

( )

( )=

RS|

T|

zgdy zmienna dyskretna,

gdy zmienna ciaglax

gdzie f x( ) jest funkcją gęstości zmiennej x.

Średnią często oznaczamy przez µ .

Jeśli y a bx= + , to

(B.2) E y E a bx a bE x( ) ( ) ( )= + = + .

Wariancja zmiennej losowej

(B.3)

Var x E x

x f x x

x f x dx x

x

( ) ( )

( ) ( )

( ) ( )

= −

=

RS|

T|

z

µ

µ

µ

2

2

2

gdy jest zmienna dyskretna,

gdy jest zmienna ciagla.x

Wariancję, która jest zawsze dodatnia, oznaczamy przez σ 2 .

Jeśli y a bx= + , to

(B.4) Var y Var a bx b Var x( ) ( ) ( )= + = 2 .

Oczekiwaną wartością wektora lub macierzy jest wektor lub macierz wartości

oczekiwanych. Zapiszmy n-wymiarowy wektor zmiennych losowych x =

L

N

MMMM

O

Q

PPPP

x

x

xn

1

2

. Wektor

średnich definiujemy następująco:

Page 238: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(B.5) µ

µ

µ

µ

=

L

N

MMMM

O

Q

PPPP=

L

N

MMMM

O

Q

PPPP=

1

2

1

2

n n

E x

E x

E x

E

( )

( )

( )

( )x

Zdefiniujmy macierz:

( )( )

( )( ) ( )( ) ( )( )

( )( ) ( )( ) ( )( )

( )( ) ( )( ) ( )( )

x x− − ′ =

− − − − − −

− − − − − −

− − − − − −

L

N

MMMM

O

Q

PPPPµ µ

µ µ µ µ µ µ

µ µ µ µ µ µ

µ µ µ µ µ µ

x x x x x x

x x x x x x

x x x x x x

n n

n n

n n n n n n n n

1 1 1 1 1 1 2 2 1 1

2 2 1 1 2 2 2 2 2 2

1 1 2 2

Wartość oczekiwana każdego elementu tej macierzy jest kowariancją dwóch zmiennych

występujących w iloczynie. (Kowariancja zmiennej ze sobą jest swoją wariancją). Stąd

(B.6) Var E

n

n

n n nn

( ) [( )( ) ]x x x= = − − ′ =

L

N

MMMM

O

Q

PPPPΣ µ µ

σ σ σ

σ σ σ

σ σ σ

11 12 1

21 22 2

1 2

.

Jest to macierz wariancji-kowariancji wektora losowego x , zwana niekiedy w skrócie

macierzą kowariancji lub czasem, gdy nie prowadzi to do nieporozumień, macierzą

wariancji.

Jednowymiarowy rozkład normalny

Funkcja gęstości pojedynczej zmiennej o rozkładzie normalnym o średniej µ i wariancji

σ 2 ma postać:

(B.7)

f x e

x

x( , )

( ) ( ) exp( )

.

/ ( ) /

/ /

µ σπσ

π σµ

σ

µ σ2

2

1 2

1 2 2 1 22

2

1

2

22

2 2

=

= −−RST

UVW

− −

− −

W skrócie piszemy x N~ ( , )µ σ 2 i czytamy: ” x ma rozkład normalny o średniej µ i

wariancji σ 2 ”.

Page 239: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Wśród własności rozkładu normalnego niezwykle użyteczna jest własność niezmienniczości

rozkładu względem przekształcenia liniowego:

Jeśli x N~ ( , )µ σ 2 oraz y a bx= +

to

(B.8) y N a b b~ ( , )+ µ σ2 2 .

Wielowymiarowy rozkład normalny

Funkcja gęstości n-wymiarowego wektora o rozkładzie normalnym x =

L

N

MMMM

O

Q

PPPP

x

x

xn

1

2

o wektorze

średnich µ

µ

µ

µ

=

L

N

MMMM

O

Q

PPPP

1

2

n

i dodatnio określonej macierzy wariancji-kowariancji

Σ =

L

N

MMMM

O

Q

PPPP

σ σ σ

σ σ σ

σ σ σ

11 12 1

21 22 2

1 2

n

n

n n nn

, ma postać:

(B.9) f n( ) ( ) exp ( ) ( ) ,( / ) /x x x= − − ′ −

RSTUVW

− − −2

1

22 1 2 1

π µ µΣ Σb g

Gdy x ma n-wymiarowy rozkład normalny standardowy x ~ ( , )N I0 , to jego funkcja

gęstości wynosi:

(B.10)

f I In

n

( ) ( ) exp ( ) ( ) ,

( ) exp .

( / ) /

( / )

x x x

x x

= − − ′ −RST

UVW= − ′

RSTUVW

− − −

21

20 0

21

2

2 1 2 1

2

π

π

Jeśli x ma n-wymiarowy rozkład normalny o średniej 0 i macierzy wariancji-kowariancji

σ 2 I : x ~ ( , )N I0 2σ , to jego funkcja gęstości ma postać:

Page 240: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

(B.11)

f I In

n n

( ) ( ) exp ( ) ( ) ,

( ) exp .

( / ) /

( / )

x x x

x x

= − − ′ −RST

UVW= − ′

RSTUVW

− − −

− −

21

20 0

21

2

2 2 1 2 2 1

22

π σ σ

π σσ

c h

f I In

n n

( ) ( ) exp ( ) ( ) ,

( ) exp .

( / ) /

( / )

x x x

x x

= − − ′ −RST

UVW= − ′

RSTUVW

− − −

− −

21

20 0

21

2

2 2 1 2 2 1

22

π σ σ

π σσ

c h

Analogicznie jak dla normalnego rozkładu jednowymiarowego, dla n-wymiarowego

rozkładu normalnego zachodzi własność niezmienniczości:

Jeśli wektor x o wymiarach n ×1 ma rozkład normalny x ~ ( , )N µ Σ i jeśli

(B.12) y a Bx= + ,

gdzie a jest wektorem m ×1, B jest macierzą m n× rzędu m , oraz a i B są stałe, to

(B.13) E( )y a B= + µ , Var( )y B B= ′Σ

oraz wektor y o wymiarach m ×1 ma rozkład normalny

(B.14) y a B B B~ ( , )N + ′µ Σ .

Powyższą własność zastosujmy do rozważań nad klasycznym modelem regresji liniowej,

opisanym założeniem 1 (KMRL, str. 6)

(2.16) y X= +β ε

Z założeń 4, 5 i 6 wiemy, że wartość oczekiwana wektora zaburzeń jest równa wektorowi

zerowemu

(2.20) E E( ) ( )ε εX 0= = ,

macierz kowariancji zaburzeń ma postać

(2.21) Var E Var E( ) ( ) ( ) ( )ε εε ε εε σX X I= ′ = = ′ = 2 ,

zaburzenia mają n-wymiarowy rozkład normalny

(2.23) ε σ~ ( , )N I0 2 .

Page 241: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Korzystając z tych własności wyznaczymy rozkłady i parametry tych rozkładów dla

interesujących nas funkcji wektora zaburzeń losowych ε.

Ponieważ z (2.16) wiemy, że y X= +β ε , to y jest przekształceniem liniowym wektora

losowego ε , a więc ma również n-wymiarowy rozkład normalny

(B.15) y X~ ( , )N Iβ σ 2 .

Dla ukazania tej własności wystarczy podstawić we wzorze (B.12) y a Bx= + , za a = Xβ ,

i za B = I .

Zauważmy następnie, że z (3.7) b X X X y= ′ ′−( ) 1 , a więc b jest liniowym

przekształceniem y. Podstawiając a = 0, B = ( )′ ′−X X X1 ustalimy, że

(B.16) b X X~ [ , ( ) ]N β σ 2 1′ − .

Tak więc wektor b będący wektorem estymatorów β ma K-wymiarowy rozkład normalny

o wektorze średnich β i macierzy wariancji-kowariancji σ 2 1( )′ −X X .

Oznaczmy przez ik k-ty wersor, to jest wektor, który na k-tej pozycji ma jedynkę, a

pozostałe elementy 0: i k ta pozycjak =

L

N

MMMMM

O

Q

PPPPP← −

00

10

0

Możemy wtedy napisać

(B.17) i bk k′

× =b .

W ten sposób za pomocą iloczynu macierzowego przedstawiliśmy pojedynczą (k-tą)

składową wektora b dla dowolnego k (k = 1, 2, ...,K). Zapis (B.19) jest jak widać zapisem

przekształcenia liniowego wektora b , a więc i pojedyncza składowa wektora b ma rozkład

normalny ( w tym przypadku jak łatwo sprawdzić - jednowymiarowy rozkład normalny).

Przywołując jeszcze raz (B.11) i (B.12) przyjmijmy a = 0 oraz B =′ik . Stąd wartość

Page 242: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

oczekiwana bk jest równa β k , a wariancja bk wyniesie σ 2 1i ik k

′′

−X Xb g . Zauważmy, że

wyrażenie i ik k′

′−

X Xb g 1

oznacza wybranie z macierzy ′−

X Xb g 1 pojedynczego elementu stojącego na przecięciu k-

tego wiersza i k-tej kolumny. Dla skrócenia zapisu element ten oznaczmy

c i ikk k k=′

′−

X Xb g 1. Przy tym oznaczeniu wariancja bk , którą oznaczamy σ bk

2 jest równa

σ 2ckk . A więc

(B.18) b N ck k kk~ ( , )β σ 2 .

Stąd zmienna bk k

bk

− β

σ ma standardowy rozkład normalny o średniej 0 i wariancji 1

(B.19) b

Nk k

bk

− β

σ~ ( , )0 1 .

Rozkłady związane z rozkładem normalnym

Podamy bez dowodów rozkłady funkcji zmiennych losowych o rozkładzie normalnym.

Rozkład χ 2

Niech x x xn1 2, , będą niezależnymi zmiennymi losowymi o rozkładzie N ( , )0 1 i niech

w xii

n

==

∑ 2

1

. Wówczas w ma rozkład χ n2 , co zapisujemy:

(B.20) w n~ χ 2 .

Oznacza to, że suma kwadratów n niezależnych zmiennych losowych o standardowym

rozkładzie normalnym ma rozkład chi-kwadrat o n stopniach swobody.

Jeśli wektor x ma n-wymiarowy standardowy rozkład normalny N I( , )0 , to ′x x ~ χ n2 .

Jeśli wektor x ma n-wymiarowy rozkład normalny o wektorze średnich 0 i macierzy

kowariancji σ 2 I , a więc x ~ ( , )N I0 2σ i macierz A o wymiarach n n× jest macierzą

idempotentną rzędu r , to ′x Ax ~ σ χ2 2r . Oznacza to, że idempotentna forma kwadratowa

rzędu r standardowego wektora normalnego ma rozkład taki jak suma kwadratów r

niezależnych standardowych zmiennych losowych o rozkładach normalnych.

Page 243: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

Przywołajmy wynik (A.23) z Aneksu A., który pokazuje, że eii

n2

1=

∑ = ′ = ′e e Mε ε jest formą

kwadratową idempotentnej oraz macierzy M rzędu n K− wektora zaburzeń losowych ε.

Z założenia 4 KMRL ε σ~ ( , )N I0 2 , to w świetle przedstawionych wyżej rozważań

′ −ε ε σ χM ~ 2 2n K , a ponieważ

ε

σ~ ( , )N I0 stąd idempotentna forma kwadratowa macierzy

M rzędu n K− i standardowego wektora zaburzeń dzielonych przez ich odchylenie

standardowe jest zmienną rozkładu chi-kwadrat o n K− stopniach swobody

(B.21) ′

ε

σ

ε

σχM ~ n K

2 .

Wróćmy do rozważań ekonometrycznych. Z (4.8) wiemy, że σ 2

2

1=−

=′

−=

∑e

n K n K

ii

n

e e i z

(B.23)

(B.22)

σ σ

ε ε

σ

ε

σ

ε

σχ

2

2 2 22n Kn K

−=

′=

′=

′−

b g e e MM ,

a więc jest to zmienna o rozkładzie χ n K−2 .

Rozkład t Studenta− .

Jeśli x N~ ( , )0 1 oraz w n~ χ 2 oraz x i w są zmiennymi losowymi niezależnymi,

wówczas:

(B.23) x

w ntn

/~ .

Oznacza to, że iloraz dwóch niezależnych zmiennych losowych, a mianowicie standardowej

zmiennej losowej o rozkładzie normalnym oraz zmiennej losowej będącej pierwiastkiem

kwadratowym ze zmiennej losowej o rozkładzie chi-kwadrat podzielonej przez jej liczbę

stopni swobody, ma rozkład t Studenta− o n stopniach swobody.

Wiemy z (B.19) , że b

Nk k

bk

− β

σ~ ( , )0 1 ,

oraz z (B.22) , że

σ σ

ε ε

σ

ε

σ

ε

σχ

2

2 2 22n Kn K

−=

′=

′=

′−

b g e e MM

możemy więc utworzyć iloraz

Page 244: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

b

c

n Kn K

b

c

b

ctk k

kk

k k

kk

k k

kk

n K

− −− =

−=

−−

β

σ

σ

σ

β

σ

σ

σ

β

σ

( )

~

2

2

b g, który ma rozkład

t Studenta− o n K− stopniach swobody. Należy jeszcze wykazać, że zmienna licznika

jest niezależna od zmiennej mianownika.

Jeśli dwie zmienne losowe mają zerową kowariancję, to są niezależne. Przy założeniu, że ε

jest wektorem normalnym to b i e są niezależnymi zmiennymi losowymi, gdyż

(B.24) cov( , ) ( ) var( ) ( )b e X X X M X X X M= ′ ′ ′ = ′ ′ ′ =− −1 2 1 0ε σ .

Przy ostatniej równości skorzystaliśmy z własności, że MX=0. Jeśli b i e są niezależnymi

zmiennymi losowymi to i wszystkie ich funkcje są również niezależne, włączając σ 2 .

Page 245: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

ANEKS C. BAZY DANYCH opracował Tomasz Rybnik

1. Baza CIA – „The World Factbook 2000-2006”

(https://www.cia.gov/library/publications/the-world-factbook/index.html)

Bogate źródło informacji o krajach całego świata (geografia, demografia, ustrój,

gospodarka, komunikacja, transport, wojsko).

Dane w formie raportów – należy je konwertować do bardziej użytecznych postaci.

Baza jest oprócz tego darmowa.

2. Bazy OECD

a. OECD Patent Database

(http://caliban.sourceoecd.org/vl=4333268/cl=45/nw=1/rpsv/factbook/07-01-

03.htm) – darmowa. Do porównań międzynarodowych. Format: Excel.

b. OECD Factbook 2007 Economic, Environmental and Social Statistics

(http://www.oecdbookshop.org/oecd/display.asp?K=5L9K84TC1GXN&CID=

&LANG=en) – bardzo wiele informacji (ponad 100 wskaźników) o krajach

OECD i wybranych innych krajach. Informacje te można zobaczyć na stronie:

http://www.oecdbookshop.org/oecd/display.asp?K=5L9K84TC1GXN&CID=

&LANG=en#TableOfContents

Baza dla roku 2007, płatna (50 Euro), możliwość konwertowania danych do

formatu Excela.

c. Socjo-ekonomiczno-demograficzne szeregi czasowe (niektóre stosunkowo

długie (od lat 60-tych)) dla krajów OECD i wybranych krajów spoza OECD.

Również do porównań międzynarodowych. Dane darmowe, w formacie

Excela, dostępne na: http://www.oecd.org/dataoecd/32/21/36029941.html

d. Bazy danych PISA (Programme for International Student Assessment) –

„jakość studentów” (oceniana za pomocą różnych kryteriów) w wielu różnych

krajach (43 w roku 2000, 41 w roku 2003 i 57 w roku 2006). 4500-10000

studentów w każdym kraju. Baza darmowa – dane w formacie SPSS-a bądź

SAS-a. Dostępna na

http://www.pisa.oecd.org/pages/0,3417,en_32252351_32236130_1_1_1_1_1,0

0.html

Page 246: Podstawowy kurs nowoczesnej ekonometriiekonometria.info/zarzadzanie/ekonometria2011/pkkjos345.pdf · 2011-03-01 · Zbiór metod, którymi posługuje si ę ekonometria, nazywa si

3. Bazy danych rozprowadzane z programem Gretl – dane wykorzystywane do

przykładowych modeli ekonometrycznych prezentowanych w najpopularniejszych na

świecie podręcznikach do nauki ekonometrii (Ramanathan, Greene, Gujarati, Maddala

i innych).

4. Bazy Eurostatu

(http://epp.eurostat.ec.europa.eu/portal/page?_pageid=1090,30070682,1090_3029859

1&_dad=portal&_schema=PORTAL). Bazy o bardzo szerokiej tematyce, jednak w

znacznej części potrzeba subskrypcji, aby móc korzystać z danych (niektóre szeregi są

darmowe).