5 6 8 6 9 12 8 11 12 11 15 9 18 9 11 11 18 15 5 5 5 7...

• związek stochastyczny (losowy), probabilistyczny

KAŻDEJ WARTOŚCI xi ODPOWIADA CAŁY ZBIÓR WARTOŚCI yi TWORZĄCYCH OKREŚLONY ROZKŁAD

XY 10

• związek statystyczny

5 5 5 7 7 7 8 8 9 9 10 10 13 12 11 12 13 12

5 6 8 6 9 12 8 11 12 11 15 9 18 9 11 11 18 15

X

Y

xi

iy

iy — średnia rozkładu dla ustalonej wartości xi

— obrazuje rozrzut

yx, — środek ciężkości zbioru

x

y

ii10i xaay

ANALIZA REGRESJI I KORELACJI

ZAŁOŻENIA STANDARDOWEGO MODELU REGRESJI LINIOWEJ

Zmienna objaśniana – y - jest zmienną losową; rozkład tej zmiennej opisuje zbiór wartości, które może ona przyjmować (w danym momencie obserwujemy tylko jedną wartość).

Wartość oczekiwana rozkładu zmiennej y dla obserwacji „i”:

Wariancja yi przy danych x1i, x2i jest stała:

Wariancja mierzy stopień wpływu na zmienną y czynników innych niż x1 (zmienne pominięte); stałość wariancji implikuje, że dyspersja łącznego wpływu zmiennych pominiętych nie zmienia się w czasie.

Składnik losowy równania

parametry nieznane - ,

n ..., 1,i x)x/y(E

10

i110i1i

parametr nieznany -

)x/yvar(

2

2i1i

ii110i xy

Każdy składnik losowy ma (przy ustalonych x1i, x2i) wartość oczekiwaną równą zero i wariancję .

2i

)x/y(Ey i1iii

Krzywe von Neymana

X

Y

x

y

obserwacje (dane empiryczne)

środek ciężkości próbki

prosta regresji (dla próbki)

krzywe wyznaczające pas ufności, w którym z prawdopobieństwem 1- znajduje się nieznana prosta regresji I rodzaju (dla populacji)

krzywe wyznaczające przedziałowe prognozy wartości zmiennej Y dla danego xp

px

py

prognoza punktowa uzyskana przez wstawienie xp do równania

gg

dg

gg,dg przedział, w którym z szansą 1- mieści się nieznana wartość yi dla i-tej nowej jednostki spoza próbki

X)X/Y(E 10

py

i10i xaay

Estymatorem wariancji jest s2

KAŻDEJ WARTOŚCI xi ODPOWIADA CAŁY ZBIÓR WARTOŚCI y TWORZĄCYCH OKREŚLONY ROZKŁAD a parametrami tego rozkładu są E(Y/Xi) i wariancja

22n

SSEs

2

n

iii SSEyy

1

2)ˆ(

2

Estymator ai współczynnika regresji :

Analiza współczynnika regresji

1

xx

22

S

1

xx

22a S

s

1s

1)stasta(P1a2n;2/111a2n;2/1

Estymacja wartości oczekiwanej y dla danej wartości X:

1)sty)x/Y(Esty(Ppp

y2n;2/ppy2n;2/p

xx

p

py S

xx

nss

2

ˆ

1 Przedział ufności dla prognozy yp

1)ˆ/ˆ( ˆ2;2/ˆ2;2/pp

yynppyynp styxystyP

xxS

xpx

ns

yys

p

21

12

2 i

ixx xxS

Pełny zapis równania regresji liniowej

— zmienna zależna, zmienna-skutek, zmienna objaśniana

yi — zaobserwowane wartości zmiennej zależnej

xi — zaobserwowane wartości zmiennej niezależnej

a0 — oszacowana wartość wyrazu wolnego

parametry strukturalne i stochastyczne

r=rxy

a1 — oszacowana wartości współczynnika regresji; określa wpływ zmiennej X na zmienną Y

s(y) )( )(

ˆ

10

10

asas

xaay iii

iy

iii yye

jego rozkład jest rozkładem normalnym o E()=0 i D2()=s2(y)

s(a0) — błąd oszacowania wyrazu wolnego; służy do budowy przedziału ufności dla nieznanej wartości wyrazu

wolnego dla populacji oraz do weryfikacji jego istotności

s(a1) — błąd oszacowania współczynnika regresji; służy do budowy przedziału ufności dla nieznanej wartości 1

współczynnika regresji dla populacji oraz do weryfikacji jego istotności

s(y) lub s — błąd resztowy; jest odchyleniem standardowym składnika losowego ;

— składnik losowy, reprezentujący rozrzut punktów wokół prostej regresji; składnik ten jest zmienną losową; jego wartości to reszty

Przykład

Miesiąc Wydatki na

reklamę (X) (mln zł)

Wartość sprzedaży (Y)

(mln zł)

1. 1,2 101

2. 0,8 92

3. 1,0 110

4. 1,3 120

5. 0,7 90

6. 0,8 82

7. 1,0 93

8. 0,6 75

9. 0,9 91

10. 1,1 105

reklama-sprzedaz

x

y

0,6 0,8 1 1,2 1,4

75

85

95

105

115

125

Czy istnieje związek pomiędzy wydatkami na reklamę (xi) a wielkością sprzedaży (yi)? Wydatki na reklamę i sprzedaż w mln zł.

lp. yi xi

1 101 1,2 1,44 121,2

2 92 0,8 0,64 73,6

3 110 1 1,00 110

4 120 1,3 1,69 156

5 90 0,7 0,49 63

6 82 0,8 0,64 65,6

7 93 1 1,00 93

8 75 0,6 0,36 45

9 91 0,9 0,81 81,9

10 105 1,1 1,21 115,5

Suma 959 9,4 9,28 924,8

57,52

10

)4,9(28,9

10

9594,98,924

n

x

x

n

yx

yx

a2

i

2

ii

2i

i

i iii

ii

1

49,4694,057,529,95xaya 10

ii x57,5249,46y

ii yx 2ix

875,09,1600

93,1226

)yy(

)yy(

SSTO

SSTRr

2i

2i2

Współczynnik determinacji

Współczynnik zbieżności 125,09,1600

973,373

)yy(

)yy(

SSTO

SSE

2i

2ii2

Błąd standardowy reszt 84,6

210

973,373

2n

)yy(s

2ii

xyi 57,5249,46ˆ

Estymacja E(y/ x=1,0) wartości oczekiwanej y dla xp=1,0

444,0

)94,00,1(

10

175,46306.206,99

2

95,0)24,104)0,1/(88,93( xYEP

Prognozowanie wartości y dla x=1,0

Prognoza punktowa: 06,99)0,1)(57,52(49,46ˆ y

95,0)66,1150,1x/y46,82(P Prognoza przedziałowa:

Przedział ufności dla współczynnika regresji

95,0)24,7690,28(P 1

X

Y

x

y

ix

iy

iy

yyi

iiyy ˆ

yyiˆ

2)( yy

i= SSTO (zmienność całkowita)

2)ˆ( yy

i= SSTR (zmienność wyjaśniona)

2)ˆ(

iiyy = SSE (zmienność niewyjaśniona)

SSTO = SSTR + SSE

Źródło Zmienności

Liczba stopni

swobody

Suma kwadratów

Średni kwadrat

Statystyka F

Model (czynniki) Błąd (reszta)

1 8

1226,9 374,0

1226,9 46,7 MSE

MSTRFobl =26,25

Razem 9 1600,9

ANALIZA WARIANCJI

H0: α1 = 0 H1: α1 0

F1;8;0,025=7,57

ii xaay 10ˆ

0:

0:

1

0

H

H

W wielu przypadkach dane układają się w zależności nieliniowe:

• gdy mają postać szeregu czasowego

• gdy dane przekrojowe układają się w smugę nieliniową

• gdy krzywoliniowa funkcja wielu zmiennych lepiej opisuje rzeczywistość niż funkcja liniowa; (tego nie widać, która lepsza można poznać tylko po R2)

Regresja krzywoliniowa

Do opisu takich zjawisk stosujemy rozmaite funkcje krzywoliniowe:

1. proste funkcje (rosnące lub malejące) dwu zmiennych:

• wykładnicze

• potęgowe

x

ey 10

1

0 xy

2. wielomiany różnego stopnia (ich fragmenty) )0( xxy 22

210

• funkcje potęgowe wielu zmiennych

...xxxy 321

3210

• funkcje wykładnicze wielu zmiennych

22110xx

ey

Kolejność czynności przy estymacji funkcji regresji krzywoliniowej:

1. zebranie danych empirycznych

2. dobranie modelu (funkcji nieliniowej)

3. transformacja modelu do liniowego (logarytmowanie — transformata)

4. przeliczenie danych na układ liniowy (robi to komputer)

5. oszacowanie równania regresji liniowej

6. retransformacja do postaci pierwotnej (odlogarytmowanie)

Retransformacji podlegają tylko parametry strukturalne (współczynniki regresji i wyraz wolny), natomiast wszystkie

parametry stochastyczne dotyczą tylko transformaty (R2, φ2)

ABY MOŻNA BYŁO STOSOWAĆ MNK, FUNKCJE TE MUSZĄ BYĆ SPROWADZONE DO POSTACI LINIOWEJ

1

10 xy '

1'0

''00

10

''

ln ln 'ln;'ln

lnlnlnln

xy

xxyy

xy

1. Sformułowanie modelu

a. wybór zmiennych: y, x1, x2,...

b. wybór postaci matematycznej modelu: liniowa, potęgowa,...

2. Zebranie danych statystycznych (różne źródła)

3. Estymacja parametrów modelu:

a. parametrów strukturalnych: a0, a1, a2,...

b. parametrów stochastycznych: s(ai), s(y), R2, R

4. Weryfikacja modelu (przy użyciu hipotez i testów statystycznych)

MODEL BEZ WERYFIKACJI NIE MA ŻADNEJ WARTOŚCI

5. Interpretacja modelu

• wyciągnięcie wniosków dla celów zarządzania

• sprzedanie go klientowi

ETAPY BUDOWY MODELU EKONOMETRYCZNEGO

• zmienna objaśniana Y: według zainteresowań (na ćwiczeniach), według polecenia szefa (w przedsiębiorstwie), według życzenia klienta (w firmie konsultingowej)

• zmienne objaśniające Xi; wybrane zmienne muszą mieć dużą zmienność (V>30%)

• najczęstszy błąd — „masło maślane” prowadzące do związku funkcyjnego i nie dające żadnej informacji o zmiennej objaśnianej

model bez sensu: wynagrodzenie = f(płacy, premii i dodatku stażowego)

ETAP 1a WYBÓR ZMIENNYCH

• modele przyczynowo-skutkowe — najbardziej zalecane jest równoczesne prowadzenie obliczeń dla dwu postaci: — liniowej — potęgowej

— stosuje się też modele nieliniowe o narzuconej postaci nieliniowej, których parametry ustala się przez programowanie liniowe lub innymi metodami • modele tendencji rozwojowej: — funkcja liniowa — proste funkcje nieliniowe — wielomiany — modele kombinowane: trend + wahania okresowe

ETAP 1b. WYBÓR POSTACI MATEMATYCZNEJ

ii xay ii

a

i xayxy i lnln

Skutki niedotrzymania założeń MNK i środki zaradcze

1. Model nieprzydatny; niekiedy absurdalny (źle uwarunkowane dane)

2.

Y

X

reszta ei

Lewa część zbioru ma dużą wariancję, a prawa — wariancję małą

3. Jeśli reszty ei są ze sobą powiązane (skorelowane) tzn. że występuje autokorelacja składnika losowego (najczęściej zjawisko występuje przy szeregach czasowych)

Oznacza to, że istnieje istotna zależność: ,...2,1t)jte(fte

4. Składnik losowy jest skorelowany ze zmienną objaśniającą, wtedy gdy została pominięta jakaś ważna zmienna - przyczyna

Występowanie autokorelacji powoduje nieprzydatność modelu

ETAP 3. ESTYMACJA PARAMETRÓW MODELU

Cel etapu: wyznaczenie parametrów strukturalnych i stochastycznych

Estymacja: szacowanie parametrów populacji na podstawie próbki

Metody estymacji: MNK i inne

WYKAZ ETAPÓW WERYFIKACJI MODELU

4.1. Badanie istotności korelacji

4.2. Badanie wyrazistości modelu

4.3. Badanie istotności parametrów

4.4. Badanie składnika losowego

Badanie symetrii skł. losowego

Badanie losowości skł. losowego

Badanie stacjonarności skł. los.

Badanie wartości oczekiwanej skł. losowego

Badanie autokorelacji skł. losowego

Badanie heteroskedastyczności skł. losowego

Badanie normalności skł. losowego

ETAP 4. WERYFIKACJA MODELU

Celem etapu jest sprawdzenie, czy istnieje w populacji generalnej powiązanie pomiędzy zmienną Y i wszystkimi zmiennymi objaśniającymi

Istotność korelacji weryfikuje się przez postawienie następujących hipotez dla współczynnika korelacji dla populacji generalnej:

0:

0:

1

0

H

H Brak korelacji, nie ma powiązania...

Korelacja istotna, jest powiązanie...

ETAP 4.1. Badanie istotności korelacji

testem t Studenta (dla regresji dwóch zmiennych)

testem F Fishera

testem R Wallace’a-Snedecora

TEST STUDENTA

2n;2/tabl2

obl tt2n

r1

rt

TEST FISHERA kn;1k;FtablF

1k

kn

2R1

2R

MSE

MSTRoblF

Źródło zmienności Liczba stopni swobody

Suma kwadratów

Średni kwadrat

Statystyka F

Model (czynniki) Błąd (reszta)

k-1

nk

SSTR SSE

MSTR MSE MSE

MSTRFobl

Razem n1 SSTO

0:

0:

1

0

H

H

TEST WALLACE’A-SNEDECORA Odczyt Rtabl z tablicy testu R Wallace’a-Snedecora

Liczba zmiennych

2 3 4

Stopnieswobody

0,05 0,01 0,05 0,01 0,05 0,01

8 0,632 0,765 0,726 0,827 0,777 0,860

18 0,444 0,561 0,532 0,633 0,587 0,678

28 0,361 0,463 0,439 0,530 0,490 0,573

Reguła decyzyjna:

jeżeli Robl>Rtabl, model jest poprawny, korelacja istotna

jeżeli Robl<Rtabl, model jest niepoprawny, trzeba zmienić albo zestaw zmiennych objaśniających albo jego postać matematyczną

Rola współczynnika determinacji R2

korelacja może być istotna przy małym R i bardzo małym R2 (r=0,4; R2=0,16 co oznacza, że tylko 16% zmienności zmiennej Y jest wyjaśnione przez zmienną objaśniającą)

małe R2 oznacza niski stopień wyjaśnienia rzeczywistości i stanowi zagrożenie dla modelu

należy dążyć (poprzez odpowiedni dobór zmiennych-przyczyn i postaci matematycznej modelu) do jak największego R2 (dla postaci pierwotnej)

wysoka wartość R2 świadczy o dobrym poznaniu badanego zjawiska

wysoka wartość R2 bardzo często wynika jednak ze złego dobrania zmiennych objaśniających (silnie powiązane ze sobą — „masło maślane”)

KORELACJA POZORNA — Przyczyny...Trzeba unikać wartości bezwzględnych (ludność, liczba kin, wielkość produkcji)

ETAP 4.2. Badanie wyrazistości modelu

5 5 5 7 7 7 8 8 9 9 10 10 13 12 11 12 13 12

5 6 8 6 9 12 8 11 12 11 15 9 18 9 11 11 18 15

X

Y

x

y

y

ie

)y(s

Wyrazistość modelu dana jest wzorem

%100y

)y(sVobl

Współczynnik zmienności losowej Vobl<30% (w przeciwnym przypadku rozrzut danych jest zbyt duży) Uwaga: gdyy jest bliskie 0 trudności w ustaleniu czy model poprawny czy niepoprawny

kn;2/ttablt)ia(s

0ia)ia(oblt

• jeżeli |tobl(ai)|>ttabl(ai), odrzucamy hipotezę zerową; parametr jest istotny z błędem równym co najwyżej

• jeżeli |tobl(ai)|<ttabl(ai), nie ma podstaw do odrzucenia hipotezy zerowej; parametr jest nieistotny

ZMIENNA Xi

MA WPŁYW NA ZMIENNĄ Y Odrzucając H0

weryfikacja hipotezy: H0: i=0 wobec H1: i 0

ETAP 4.3. Badanie istotności parametrów (współczynników) modelu

n1 – liczba reszt dodatnich (lub ujemnych)

n - liczność próby

Brak symetrii wymaga zmiany matematycznej

postaci modelu

2

1:

2

1:

11

10

n

nH

n

nH

1

1

2

1

11

1

n

n

n

n

n

n

n

tobl

Badanie symetrii: dla n>30 test z (r-d normalny); dla n<30 test t-Studenta

1nt ,

Badanie symetrii składnika losowego

Test prawostronny!

ETAP 4.4. BADANIE SKŁADNIKA LOSOWEGO

Badanie losowości składnika losowego

a) wartościom et>0 nadajemy symbol A; liczba symboli A – n1

b) wartościom et<0 nadajemy symbol B; liczba symboli B - n2

Otrzymujemy podciągi czyli serie z kolejnych symboli A lub B

c) Liczba wszystkich serii (podciągów) - k.

)...x ,x ,f(xY:Hlosowyjest nie :H

)...x ,x ,f(xY:H losowym mskladnikiejest :H

1-k211t1

1-k210t0

Badanie losowości przeprowadza się testem t-Studenta lub testem serii

Test serii:

Celem etapu jest sprawdzenie, czy odchylenie od „0” nie jest zbyt duże (służy do tego test t-Studenta)

Badanie wartości oczekiwanej składnika losowego

weryfikacja hipotezy:

0)(EV :H

0)(EV :H

1

0

Heteroskedastyczność – niejednorodność wariancji składnika losowego w obrębie próby

Skutki – niespełnienie założeń MNK

Testowanie homoskedastyczności (heteroskedastyczności)

1. Test White’a (najbardziej ogólny)

2. Test Harrisona-McCabe’a

3. Test Goldfelda-Quandta

Badanie heteroskedastyczności składnika losowego

const)( :H

const)( :H

21

20

weryfikacja hipotezy:

Badanie autokorelacji składnika losowego

Składnik losowy ξ nie jest czysto losowy, lecz zależy od wskaźnika i, czyli zmienne losowe ξi są zależne od poprzednich wartości ξt-τ. Autokorelacja to korelacja wartości zmiennej ξ z jej wartościami z okresów wcześniejszych o jeden lub więcej okresów. Na ogół autokorelację można wyrazić w postaci relacji: W praktyce przyjmuje się, że funkcja f jest funkcją liniową, a maksymalne opóźnienie τ wynosi jeden lub dwa (rząd autokorelacji). Estymator współczynnika autokorelacji ρ1 (rzędu pierwszego, k=1):

),...,,( iiii f 21 ,...2,1i)e(fe kii

Skutki: estymatory są nieefektywne, estymator wariancji ξ jest obciążony co prowadzi do niedoszacowania błędów

n

2i

n

2i

2

1i1i

2

ii

n

2i1i1iii

1

)ee()ee(

)ee)(ee(r

Badanie autokorelacji można przeprowadzić:

• testem R istotności korelacji

• testem Durbina-Watsona

Test Durbina-Watsona służy do sprawdzenia hipotezy: 000 111110 ::: HHH lub

Statystyka d:

n

2i

n

2i

2

1i1i

2

ii

n

2i1i1iii

1

)ee()ee(

)ee)(ee(r

n

2i

2i

n

2i

21ii

obl

e

)ee(

d

Na podstawie tablic Durbina‐Watsona wyznaczamy dwie wartości krytyczne: dL i dU, dla określonej

liczności próby (n) i określonej ilości zmiennych objaśniających (k). Reguła decyzyjna: • jeżeli dobl < dL – wnioskujemy, że zachodzi dodatnia autokorelacja, • jeżeli dL < dobl < dU – wynik niczego nie przesądza, • jeżeli dU <dobl<4-dU – nie ma podstaw do odrzucenia H0 – brak autokorelacji, • jeżeli 4-dU < dobl < 4-dL – wynik niczego nie przesądza, • jeżeli dobl > 4–dL – wnioskujemy, że zachodzi ujemna autokorelacja.

Badanie normalności składnika losowego

Celem etapu jest stwierdzenie, czy reszty mają rozkład normalny

Stosuje się testy nieparametryczne:

• - Kołmogorowa-Smirnowa lub test

2

Powyższe testy wymagają bardzo dużej próby (podział zbioru reszt na klasy wartości, gdzie ni>= 5)

TEST Jargue’a-Bery (JB)

Krok 1. szacowanie wartości obciążonego estymatora odchylenia standardowego składnika losowego

Krok 2. szacowanie wartości miary asymetrii rozkładu reszt (skewness)

Krok 3. szacowanie wartości miary kurtozy rozkładu reszt

n

i

ien

s21

n

i

i

s

e

nA

3

31

n

i

i

s

e

nK

4

41

Krok 4. wyliczanie wartości statystyki JB

Statystyka JB ma rozkład dla = 2

223K

4

1A

6

knJB k – ilość zmiennych objaśniających 2

Reguła decyzyjna: • jeżeli JB> to H0 o normalności składnika losowego odrzucamy (prawostronny obszar odrzucenia!!) • jeżeli JB< nie ma podstaw do odrzucenia H0

22,

22,

INTERPRETACJA MODELU

INTERPRETUJĄC MODEL (RÓWNANIE REGRESJI) NALEŻY UŻYWAĆ WYŁĄCZNIE PROSTEJ

TERMINOLOGII EKONOMICZNEJ ZROZUMIAŁEJ DLA KLIENTA

NIE NALEŻY UŻYWAĆ TERMINOLOGII MATEMATYCZNEJ ZROZUMIAŁEJ TYLKO DLA TWÓRCÓW

MODELU

INTERPRETOWAĆ WOLNO TYLKO MODEL ZWERYFIKOWANY

CAŁY TRUD MODELOWANIA NIE MOŻE BYĆ „SZTUKĄ DLA SZTUKI”, LECZ MA SŁUŻYĆ

UZYSKANIU KONKRETNYCH WNIOSKÓW PRAKTYCZNYCH

Ocena jakościowa i ilościowa

Na podstawie znaków stojących przy współczynnikach r oraz ai możemy stwierdzić, że wpływ jest:

• dodatni (im lepsze zaliczenie - tym lepszy wynik egzaminu; im więcej wydatków na reklamę - tym większa sprzedaż; itd.)

• ujemny (im więcej zatrudnionych - tym gorszy wynik finansowy; im mniej braków - tym wyższy zysk; im mniejsza absencja - tym wyższe wynagrodzenie; itd.)

Dane zawarte w poniższej tablicy uzyskano z pewnego złoża gazu ziemnego, na którym znajduje się 8 odwiertów produkcyjnych. Dla każdego odwiertu podano początkowe dopuszczalne wydobycie gazu i efektywną miąższość pokładu produktywnego w tych odwiertach. Podejrzewamy, że istnieje zależność pomiędzy początkowym dopuszczalnym wydobyciem gazu a efektywną miąższością.

Przykład Model liniowy

l.p. yi xi xi*yi

1 2415,6

2 22952

3 1386

4 17400

5 770

6 1170

7 4500

8 274,75

Suma 1095,5 256,6 50868,35

114,4

8

)6,256(12053

8

5,10956,25635,50868

n

x

x

n

yx

yx

a2

i

2

ii

2i

i

i iii

ii

1

97,4075,32*115,49,136xaya 10

36,3 0,93 57,8

iii x114,497,4y r = 0,874

5 6 8 6 9 12 8 11 12 11 15 9 18 9 11 11 18 15 5 5 5 7...

Documents

Transcript of 5 6 8 6 9 12 8 11 12 11 15 9 18 9 11 11 18 15 5 5 5 7...