5 6 8 6 9 12 8 11 12 11 15 9 18 9 11 11 18 15 5 5 5 7...
Transcript of 5 6 8 6 9 12 8 11 12 11 15 9 18 9 11 11 18 15 5 5 5 7...
• związek stochastyczny (losowy), probabilistyczny
KAŻDEJ WARTOŚCI xi ODPOWIADA CAŁY ZBIÓR WARTOŚCI yi TWORZĄCYCH OKREŚLONY ROZKŁAD
XY 10
• związek statystyczny
5 5 5 7 7 7 8 8 9 9 10 10 13 12 11 12 13 12
5 6 8 6 9 12 8 11 12 11 15 9 18 9 11 11 18 15
X
Y
xi
iy
iy — średnia rozkładu dla ustalonej wartości xi
— obrazuje rozrzut
yx, — środek ciężkości zbioru
x
y
ii10i xaay
ANALIZA REGRESJI I KORELACJI
ZAŁOŻENIA STANDARDOWEGO MODELU REGRESJI LINIOWEJ
Zmienna objaśniana – y - jest zmienną losową; rozkład tej zmiennej opisuje zbiór wartości, które może ona przyjmować (w danym momencie obserwujemy tylko jedną wartość).
Wartość oczekiwana rozkładu zmiennej y dla obserwacji „i”:
Wariancja yi przy danych x1i, x2i jest stała:
Wariancja mierzy stopień wpływu na zmienną y czynników innych niż x1 (zmienne pominięte); stałość wariancji implikuje, że dyspersja łącznego wpływu zmiennych pominiętych nie zmienia się w czasie.
Składnik losowy równania
parametry nieznane - ,
n ..., 1,i x)x/y(E
10
i110i1i
parametr nieznany -
)x/yvar(
2
2i1i
ii110i xy
Każdy składnik losowy ma (przy ustalonych x1i, x2i) wartość oczekiwaną równą zero i wariancję .
2i
)x/y(Ey i1iii
Krzywe von Neymana
X
Y
x
y
obserwacje (dane empiryczne)
środek ciężkości próbki
prosta regresji (dla próbki)
krzywe wyznaczające pas ufności, w którym z prawdopobieństwem 1- znajduje się nieznana prosta regresji I rodzaju (dla populacji)
krzywe wyznaczające przedziałowe prognozy wartości zmiennej Y dla danego xp
px
py
prognoza punktowa uzyskana przez wstawienie xp do równania
gg
dg
gg,dg przedział, w którym z szansą 1- mieści się nieznana wartość yi dla i-tej nowej jednostki spoza próbki
X)X/Y(E 10
py
i10i xaay
Estymatorem wariancji jest s2
KAŻDEJ WARTOŚCI xi ODPOWIADA CAŁY ZBIÓR WARTOŚCI y TWORZĄCYCH OKREŚLONY ROZKŁAD a parametrami tego rozkładu są E(Y/Xi) i wariancja
22n
SSEs
2
n
iii SSEyy
1
2)ˆ(
2
Estymator ai współczynnika regresji :
Analiza współczynnika regresji
1
xx
22
S
1
xx
22a S
s
1s
1)stasta(P1a2n;2/111a2n;2/1
Estymacja wartości oczekiwanej y dla danej wartości X:
1)sty)x/Y(Esty(Ppp
y2n;2/ppy2n;2/p
xx
p
py S
xx
nss
2
ˆ
1 Przedział ufności dla prognozy yp
1)ˆ/ˆ( ˆ2;2/ˆ2;2/pp
yynppyynp styxystyP
xxS
xpx
ns
yys
p
21
12
2 i
ixx xxS
Pełny zapis równania regresji liniowej
— zmienna zależna, zmienna-skutek, zmienna objaśniana
yi — zaobserwowane wartości zmiennej zależnej
xi — zaobserwowane wartości zmiennej niezależnej
a0 — oszacowana wartość wyrazu wolnego
parametry strukturalne i stochastyczne
r=rxy
a1 — oszacowana wartości współczynnika regresji; określa wpływ zmiennej X na zmienną Y
s(y) )( )(
ˆ
10
10
asas
xaay iii
iy
iii yye
jego rozkład jest rozkładem normalnym o E()=0 i D2()=s2(y)
s(a0) — błąd oszacowania wyrazu wolnego; służy do budowy przedziału ufności dla nieznanej wartości wyrazu
wolnego dla populacji oraz do weryfikacji jego istotności
s(a1) — błąd oszacowania współczynnika regresji; służy do budowy przedziału ufności dla nieznanej wartości 1
współczynnika regresji dla populacji oraz do weryfikacji jego istotności
s(y) lub s — błąd resztowy; jest odchyleniem standardowym składnika losowego ;
— składnik losowy, reprezentujący rozrzut punktów wokół prostej regresji; składnik ten jest zmienną losową; jego wartości to reszty
Przykład
Miesiąc Wydatki na
reklamę (X) (mln zł)
Wartość sprzedaży (Y)
(mln zł)
1. 1,2 101
2. 0,8 92
3. 1,0 110
4. 1,3 120
5. 0,7 90
6. 0,8 82
7. 1,0 93
8. 0,6 75
9. 0,9 91
10. 1,1 105
reklama-sprzedaz
x
y
0,6 0,8 1 1,2 1,4
75
85
95
105
115
125
Czy istnieje związek pomiędzy wydatkami na reklamę (xi) a wielkością sprzedaży (yi)? Wydatki na reklamę i sprzedaż w mln zł.
lp. yi xi
1 101 1,2 1,44 121,2
2 92 0,8 0,64 73,6
3 110 1 1,00 110
4 120 1,3 1,69 156
5 90 0,7 0,49 63
6 82 0,8 0,64 65,6
7 93 1 1,00 93
8 75 0,6 0,36 45
9 91 0,9 0,81 81,9
10 105 1,1 1,21 115,5
Suma 959 9,4 9,28 924,8
57,52
10
)4,9(28,9
10
9594,98,924
n
x
x
n
yx
yx
a2
i
2
ii
2i
i
i iii
ii
1
49,4694,057,529,95xaya 10
ii x57,5249,46y
ii yx 2ix
875,09,1600
93,1226
)yy(
)yy(
SSTO
SSTRr
2i
2i2
Współczynnik determinacji
Współczynnik zbieżności 125,09,1600
973,373
)yy(
)yy(
SSTO
SSE
2i
2ii2
Błąd standardowy reszt 84,6
210
973,373
2n
)yy(s
2ii
xyi 57,5249,46ˆ
Estymacja E(y/ x=1,0) wartości oczekiwanej y dla xp=1,0
444,0
)94,00,1(
10
175,46306.206,99
2
95,0)24,104)0,1/(88,93( xYEP
Prognozowanie wartości y dla x=1,0
Prognoza punktowa: 06,99)0,1)(57,52(49,46ˆ y
95,0)66,1150,1x/y46,82(P Prognoza przedziałowa:
Przedział ufności dla współczynnika regresji
95,0)24,7690,28(P 1
X
Y
x
y
ix
iy
iy
yyi
iiyy ˆ
yyiˆ
2)( yy
i= SSTO (zmienność całkowita)
2)ˆ( yy
i= SSTR (zmienność wyjaśniona)
2)ˆ(
iiyy = SSE (zmienność niewyjaśniona)
SSTO = SSTR + SSE
Źródło Zmienności
Liczba stopni
swobody
Suma kwadratów
Średni kwadrat
Statystyka F
Model (czynniki) Błąd (reszta)
1 8
1226,9 374,0
1226,9 46,7 MSE
MSTRFobl =26,25
Razem 9 1600,9
ANALIZA WARIANCJI
H0: α1 = 0 H1: α1 0
F1;8;0,025=7,57
ii xaay 10ˆ
0:
0:
1
0
H
H
W wielu przypadkach dane układają się w zależności nieliniowe:
• gdy mają postać szeregu czasowego
• gdy dane przekrojowe układają się w smugę nieliniową
• gdy krzywoliniowa funkcja wielu zmiennych lepiej opisuje rzeczywistość niż funkcja liniowa; (tego nie widać, która lepsza można poznać tylko po R2)
Regresja krzywoliniowa
Do opisu takich zjawisk stosujemy rozmaite funkcje krzywoliniowe:
1. proste funkcje (rosnące lub malejące) dwu zmiennych:
• wykładnicze
• potęgowe
x
ey 10
1
0 xy
2. wielomiany różnego stopnia (ich fragmenty) )0( xxy 22
210
• funkcje potęgowe wielu zmiennych
...xxxy 321
3210
• funkcje wykładnicze wielu zmiennych
22110xx
ey
Kolejność czynności przy estymacji funkcji regresji krzywoliniowej:
1. zebranie danych empirycznych
2. dobranie modelu (funkcji nieliniowej)
3. transformacja modelu do liniowego (logarytmowanie — transformata)
4. przeliczenie danych na układ liniowy (robi to komputer)
5. oszacowanie równania regresji liniowej
6. retransformacja do postaci pierwotnej (odlogarytmowanie)
Retransformacji podlegają tylko parametry strukturalne (współczynniki regresji i wyraz wolny), natomiast wszystkie
parametry stochastyczne dotyczą tylko transformaty (R2, φ2)
ABY MOŻNA BYŁO STOSOWAĆ MNK, FUNKCJE TE MUSZĄ BYĆ SPROWADZONE DO POSTACI LINIOWEJ
1
10 xy '
1'0
''00
10
''
ln ln 'ln;'ln
lnlnlnln
xy
xxyy
xy
1. Sformułowanie modelu
a. wybór zmiennych: y, x1, x2,...
b. wybór postaci matematycznej modelu: liniowa, potęgowa,...
2. Zebranie danych statystycznych (różne źródła)
3. Estymacja parametrów modelu:
a. parametrów strukturalnych: a0, a1, a2,...
b. parametrów stochastycznych: s(ai), s(y), R2, R
4. Weryfikacja modelu (przy użyciu hipotez i testów statystycznych)
MODEL BEZ WERYFIKACJI NIE MA ŻADNEJ WARTOŚCI
5. Interpretacja modelu
• wyciągnięcie wniosków dla celów zarządzania
• sprzedanie go klientowi
ETAPY BUDOWY MODELU EKONOMETRYCZNEGO
• zmienna objaśniana Y: według zainteresowań (na ćwiczeniach), według polecenia szefa (w przedsiębiorstwie), według życzenia klienta (w firmie konsultingowej)
• zmienne objaśniające Xi; wybrane zmienne muszą mieć dużą zmienność (V>30%)
• najczęstszy błąd — „masło maślane” prowadzące do związku funkcyjnego i nie dające żadnej informacji o zmiennej objaśnianej
model bez sensu: wynagrodzenie = f(płacy, premii i dodatku stażowego)
ETAP 1a WYBÓR ZMIENNYCH
• modele przyczynowo-skutkowe — najbardziej zalecane jest równoczesne prowadzenie obliczeń dla dwu postaci: — liniowej — potęgowej
— stosuje się też modele nieliniowe o narzuconej postaci nieliniowej, których parametry ustala się przez programowanie liniowe lub innymi metodami • modele tendencji rozwojowej: — funkcja liniowa — proste funkcje nieliniowe — wielomiany — modele kombinowane: trend + wahania okresowe
ETAP 1b. WYBÓR POSTACI MATEMATYCZNEJ
ii xay ii
a
i xayxy i lnln
Skutki niedotrzymania założeń MNK i środki zaradcze
1. Model nieprzydatny; niekiedy absurdalny (źle uwarunkowane dane)
2.
Y
X
reszta ei
Lewa część zbioru ma dużą wariancję, a prawa — wariancję małą
3. Jeśli reszty ei są ze sobą powiązane (skorelowane) tzn. że występuje autokorelacja składnika losowego (najczęściej zjawisko występuje przy szeregach czasowych)
Oznacza to, że istnieje istotna zależność: ,...2,1t)jte(fte
4. Składnik losowy jest skorelowany ze zmienną objaśniającą, wtedy gdy została pominięta jakaś ważna zmienna - przyczyna
Występowanie autokorelacji powoduje nieprzydatność modelu
ETAP 3. ESTYMACJA PARAMETRÓW MODELU
Cel etapu: wyznaczenie parametrów strukturalnych i stochastycznych
Estymacja: szacowanie parametrów populacji na podstawie próbki
Metody estymacji: MNK i inne
WYKAZ ETAPÓW WERYFIKACJI MODELU
4.1. Badanie istotności korelacji
4.2. Badanie wyrazistości modelu
4.3. Badanie istotności parametrów
4.4. Badanie składnika losowego
Badanie symetrii skł. losowego
Badanie losowości skł. losowego
Badanie stacjonarności skł. los.
Badanie wartości oczekiwanej skł. losowego
Badanie autokorelacji skł. losowego
Badanie heteroskedastyczności skł. losowego
Badanie normalności skł. losowego
ETAP 4. WERYFIKACJA MODELU
Celem etapu jest sprawdzenie, czy istnieje w populacji generalnej powiązanie pomiędzy zmienną Y i wszystkimi zmiennymi objaśniającymi
Istotność korelacji weryfikuje się przez postawienie następujących hipotez dla współczynnika korelacji dla populacji generalnej:
0:
0:
1
0
H
H Brak korelacji, nie ma powiązania...
Korelacja istotna, jest powiązanie...
ETAP 4.1. Badanie istotności korelacji
testem t Studenta (dla regresji dwóch zmiennych)
testem F Fishera
testem R Wallace’a-Snedecora
TEST STUDENTA
2n;2/tabl2
obl tt2n
r1
rt
TEST FISHERA kn;1k;FtablF
1k
kn
2R1
2R
MSE
MSTRoblF
Źródło zmienności Liczba stopni swobody
Suma kwadratów
Średni kwadrat
Statystyka F
Model (czynniki) Błąd (reszta)
k-1
nk
SSTR SSE
MSTR MSE MSE
MSTRFobl
Razem n1 SSTO
0:
0:
1
0
H
H
TEST WALLACE’A-SNEDECORA Odczyt Rtabl z tablicy testu R Wallace’a-Snedecora
Liczba zmiennych
2 3 4
Stopnieswobody
0,05 0,01 0,05 0,01 0,05 0,01
8 0,632 0,765 0,726 0,827 0,777 0,860
18 0,444 0,561 0,532 0,633 0,587 0,678
28 0,361 0,463 0,439 0,530 0,490 0,573
Reguła decyzyjna:
jeżeli Robl>Rtabl, model jest poprawny, korelacja istotna
jeżeli Robl<Rtabl, model jest niepoprawny, trzeba zmienić albo zestaw zmiennych objaśniających albo jego postać matematyczną
Rola współczynnika determinacji R2
korelacja może być istotna przy małym R i bardzo małym R2 (r=0,4; R2=0,16 co oznacza, że tylko 16% zmienności zmiennej Y jest wyjaśnione przez zmienną objaśniającą)
małe R2 oznacza niski stopień wyjaśnienia rzeczywistości i stanowi zagrożenie dla modelu
należy dążyć (poprzez odpowiedni dobór zmiennych-przyczyn i postaci matematycznej modelu) do jak największego R2 (dla postaci pierwotnej)
wysoka wartość R2 świadczy o dobrym poznaniu badanego zjawiska
wysoka wartość R2 bardzo często wynika jednak ze złego dobrania zmiennych objaśniających (silnie powiązane ze sobą — „masło maślane”)
KORELACJA POZORNA — Przyczyny...Trzeba unikać wartości bezwzględnych (ludność, liczba kin, wielkość produkcji)
ETAP 4.2. Badanie wyrazistości modelu
5 5 5 7 7 7 8 8 9 9 10 10 13 12 11 12 13 12
5 6 8 6 9 12 8 11 12 11 15 9 18 9 11 11 18 15
X
Y
x
y
y
ie
)y(s
Wyrazistość modelu dana jest wzorem
%100y
)y(sVobl
Współczynnik zmienności losowej Vobl<30% (w przeciwnym przypadku rozrzut danych jest zbyt duży) Uwaga: gdyy jest bliskie 0 trudności w ustaleniu czy model poprawny czy niepoprawny
kn;2/ttablt)ia(s
0ia)ia(oblt
• jeżeli |tobl(ai)|>ttabl(ai), odrzucamy hipotezę zerową; parametr jest istotny z błędem równym co najwyżej
• jeżeli |tobl(ai)|<ttabl(ai), nie ma podstaw do odrzucenia hipotezy zerowej; parametr jest nieistotny
ZMIENNA Xi
MA WPŁYW NA ZMIENNĄ Y Odrzucając H0
weryfikacja hipotezy: H0: i=0 wobec H1: i 0
ETAP 4.3. Badanie istotności parametrów (współczynników) modelu
n1 – liczba reszt dodatnich (lub ujemnych)
n - liczność próby
Brak symetrii wymaga zmiany matematycznej
postaci modelu
2
1:
2
1:
11
10
n
nH
n
nH
1
1
2
1
11
1
n
n
n
n
n
n
n
tobl
Badanie symetrii: dla n>30 test z (r-d normalny); dla n<30 test t-Studenta
1nt ,
Badanie symetrii składnika losowego
Test prawostronny!
ETAP 4.4. BADANIE SKŁADNIKA LOSOWEGO
Badanie losowości składnika losowego
a) wartościom et>0 nadajemy symbol A; liczba symboli A – n1
b) wartościom et<0 nadajemy symbol B; liczba symboli B - n2
Otrzymujemy podciągi czyli serie z kolejnych symboli A lub B
c) Liczba wszystkich serii (podciągów) - k.
)...x ,x ,f(xY:Hlosowyjest nie :H
)...x ,x ,f(xY:H losowym mskladnikiejest :H
1-k211t1
1-k210t0
Badanie losowości przeprowadza się testem t-Studenta lub testem serii
Test serii:
Celem etapu jest sprawdzenie, czy odchylenie od „0” nie jest zbyt duże (służy do tego test t-Studenta)
Badanie wartości oczekiwanej składnika losowego
weryfikacja hipotezy:
0)(EV :H
0)(EV :H
1
0
Heteroskedastyczność – niejednorodność wariancji składnika losowego w obrębie próby
Skutki – niespełnienie założeń MNK
Testowanie homoskedastyczności (heteroskedastyczności)
1. Test White’a (najbardziej ogólny)
2. Test Harrisona-McCabe’a
3. Test Goldfelda-Quandta
Badanie heteroskedastyczności składnika losowego
const)( :H
const)( :H
21
20
weryfikacja hipotezy:
Badanie autokorelacji składnika losowego
Składnik losowy ξ nie jest czysto losowy, lecz zależy od wskaźnika i, czyli zmienne losowe ξi są zależne od poprzednich wartości ξt-τ. Autokorelacja to korelacja wartości zmiennej ξ z jej wartościami z okresów wcześniejszych o jeden lub więcej okresów. Na ogół autokorelację można wyrazić w postaci relacji: W praktyce przyjmuje się, że funkcja f jest funkcją liniową, a maksymalne opóźnienie τ wynosi jeden lub dwa (rząd autokorelacji). Estymator współczynnika autokorelacji ρ1 (rzędu pierwszego, k=1):
),...,,( iiii f 21 ,...2,1i)e(fe kii
Skutki: estymatory są nieefektywne, estymator wariancji ξ jest obciążony co prowadzi do niedoszacowania błędów
n
2i
n
2i
2
1i1i
2
ii
n
2i1i1iii
1
)ee()ee(
)ee)(ee(r
Badanie autokorelacji można przeprowadzić:
• testem R istotności korelacji
• testem Durbina-Watsona
Test Durbina-Watsona służy do sprawdzenia hipotezy: 000 111110 ::: HHH lub
Statystyka d:
n
2i
n
2i
2
1i1i
2
ii
n
2i1i1iii
1
)ee()ee(
)ee)(ee(r
n
2i
2i
n
2i
21ii
obl
e
)ee(
d
Na podstawie tablic Durbina‐Watsona wyznaczamy dwie wartości krytyczne: dL i dU, dla określonej
liczności próby (n) i określonej ilości zmiennych objaśniających (k). Reguła decyzyjna: • jeżeli dobl < dL – wnioskujemy, że zachodzi dodatnia autokorelacja, • jeżeli dL < dobl < dU – wynik niczego nie przesądza, • jeżeli dU <dobl<4-dU – nie ma podstaw do odrzucenia H0 – brak autokorelacji, • jeżeli 4-dU < dobl < 4-dL – wynik niczego nie przesądza, • jeżeli dobl > 4–dL – wnioskujemy, że zachodzi ujemna autokorelacja.
Badanie normalności składnika losowego
Celem etapu jest stwierdzenie, czy reszty mają rozkład normalny
Stosuje się testy nieparametryczne:
• - Kołmogorowa-Smirnowa lub test
2
Powyższe testy wymagają bardzo dużej próby (podział zbioru reszt na klasy wartości, gdzie ni>= 5)
TEST Jargue’a-Bery (JB)
Krok 1. szacowanie wartości obciążonego estymatora odchylenia standardowego składnika losowego
Krok 2. szacowanie wartości miary asymetrii rozkładu reszt (skewness)
Krok 3. szacowanie wartości miary kurtozy rozkładu reszt
n
i
ien
s21
n
i
i
s
e
nA
3
31
n
i
i
s
e
nK
4
41
Krok 4. wyliczanie wartości statystyki JB
Statystyka JB ma rozkład dla = 2
223K
4
1A
6
knJB k – ilość zmiennych objaśniających 2
Reguła decyzyjna: • jeżeli JB> to H0 o normalności składnika losowego odrzucamy (prawostronny obszar odrzucenia!!) • jeżeli JB< nie ma podstaw do odrzucenia H0
22,
22,
INTERPRETACJA MODELU
INTERPRETUJĄC MODEL (RÓWNANIE REGRESJI) NALEŻY UŻYWAĆ WYŁĄCZNIE PROSTEJ
TERMINOLOGII EKONOMICZNEJ ZROZUMIAŁEJ DLA KLIENTA
NIE NALEŻY UŻYWAĆ TERMINOLOGII MATEMATYCZNEJ ZROZUMIAŁEJ TYLKO DLA TWÓRCÓW
MODELU
INTERPRETOWAĆ WOLNO TYLKO MODEL ZWERYFIKOWANY
CAŁY TRUD MODELOWANIA NIE MOŻE BYĆ „SZTUKĄ DLA SZTUKI”, LECZ MA SŁUŻYĆ
UZYSKANIU KONKRETNYCH WNIOSKÓW PRAKTYCZNYCH
Ocena jakościowa i ilościowa
Na podstawie znaków stojących przy współczynnikach r oraz ai możemy stwierdzić, że wpływ jest:
• dodatni (im lepsze zaliczenie - tym lepszy wynik egzaminu; im więcej wydatków na reklamę - tym większa sprzedaż; itd.)
• ujemny (im więcej zatrudnionych - tym gorszy wynik finansowy; im mniej braków - tym wyższy zysk; im mniejsza absencja - tym wyższe wynagrodzenie; itd.)
Dane zawarte w poniższej tablicy uzyskano z pewnego złoża gazu ziemnego, na którym znajduje się 8 odwiertów produkcyjnych. Dla każdego odwiertu podano początkowe dopuszczalne wydobycie gazu i efektywną miąższość pokładu produktywnego w tych odwiertach. Podejrzewamy, że istnieje zależność pomiędzy początkowym dopuszczalnym wydobyciem gazu a efektywną miąższością.
Przykład Model liniowy
l.p. yi xi xi*yi
1 2415,6
2 22952
3 1386
4 17400
5 770
6 1170
7 4500
8 274,75
Suma 1095,5 256,6 50868,35
114,4
8
)6,256(12053
8
5,10956,25635,50868
n
x
x
n
yx
yx
a2
i
2
ii
2i
i
i iii
ii
1
97,4075,32*115,49,136xaya 10
36,3 0,93 57,8
iii x114,497,4y r = 0,874