Statystyka opisowa. Wykład V. - kozlowski.pollub.pl · Wykład V. Regresja liniowa wieloraka...

21
Prosta regresji cechy Y względem cech X 1 , ..., X k . Weryfikacja liniowej zależności. Ocena dopasowania modelu do danych empirycznych Statystyka opisowa. Wyklad V. Regresja liniowa wieloraka Edward Kozlowski e-mail:[email protected] Edward Kozlowski Regresja liniowa wieloraka

Transcript of Statystyka opisowa. Wykład V. - kozlowski.pollub.pl · Wykład V. Regresja liniowa wieloraka...

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Statystyka opisowa. Wykład V.

Regresja liniowa wieloraka

Edward Kozłowski

e-mail:[email protected]

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Spis treści

1 Prosta regresji cechy Y względem cech X1, ..., Xk.

2 Weryfikacja liniowej zależności.

3 Ocena dopasowania modelu do danych empirycznych

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Wyznaczamy zależność cechy Y od cech X1, X2, ..., Xk postaci

Y = α0 + α1X1 + ...+ αkXk + ε (1)

Na podstawie danych z obserwacji zmiennych Y,X1, ..., Xk

Y X1 ... Xk

y1 x11 ... x1k. . . .yn xn1 ... xnk

wartości ocen α0, α1, ..., αk parametrów modelu (1) wyznaczymykorzystając z metody najmniejszych kwadratów.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Na podstawie odserwacji cech Y,X1, ..., Xk model (1) możemy zapisać wpostaci układu równań y1 = α0 + α1x11 + ...+ αkx1k + ε1

..............................................yn = α0 + α1xn1 + ...+ αkxnk + εn

Rozwiązując zadanie

minα0,α1,...,αk

F (α0, α1, ..., αk)

gdzie F (α0, α1, ..., αk) =n∑i=1(yi − α0 − α1xi1 + ...+ αkxik)2,

wyznaczamy wartości parametrów α0, α1, ..., αk.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Układ równań możemy przedstawić w postaci macierzowej

y1...yn

= 1 x11 ... x1k. . . .1 xn1 ... xnk

∗α0α1...αk

+ ε1...εn

Wprowadzając oznaczenia na Y ∈ Rn i X ∈ Rn×(k+1), β ∈ Rk+1,ε ∈ Rn mamy

Y = Xβ + ε

Twierdzenie 1.Jeżeli det

(XTX

)6= 0 to estymatory parametrów strukturalnych modelu

(1) szacujemy jako

β =(XTX

)−1XTY

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Dowód.Metoda najmniejszych kwadratów polega

minβ‖ε‖2

Natomiast ‖ε‖2 = 〈Y −Xβ, Y −Xβ〉. Zdefiniujmy funkcję celuF (β) = 〈Y −Xβ, Y −Xβ〉. Zatem

F (β) = ‖Y ‖2 − 2 〈Y,Xβ〉+ 〈Xβ,Xβ〉

Szukamy gradient

∇F (β) = ∂

∂βF (β) = −2XTY + 2XTXβ

Przyrównując do zera otrzymujemy

XTXβ = XTY

mnożąc lwostroniie przez(XTX

)−1otrzymujemy β =

(XTX

)−1XTY.

Z drugiej strony, ponieważ kwadrat błędu ‖ε‖2 jest funkcją kwadratową iwypukłą ze względu na β, zatem funkcja ta osiąga w β swoje ekstremumminimum globalne. z

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Przykład 1.Dane są obserwacje zmiennych Y , X1, X2, X3.

Y X1 X2 X32 1 1 12 2 0 14 1 0 14 2 1 05 2 0 1

Oszacujemy parametry strukturalne modeluY = α0 + α1X1 + α2X2 + α3X3 + ε.

Rozwiązanie zadania

Niech Y =

22445

, X =

1 1 1 11 2 0 11 1 0 11 2 1 01 2 0 1

, β =

α0α1α2α3

.Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Zatem XTX =

5 8 2 48 14 3 62 3 2 14 6 1 4

, det (XTX)= 2,

(XTX

)−1=

13 −4 −4 −6−4 1, 5 1 1, 5−4 1 2 2−6 1, 5 2 3, 5

, XTY =

1728613

.

Ostatecznie β =

7−0, 5−2−2, 5

.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Przykład 2.Dane są obserwacje zmiennych Y , X1, X2

Y X1 X22 0 03 1 04 0 15 2 1

Wyznaczymymy parametry strukturalne modeluY = α0 + α1X1 + α2X2 + ε.

Rozwiązanie zadania

Niech Y =

2345

, X =

1 0 01 1 01 0 11 2 1

, β =

α0α1α2

.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Zatem XTX =

4 3 23 5 22 2 2

, det (XTX)= 10,

(XTX

)−1=

0, 6 −0, 2 −0, 4−0, 2 0, 4 −0, 2−0, 4 −0, 2 1, 1

, XTY =

14139

.

Ostatecznie β =

2, 20, 61, 7

.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Weryfikacja liniowej zależności

Po oszacowaniu parmetrów strukturalnych modelu ekonometrycznegonależe zbadać, czy ów model dobrze opisuje badane przez nas zależności.Jeżeli okaże się, że rozbieżność pomiędzy otrzymanym modelem a wiedząekonomiczną o badanych zależnościach jest duża, należy go wówczasskorygować i poprawić.

Ta nieefektywność może być spowodowana wieloma przyczynami:

złe dobranie zmiennych objaśniających

zła postać analityczna modelu

zastosowanie niewłaściwej metody estymacji parametrów.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Przed wykonaniem wnioskowania statystycznego należy przeprowadzicweryfikację modelu ekonometrycznego.

Weryfikacja modelu sprowadza się do zbadania trzech własności:

stopnia zgodności modelu z danymi empirycznymi

jakości ocen parametrów strukturalnych

rozkładu ocen odchyleń losowych.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Ocena dopasowania modelu do danych empirycznych

Ocena dopasowania modelu do danych empirycznych polega na wyjaśniuw jakim stopniu model opsuje kształtowanie się zmiennej zależnej. Dotego celu służą różne miary zgodności modelu z danymi empirycznymi:

wspolczynnik zmienności losowejwspółczynnik zbieżnościwspółczynnik determinacji

Rozważmy model liniowy w którym występuje k− zmiennychobjaśniających modelu liniowego

Y = α0 + α1X1 + ...+ αkXk + ε

Model w postaci macierzowej

Y = Xβ + ε

gdzie Y ∈ Rn×1, X ∈ Rn×(k+1), β ∈ R(k+1)×1, ε ∈ Rn×1 , a n− liczbaobserwacji.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Odchylenie standardowe skladnika losowego

Se =

√√√√√ n∑i=1

ε2i

n− k − 1=

√εT ε

n− k − 1

gdzie ε = Y −Xβ (wektor różnić pomiędzy wartością empiryczną awartością teoretyczną zmiennej zależnej).

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Współczynnik zbieżności ϕ2 ∈ [0, 1]

ϕ2 =

n∑i=1

ε2i

n∑i=1(yi − y)2

pokazuje jaka część całkowitej zmienności zmiennej zależnej nie jestwyjaśniana przez model. Dopasowanie do dannych jest trym lepsze im ϕ2

bliższy jest zera.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Współczynnik determinacji R2 ∈ [0, 1]

R2 = 1− ϕ2

pokazuje jaka część całkowitej zmienności zmiennej zależnej jestwyjaśniana przez model, ta część jest zdeterminowana przez zmienneniezależne. Innymi słowy, współczynnik detrminacji pokazuje jaką cześćcałkowitej zmienności zmiennej objaśnianej stanowi zmiennośc wartościteoretycznych. Im R2 jest bliższe 1 tym dopasowanie modelu jest lepsze.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Przykład 3.Na podstawie danych z obserwacji cech Y,X1, X2 oszacować parametryregresji liniowej, znaleźć odchylenie standardowe składnika losowego,współczynniki zbieżności i determinacji.

Y = α0 + α1X1 + α2X2 + ε

Y X1 X2 Y εi ε2i Y − Y (Y − Y )22 2 1 2 0 0 −7, 4 54, 764, 9 3 2 5 −0, 1 0, 01 −4, 5 20, 2510, 5 5 4 11 −0, 5 0, 25 1, 1 1, 214, 3 2 2 4 0, 3 0, 09 −5, 1 26, 0116 6 6 16 0 0 6, 6 43, 5614 4 6 14 0 0 4, 6 21, 1611 3 5 11 0 0 1, 6 2, 5612, 5 8 3 12 0, 5 0, 25 3, 1 9, 6175, 2 0, 6 179, 12

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Oszacujemy parametry modelu.

X =

2 1 13 2 15 4 12 2 16 6 14 6 13 5 18 3 1

, Y =

24, 910, 54, 316141112, 5

.

Zatem XTX =

167 131 33131 131 2933 29 8

,

(XTX)−1 = 15356

207 −91 −524−91 247 −520−524 −520 4716

XTY =

364, 8334, 975, 2

. Ostatecznie β =

1, 05171, 9454−1, 99

≈ 12−2

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Po oszacowaniu parametrów strukturalnych modelu mamy:

odchylenie standardowe składnika losowego

Se =

√0, 6

8− 2− 1=√0, 12 ≈ 0, 346

współczynnik zbieźności

ϕ2 =0, 6179, 12

= 0, 00335

współczynnik determinacji

R2 = 1− 0, 00335 = 0, 99665

a zatem zmienność zmiennej zależnej jest wyjaśniana przez model na99, 665%.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Po oszacowaniu parametrów strukturalnych modelu mamy:

odchylenie standardowe składnika losowego

Se =

√0, 6

8− 2− 1=√0, 12 ≈ 0, 346

współczynnik zbieźności

ϕ2 =0, 6179, 12

= 0, 00335

współczynnik determinacji

R2 = 1− 0, 00335 = 0, 99665

a zatem zmienność zmiennej zależnej jest wyjaśniana przez model na99, 665%.

Edward Kozłowski Regresja liniowa wieloraka

Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.

Ocena dopasowania modelu do danych empirycznych

Po oszacowaniu parametrów strukturalnych modelu mamy:

odchylenie standardowe składnika losowego

Se =

√0, 6

8− 2− 1=√0, 12 ≈ 0, 346

współczynnik zbieźności

ϕ2 =0, 6179, 12

= 0, 00335

współczynnik determinacji

R2 = 1− 0, 00335 = 0, 99665

a zatem zmienność zmiennej zależnej jest wyjaśniana przez model na99, 665%.

Edward Kozłowski Regresja liniowa wieloraka