Statystyka opisowa. Wykład V. - kozlowski.pollub.pl · Wykład V. Regresja liniowa wieloraka...
Transcript of Statystyka opisowa. Wykład V. - kozlowski.pollub.pl · Wykład V. Regresja liniowa wieloraka...
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Statystyka opisowa. Wykład V.
Regresja liniowa wieloraka
Edward Kozłowski
e-mail:[email protected]
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Spis treści
1 Prosta regresji cechy Y względem cech X1, ..., Xk.
2 Weryfikacja liniowej zależności.
3 Ocena dopasowania modelu do danych empirycznych
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Wyznaczamy zależność cechy Y od cech X1, X2, ..., Xk postaci
Y = α0 + α1X1 + ...+ αkXk + ε (1)
Na podstawie danych z obserwacji zmiennych Y,X1, ..., Xk
Y X1 ... Xk
y1 x11 ... x1k. . . .yn xn1 ... xnk
wartości ocen α0, α1, ..., αk parametrów modelu (1) wyznaczymykorzystając z metody najmniejszych kwadratów.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Na podstawie odserwacji cech Y,X1, ..., Xk model (1) możemy zapisać wpostaci układu równań y1 = α0 + α1x11 + ...+ αkx1k + ε1
..............................................yn = α0 + α1xn1 + ...+ αkxnk + εn
Rozwiązując zadanie
minα0,α1,...,αk
F (α0, α1, ..., αk)
gdzie F (α0, α1, ..., αk) =n∑i=1(yi − α0 − α1xi1 + ...+ αkxik)2,
wyznaczamy wartości parametrów α0, α1, ..., αk.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Układ równań możemy przedstawić w postaci macierzowej
y1...yn
= 1 x11 ... x1k. . . .1 xn1 ... xnk
∗α0α1...αk
+ ε1...εn
Wprowadzając oznaczenia na Y ∈ Rn i X ∈ Rn×(k+1), β ∈ Rk+1,ε ∈ Rn mamy
Y = Xβ + ε
Twierdzenie 1.Jeżeli det
(XTX
)6= 0 to estymatory parametrów strukturalnych modelu
(1) szacujemy jako
β =(XTX
)−1XTY
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Dowód.Metoda najmniejszych kwadratów polega
minβ‖ε‖2
Natomiast ‖ε‖2 = 〈Y −Xβ, Y −Xβ〉. Zdefiniujmy funkcję celuF (β) = 〈Y −Xβ, Y −Xβ〉. Zatem
F (β) = ‖Y ‖2 − 2 〈Y,Xβ〉+ 〈Xβ,Xβ〉
Szukamy gradient
∇F (β) = ∂
∂βF (β) = −2XTY + 2XTXβ
Przyrównując do zera otrzymujemy
XTXβ = XTY
mnożąc lwostroniie przez(XTX
)−1otrzymujemy β =
(XTX
)−1XTY.
Z drugiej strony, ponieważ kwadrat błędu ‖ε‖2 jest funkcją kwadratową iwypukłą ze względu na β, zatem funkcja ta osiąga w β swoje ekstremumminimum globalne. z
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Przykład 1.Dane są obserwacje zmiennych Y , X1, X2, X3.
Y X1 X2 X32 1 1 12 2 0 14 1 0 14 2 1 05 2 0 1
Oszacujemy parametry strukturalne modeluY = α0 + α1X1 + α2X2 + α3X3 + ε.
Rozwiązanie zadania
Niech Y =
22445
, X =
1 1 1 11 2 0 11 1 0 11 2 1 01 2 0 1
, β =
α0α1α2α3
.Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Zatem XTX =
5 8 2 48 14 3 62 3 2 14 6 1 4
, det (XTX)= 2,
(XTX
)−1=
13 −4 −4 −6−4 1, 5 1 1, 5−4 1 2 2−6 1, 5 2 3, 5
, XTY =
1728613
.
Ostatecznie β =
7−0, 5−2−2, 5
.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Przykład 2.Dane są obserwacje zmiennych Y , X1, X2
Y X1 X22 0 03 1 04 0 15 2 1
Wyznaczymymy parametry strukturalne modeluY = α0 + α1X1 + α2X2 + ε.
Rozwiązanie zadania
Niech Y =
2345
, X =
1 0 01 1 01 0 11 2 1
, β =
α0α1α2
.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Zatem XTX =
4 3 23 5 22 2 2
, det (XTX)= 10,
(XTX
)−1=
0, 6 −0, 2 −0, 4−0, 2 0, 4 −0, 2−0, 4 −0, 2 1, 1
, XTY =
14139
.
Ostatecznie β =
2, 20, 61, 7
.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Weryfikacja liniowej zależności
Po oszacowaniu parmetrów strukturalnych modelu ekonometrycznegonależe zbadać, czy ów model dobrze opisuje badane przez nas zależności.Jeżeli okaże się, że rozbieżność pomiędzy otrzymanym modelem a wiedząekonomiczną o badanych zależnościach jest duża, należy go wówczasskorygować i poprawić.
Ta nieefektywność może być spowodowana wieloma przyczynami:
złe dobranie zmiennych objaśniających
zła postać analityczna modelu
zastosowanie niewłaściwej metody estymacji parametrów.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Przed wykonaniem wnioskowania statystycznego należy przeprowadzicweryfikację modelu ekonometrycznego.
Weryfikacja modelu sprowadza się do zbadania trzech własności:
stopnia zgodności modelu z danymi empirycznymi
jakości ocen parametrów strukturalnych
rozkładu ocen odchyleń losowych.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Ocena dopasowania modelu do danych empirycznych
Ocena dopasowania modelu do danych empirycznych polega na wyjaśniuw jakim stopniu model opsuje kształtowanie się zmiennej zależnej. Dotego celu służą różne miary zgodności modelu z danymi empirycznymi:
wspolczynnik zmienności losowejwspółczynnik zbieżnościwspółczynnik determinacji
Rozważmy model liniowy w którym występuje k− zmiennychobjaśniających modelu liniowego
Y = α0 + α1X1 + ...+ αkXk + ε
Model w postaci macierzowej
Y = Xβ + ε
gdzie Y ∈ Rn×1, X ∈ Rn×(k+1), β ∈ R(k+1)×1, ε ∈ Rn×1 , a n− liczbaobserwacji.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Odchylenie standardowe skladnika losowego
Se =
√√√√√ n∑i=1
ε2i
n− k − 1=
√εT ε
n− k − 1
gdzie ε = Y −Xβ (wektor różnić pomiędzy wartością empiryczną awartością teoretyczną zmiennej zależnej).
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Współczynnik zbieżności ϕ2 ∈ [0, 1]
ϕ2 =
n∑i=1
ε2i
n∑i=1(yi − y)2
pokazuje jaka część całkowitej zmienności zmiennej zależnej nie jestwyjaśniana przez model. Dopasowanie do dannych jest trym lepsze im ϕ2
bliższy jest zera.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Współczynnik determinacji R2 ∈ [0, 1]
R2 = 1− ϕ2
pokazuje jaka część całkowitej zmienności zmiennej zależnej jestwyjaśniana przez model, ta część jest zdeterminowana przez zmienneniezależne. Innymi słowy, współczynnik detrminacji pokazuje jaką cześćcałkowitej zmienności zmiennej objaśnianej stanowi zmiennośc wartościteoretycznych. Im R2 jest bliższe 1 tym dopasowanie modelu jest lepsze.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Przykład 3.Na podstawie danych z obserwacji cech Y,X1, X2 oszacować parametryregresji liniowej, znaleźć odchylenie standardowe składnika losowego,współczynniki zbieżności i determinacji.
Y = α0 + α1X1 + α2X2 + ε
Y X1 X2 Y εi ε2i Y − Y (Y − Y )22 2 1 2 0 0 −7, 4 54, 764, 9 3 2 5 −0, 1 0, 01 −4, 5 20, 2510, 5 5 4 11 −0, 5 0, 25 1, 1 1, 214, 3 2 2 4 0, 3 0, 09 −5, 1 26, 0116 6 6 16 0 0 6, 6 43, 5614 4 6 14 0 0 4, 6 21, 1611 3 5 11 0 0 1, 6 2, 5612, 5 8 3 12 0, 5 0, 25 3, 1 9, 6175, 2 0, 6 179, 12
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Oszacujemy parametry modelu.
X =
2 1 13 2 15 4 12 2 16 6 14 6 13 5 18 3 1
, Y =
24, 910, 54, 316141112, 5
.
Zatem XTX =
167 131 33131 131 2933 29 8
,
(XTX)−1 = 15356
207 −91 −524−91 247 −520−524 −520 4716
XTY =
364, 8334, 975, 2
. Ostatecznie β =
1, 05171, 9454−1, 99
≈ 12−2
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Po oszacowaniu parametrów strukturalnych modelu mamy:
odchylenie standardowe składnika losowego
Se =
√0, 6
8− 2− 1=√0, 12 ≈ 0, 346
współczynnik zbieźności
ϕ2 =0, 6179, 12
= 0, 00335
współczynnik determinacji
R2 = 1− 0, 00335 = 0, 99665
a zatem zmienność zmiennej zależnej jest wyjaśniana przez model na99, 665%.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Po oszacowaniu parametrów strukturalnych modelu mamy:
odchylenie standardowe składnika losowego
Se =
√0, 6
8− 2− 1=√0, 12 ≈ 0, 346
współczynnik zbieźności
ϕ2 =0, 6179, 12
= 0, 00335
współczynnik determinacji
R2 = 1− 0, 00335 = 0, 99665
a zatem zmienność zmiennej zależnej jest wyjaśniana przez model na99, 665%.
Edward Kozłowski Regresja liniowa wieloraka
Prosta regresji cechy Y względem cech X1, ..., Xk.Weryfikacja liniowej zależności.
Ocena dopasowania modelu do danych empirycznych
Po oszacowaniu parametrów strukturalnych modelu mamy:
odchylenie standardowe składnika losowego
Se =
√0, 6
8− 2− 1=√0, 12 ≈ 0, 346
współczynnik zbieźności
ϕ2 =0, 6179, 12
= 0, 00335
współczynnik determinacji
R2 = 1− 0, 00335 = 0, 99665
a zatem zmienność zmiennej zależnej jest wyjaśniana przez model na99, 665%.
Edward Kozłowski Regresja liniowa wieloraka