Wprowadzenie do analizy regresji
Wykład 10
Model kategoryczny (categorical model)
• W 1993 r. inwestor zastanawia się jak sklasyfikować Amazon:– Część ekonomii
informacji– Dostawca książek
• W zależności od sklasyfikowania, podejmie różne decyzje– Stąd sposób
klasyfikacji jest istotny
KategorieNIEZIELONE ZIELONE
ZmiennośćKalorie Odchylenie Zmienność
Gruszka 100 100-180 6400
Ciasto 250 250-180 4900
Jabłko 90 90-180 8100
Banan 110 110-180 4900
Tort 350 350-180 28900
Średnia: 900/5=180 Suma: 0 Cała zmienność : 53200
Owoce Kalorie
Gruszka 100
Jabłko 90
Banan 110
Średnia 100
Zmienność 200
Desery Kalorie
Ciasto 250
Tort 350
Średnia 300
Zmienność 5000
R2 = (53200-5200)/53200 = 90,2%
• Poprzez sklasyfikowanie na deser i owoce wyjaśniliśmy ponad 90% zmienności liczby kalorii obiektów
Regresja
• Korelacja vs przyczynowość– Obecność sekcji golfa i prestiż szkoły
• W modelu regresji zakładamy, że Y zależy od X Y = F(X)
• W modelu regresji liniowej zakładamy, że zależność jest liniowa
Y = mX +b
Na przykład X – długość przekątnej odbiornika, Y cena telewizora: Cena = 15X + $100
• 30 calowy: Cena = 15(30)+100 = 550?• 100 calowy: Cena = 15(100)+100 = 1600?
Intuicja
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
X Y
1 1
2 5
4 9
Regresja liniowaX Y Zmienność
jeśli Y = E(Y)Zmienność jeśli Y = 2X
Zmienność jeśli Y = mX + b
1 1 (5-1)2 = 16 (2*1-1) 2 = 1 (m+b-1) 2 = m2 + 2m(b-1) + (b-1) 2
2 5 (5-5) 2 = 0 (2*2-5) 2 = 1 (2m+b-5) 2 = 4m2 + 4m(b-5) + (b-5) 2
4 9 (5-9) 2 = 16 (2*4-9) 2 = 1 (4m+b-9) 2 = 16m2 + 8m(b-9) + (b-9) 2
=(1+5+9)/3=5
SUMA = 32 SUMA = 3 SUMA = 21m2 + 14mb + 3b2 – 94m – 30b + 107
Minimalizujemy:Warunki pierwszego rzędu: 42m + 14b -94 = 014m + 6b -30 = 0 |*3
- (42m + 14b -94 = 0)+(42m + 18b -90 = 0)---------------------------- 4b + 4 = 0b = -1m = 18/7
SUMA = 21m2 + 14mb + 3b2 – 94m – 30b + 107 = 8/7
R2 = (32-8/7)/32 = 96,4%
Ilustracja
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
X Y Y’ = E(Y) Y’ = 2X Y’ = 18/7*X - 1
1 1 5 2 1,62 5 5 4 4,14 9 5 8 9,3
Y’ = 18/7*X-1
Y’ = 2X
Y’ = E(Y)
Liczba obserwacji
0.5 1 1.5 2 2.5 3 3.5 4 4.50
2
4
6
8
10
12
f(x) = 2.57142857142857 x − 1
1 12 54 93 10
0.5 1 1.5 2 2.5 3 3.5 4 4.50
2
4
6
8
10
12
f(x) = 2.9 x − 1
Dopasowanie vs przeuczenie
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
f(x) = 2.57142857142857 x − 1R² = 0.964285714285714
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
f(x) = − 0.666666666666667 x² + 6 x − 4.33333333333334R² = 1
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
f(x) = − 0.666666666666667 x² + 6 x − 4.33333333333334R2=0,7942
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
f(x) = − 0.024999999999999 x² + 2.53499999999999 x − 1.12499999999999R² = 0.907381082558775
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
f(x) = 2.41 x − 0.999999999999999R² = 0.907302975865032
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
f(x) = 1.28333333 x³ − 9.65 x² + 23.9666667 x − 14.6R² = 1
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
f(x) = 1.28333333 x³ − 9.65 x² + 23.9666667 x − 14.6R² = 1
1 12 54 93 5,1
1,5 2,53,5 8
0.5 1 1.5 2 2.5 3 3.5 4 4.50
1
2
3
4
5
6
7
8
9
10
f(x) = 2.50714285714286 x − 1.16785714285714R² = 0.932210956416465
Przykład – wzrost i wagaWzrost Waga
1 162 572 179 693 180 744 192 855 179 706 167 697 170 658 176 689 176 64
10 179 7811 158 5312 156 6213 183 7714 175 7115 167 6616 190 7117 164 5718 167 6119 187 7920 180 7621 185 7722 180 7823 162 6224 178 8025 153 5326 172 7127 171 62
Średnia 68,7037
150 155 160 165 170 175 180 185 190 19550
55
60
65
70
75
80
85
90
f(x) = 0.72730713088609 x − 57.5783640590366
Zależność wzrostu od wagi [N=27]
Wzrost [w cm]
Waga [w kg]
y = 68,7037-6,7
+6,1
+8,1
+11,3
H W E(W)Y=0,73H-
57,58 W-E(W) W-Y [W-E(W)]2 [W-Y]2
1 162 57 68,7 60,24 -11,70 -3,24 136,89 10,532 179 69 68,7 72,61 0,30 -3,61 0,09 13,023 180 74 68,7 73,34 5,30 0,66 28,09 0,444 192 85 68,7 82,06 16,30 2,94 265,69 8,625 179 70 68,7 72,61 1,30 -2,61 1,69 6,816 167 69 68,7 63,88 0,30 5,12 0,09 26,207 170 65 68,7 66,06 -3,70 -1,06 13,69 1,138 176 68 68,7 70,43 -0,70 -2,43 0,49 5,899 176 64 68,7 70,43 -4,70 -6,43 22,09 41,30
10 179 78 68,7 72,61 9,30 5,39 86,49 29,0711 158 53 68,7 57,34 -15,70 -4,34 246,49 18,8012 156 62 68,7 55,88 -6,70 6,12 44,89 37,4413 183 77 68,7 75,52 8,30 1,48 68,89 2,2014 175 71 68,7 69,70 2,30 1,30 5,29 1,6915 167 66 68,7 63,88 -2,70 2,12 7,29 4,4916 190 71 68,7 80,61 2,30 -9,61 5,29 92,3317 164 57 68,7 61,70 -11,70 -4,70 136,89 22,0818 167 61 68,7 63,88 -7,70 -2,88 59,29 8,3019 187 79 68,7 78,43 10,30 0,57 106,09 0,3320 180 76 68,7 73,34 7,30 2,66 53,29 7,1021 185 77 68,7 76,97 8,30 0,03 68,89 0,0022 180 78 68,7 73,34 9,30 4,66 86,49 21,7523 162 62 68,7 60,24 -6,70 1,76 44,89 3,0824 178 80 68,7 71,88 11,30 8,12 127,69 65,9125 153 53 68,7 53,70 -15,70 -0,70 246,49 0,4926 172 71 68,7 67,52 2,30 3,48 5,29 12,1327 171 62 68,7 66,79 -6,70 -4,79 44,89 22,95
Średnia 68,7037Zmienność 1913,63 464,08
R2 0,76
Studium przypadku – Łorsoł Flaj• Firmy lotnicza, która obsługuje trasę
Warszawa-Kraków– Na razie interesuje nas tylko klasa
ekonomiczna– Sprzedajemy miejsca w klasie biznes, ale
mało• Funkcja popytu wynosi
Q = f (P, Pk, Y)– Liczba sprzedanych biletów na jeden
przelot w zależy od ceny biletu (P), ceny biletu konkurenta (Pk), oraz poziomu dochodu w danym regionie
• Dział prognoz udostępnił nam równanie: Q = 25 + 3Y + Pk – 2P
ŁORSOŁ FLAJ
Łorsoł Flaj
• Załóżmy, że P = Pk = 240 PLN. Obecny wskaźnik zagregowanego dochodu* jest równy 105.
• Zatem Q = 25 + 3(105) + 1(240) – 2(240) = 100 miejsc
• I rzeczywiście w ciągu ostatnich 3 miesięcy przeciętna liczba sprzedanych biletów była w przedziale (90,105)
• Całkowita liczba miejsc wynosi 180, czyli obłożenie wynosiło 55,5%
ŁORSOŁ FLAJ
* zysków z działalności gospodarczej oraz dochodów osobistych w Warszawie oraz Krakowie w ujęciu realnym, rok bazowy 2010 = 100
Łorsoł Flaj – krzywa popytu• Załóżmy, że w najbliższej
przyszłości Y i Pk pozostaną niezmienione.
• Wówczas Q = 25 + 3(105) + 1(240) – 2P = 580 - 2P, czyli P = 290 – Q/2
• Gdy Y lub Pk się zmieni, ta krzywa popytu się przesunie, np. załóżmy, że Y=105 Y=119
• Wtedy Q = 622 – 2P, czyli P = 311 – Q/2
ŁORSOŁ FLAJ
Łorsoł Flaj (max zysku)
• Jeśli pominiemy dodatkowy koszt dodatkowego pasażera (bardzo mały), to firma będzie chciała zmaksymalizować utargP = 290 – Q/2R = P*Q = 290Q – Q2/2MR = 290 – Q
• Czyli nawet przy pełnym obłożeniu utarg krańcowy jest dodatni MR = 290 – 180 = 110
• Czyli firma powinna zmniejszyć cenę z 240 na 200, co spowoduje wzrost utargu za jeden rejs z 24000 (240*100) na 36000 (200*180) ŁORSOŁ FLAJ
Zróżnicowanie cenowe• Załóżmy, że są dwie grupy pasażerów
– Biznesmeni– Turyści
• Popyt dla nich się różni– Biznesmeni QB = 330 – PB
– Turyści QT = 250 – PT
• Zatem Q = QB + QT = 580 – 2P• Aby utarg był zmaksymalizowany, krańcowy utarg z miejsc biznesowych i krańcowy
utarg z miejsc ekonomicznych musi się równać330 – 2QB = 250 – 2QT
• Po uproszczeniu: QB = 40 + QT.
• Dodatkowo jesteśmy ograniczeni równaniem QB + QT = 180
• Zatem optymalne wielkości to: QB = 110, QT = 70, PB = 220 zł, PT = 180 zł• Utarg z jednego lotu wynosi 220*110 + 180*70 = 36800 zł, czyli więcej o 800 zł niż bez
zróżnicowania cen.
ŁORSOŁ FLAJ
Ocena popytu
• Aby dokonywać analiz takich, jak na poprzednich slajdach, trzeba wyznaczyć krzywą popytu
• Źródła informacji:– Wywiady i badania ankietowe– Kontrolowane badania rynku
• Wytypowanie kilku podobnych rynków i sprzedawanie na nich danego wyrobu przy różnych wartościach kluczowych zmiennych– Badania porównawcze różnych rynków dostarczają danych przekrojowych– Badania w czasie jednego rynku dostarczają szeregu czasowego– Połączenie obu rodzajów danych daje dane panelowe
– Nie kontrolowane dane rynkowe• Techniki drążenia danych
Łorsoł flajRok Kwartał
Przeciętna liczba sprzedanych
biletów na jeden lot
Przeciętna cena
(w PLN)
Rok 1 Kw. I 64,8 250Kw. II 33,6 265Kw. III 37,8 265Kw. IV 83,3 240
Rok 2 Kw. I 111,7 230Kw. II 137,5 225Kw. III 109,5 225Kw. IV 96,8 220
Rok 3 Kw. I 59,5 230Kw. II 83,2 235Kw. III 90,5 245Kw. IV 105,5 240
Rok 4 Kw. I 75,7 250Kw. II 91,6 240Kw. III 112,7 240Kw. IV 102,2 235
Średnia 87,2 239,7Odchylenie standardowe 27,0 12,7
ŁORSOŁ FLAJ
Zmienność sprzedażyRok Kwartał Średnia sprzedaż (Qs)
Sprzedaż rzeczywista (Q)
Qs-Q (Qs-Q)2
Rok 1 Kw. I 87,2 64,8 22,44375 503,7219
Kw. II 87,2 33,6 53,64375 2877,652
Kw. III 87,2 37,8 49,44375 2444,684
Kw. IV 87,2 83,3 3,94375 15,55316
Rok 2 Kw. I 87,2 111,7 -24,4563 598,1082
Kw. II 87,2 137,5 -50,2563 2525,691
Kw. III 87,2 109,5 -22,2563 495,3407
Kw. IV 87,2 96,8 -9,55625 91,32191
Rok 3 Kw. I 87,2 59,5 27,74375 769,7157
Kw. II 87,2 83,2 4,04375 16,35191
Kw. III 87,2 90,5 -3,25625 10,60316
Kw. IV 87,2 105,5 -18,2563 333,2907
Rok 4 Kw. I 87,2 75,7 11,54375 133,2582
Kw. II 87,2 91,6 -4,35625 18,97691
Kw. III 87,2 112,7 -25,4563 648,0207
Kw. IV 87,2 102,2 -14,9563 223,6894
Średnia 87,2 731,6Suma kwadratów odchyleń 11706,0
Wykresy
Kw. I
Kw. II
Kw. III
Kw. IV
Kw. I
Kw. II
Kw. III
Kw. IV
Kw. I
Kw. II
Kw. III
Kw. IV
Kw. I
Kw. II
Kw. III
Kw. IV
Rok 1 Rok 2 Rok 3 Rok 4
0
20
40
60
80
100
120
140
160
200
210
220
230
240
250
260
270
280
Przeciętna liczba sprzedanych biletów na jeden lotPrzeciętna cena (w PLN)
0 20 40 60 80 100 120 140210
220
230
240
250
260
270
Liczba sprzedanych miejsc na jeden lot
Prze
ciętn
a lic
zba
sprz
edan
ych
bile
tów
na
jede
n lo
t
Krzywa popytu Q = 330 - P
Krzywa popytu Q = 330 - P Rok Kwartał
Sprzedaż prognozowana (Q*)
Sprzedaż rzeczywista (Q)
Q*-Q (Q*-Q)2
Rok 1 Kw. I 80 64,8 15,2 231,04Kw. II 65 33,6 31,4 985,96Kw. III 65 37,8 27,2 739,84Kw. IV 90 83,3 6,7 44,89
Rok 2 Kw. I 100 111,7 -11,7 136,89Kw. II 105 137,5 -32,5 1056,25Kw. III 105 109,5 -4,5 20,25Kw. IV 110 96,8 13,2 174,24
Rok 3 Kw. I 100 59,5 40,5 1640,25Kw. II 95 83,2 11,8 139,24Kw. III 85 90,5 -5,5 30,25Kw. IV 90 105,5 -15,5 240,25
Rok 4 Kw. I 80 75,7 4,3 18,49Kw. II 90 91,6 -1,6 2,56Kw. III 90 112,7 -22,7 515,29Kw. IV 95 102,2 -7,2 51,84
Średnia 90,3 87,2 3,1 376,7
Suma kwadratów odchyleń 6027,5
Metoda najmniejszych kwadratów• Tworzymy macierz X złożonej z:
– Wektora jedynek– Wektora przeciętnych cen
• Wektor y to wektor przeciętnej liczby sprzedanych biletów• Liczymy współczynniki równania Y = a + bX
Krzywa popytu Q = 478,6 - 1,63 PRok Kwartał Sprzedaż
prognozowana (Q*)Sprzedaż
rzeczywista (Q) Q*-Q (Q*-Q)2
Rok 1 Kw. I 70,4 64,8 5,6 31,4Kw. II 45,9 33,6 12,3 151,8Kw. III 45,9 37,8 8,1 65,9Kw. IV 86,7 83,3 3,4 11,8
Rok 2 Kw. I 103,1 111,7 -8,6 74,7Kw. II 111,2 137,5 -26,3 690,5Kw. III 111,2 109,5 1,7 3,0Kw. IV 119,4 96,8 22,6 510,1
Rok 3 Kw. I 103,1 59,5 43,6 1897,4Kw. II 94,9 83,2 11,7 136,8Kw. III 78,6 90,5 -11,9 142,3Kw. IV 86,7 105,5 -18,8 352,2
Rok 4 Kw. I 70,4 75,7 -5,3 28,0Kw. II 86,7 91,6 -4,9 23,7Kw. III 86,7 112,7 -26,0 674,3Kw. IV 94,9 102,2 -7,3 53,3
Średnia 87,2 0,0 302,9Suma kwadratów odchyleń 4847,2
Krzywe popytu porównanie
• Suma kwadratów odchyleń dla Q = 330 – P równa się 6027,5
• Suma kwadratów odchyleń dla Q = 478,6 – 1,63P równa się 4847,2
20 40 60 80 100 120 140 160210
220
230
240
250
260
270
Liczba sprzedanych miejsc na jeden lot
Prze
ciętn
a op
łata
za p
rzel
ot
Krzywa popytu Q = 330 – PR2=0,485
Krzywa popytu Q = 478,6 – 1,63PR2=0,586
Regresja wieloraka
• Cena nie jest jedynym czynnikiem określającym wielkość sprzedaży
• Przypuśćmy, że mamy również dane o przeciętnej cenie biletów linii konkurencyjnej oraz o wysokości dochodu w danym regionie
• Należy wykorzystać te dane do oszacowania równania regresji wielorakiej o postaci
Q = a + bP +cPk + dY
DaneRok Kwartał
Przeciętna liczba sprzedanych biletów na
jeden lot
Przeciętna cena (w PLN)
Przeciętna cena
konkurenta
Przeciętny dochód
(wskaźnik)
Rok 1 Kw. I 64,8 250 250 104,0Kw. II 33,6 265 250 101,5Kw. III 37,8 265 240 103,0Kw. IV 83,3 240 240 105,0
Rok 2 Kw. I 111,7 230 240 100,0Kw. II 137,5 225 260 96,5Kw. III 109,5 225 250 93,3Kw. IV 96,8 220 240 95,0
Rok 3 Kw. I 59,5 230 240 97,0Kw. II 83,2 235 250 99,0Kw. III 90,5 245 250 102,5Kw. IV 105,5 240 240 105,0
Rok 4 Kw. I 75,7 250 220 108,5Kw. II 91,6 240 230 108,5Kw. III 112,7 240 250 108,0
Kw. IV 102,2 235 240 109,0
Obliczanie współczynników
• Tworzymy macierz X oraz wektor y1 250 250 104,01 265 250 101,51 265 240 103,01 240 240 105,01 230 240 100,01 225 260 96,51 225 250 93,31 220 240 95,01 230 240 97,01 235 250 99,01 245 250 102,51 240 240 105,01 250 220 108,51 240 230 108,51 240 250 108,01 235 240 109,0
64,833,637,883,3
111,7137,5109,5
96,859,583,290,5
105,575,791,6
112,7102,2
I otrzymujemy wektor współczynników regresji
28,843,0891,035-2,12
Q = 28,84 - 2,12P + 1,03Pk + 3,09Y
Rok KwartałSprzedaż
prognozowana (Q*)Sprzedaż
rzcezywista (Q)Q*-Q (Q*-Q)2
Rok 1 Kw. I 77,9 64,8 13,1 171,6Kw. II 38,3 33,6 4,7 22,3Kw. III 32,6 37,8 -5,2 26,9Kw. IV 91,9 83,3 8,6 73,6
Rok 2 Kw. I 97,7 111,7 -14,0 196,8Kw. II 118,2 137,5 -19,3 373,9Kw. III 97,9 109,5 -11,6 133,7Kw. IV 103,5 96,8 6,7 44,4
Rok 3 Kw. I 88,4 59,5 28,9 835,6Kw. II 94,3 83,2 11,1 123,4Kw. III 83,9 90,5 -6,6 43,8Kw. IV 91,9 105,5 -13,6 185,5
Rok 4 Kw. I 60,8 75,7 -14,9 222,8Kw. II 92,3 91,6 0,7 0,6Kw. III 111,5 112,7 -1,2 1,5Kw. IV 114,9 102,2 12,7 160,1
Suma kwadratów odchyleń 2616,4
R2 = (11706-2616,4)/11706 = 0,7764
Top Related