Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję...

82
Techniki Optymalizacji: Metody regresji Wojciech Kotlowski Instytut Informatyki Politechniki Poznańskiej email: imię[email protected] pok. 2 (CW) tel. (61)665-2936 konsultacje: piątek 15:10-16:40 Slajdy dostępne pod adresem: http://www.cs.put.poznan.pl/wkotlowski/to/ 6.11.2018 1 / 29

Transcript of Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję...

Page 1: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Techniki Optymalizacji:Metody regresji

Wojciech Kotłowski

Instytut Informatyki Politechniki Poznańskiejemail: imię[email protected]

pok. 2 (CW) tel. (61)665-2936 konsultacje: piątek 15:10-16:40Slajdy dostępne pod adresem: http://www.cs.put.poznan.pl/wkotlowski/to/

6.11.2018

1 / 29

Page 2: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Spis treści

1 Problem regresji

2 Metody regresji liniowej

3 Minimalizacja kwadratów błędów

4 Minimalizacja sumy wartości bezwzględnych błędów

5 Przykład: wycena domów

2 / 29

Page 3: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Spis treści

1 Problem regresji

2 Metody regresji liniowej

3 Minimalizacja kwadratów błędów

4 Minimalizacja sumy wartości bezwzględnych błędów

5 Przykład: wycena domów

3 / 29

Page 4: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Problem regresji

Przewidywania/wyjaśnienie zmian jednej zmiennej (Y ) podwpływem zmian innych zmiennych (X).

Powód: zmienne X zwykle łatwe do pozyskania, Y – trudnelub niemożliwe do pozyskania

Przykłady

X – ceny akcji w ostatnim tygodniu, Y – cena akcji jutro.

X – wyniki testów medycznych, Y – poziom zaawansowaniachoroby.

X – wielkość programu, Y – czas pisania programu.

X – warunki na drodze, czas, lokalizacja, Y – średniaprędkość samochodów.

X – cechy domu Y – cena domu.

4 / 29

Page 5: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Problem regresji

Przewidywania/wyjaśnienie zmian jednej zmiennej (Y ) podwpływem zmian innych zmiennych (X).

Powód: zmienne X zwykle łatwe do pozyskania, Y – trudnelub niemożliwe do pozyskania

Przykłady

X – ceny akcji w ostatnim tygodniu, Y – cena akcji jutro.

X – wyniki testów medycznych, Y – poziom zaawansowaniachoroby.

X – wielkość programu, Y – czas pisania programu.

X – warunki na drodze, czas, lokalizacja, Y – średniaprędkość samochodów.

X – cechy domu Y – cena domu.

4 / 29

Page 6: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Regresja liniowa

Modelujemy zmienną Y jako funkcję liniową X.dla jednej zmiennej:

Y = w1X + w0

dla wielu zmiennych:

Y = w1X1 + . . .+ wmXm + w0 = w>X + w0

Model liniowy jest ogólniejszy niż myślicie!Przykład: regresja wielomianowa to regresja liniowa!Mając X, wprowadzamy zmienne:X1 = X,X2 = X2, X3 = X3, . . .

Y = w1X+w2X2+. . .+w0 =⇒ Y = w1X1+w2X2+. . .+w0

5 / 29

Page 7: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Regresja liniowa

Modelujemy zmienną Y jako funkcję liniową X.dla jednej zmiennej:

Y = w1X + w0

dla wielu zmiennych:

Y = w1X1 + . . .+ wmXm + w0 = w>X + w0

Model liniowy jest ogólniejszy niż myślicie!Przykład: regresja wielomianowa to regresja liniowa!Mając X, wprowadzamy zmienne:X1 = X,X2 = X2, X3 = X3, . . .

Y = w1X+w2X2+. . .+w0 =⇒ Y = w1X1+w2X2+. . .+w0

5 / 29

Page 8: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Jak to się zwykle robi

Otrzymujemy zbiór danych historycznych, na którym znane sąwartości Y :

(x11, x12, . . . , x1m, y1) (x1, y1)

(x21, x22, . . . , x2m, y2) (x2, y2)

. . . lub w skrócie . . .

(xn1, xn2, . . . , xnm, yn) (xn, yn)

Testujemy nasz model na osobnym zbiorze testowym (równieżze znanymi wartościami Y )

6 / 29

Page 9: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Jak to się zwykle robi

Otrzymujemy zbiór danych historycznych, na którym znane sąwartości Y :

(x11, x12, . . . , x1m, y1) (x1, y1)

(x21, x22, . . . , x2m, y2) (x2, y2)

. . . lub w skrócie . . .

(xn1, xn2, . . . , xnm, yn) (xn, yn)

Wyznaczamy współczynniki w0, w1, . . . , wm na danych.

Testujemy nasz model na osobnym zbiorze testowym (równieżze znanymi wartościami Y )

6 / 29

Page 10: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Jak to się zwykle robi

Otrzymujemy zbiór danych historycznych, na którym znane sąwartości Y :

(x11, x12, . . . , x1m, y1) (x1, y1)

(x21, x22, . . . , x2m, y2) (x2, y2)

. . . lub w skrócie . . .

(xn1, xn2, . . . , xnm, yn) (xn, yn)

Wyznaczamy współczynniki w0, w1, . . . , wm na danych.

Testujemy nasz model na osobnym zbiorze testowym (równieżze znanymi wartościami Y )

6 / 29

Page 11: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Jak to się zwykle robi

Otrzymujemy zbiór danych historycznych, na którym znane sąwartości Y :

(x11, x12, . . . , x1m, y1) (x1, y1)

(x21, x22, . . . , x2m, y2) (x2, y2)

. . . lub w skrócie . . .

(xn1, xn2, . . . , xnm, yn) (xn, yn)

Wyznaczamy współczynniki w0, w1, . . . , wm na danych.

Testujemy nasz model na osobnym zbiorze testowym (równieżze znanymi wartościami Y )

6 / 29

Page 12: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Przykład: szacowanie czasu pracy programistów

X Y

Rozmiar programu Oszacowany czas

186 130

699 650

132 99

272 150

291 128

331 302

199 95

1890 945

788 368

1601 961

7 / 29

Page 13: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Przykład: szacowanie czasu pracy programistów

X Y

Rozmiar programu Oszacowany czas

x1 = 186 y1 = 130

x2 = 699 y2 = 650

x3 = 132 y3 = 99

x4 = 272 y4 = 150

x5 = 291 y5 = 128

x6 = 331 y6 = 302

x7 = 199 y7 = 95

x8 = 1890 y8 = 945

x9 = 788 y9 = 368

x10 = 1601 y10 = 961

7 / 29

Page 14: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Przykład: szacowanie czasu pracy programistów

X Y

Rozmiar programu Oszacowany czas

x1 = 186 y1 = 130

x2 = 699 y2 = 650

x3 = 132 y3 = 99

x4 = 272 y4 = 150

x5 = 291 y5 = 128

x6 = 331 y6 = 302

x7 = 199 y7 = 95

x8 = 1890 y8 = 945

x9 = 788 y9 = 368

x10 = 1601 y10 = 961

500 1000 150020

040

060

080

0rozmiar programu [linie kodu]

czas

[h]

7 / 29

Page 15: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Przykład: szacowanie czasu pracy programistów

X Y

Rozmiar programu Oszacowany czas

x1 = 186 y1 = 130

x2 = 699 y2 = 650

x3 = 132 y3 = 99

x4 = 272 y4 = 150

x5 = 291 y5 = 128

x6 = 331 y6 = 302

x7 = 199 y7 = 95

x8 = 1890 y8 = 945

x9 = 788 y9 = 368

x10 = 1601 y10 = 961

500 1000 150020

040

060

080

0rozmiar programu [linie kodu]

czas

[h]

w0 = 45.93, w1 = 0.5273

7 / 29

Page 16: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Spis treści

1 Problem regresji

2 Metody regresji liniowej

3 Minimalizacja kwadratów błędów

4 Minimalizacja sumy wartości bezwzględnych błędów

5 Przykład: wycena domów

8 / 29

Page 17: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Jak wyznaczyć współczynniki?

Problem optymalizacji

Mając zbiór danych (x1, y1), . . . , (xn, yn), wyznacz współczynnikiw0, w1, . . . , wm tak, aby wartości przewidywane przez model:

yi = w1xi1 + . . .+ wmxim + w0 = w>xi + w0

na wszystkich danych (i = 1, . . . , n) były jak najbliżej prawdziwychwartości yi.

Uwaga: zwykle dodajemy jeszcze jedną zmienną wejściową X0

stale równą 1 i chowamy współczynnik w0 do wektora w,otrzymując:

yi = w0xi0 + w1xi1 + . . .+ wmxim = w>xi

9 / 29

Page 18: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Jak wyznaczyć współczynniki?

Problem optymalizacji

Mając zbiór danych (x1, y1), . . . , (xn, yn), wyznacz współczynnikiw0, w1, . . . , wm tak, aby wartości przewidywane przez model:

yi = w1xi1 + . . .+ wmxim + w0 = w>xi + w0

na wszystkich danych (i = 1, . . . , n) były jak najbliżej prawdziwychwartości yi.

Uwaga: zwykle dodajemy jeszcze jedną zmienną wejściową X0

stale równą 1 i chowamy współczynnik w0 do wektora w,otrzymując:

yi = w0xi0 + w1xi1 + . . .+ wmxim = w>xi

9 / 29

Page 19: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odchylenia (błędy) na danych

●●

●●

80 100 120 140 160 180 200

200

250

300

350

area size [sq.m]

pric

e [1

000E

UR

]

Elements of Statistical Learning (2nd Ed.) c©Hastie, Tibshirani & Friedman 2009 Chap 3

•• •

••

• ••

• •

••

••

••

••

••

•• ••

• ••

•• •

••

• ••

• •

••

• •••

X1

X2

Y

FIGURE 3.1. Linear least squares fitting withX ∈ IR2. We seek the linear function of X that mini-mizes the sum of squared residuals from Y .

Źródło: Hastie, Tibshirani, Friedman, Elements ofstatistical learning.

Odchylenie (błąd) na danym xi to różnica między prawdziwąwartością yi, a wartością przewidywaną przez model yi (punktna prostej):

δi = yi − yi = yi −w>xi

Jak zmierzyć sumaryczny błąd?

10 / 29

Page 20: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odchylenia (błędy) na danych

●●

●●

80 100 120 140 160 180 200

200

250

300

350

area size [sq.m]

pric

e [1

000E

UR

]

Elements of Statistical Learning (2nd Ed.) c©Hastie, Tibshirani & Friedman 2009 Chap 3

•• •

••

• ••

• •

••

••

••

••

••

•• ••

• ••

•• •

••

• ••

• •

••

• •••

X1

X2

Y

FIGURE 3.1. Linear least squares fitting withX ∈ IR2. We seek the linear function of X that mini-mizes the sum of squared residuals from Y .

Źródło: Hastie, Tibshirani, Friedman, Elements ofstatistical learning.

Odchylenie (błąd) na danym xi to różnica między prawdziwąwartością yi, a wartością przewidywaną przez model yi (punktna prostej):

δi = yi − yi = yi −w>xi

Jak zmierzyć sumaryczny błąd?

10 / 29

Page 21: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odchylenia (błędy) na danych

●●

●●

80 100 120 140 160 180 200

200

250

300

350

area size [sq.m]

pric

e [1

000E

UR

]

Elements of Statistical Learning (2nd Ed.) c©Hastie, Tibshirani & Friedman 2009 Chap 3

•• •

••

• ••

• •

••

••

••

••

••

•• ••

• ••

•• •

••

• ••

• •

••

• •••

X1

X2

Y

FIGURE 3.1. Linear least squares fitting withX ∈ IR2. We seek the linear function of X that mini-mizes the sum of squared residuals from Y .

Źródło: Hastie, Tibshirani, Friedman, Elements ofstatistical learning.

Odchylenie (błąd) na danym xi to różnica między prawdziwąwartością yi, a wartością przewidywaną przez model yi (punktna prostej):

δi = yi − yi = yi −w>xi

Jak zmierzyć sumaryczny błąd?10 / 29

Page 22: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Trzy kryteria

Minimalizacja sumy kwadratów błędów/odchyleń(least squares – LS)

min : z =n∑

i=1

δ2i =n∑

i=1

(yi − yi)2

Minimalizacja sumy wartości bezwzględnych błędów/odchyleń(least absolute deviations – LAD)

min : z =n∑

i=1

|δi| =n∑

i=1

|yi − yi|

Minimalizacja największego z błędów(minimax – MM)

min : z = maxi=1,...,n

|δi| = maxi=1,...,n

|yi − yi|

11 / 29

Page 23: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Trzy kryteria

Minimalizacja sumy kwadratów błędów/odchyleń(least squares – LS)

min : z =

n∑i=1

δ2i =

n∑i=1

(yi − yi)2

Minimalizacja sumy wartości bezwzględnych błędów/odchyleń(least absolute deviations – LAD)

min : z =n∑

i=1

|δi| =n∑

i=1

|yi − yi|

Minimalizacja największego z błędów(minimax – MM)

min : z = maxi=1,...,n

|δi| = maxi=1,...,n

|yi − yi|

11 / 29

Page 24: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Trzy kryteria

Minimalizacja sumy kwadratów błędów/odchyleń(least squares – LS)

min : z =

n∑i=1

δ2i =

n∑i=1

(yi − yi)2

Minimalizacja sumy wartości bezwzględnych błędów/odchyleń(least absolute deviations – LAD)

min : z =

n∑i=1

|δi| =n∑

i=1

|yi − yi|

Minimalizacja największego z błędów(minimax – MM)

min : z = maxi=1,...,n

|δi| = maxi=1,...,n

|yi − yi|

11 / 29

Page 25: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Trzy kryteria

Minimalizacja sumy kwadratów błędów/odchyleń(least squares – LS)

min : z =

n∑i=1

δ2i =

n∑i=1

(yi − yi)2

Minimalizacja sumy wartości bezwzględnych błędów/odchyleń(least absolute deviations – LAD)

min : z =

n∑i=1

|δi| =n∑

i=1

|yi − yi|

Minimalizacja największego z błędów(minimax – MM)

min : z = maxi=1,...,n

|δi| = maxi=1,...,n

|yi − yi|

11 / 29

Page 26: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Zalety i wady

LS LAD MM

optymalizacja analityczny wzór progr. liniowe progr. liniowe

stabilność rozwiązania stabilne niestabilne niestabilne

wartości odstające nieodporna odporna bardzo nieodporna

Zwykle wybór między LS a LAD.

MM nie nadaje się do stosowania w regresji! (pozawyjatkowymi przypadkami).

12 / 29

Page 27: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

minw0

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

Page 28: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

minw0

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

Page 29: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

minw0

{99 · (w0 − 1)2 + (w0 − 1000)2

}

=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

Page 30: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

minw0

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

Page 31: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

minw0

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}

=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

Page 32: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

minw0

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

Page 33: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

minw0

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}

=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

Page 34: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

minw0

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

Page 35: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

minw0

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

Page 36: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Spis treści

1 Problem regresji

2 Metody regresji liniowej

3 Minimalizacja kwadratów błędów

4 Minimalizacja sumy wartości bezwzględnych błędów

5 Przykład: wycena domów

14 / 29

Page 37: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

„Metoda najmniejszych kwadratów”

minw

: L(w) =

n∑i=1

(yi −w>xi)2

Funkcja wypukła, kwadratowa.

Rozwiązanie poprzez przyrównanie pochodnych po wszystkichwj do 0:

wLS =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

),

15 / 29

Page 38: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

„Metoda najmniejszych kwadratów”

minw

: L(w) =

n∑i=1

(yi −w>xi)2

Funkcja wypukła, kwadratowa.

Rozwiązanie poprzez przyrównanie pochodnych po wszystkichwj do 0:

wLS =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

),

15 / 29

Page 39: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

„Metoda najmniejszych kwadratów”

minw

: L(w) =

n∑i=1

(yi −w>xi)2

Funkcja wypukła, kwadratowa.

Rozwiązanie poprzez przyrównanie pochodnych po wszystkichwj do 0:

wLS =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

),

15 / 29

Page 40: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Metoda najmniejszych kwadratów

Funkcja celu:

L(w) =n∑

i=1

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Przyrównanie do zera:n∑

i=1

−2(yi−w>xi)xij = 0 =⇒n∑

i=1

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

i=1

yixi =

( n∑i=1

xix>i

)w =⇒ w =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

).

16 / 29

Page 41: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Metoda najmniejszych kwadratów

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Przyrównanie do zera:n∑

i=1

−2(yi−w>xi)xij = 0 =⇒n∑

i=1

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

i=1

yixi =

( n∑i=1

xix>i

)w =⇒ w =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

).

16 / 29

Page 42: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Metoda najmniejszych kwadratów

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Przyrównanie do zera:n∑

i=1

−2(yi−w>xi)xij = 0 =⇒n∑

i=1

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

i=1

yixi =

( n∑i=1

xix>i

)w =⇒ w =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

).

16 / 29

Page 43: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Metoda najmniejszych kwadratów

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Przyrównanie do zera:n∑

i=1

−2(yi−w>xi)xij = 0 =⇒n∑

i=1

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

i=1

yixi =

( n∑i=1

xix>i

)w =⇒ w =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

).

16 / 29

Page 44: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Metoda najmniejszych kwadratów

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Przyrównanie do zera:n∑

i=1

−2(yi−w>xi)xij = 0 =⇒n∑

i=1

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

i=1

yixi =

( n∑i=1

xix>i

)w =⇒ w =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

).

16 / 29

Page 45: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Drugie pochodne: ∂2L(w)

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Page 46: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Drugie pochodne: ∂2L(w)

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Page 47: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Drugie pochodne: ∂2L(w)

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Page 48: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Drugie pochodne: ∂2L(w)

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Page 49: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Drugie pochodne: ∂2L(w)

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Page 50: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Drugie pochodne: ∂2L(w)

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Page 51: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

Rozwiązanie początkowe: w0 = 0.

∇L(w0) = −2n∑

i=1

yixi, HL(w0) =

n∑i=1

2xix>i

Krok metodą Newtona-Rapshona:

w1 = w0 −H−1L (w0)∇L(w0) =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

)

Newton-Rapshon rozwiązuje MNK w jednym roku!

18 / 29

Page 52: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

Rozwiązanie początkowe: w0 = 0.

∇L(w0) = −2n∑

i=1

yixi, HL(w0) =

n∑i=1

2xix>i

Krok metodą Newtona-Rapshona:

w1 = w0 −H−1L (w0)∇L(w0) =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

)

Newton-Rapshon rozwiązuje MNK w jednym roku!

18 / 29

Page 53: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

Rozwiązanie początkowe: w0 = 0.

∇L(w0) = −2n∑

i=1

yixi, HL(w0) =

n∑i=1

2xix>i

Krok metodą Newtona-Rapshona:

w1 = w0 −H−1L (w0)∇L(w0)

=

( n∑i=1

xix>i

)−1( n∑i=1

yixi

)

Newton-Rapshon rozwiązuje MNK w jednym roku!

18 / 29

Page 54: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

Rozwiązanie początkowe: w0 = 0.

∇L(w0) = −2n∑

i=1

yixi, HL(w0) =

n∑i=1

2xix>i

Krok metodą Newtona-Rapshona:

w1 = w0 −H−1L (w0)∇L(w0) =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

)

Newton-Rapshon rozwiązuje MNK w jednym roku!

18 / 29

Page 55: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

MNK jako metoda Newtona-Raphsona

Gradient: ∇L(w) = −2n∑

i=1

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

Rozwiązanie początkowe: w0 = 0.

∇L(w0) = −2n∑

i=1

yixi, HL(w0) =

n∑i=1

2xix>i

Krok metodą Newtona-Rapshona:

w1 = w0 −H−1L (w0)∇L(w0) =

( n∑i=1

xix>i

)−1( n∑i=1

yixi

)

Newton-Rapshon rozwiązuje MNK w jednym roku!18 / 29

Page 56: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Metoda Levenberga-Marquada

Co jeśli hesjan HL jest osobliwy (nieodwracalny)?

Dodajemy do hesjanu macierz jednostkową I przemnożonąprzez (małą) stałą λ:

w =

n∑i=1

xix>i + λI

−1 n∑i=1

yixi

.

Czy istnieje modyfikacja problemu regresji, którerozwiązaniem jest jeden krok Levenberga-Marquada?=⇒ Regresja grzbietowa.

19 / 29

Page 57: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Metoda Levenberga-Marquada

Co jeśli hesjan HL jest osobliwy (nieodwracalny)?

Dodajemy do hesjanu macierz jednostkową I przemnożonąprzez (małą) stałą λ:

w =

n∑i=1

xix>i + λI

−1 n∑i=1

yixi

.

Czy istnieje modyfikacja problemu regresji, którerozwiązaniem jest jeden krok Levenberga-Marquada?=⇒ Regresja grzbietowa.

19 / 29

Page 58: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Metoda Levenberga-Marquada

Co jeśli hesjan HL jest osobliwy (nieodwracalny)?

Dodajemy do hesjanu macierz jednostkową I przemnożonąprzez (małą) stałą λ:

w =

n∑i=1

xix>i + λI

−1 n∑i=1

yixi

.

Czy istnieje modyfikacja problemu regresji, którerozwiązaniem jest jeden krok Levenberga-Marquada?

=⇒ Regresja grzbietowa.

19 / 29

Page 59: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Metoda Levenberga-Marquada

Co jeśli hesjan HL jest osobliwy (nieodwracalny)?

Dodajemy do hesjanu macierz jednostkową I przemnożonąprzez (małą) stałą λ:

w =

n∑i=1

xix>i + λI

−1 n∑i=1

yixi

.

Czy istnieje modyfikacja problemu regresji, którerozwiązaniem jest jeden krok Levenberga-Marquada?=⇒ Regresja grzbietowa.

19 / 29

Page 60: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Regresja grzbietowa

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2 + λ‖w‖2.

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij + 2λwj

Przyrównanie pochodnych do zera daje:n∑

i=1

yixij =n∑

i=1

m∑k=1

wkxikxij + λwj

Wektorowo:n∑

i=1

yixi =

( n∑i=1

xix>i

)w + λw =

( n∑i=1

xix>i + λI

)w

=⇒ w =

( n∑i=1

xix>i + λI

)−1( n∑i=1

yixi

).

20 / 29

Page 61: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Regresja grzbietowa

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2 + λ‖w‖2.

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij + 2λwj

Przyrównanie pochodnych do zera daje:n∑

i=1

yixij =n∑

i=1

m∑k=1

wkxikxij + λwj

Wektorowo:n∑

i=1

yixi =

( n∑i=1

xix>i

)w + λw =

( n∑i=1

xix>i + λI

)w

=⇒ w =

( n∑i=1

xix>i + λI

)−1( n∑i=1

yixi

).

20 / 29

Page 62: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Regresja grzbietowa

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2 + λ‖w‖2.

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij + 2λwj

Przyrównanie pochodnych do zera daje:n∑

i=1

yixij =n∑

i=1

m∑k=1

wkxikxij + λwj

Wektorowo:n∑

i=1

yixi =

( n∑i=1

xix>i

)w + λw =

( n∑i=1

xix>i + λI

)w

=⇒ w =

( n∑i=1

xix>i + λI

)−1( n∑i=1

yixi

).

20 / 29

Page 63: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Regresja grzbietowa

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2 + λ‖w‖2.

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij + 2λwj

Przyrównanie pochodnych do zera daje:n∑

i=1

yixij =n∑

i=1

m∑k=1

wkxikxij + λwj

Wektorowo:n∑

i=1

yixi =

( n∑i=1

xix>i

)w + λw =

( n∑i=1

xix>i + λI

)w

=⇒ w =

( n∑i=1

xix>i + λI

)−1( n∑i=1

yixi

).

20 / 29

Page 64: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Spis treści

1 Problem regresji

2 Metody regresji liniowej

3 Minimalizacja kwadratów błędów

4 Minimalizacja sumy wartości bezwzględnych błędów

5 Przykład: wycena domów

21 / 29

Page 65: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

Minimalizacja sumy wartości bezwzględnych błędów (LAD):

minw

: L(w) =

n∑i=1

|yi −w>xi|.

Sprowadzamy do problemu programowania liniowego:Dla każdego i = 1, . . . , n wprowadzamy dwie zmienneσ+i , σ

−i ≥ 0 takie, że

yi −w>xi = σ+i − σ−i .

Zauważmy, że wtedy:|yi −w>xi| ≤ σ+i + σ−i ,

czyli

L(w) ≤n∑

i=1

σ+i + σ−i ,

i równość zachodzi dokładnie gdy dla każdego i = 1, . . . , n,jedno z σ+i , σ

−i jest równe 0.

22 / 29

Page 66: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

Minimalizacja sumy wartości bezwzględnych błędów (LAD):

minw

: L(w) =

n∑i=1

|yi −w>xi|.

Sprowadzamy do problemu programowania liniowego:Dla każdego i = 1, . . . , n wprowadzamy dwie zmienneσ+i , σ

−i ≥ 0 takie, że

yi −w>xi = σ+i − σ−i .

Zauważmy, że wtedy:|yi −w>xi| ≤ σ+i + σ−i ,

czyli

L(w) ≤n∑

i=1

σ+i + σ−i ,

i równość zachodzi dokładnie gdy dla każdego i = 1, . . . , n,jedno z σ+i , σ

−i jest równe 0.

22 / 29

Page 67: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

Minimalizacja sumy wartości bezwzględnych błędów (LAD):

minw

: L(w) =

n∑i=1

|yi −w>xi|.

Sprowadzamy do problemu programowania liniowego:Dla każdego i = 1, . . . , n wprowadzamy dwie zmienneσ+i , σ

−i ≥ 0 takie, że

yi −w>xi = σ+i − σ−i .

Zauważmy, że wtedy:|yi −w>xi| ≤ σ+i + σ−i ,

czyli

L(w) ≤n∑

i=1

σ+i + σ−i ,

i równość zachodzi dokładnie gdy dla każdego i = 1, . . . , n,jedno z σ+i , σ

−i jest równe 0.

22 / 29

Page 68: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

Minimalizacja sumy wartości bezwzględnych błędów (LAD):

minw

: L(w) =

n∑i=1

|yi −w>xi|.

Sprowadzamy do problemu programowania liniowego:Dla każdego i = 1, . . . , n wprowadzamy dwie zmienneσ+i , σ

−i ≥ 0 takie, że

yi −w>xi = σ+i − σ−i .

Zauważmy, że wtedy:|yi −w>xi| ≤ σ+i + σ−i ,

czyli

L(w) ≤n∑

i=1

σ+i + σ−i ,

i równość zachodzi dokładnie gdy dla każdego i = 1, . . . , n,jedno z σ+i , σ

−i jest równe 0.

22 / 29

Page 69: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

Minimalizacja sumy wartości bezwzględnych błędów (LAD):

minw

: L(w) =

n∑i=1

|yi −w>xi|.

Sprowadzamy do problemu programowania liniowego:Dla każdego i = 1, . . . , n wprowadzamy dwie zmienneσ+i , σ

−i ≥ 0 takie, że

yi −w>xi = σ+i − σ−i .

Zauważmy, że wtedy:|yi −w>xi| ≤ σ+i + σ−i ,

czyli

L(w) ≤n∑

i=1

σ+i + σ−i ,

i równość zachodzi dokładnie gdy dla każdego i = 1, . . . , n,jedno z σ+i , σ

−i jest równe 0.

22 / 29

Page 70: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

Rozwiązujemy problem:

min L′(w,σ+,σ−) =

n∑i=1

σ+i + σ−i

p.o. yi −w>xi = σ+i − σ−i i = 1, . . . , n

σ+i , σ−i ≥ 0 i = 1, . . . , n.

Minimalizujemy górne ograniczenie funkcji L(w).Wiemy, że w optimum dokładnie jedno z σ+i , σ

−i jest równe 0.

Dowód: jeśli oba σ+i , σ−i > 0, to możemy oba zmniejszyć o δ,

zachowując ograniczenia, a zmniejszając funkcję celu o 2δ –sprzeczność!Wniosek: W optimum

L′(w,σ+,σ−) = L(w),

więc rozwiązaliśmy problem LAD.

23 / 29

Page 71: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

Rozwiązujemy problem:

min L′(w,σ+,σ−) =

n∑i=1

σ+i + σ−i

p.o. yi −w>xi = σ+i − σ−i i = 1, . . . , n

σ+i , σ−i ≥ 0 i = 1, . . . , n.

Minimalizujemy górne ograniczenie funkcji L(w).Wiemy, że w optimum dokładnie jedno z σ+i , σ

−i jest równe 0.

Dowód: jeśli oba σ+i , σ−i > 0, to możemy oba zmniejszyć o δ,

zachowując ograniczenia, a zmniejszając funkcję celu o 2δ –sprzeczność!Wniosek: W optimum

L′(w,σ+,σ−) = L(w),

więc rozwiązaliśmy problem LAD.

23 / 29

Page 72: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

Rozwiązujemy problem:

min L′(w,σ+,σ−) =

n∑i=1

σ+i + σ−i

p.o. yi −w>xi = σ+i − σ−i i = 1, . . . , n

σ+i , σ−i ≥ 0 i = 1, . . . , n.

Minimalizujemy górne ograniczenie funkcji L(w).Wiemy, że w optimum dokładnie jedno z σ+i , σ

−i jest równe 0.

Dowód: jeśli oba σ+i , σ−i > 0, to możemy oba zmniejszyć o δ,

zachowując ograniczenia, a zmniejszając funkcję celu o 2δ –sprzeczność!

Wniosek: W optimumL′(w,σ+,σ−) = L(w),

więc rozwiązaliśmy problem LAD.

23 / 29

Page 73: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Optymalizacja

Rozwiązujemy problem:

min L′(w,σ+,σ−) =

n∑i=1

σ+i + σ−i

p.o. yi −w>xi = σ+i − σ−i i = 1, . . . , n

σ+i , σ−i ≥ 0 i = 1, . . . , n.

Minimalizujemy górne ograniczenie funkcji L(w).Wiemy, że w optimum dokładnie jedno z σ+i , σ

−i jest równe 0.

Dowód: jeśli oba σ+i , σ−i > 0, to możemy oba zmniejszyć o δ,

zachowując ograniczenia, a zmniejszając funkcję celu o 2δ –sprzeczność!Wniosek: W optimum

L′(w,σ+,σ−) = L(w),

więc rozwiązaliśmy problem LAD.23 / 29

Page 74: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Spis treści

1 Problem regresji

2 Metody regresji liniowej

3 Minimalizacja kwadratów błędów

4 Minimalizacja sumy wartości bezwzględnych błędów

5 Przykład: wycena domów

24 / 29

Page 75: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Wycena domów

Den Bosch (’s-Hertogenbosch), Holandia

119 domów.

X Y

living area sale price

x1 385 788

x2 156 449

x3 90 169

x4 86 269

x5 73 225

x6 125 298

. . . . . .

● ●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

200 400 600 800

200

400

600

800

1000

area size [sq.m]

pric

e [1

000E

UR

]

25 / 29

Page 76: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Wycena domów

119 domów, opisanych 9 cechami wejściowymi (X) i 1wyjściową (Y ).

DISTR type of district, four categories ranked from bad (1) to good (4)AREA total area including gardenBEDR number of bedroomsTYPE apartment (1), row house (2), corner house (3),

semidetached (4), detached (5), villa (6)VOL volume of the houseSTOR number of storeysGARD type of garden, four categories ranked from bad to goodGARG no garage (1), normal garage (2), large garage (3)YEAR build yearPRICE selling price

26 / 29

Page 77: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Wycena domów

Zbiór danych:

X1 X2 X3 X4 X5 X6 X7 X8 X9 Y

DISTR AREA BEDR TYPE VOL STOR GARD GARG YEAR PRICE

x1 4 385 5 6 775 3 3 3 1934 788

x2 3 156 2 1 350 1 1 1 1996 449

x3 4 90 3 1 200 1 1 1 1950 169

x4 3 86 3 2 410 3 2 1 1966 269

x5 1 73 3 2 330 3 3 1 1950 225

x6 3 125 2 1 300 2 1 2 1950 298

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27 / 29

Page 78: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Ilustracyjny przykład

Weźmy tylko jedną zmienną X = X2 (AREA) dla zilustrowaniawyników na płaszczyźnie.

Wykres Y =PRICE w funkcji X =AREA:

●●

● ●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

200 400 600 800

200

400

600

800

1000

area size [sq.m.]

pric

e [1

000E

UR

]

28 / 29

Page 79: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Ilustracyjny przykład

Weźmy tylko jedną zmienną X = X2 (AREA) dla zilustrowaniawyników na płaszczyźnie.

Metoda najmniejszych kwadratów (LS):

●●

● ●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

200 400 600 800

200

400

600

800

1000

area size [sq.m.]

pric

e [1

000E

UR

]

28 / 29

Page 80: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Ilustracyjny przykład

Weźmy tylko jedną zmienną X = X2 (AREA) dla zilustrowaniawyników na płaszczyźnie.

Minimalizacja sumy wartości bewzględnych (LAD):

●●

● ●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

200 400 600 800

200

400

600

800

1000

area size [sq.m.]

pric

e [1

000E

UR

]

28 / 29

Page 81: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Ilustracyjny przykład

Weźmy tylko jedną zmienną X = X2 (AREA) dla zilustrowaniawyników na płaszczyźnie.

Minimalizacja największego błędu (MM):

●●

● ●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

200 400 600 800

200

400

600

800

1000

area size [sq.m.]

pric

e [1

000E

UR

]

28 / 29

Page 82: Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję liniową X. dla jednej zmiennej: Y^ = w 1X+w 0 ... optymalizacja analityczny wzór

Koniec na dzisiaj :)

29 / 29