Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję...

Techniki Optymalizacji:Metody regresji

Wojciech Kotłowski

Instytut Informatyki Politechniki Poznańskiejemail: imię.nazwisko@cs.put.poznan.pl

pok. 2 (CW) tel. (61)665-2936 konsultacje: piątek 15:10-16:40Slajdy dostępne pod adresem: http://www.cs.put.poznan.pl/wkotlowski/to/

6.11.2018

1 / 29

Spis treści

1 Problem regresji

2 Metody regresji liniowej

3 Minimalizacja kwadratów błędów

4 Minimalizacja sumy wartości bezwzględnych błędów

5 Przykład: wycena domów

2 / 29

Spis treści

1 Problem regresji

3 / 29

Problem regresji

Przewidywania/wyjaśnienie zmian jednej zmiennej (Y ) podwpływem zmian innych zmiennych (X).

Powód: zmienne X zwykle łatwe do pozyskania, Y – trudnelub niemożliwe do pozyskania

Przykłady

X – ceny akcji w ostatnim tygodniu, Y – cena akcji jutro.

X – wyniki testów medycznych, Y – poziom zaawansowaniachoroby.

X – wielkość programu, Y – czas pisania programu.

X – warunki na drodze, czas, lokalizacja, Y – średniaprędkość samochodów.

X – cechy domu Y – cena domu.

4 / 29

Problem regresji

Przewidywania/wyjaśnienie zmian jednej zmiennej (Y ) podwpływem zmian innych zmiennych (X).

Powód: zmienne X zwykle łatwe do pozyskania, Y – trudnelub niemożliwe do pozyskania

Przykłady

X – ceny akcji w ostatnim tygodniu, Y – cena akcji jutro.

X – wyniki testów medycznych, Y – poziom zaawansowaniachoroby.

X – wielkość programu, Y – czas pisania programu.

X – warunki na drodze, czas, lokalizacja, Y – średniaprędkość samochodów.

X – cechy domu Y – cena domu.

4 / 29

Regresja liniowa

Modelujemy zmienną Y jako funkcję liniową X.dla jednej zmiennej:

Y = w1X + w0

dla wielu zmiennych:

Y = w1X1 + . . .+ wmXm + w0 = w>X + w0

Model liniowy jest ogólniejszy niż myślicie!Przykład: regresja wielomianowa to regresja liniowa!Mając X, wprowadzamy zmienne:X1 = X,X2 = X2, X3 = X3, . . .

Y = w1X+w2X2+. . .+w0 =⇒ Y = w1X1+w2X2+. . .+w0

5 / 29

Regresja liniowa

Modelujemy zmienną Y jako funkcję liniową X.dla jednej zmiennej:

Y = w1X + w0

dla wielu zmiennych:

Y = w1X1 + . . .+ wmXm + w0 = w>X + w0

Model liniowy jest ogólniejszy niż myślicie!Przykład: regresja wielomianowa to regresja liniowa!Mając X, wprowadzamy zmienne:X1 = X,X2 = X2, X3 = X3, . . .

Y = w1X+w2X2+. . .+w0 =⇒ Y = w1X1+w2X2+. . .+w0

5 / 29

Jak to się zwykle robi

Otrzymujemy zbiór danych historycznych, na którym znane sąwartości Y :

(x11, x12, . . . , x1m, y1) (x1, y1)

(x21, x22, . . . , x2m, y2) (x2, y2)

. . . lub w skrócie . . .

(xn1, xn2, . . . , xnm, yn) (xn, yn)

Testujemy nasz model na osobnym zbiorze testowym (równieżze znanymi wartościami Y )

6 / 29

(x11, x12, . . . , x1m, y1) (x1, y1)

(x21, x22, . . . , x2m, y2) (x2, y2)

(xn1, xn2, . . . , xnm, yn) (xn, yn)

Wyznaczamy współczynniki w0, w1, . . . , wm na danych.

6 / 29

(x11, x12, . . . , x1m, y1) (x1, y1)

(x21, x22, . . . , x2m, y2) (x2, y2)

(xn1, xn2, . . . , xnm, yn) (xn, yn)

6 / 29

(x11, x12, . . . , x1m, y1) (x1, y1)

(x21, x22, . . . , x2m, y2) (x2, y2)

(xn1, xn2, . . . , xnm, yn) (xn, yn)

6 / 29

Przykład: szacowanie czasu pracy programistów

Rozmiar programu Oszacowany czas

186 130

699 650

132 99

272 150

291 128

331 302

199 95

1890 945

788 368

1601 961

7 / 29

x1 = 186 y1 = 130

x2 = 699 y2 = 650

x3 = 132 y3 = 99

x4 = 272 y4 = 150

x5 = 291 y5 = 128

x6 = 331 y6 = 302

x7 = 199 y7 = 95

x8 = 1890 y8 = 945

x9 = 788 y9 = 368

x10 = 1601 y10 = 961

7 / 29

x1 = 186 y1 = 130

x2 = 699 y2 = 650

x3 = 132 y3 = 99

x4 = 272 y4 = 150

x5 = 291 y5 = 128

x6 = 331 y6 = 302

x7 = 199 y7 = 95

x8 = 1890 y8 = 945

x9 = 788 y9 = 368

x10 = 1601 y10 = 961

500 1000 150020

0rozmiar programu [linie kodu]

7 / 29

x1 = 186 y1 = 130

x2 = 699 y2 = 650

x3 = 132 y3 = 99

x4 = 272 y4 = 150

x5 = 291 y5 = 128

x6 = 331 y6 = 302

x7 = 199 y7 = 95

x8 = 1890 y8 = 945

x9 = 788 y9 = 368

x10 = 1601 y10 = 961

500 1000 150020

0rozmiar programu [linie kodu]

w0 = 45.93, w1 = 0.5273

7 / 29

Spis treści

1 Problem regresji

8 / 29

Jak wyznaczyć współczynniki?

Problem optymalizacji

Mając zbiór danych (x1, y1), . . . , (xn, yn), wyznacz współczynnikiw0, w1, . . . , wm tak, aby wartości przewidywane przez model:

yi = w1xi1 + . . .+ wmxim + w0 = w>xi + w0

na wszystkich danych (i = 1, . . . , n) były jak najbliżej prawdziwychwartości yi.

Uwaga: zwykle dodajemy jeszcze jedną zmienną wejściową X0

stale równą 1 i chowamy współczynnik w0 do wektora w,otrzymując:

yi = w0xi0 + w1xi1 + . . .+ wmxim = w>xi

9 / 29

Jak wyznaczyć współczynniki?

Problem optymalizacji

Mając zbiór danych (x1, y1), . . . , (xn, yn), wyznacz współczynnikiw0, w1, . . . , wm tak, aby wartości przewidywane przez model:

yi = w1xi1 + . . .+ wmxim + w0 = w>xi + w0

na wszystkich danych (i = 1, . . . , n) były jak najbliżej prawdziwychwartości yi.

Uwaga: zwykle dodajemy jeszcze jedną zmienną wejściową X0

stale równą 1 i chowamy współczynnik w0 do wektora w,otrzymując:

yi = w0xi0 + w1xi1 + . . .+ wmxim = w>xi

9 / 29

Odchylenia (błędy) na danych

●●

80 100 120 140 160 180 200

area size [sq.m]

Elements of Statistical Learning (2nd Ed.) c©Hastie, Tibshirani & Friedman 2009 Chap 3

•• •

••

• ••

• •

••

•• ••

• ••

•• •

••

• ••

• •

••

• •••

FIGURE 3.1. Linear least squares fitting withX ∈ IR2. We seek the linear function of X that mini-mizes the sum of squared residuals from Y .

Źródło: Hastie, Tibshirani, Friedman, Elements ofstatistical learning.

Odchylenie (błąd) na danym xi to różnica między prawdziwąwartością yi, a wartością przewidywaną przez model yi (punktna prostej):

δi = yi − yi = yi −w>xi

Jak zmierzyć sumaryczny błąd?

10 / 29

●●

80 100 120 140 160 180 200

area size [sq.m]

•• •

••

• ••

• •

••

•• ••

• ••

•• •

••

• ••

• •

••

• •••

Jak zmierzyć sumaryczny błąd?

10 / 29

●●

80 100 120 140 160 180 200

area size [sq.m]

•• •

••

• ••

• •

••

•• ••

• ••

•• •

••

• ••

• •

••

• •••

Jak zmierzyć sumaryczny błąd?10 / 29

Trzy kryteria

Minimalizacja sumy kwadratów błędów/odchyleń(least squares – LS)

min : z =n∑

δ2i =n∑

(yi − yi)2

Minimalizacja sumy wartości bezwzględnych błędów/odchyleń(least absolute deviations – LAD)

min : z =n∑

|δi| =n∑

|yi − yi|

Minimalizacja największego z błędów(minimax – MM)

min : z = maxi=1,...,n

|δi| = maxi=1,...,n

|yi − yi|

11 / 29

Trzy kryteria

min : z =

n∑i=1

δ2i =

n∑i=1

(yi − yi)2

min : z =n∑

|δi| =n∑

|yi − yi|

|δi| = maxi=1,...,n

|yi − yi|

11 / 29

Trzy kryteria

min : z =

n∑i=1

δ2i =

n∑i=1

(yi − yi)2

min : z =

n∑i=1

|δi| =n∑

|yi − yi|

|δi| = maxi=1,...,n

|yi − yi|

11 / 29

Trzy kryteria

min : z =

n∑i=1

δ2i =

n∑i=1

(yi − yi)2

min : z =

n∑i=1

|δi| =n∑

|yi − yi|

|δi| = maxi=1,...,n

|yi − yi|

11 / 29

Zalety i wady

LS LAD MM

optymalizacja analityczny wzór progr. liniowe progr. liniowe

stabilność rozwiązania stabilne niestabilne niestabilne

wartości odstające nieodporna odporna bardzo nieodporna

Zwykle wybór między LS a LAD.

MM nie nadaje się do stosowania w regresji! (pozawyjatkowymi przypadkami).

12 / 29

Odporność na wartości odstające

Najprostszy przypadek: Brak X, tylko Y .Model zawiera tylko stałą:

y = w0.

Dane: 100 punktów, y1 = y2 = . . . = y99 = 1 oraz jednaprzypadkowo źle wpisana wartość y6 = 1000.Współczynniki wyznaczone na danych:

Minimalizacja kwadratów błędów (LS):

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

Minimalizacja wartości bezwzględnych (błędów) (LAD):minw0

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

Minimalizacja największego błędu (MM):minw0

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

Gdy są X, prosta regresji dla LS i MM będzie przyciągana zbytmocno do wartości odstających! (szczególnie MM: tragedia!)

13 / 29

y = w0.

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

13 / 29

y = w0.

{99 · (w0 − 1)2 + (w0 − 1000)2

=⇒ w0 = avg(y) = 10.99

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

13 / 29

y = w0.

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

13 / 29

y = w0.

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

{99 · |w0 − 1|+ |w0 − 1000|

=⇒ w0 = median(y) = 1

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

13 / 29

y = w0.

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

13 / 29

y = w0.

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

max{|w0 − 1|, |w0 − 1000|

=⇒ w0 = middle(y) = 500.5

13 / 29

y = w0.

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

13 / 29

y = w0.

{99 · (w0 − 1)2 + (w0 − 1000)2

}=⇒ w0 = avg(y) = 10.99

{99 · |w0 − 1|+ |w0 − 1000|

}=⇒ w0 = median(y) = 1

max{|w0 − 1|, |w0 − 1000|

}=⇒ w0 = middle(y) = 500.5

13 / 29

Spis treści

1 Problem regresji

14 / 29

Optymalizacja

„Metoda najmniejszych kwadratów”

: L(w) =

n∑i=1

(yi −w>xi)2

Funkcja wypukła, kwadratowa.

Rozwiązanie poprzez przyrównanie pochodnych po wszystkichwj do 0:

( n∑i=1

)−1( n∑i=1

15 / 29

Optymalizacja

: L(w) =

n∑i=1

(yi −w>xi)2

( n∑i=1

)−1( n∑i=1

15 / 29

Optymalizacja

: L(w) =

n∑i=1

(yi −w>xi)2

( n∑i=1

)−1( n∑i=1

15 / 29

Metoda najmniejszych kwadratów

Funkcja celu:

L(w) =n∑

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Przyrównanie do zera:n∑

−2(yi−w>xi)xij = 0 =⇒n∑

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

yixi =

( n∑i=1

)w =⇒ w =

( n∑i=1

)−1( n∑i=1

16 / 29

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

−2(yi−w>xi)xij = 0 =⇒n∑

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

yixi =

( n∑i=1

)w =⇒ w =

( n∑i=1

)−1( n∑i=1

16 / 29

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

−2(yi−w>xi)xij = 0 =⇒n∑

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

yixi =

( n∑i=1

)w =⇒ w =

( n∑i=1

)−1( n∑i=1

16 / 29

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

−2(yi−w>xi)xij = 0 =⇒n∑

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

yixi =

( n∑i=1

)w =⇒ w =

( n∑i=1

)−1( n∑i=1

16 / 29

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

−2(yi−w>xi)xij = 0 =⇒n∑

yixij =

n∑i=1

m∑k=1

wkxikxij

Wektorowo:n∑

yixi =

( n∑i=1

)w =⇒ w =

( n∑i=1

)−1( n∑i=1

16 / 29

MNK jako metoda Newtona-Raphsona

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

Gradient: ∇L(w) = −2n∑

(yi −w>xi)xi

Drugie pochodne: ∂2L(w)

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

(yi −w>xi)xi

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

(yi −w>xi)xi

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

(yi −w>xi)xi

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

(yi −w>xi)xi

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

Funkcja celu:L(w) =

n∑i=1

(yi −w>xi)2

Pochodne: ∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij

(yi −w>xi)xi

∂wjwk=

n∑i=1

2xikxij

Hesjan:HL(w) =

n∑i=1

2xix>i

17 / 29

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

Rozwiązanie początkowe: w0 = 0.

∇L(w0) = −2n∑

yixi, HL(w0) =

n∑i=1

2xix>i

Krok metodą Newtona-Rapshona:

w1 = w0 −H−1L (w0)∇L(w0) =

( n∑i=1

)−1( n∑i=1

Newton-Rapshon rozwiązuje MNK w jednym roku!

18 / 29

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

∇L(w0) = −2n∑

yixi, HL(w0) =

n∑i=1

2xix>i

w1 = w0 −H−1L (w0)∇L(w0) =

( n∑i=1

)−1( n∑i=1

18 / 29

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

∇L(w0) = −2n∑

yixi, HL(w0) =

n∑i=1

2xix>i

w1 = w0 −H−1L (w0)∇L(w0)

( n∑i=1

)−1( n∑i=1

18 / 29

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

∇L(w0) = −2n∑

yixi, HL(w0) =

n∑i=1

2xix>i

w1 = w0 −H−1L (w0)∇L(w0) =

( n∑i=1

)−1( n∑i=1

18 / 29

(yi −w>xi)xi

Hesjan:HL(w) =

n∑i=1

2xix>i

∇L(w0) = −2n∑

yixi, HL(w0) =

n∑i=1

2xix>i

w1 = w0 −H−1L (w0)∇L(w0) =

( n∑i=1

)−1( n∑i=1

Newton-Rapshon rozwiązuje MNK w jednym roku!18 / 29

Metoda Levenberga-Marquada

Co jeśli hesjan HL jest osobliwy (nieodwracalny)?

Dodajemy do hesjanu macierz jednostkową I przemnożonąprzez (małą) stałą λ:

n∑i=1

xix>i + λI

−1 n∑i=1

Czy istnieje modyfikacja problemu regresji, którerozwiązaniem jest jeden krok Levenberga-Marquada?=⇒ Regresja grzbietowa.

19 / 29

n∑i=1

xix>i + λI

−1 n∑i=1

19 / 29

n∑i=1

xix>i + λI

−1 n∑i=1

Czy istnieje modyfikacja problemu regresji, którerozwiązaniem jest jeden krok Levenberga-Marquada?

=⇒ Regresja grzbietowa.

19 / 29

n∑i=1

xix>i + λI

−1 n∑i=1

19 / 29

Regresja grzbietowa

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2 + λ‖w‖2.

Pochodne:∂L(w)

∂wj=

n∑i=1

−2(yi −w>xi)xij + 2λwj

Przyrównanie pochodnych do zera daje:n∑

yixij =n∑

m∑k=1

wkxikxij + λwj

Wektorowo:n∑

yixi =

( n∑i=1

)w + λw =

( n∑i=1

xix>i + λI

=⇒ w =

( n∑i=1

xix>i + λI

)−1( n∑i=1

20 / 29

Regresja grzbietowa

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2 + λ‖w‖2.

Pochodne:∂L(w)

∂wj=

n∑i=1

yixij =n∑

m∑k=1

wkxikxij + λwj

Wektorowo:n∑

yixi =

( n∑i=1

)w + λw =

( n∑i=1

xix>i + λI

=⇒ w =

( n∑i=1

xix>i + λI

)−1( n∑i=1

20 / 29

Regresja grzbietowa

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2 + λ‖w‖2.

Pochodne:∂L(w)

∂wj=

n∑i=1

yixij =n∑

m∑k=1

wkxikxij + λwj

Wektorowo:n∑

yixi =

( n∑i=1

)w + λw =

( n∑i=1

xix>i + λI

=⇒ w =

( n∑i=1

xix>i + λI

)−1( n∑i=1

20 / 29

Regresja grzbietowa

Funkcja celu:

L(w) =

n∑i=1

(yi −w>xi)2 + λ‖w‖2.

Pochodne:∂L(w)

∂wj=

n∑i=1

yixij =n∑

m∑k=1

wkxikxij + λwj

Wektorowo:n∑

yixi =

( n∑i=1

)w + λw =

( n∑i=1

xix>i + λI

=⇒ w =

( n∑i=1

xix>i + λI

)−1( n∑i=1

20 / 29

Spis treści

1 Problem regresji

21 / 29

Optymalizacja

Minimalizacja sumy wartości bezwzględnych błędów (LAD):

: L(w) =

n∑i=1

|yi −w>xi|.

Sprowadzamy do problemu programowania liniowego:Dla każdego i = 1, . . . , n wprowadzamy dwie zmienneσ+i , σ

−i ≥ 0 takie, że

yi −w>xi = σ+i − σ−i .

Zauważmy, że wtedy:|yi −w>xi| ≤ σ+i + σ−i ,

L(w) ≤n∑

σ+i + σ−i ,

i równość zachodzi dokładnie gdy dla każdego i = 1, . . . , n,jedno z σ+i , σ

−i jest równe 0.

22 / 29

Optymalizacja

: L(w) =

n∑i=1

|yi −w>xi|.

L(w) ≤n∑

σ+i + σ−i ,

−i jest równe 0.

22 / 29

Optymalizacja

: L(w) =

n∑i=1

|yi −w>xi|.

L(w) ≤n∑

σ+i + σ−i ,

−i jest równe 0.

22 / 29

Optymalizacja

: L(w) =

n∑i=1

|yi −w>xi|.

L(w) ≤n∑

σ+i + σ−i ,

−i jest równe 0.

22 / 29

Optymalizacja

: L(w) =

n∑i=1

|yi −w>xi|.

L(w) ≤n∑

σ+i + σ−i ,

−i jest równe 0.

22 / 29

Optymalizacja

Rozwiązujemy problem:

min L′(w,σ+,σ−) =

n∑i=1

σ+i + σ−i

p.o. yi −w>xi = σ+i − σ−i i = 1, . . . , n

σ+i , σ−i ≥ 0 i = 1, . . . , n.

Minimalizujemy górne ograniczenie funkcji L(w).Wiemy, że w optimum dokładnie jedno z σ+i , σ

−i jest równe 0.

Dowód: jeśli oba σ+i , σ−i > 0, to możemy oba zmniejszyć o δ,

zachowując ograniczenia, a zmniejszając funkcję celu o 2δ –sprzeczność!Wniosek: W optimum

L′(w,σ+,σ−) = L(w),

więc rozwiązaliśmy problem LAD.

23 / 29

Optymalizacja

n∑i=1

σ+i + σ−i

p.o. yi −w>xi = σ+i − σ−i i = 1, . . . , n

σ+i , σ−i ≥ 0 i = 1, . . . , n.

−i jest równe 0.

L′(w,σ+,σ−) = L(w),

23 / 29

Optymalizacja

n∑i=1

σ+i + σ−i

p.o. yi −w>xi = σ+i − σ−i i = 1, . . . , n

σ+i , σ−i ≥ 0 i = 1, . . . , n.

−i jest równe 0.

zachowując ograniczenia, a zmniejszając funkcję celu o 2δ –sprzeczność!

Wniosek: W optimumL′(w,σ+,σ−) = L(w),

23 / 29

Optymalizacja

n∑i=1

σ+i + σ−i

p.o. yi −w>xi = σ+i − σ−i i = 1, . . . , n

σ+i , σ−i ≥ 0 i = 1, . . . , n.

−i jest równe 0.

L′(w,σ+,σ−) = L(w),

więc rozwiązaliśmy problem LAD.23 / 29

Spis treści

1 Problem regresji

24 / 29

Wycena domów

Den Bosch (’s-Hertogenbosch), Holandia

119 domów.

living area sale price

x1 385 788

x2 156 449

x3 90 169

x4 86 269

x5 73 225

x6 125 298

. . . . . .

● ●

●●

●● ●

●●

200 400 600 800

area size [sq.m]

25 / 29

Wycena domów

119 domów, opisanych 9 cechami wejściowymi (X) i 1wyjściową (Y ).

DISTR type of district, four categories ranked from bad (1) to good (4)AREA total area including gardenBEDR number of bedroomsTYPE apartment (1), row house (2), corner house (3),

semidetached (4), detached (5), villa (6)VOL volume of the houseSTOR number of storeysGARD type of garden, four categories ranked from bad to goodGARG no garage (1), normal garage (2), large garage (3)YEAR build yearPRICE selling price

26 / 29

Wycena domów

Zbiór danych:

X1 X2 X3 X4 X5 X6 X7 X8 X9 Y

DISTR AREA BEDR TYPE VOL STOR GARD GARG YEAR PRICE

x1 4 385 5 6 775 3 3 3 1934 788

x2 3 156 2 1 350 1 1 1 1996 449

x3 4 90 3 1 200 1 1 1 1950 169

x4 3 86 3 2 410 3 2 1 1966 269

x5 1 73 3 2 330 3 3 1 1950 225

x6 3 125 2 1 300 2 1 2 1950 298

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27 / 29

Ilustracyjny przykład

Weźmy tylko jedną zmienną X = X2 (AREA) dla zilustrowaniawyników na płaszczyźnie.

Wykres Y =PRICE w funkcji X =AREA:

●●

● ●

●●

●● ●

●●

200 400 600 800

area size [sq.m.]

28 / 29

Metoda najmniejszych kwadratów (LS):

●●

● ●

●●

●● ●

●●

200 400 600 800

area size [sq.m.]

28 / 29

Minimalizacja sumy wartości bewzględnych (LAD):

●●

● ●

●●

●● ●

●●

200 400 600 800

area size [sq.m.]

28 / 29

Minimalizacja największego błędu (MM):

●●

● ●

●●

●● ●

●●

200 400 600 800

area size [sq.m.]

28 / 29

Koniec na dzisiaj :)

29 / 29

Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję...

Documents

Transcript of Techniki Optymalizacji: Metody regresji · Regresja liniowa Modelujemy zmienną Y jako funkcję...

PRZEDMIOTOWY SYSTEM OCENIANIA Z GEOGRAFII W … · Ziemi wokół własnej osi gwiazdową a dobą słoneczną rozróżnia prędkość kątową i liniową objaśnia zjawisko wschodu

Modele regresji przestrzennej w badaniach czynników korzystania ...

„Rybacy” w kinie W - naszbaltyk.com · „Kobieta zmienną jest” W piątek 16 września w kawiarni „Weranda” wystąpiła Kry-styna Pryszczyk z programem humorystycznym „Kobieta

TYGODNIK POPULARNY, POŚWIĘCONY NAUKOM …bcpw.bg.pw.edu.pl/Content/2310/38wszech98_nr_36.pdfMoże i czytelnik stawia ... sokim stopniu zmienną; bez zrozumienia tedy ... światła

Wprowadzenie do analizy regresji

Współczesne metody analizy regresji wspomagane komputerowo

Podstawy statystyki dla psychologów - zajęcia 8 - model regresji jedno-wielozmiennowy

Kryteria i zasady w badaniach jakościowych - kostera.pl · Trafność wewnętrzna •Związek między zmienną wyjaśniającą (niezależną) a zmienną wyjaśnianą (zależną)

CZASOPISMO DLA NAJMŁODSZYCH UCZNIÓW MIEJSKIEGO … marzec 2016.pdf · Kobieta zmienną jest. Kobieta jest najpiękniejszą i najdroższą ozdobą mężczyzny. Prędzej wypijesz

Pakiet edukacyjny Pozaformalnej akademii jakOści jakości ...czytelnia.frse.org.pl/media/pajp-vii-kreatywnosc.pdf · 9 Drugą zmienną różnicującą kreatywność jest styl kreatywności.

Prezentacje w SCRATCHu - superszkolna.pl...WŁASNA PREZENTACJA Wyścigi kociąt Objaśnienie •Musiałyśmy samodzielnie wykonać prezentacje wykorzystując zmienną. Moja praca przedstawiała

Badanie współzaleŜności dwóch cech ilościowych X i Y ...agrobiol.sggw.pl/biometria/media//rajfura/STAT_Rol/Wyklad KORELACJE... · Analiza regresji prostej ... Testowanie hipotezy

ANALIZA KORELACJI I REGRESJI

STATYSTYKA MATEMATYCZNA WYKŁAD 1statystyka.rezolwenta.eu.org/Materialy/sm-w-1-2015.pdf · Statystyka jako funkcja od zmiennej losowej jest też zmienną losową i możemy mówić

Drzewa decyzyjne z użyciem pakietu R. Zastosowanie w ...biecek.pl/PASIK/uploads/MartaTyce.pdf · W drugim zmienną dyskryminującą jest zmienna ilościowa. W tym rozdziale głównym

· Pomiary promieniowania stonecznego we Wroclawiu-Swojcu „ ... Model równaó regresji zastosowanych w rekonstrukcji ... nie role budulcowq éwiatla slonecznego ...

MAGAZYN BUSINESSWOMAN&LIFE Businesswoman Club€¦ · Pokaz mody „kobieta zmienną jest” Fascynujący występ tanecznej grupy Konkurs wizytówkowy z cennymi nagrodami Niech to

Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór ...

Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Działalność koncertowa Stowarzyszenia „Orkiestra Miasta ...€¦ · Koncert „Kobieta zmienną jest”, 12.03.2016 1 Z. Sokół, W stronę drzewa, Wyd. AGNI, Pruszcz Gdański