Wprowadzenie do technik analitycznych Metoda najmniejszych...

Wprowadzenie do technik analitycznych —Metoda najmniejszych kwadratów

Dariusz Ucinski

Instytut Sterowania i Systemów InformatycznychUniwersytet Zielonogórski

Wykład 2

Dariusz Ucinski Metoda najmniejszych kwadratów

Korelacja i regresja

Przykład: Temperatura latem←→ srednia liczba napojówsprzedawanych przez automat

Diagram korelacyjny (ang. scatter diagram) — wykrespunktowy.

korelacja liniowa

18 20 22 24 26 28 30 32 3435

temperatura

k. dodatnia

k. ujemna

Korelacja i regresja

korelacja nieliniowa brak korelacji

Współczynnik korelacji liniowej Pearsona

r =n(∑

xiyi)−(∑

xi)(∑

yi)√[

)−(∑

xi)2] · [n(∑ y2

)−(∑

Korelacja i regresjaPrzykład: Dla nastepujacych obserwacji:

xi 8 4 5 −1yi −2 0 2 6

zbadac istnienie zaleznosci liniowej pomiedzy wielkosciami x i y .

i xi yi xiyi x2i y2

i1 8 −2 −16 64 42 4 0 0 16 03 5 2 10 25 44 −1 6 −6 1 36

r =4 · (−12)− 16 · 6√

(4 · 106− 162)(4 · 44− 62)= −0,939

Własnosci:1) r ∈ [−1, 1],

2) r = 0 — brak zwiazku liniowego,

3) r = 1 — doskonała korelacja liniowa dodatnia,

4) r = −1 — doskonała korelacja liniowa ujemna.

Korelacja a przyczynowosc

W zaleznosci funkcyjnejy = f (x),

gdzie: x — zmienna objasniajaca (niezalezna), y — zmienna objasniana(zalezna),

moze istniec bezposredni zwiazek przyczynowy pomiedzy zmiennymi,czyli x moze wpływac na y (brak wody moze powodowac odwodnienie,wzrost temperatury powoduje topnienie lodu itp.),

moze istniec odwrotna zaleznosc przyczynowo-skutkowa, czyli y takzemoze wpływac na x . Przykładowo, spalony tranzystor mozespowodowac awarie w układzie elektronicznym, ale tez awaria układumoze byc przyczyna spalenia tranzystora.

relacja moze byc spowodowana przypadkiem lub zmienna zakłócajaca,np. zaleznosc pomiedzy liczba wypadków wsród narciarzy, a wzrostemsprzedazy paczków.

Regresja liniowa

Aproksymujemy zmienna objasniana y modelem liniowym

y = a1x + a0,

tak aby minimalizowac błedy predykcji modelu

ei = yi − yi = yi − a0 − a1xi

Jak minimalizowac naraz wszystkie błedy?

n∑i=1

(yi − a0 − a1xi ) −→ min

n∑i=1

|ei | =

n∑i=1

|yi − a0 − a1xi | −→ min

maxi=1,...,n

|ei | = maxi=1,...,n

|yi − a0 − a1xi | −→ min

Kryterium najmniejszej sumy kwadratów

n∑i=1

(yi − a0 − a1xi )2 −→ min

−4−3

−2−1

Kryterium najmniejszej sumy kwadratów

Z warunków optymalnosci

∂a0= −2

n∑i=1

(yi − a0 − a1xi ) = 0

∂a1= −2

n∑i=1

[(yi − a0 − a1xi )xi ] = 0

otrzymujemy układ równan 0 =∑

yi −∑

a0 −∑

0 =∑

yixi −∑

a0xi −∑

Równania normalne

Po uporzadkowaniu, otrzymuje sie układ równan normalnych:na0 +

(∑xi

∑yi(∑

(∑x2

∑xiyi

Oto jego rozwiazanie

a1 =n∑

xiyi −∑

x2i −

(∑xi)2

a0 = y − a1x

Równania normalne

Po uporzadkowaniu, otrzymuje sie układ równan normalnych:na0 +

(∑xi

∑yi(∑

(∑x2

∑xiyi

Oto jego rozwiazanie

a1 =n∑

xiyi −∑

x2i −

(∑xi)2

a0 = y − a1x

Regresja liniowaPrzykład: Kontynuacja ilustracji dla r :

a1 =4 · (−12)− 16 · 6

4 · 106− 162 = −0.857, a0 = 1.5− (−0.857)(4) = 4.929

y = −0.857x + 4.929

−2 0 2 4 6 8 10−4

Ocena dopasowania funkcji regresji

Zdefiniujmy

n∑i=1

(yi − y)2

i porównajmy z

n∑i=1

(yi − a0 − a1xi )2

Współczynnik determinacji liniowej:

r2 =St − Sr

1) r2 bliski 1 oznacza, ze model wyjasnia wiekszosczmiennosci zmiennej zaleznej i moze byc uzyteczny,

2) r2 bliski 0 oznacza, ze model objasnia bardzo mało, jezelichodzi o zmiennosc zmiennej zaleznej.

Dla doskonałego dopasowania zachodzi Sr = 0 orazr = r2 = 1, co oznacza, ze linia prosta objasnia 100%zmiennosci danych. Dla r = r2 = 0 mamy Sr = St idopasowanie nie wprowadza zadnej poprawy.Dla rozwazanego wczesniej przykładu

r2 = (−0.939)2 = 0.8817⇒ około 88% zmiennosci jest objasniane modelem

Obserwacje odstajaceSa to obserwacje odpowiadajace duzym residuom, powodujaduze zmiany w wartosciach parametrów modelu o najlepszymdopasowaniu (obserwacje wpływowe).

Dla doskonałego dopasowania zachodzi Sr = 0 orazr = r2 = 1, co oznacza, ze linia prosta objasnia 100%zmiennosci danych. Dla r = r2 = 0 mamy Sr = St idopasowanie nie wprowadza zadnej poprawy.Dla rozwazanego wczesniej przykładu

r2 = (−0.939)2 = 0.8817⇒ około 88% zmiennosci jest objasniane modelem

Obserwacje odstajaceSa to obserwacje odpowiadajace duzym residuom, powodujaduze zmiany w wartosciach parametrów modelu o najlepszymdopasowaniu (obserwacje wpływowe).

Linearyzacja zaleznosci liniowych

y = a1eb1x

y = a2xb2

y = a3x

b3 + x

Regresja wielomianowa

Dopasujmy do danych parabole:

y = a0 + a1x + a2x2

Suma kwadratów residuów:

Sr =n∑

(yi − a0 − a1xi − a2x2i )2

Warunki optymalnosci

∂a0= −2

n∑i=1

(yi − a0 − a1xi − a2x2i ) = 0

∂a1= −2

n∑i=1

xi(yi − a0 − a1xi − a2x2i ) = 0

∂a2= −2

n∑i=1

x2i (yi − a0 − a1xi − a2x2

i ) = 0

y = a0 + a1x + a2x2

Sr =n∑

(yi − a0 − a1xi − a2x2i )2

∂a0= −2

n∑i=1

(yi − a0 − a1xi − a2x2i ) = 0

∂a1= −2

n∑i=1

xi(yi − a0 − a1xi − a2x2i ) = 0

∂a2= −2

n∑i=1

x2i (yi − a0 − a1xi − a2x2

i ) = 0

y = a0 + a1x + a2x2

Sr =n∑

(yi − a0 − a1xi − a2x2i )2

∂a0= −2

n∑i=1

(yi − a0 − a1xi − a2x2i ) = 0

∂a1= −2

n∑i=1

xi(yi − a0 − a1xi − a2x2i ) = 0

∂a2= −2

n∑i=1

x2i (yi − a0 − a1xi − a2x2

i ) = 0

Po uporzadkowaniu, otrzymuje sie układ równan normalnych:(n)a0 +

(∑xi

(∑x2

∑yi(∑

(∑x2

(∑x3

∑xiyi(∑

(∑x3

(∑x4

Pytanie: Jak to sie uogólnia na dowolny wielomian?

Po uporzadkowaniu, otrzymuje sie układ równan normalnych:(n)a0 +

(∑xi

(∑x2

∑yi(∑

(∑x2

(∑x3

∑xiyi(∑

(∑x3

(∑x4

Pytanie: Jak to sie uogólnia na dowolny wielomian?

Wielokrotna regresja liniowa

Dopasujmy do danych płaszczyzne:

y = a0 + a1x + a2x2

Sr =n∑

(yi − a0 − a1x1i − a2x2i)2

∂a0= −2

n∑i=1

(yi − a0 − a1x1i − a2x2i) = 0

∂a1= −2

n∑i=1

x1i(yi − a0 − a1x1i − a2x2i) = 0

∂a2= −2

n∑i=1

x2i(yi − a0 − a1x1i − a2x2i) = 0

y = a0 + a1x + a2x2

Sr =n∑

(yi − a0 − a1x1i − a2x2i)2

∂a0= −2

n∑i=1

(yi − a0 − a1x1i − a2x2i) = 0

∂a1= −2

n∑i=1

x1i(yi − a0 − a1x1i − a2x2i) = 0

∂a2= −2

n∑i=1

x2i(yi − a0 − a1x1i − a2x2i) = 0

y = a0 + a1x + a2x2

Sr =n∑

(yi − a0 − a1x1i − a2x2i)2

∂a0= −2

n∑i=1

(yi − a0 − a1x1i − a2x2i) = 0

∂a1= −2

n∑i=1

x1i(yi − a0 − a1x1i − a2x2i) = 0

∂a2= −2

n∑i=1

x2i(yi − a0 − a1x1i − a2x2i) = 0

Otrzymuje sie w ten sposób układ równan normalnych n∑

x1i∑

x2i∑x1i

x1ix2i∑x2i

∑x1ix2i

∑x2i2

yi∑x1iyi∑x2iyi

Przykład. Do danych

x1 x2 y0 0 52 1 102.5 2 91 3 04 6 37 2 27

nalezy dopasowac „najlepsza” płaszczyzne.

Otrzymuje sie w ten sposób układ równan normalnych n∑

x1i∑

x2i∑x1i

x1ix2i∑x2i

∑x1ix2i

∑x2i2

yi∑x1iyi∑x2iyi

Przykład. Do danych

x1 x2 y0 0 52 1 102.5 2 91 3 04 6 37 2 27

nalezy dopasowac „najlepsza” płaszczyzne.

W rezultacie otrzymuje sie układ równan 6 16.5 1416.5 76.25 4814 48 54

54243.5100

a0 = 5, a1 = 4, a2 = −3

Wielokrotna regresja liniowa — przypadek ogólny

Rozwazmy model

y = a0z0 + a1z1 + a2z2 + · · ·+ amzm

gdzie: z0, z1, . . . , zm — rózne funkcje (nb. jak zapisac w tensposób wczesniejsze przypadki?).Zdefiniujmy

z01 z11 . . . zm1z02 z12 . . . zm2...

......

...z0n z1n . . . zmn

y1y2...

a0a1...

Sr =n∑

yi −m∑

=(y − Za

)T(y − Za)

= ‖y − Za‖2

Rozwazmy model

y = a0z0 + a1z1 + a2z2 + · · ·+ amzm

gdzie: z0, z1, . . . , zm — rózne funkcje (nb. jak zapisac w tensposób wczesniejsze przypadki?).Zdefiniujmy

z01 z11 . . . zm1z02 z12 . . . zm2...

......

...z0n z1n . . . zmn

y1y2...

a0a1...

Sr =n∑

yi −m∑

=(y − Za

)T(y − Za)

= ‖y − Za‖2

Równania normalne przyjmuja wtedy nastepujaca postac:

)a = Z Ty

Pytanie: Jak je rozwiazywac?

Równania normalne przyjmuja wtedy nastepujaca postac:

)a = Z Ty

Pytanie: Jak je rozwiazywac?

Wprowadzenie do technik analitycznych Metoda najmniejszych...

Documents

Transcript of Wprowadzenie do technik analitycznych Metoda najmniejszych...