y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest...

13
1 Ćwiczenia nr 5 TEMATYKA: Regresja liniowa dla prostej i płaszczyzny DEFINICJE: Regresja: metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych wartości innych. Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej lub płaszczyzny. Gdy mamy do czynienia z wynikami pomiarów w postaci punktów na płaszczyźnie (w przestrzeni) i na skutek „błędów pomiarowych” układają się one w przybliżeniu wzdłuż pewnej prostej (płaszczyzny), ale nie są ani współliniowe, ani współpłaszczyznowe, to poszukiwanie prostej y = ax + b (płaszczyzny z = ax + by + c), która by przechodziła możliwie najbliżej wszystkich punktów doświadczalnych nazywamy regresją liniową dla prostej (dla płaszczyzny). Wyznaczenie parametrów a, b, c polega na minimalizacji sumy: a) Dla prostej: (, ) = ∑[ −∙ − ] 2 =1 b) Dla płaszczyzny: (, , ) = ∑[ −∙ −∙ − ] 2 =1 Metoda ta nosi nazwę metody najmniejszych kwadratów. Formalnie rzecz biorąc są to funkcje dwóch zmiennych w przypadku prostej i trzech zmiennych w przypadku płaszczyzny. Interesują nas takie wartości tych zmiennych, dla których S(a, b) lub S(a, b, c) jest minimalna. Wiadomo, że funkcja wielu zmiennych ma minimum w punkcie, dla którego pochodne cząstkowe tej funkcji po wszystkich zmiennych są równe zeru, a zatem w tym przypadku muszą być spełnione warunki: a) Dla prostej: { (, ) =0 (, ) =0 b) Dla płaszczyzny: { (, , ) =0 (, , ) =0 (, , ) =0

Transcript of y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest...

Page 1: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

1

Ćwiczenia nr 5 TEMATYKA:

Regresja liniowa dla prostej i płaszczyzny DEFINICJE:

Regresja: metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych wartości innych.

Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej lub płaszczyzny. Gdy mamy do czynienia z wynikami pomiarów w postaci punktów na płaszczyźnie (w przestrzeni) i na skutek „błędów pomiarowych” układają się one w przybliżeniu wzdłuż pewnej prostej (płaszczyzny), ale nie są ani współliniowe, ani współpłaszczyznowe, to poszukiwanie prostej y = ax + b (płaszczyzny z = ax + by + c), która by przechodziła możliwie najbliżej wszystkich punktów doświadczalnych nazywamy regresją liniową dla prostej (dla płaszczyzny). Wyznaczenie parametrów a, b, c polega na minimalizacji sumy:

a) Dla prostej:

𝑆(𝑎, 𝑏) =∑[𝑦𝑖 − 𝑎 ∙ 𝑥𝑖 − 𝑏]2

𝑛

𝑖=1

b) Dla płaszczyzny:

𝑆(𝑎, 𝑏, 𝑐) =∑[𝑧𝑖 − 𝑎 ∙ 𝑥𝑖 − 𝑏 ∙ 𝑦𝑖 − 𝑐]2

𝑛

𝑖=1

Metoda ta nosi nazwę metody najmniejszych kwadratów. Formalnie rzecz biorąc są to funkcje dwóch zmiennych w przypadku prostej i trzech zmiennych w przypadku płaszczyzny. Interesują nas takie wartości tych zmiennych, dla których S(a, b) lub S(a, b, c) jest minimalna. Wiadomo, że funkcja wielu zmiennych ma minimum w punkcie, dla którego pochodne cząstkowe tej funkcji po wszystkich zmiennych są równe zeru, a zatem w tym przypadku muszą być spełnione warunki:

a) Dla prostej:

{

𝜕𝑆(𝑎, 𝑏)

𝜕𝑎= 0

𝜕𝑆(𝑎, 𝑏)

𝜕𝑏= 0

b) Dla płaszczyzny:

{

𝜕𝑆(𝑎, 𝑏, 𝑐)

𝜕𝑎= 0

𝜕𝑆(𝑎, 𝑏, 𝑐)

𝜕𝑏= 0

𝜕𝑆(𝑎, 𝑏, 𝑐)

𝜕𝑐= 0

Page 2: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

2

Współczynnik korelacji: liczba określająca w jakim stopniu dane doświadczalne (statystyczne) są współzależne. Jest to miara korelacji (współzależności) dwóch (lub więcej) zmiennych. Istnieje wiele różnych wzorów określanych jako współczynniki korelacji. Większość z nich jest normalizowana tak, żeby przybierała wartości od −1 (zupełna korelacja ujemna), przez 0 (brak korelacji) do +1 (zupełna korelacja dodatnia).

a) współczynnik korelacji Pearsona (dla dwóch zmiennych x i y): „x jest objaśniana przez y”

𝑟𝑥𝑦 =𝑐𝑜𝑣(𝑥, 𝑦)

𝑠𝑥 ∙ 𝑠𝑦=

1𝑛 ∙∑ (𝑥𝑖 − �̅�) ∙ (𝑦𝑖 − �̅�)𝑛𝑖=1

√1𝑛 ∙∑ (𝑥𝑖 − �̅�)2𝑛𝑖=1 ∙ √

1𝑛 ∙∑ (𝑦𝑖 − �̅�)2𝑛𝑖=1

�̅� =∑ 𝑥𝑖𝑛𝑖=1

𝑛, �̅� =

∑ 𝑦𝑖𝑛𝑖=1

𝑛− średnie arytmetyczne

Interpretacja: Mówi o sile (wartość) i kierunku (znak) zależności pomiędzy dwoma cechami, np. rxy = 0.9 świadczy o silnej, dodatniej korelacji (zależności, związku) pomiędzy x i y. Właściwości:

1. korelacja pomiędzy dwoma cechami ilościowymi, 2. tylko dla zależności liniowych, 3. korelacja ujemna i dodatnia (od -1 do 1): 4. "+": cechy zmieniają się jednokierunkowo: wzrostowi (spadkowi)

wartości x towarzyszy wzrost (spadek) wartości y, 5. "-": cechy zmieniają się dwukierunkowo: wzrostowi (spadkowi)

wartości x towarzyszy spadek (wzrost) wartości y.

b) współczynnik korelacji cząstkowej Kendalla (dla trzech zmiennych x, y i z) „z jest objaśniana przez x i y”:

𝑟𝑧𝑥.𝑦 =𝑟𝑧𝑥 − 𝑟𝑧𝑦 ∙ 𝑟𝑥𝑦

√(1 − 𝑟𝑧𝑦2 ) ∙ (1 − 𝑟𝑥𝑦2 )

𝑟𝑧𝑦.𝑥 =𝑟𝑧𝑦 − 𝑟𝑧𝑥 ∙ 𝑟𝑥𝑦

√(1 − 𝑟𝑧𝑥2 ) ∙ (1 − 𝑟𝑥𝑦2 )

𝑟𝑥𝑦.𝑧 =𝑟𝑥𝑦 − 𝑟𝑧𝑥 ∙ 𝑟𝑧𝑦

√(1 − 𝑟𝑧𝑥2 ) ∙ (1 − 𝑟𝑧𝑦2 )

rxy, rzx, rzy - współczynniki korelacji Pearsona

Page 3: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

3

Interpretacja: rxy.z = 0.9 oznacza, że istnieje silna, dodatnia korelacja (zależność) pomiędzy zmienną x i y, po wyeliminowaniu wpływu zmiennej z. Właściwości:

1. pomiędzy dwoma cechami (zmiennymi) ilościowymi, lecz gdy wpływ innych chcemy odseparować,

2. korelacje różnego rzędu: np. rzędu I: dla 3 zmiennych z wyłączeniem oddziaływania jednej z nich, rzędu II: dla 4 zmiennych z wyłączeniem oddziaływania dwóch z nich,

3. rzędu "n": dla n+2 zmiennych z wyłączeniem oddziaływania "n" z nich, 4. korelacja ujemna i dodatnia (od -1 do 1) jak w przypadku Pearsona.

c) Współczynnik korelacji wielorakiej (pierwiastek ze współczynnika

determinacji), (dla trzech zmiennych x, y i z) „z jest objaśniana przez x i y”:

𝐷 = [

1 𝑟𝑧𝑥 𝑟𝑧𝑦𝑟𝑥𝑧 1 𝑟𝑥𝑦𝑟𝑦𝑧 𝑟𝑦𝑥 1

] - macierz korelacji pomiędzy wszystkimi zmiennymi

𝑅 = [1 𝑟𝑥𝑦𝑟𝑦𝑥 1

] - macierz korelacji pomiędzy zmiennymi objaśniającymi

gdzie: rij = rji

𝑅𝑧.𝑥𝑦 = √1 −𝑑𝑒𝑡𝐷

𝑑𝑒𝑡𝑅

Interpretacja: Zazwyczaj interpretacji podlega kwadrat R zwany współczynnikiem determinacji R2. Jeżeli R = 0.9, to R2 = 0.81, co oznacza, że zmienność zmiennej zależnej (z) została w 81% wyjaśniona zmiennością zmiennych niezależnych (x i y), a mówiąc prościej, że model w 81% opisuje dopasowanie modelu do danych.

Właściwości: 1. pomiędzy wieloma cechami (zmiennymi) ilościowymi, 2. wartości z przedziału <0; 1>: 3. im bliżej 1 tym związek pomiędzy z a (x i y) jest silniejszy, 4. im bliżej 0 tym związek pomiędzy z a (x i y) słabszy, 5. podniesiony do kwadratu daje współczynnik determinacji.

Page 4: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

4

Uwagi ogólne: Aproksymacja danych doświadczalnych (statystycznych) krzywymi nosi nazwę regresji. W przypadku, gdy do tych danych dopasowujemy prostą, mówimy o regresji liniowej.

Niedostateczność tej metody (regresji liniowej) w ogólnym przypadku pokazuje m.in. kwartet Anscombe'a – zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) pomimo znacząco różnego charakteru danych.

Rys. 5.1

Page 5: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

5

ZADANIA:

1. Dla wyników pomiarów reprezentowanych przez n punktów Pi(xi; yi) wyprowadzić wzór ogólny (macierzowy) do wyznaczenia współczynników a i b dla prostej y = ax + b aproksymującej dane punkty stosując założenia regresji liniowej.

2. Dla wyników pomiarów reprezentowanych przez n punktów Pi(xi; yi; zi) wyprowadzić

wzór ogólny (macierzowy) do wyznaczenia współczynników a i b i c dla płaszczyzny z = ax + by + c aproksymującej dane punkty stosując założenia regresji liniowej.

3. W tabeli podano parametry punktów pomiarowych pozwalające wykreślić je w kartezjańskim układzie współrzędnych 2D:

i xi yi

1 2 1

2 4 3

3 6 3

4 8 3

5 10 5

6 12 7

7 14 6

8 16 8

9 18 9

10 20 12

Tab. 5.1

Rys. 5.2

Page 6: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

6

Wyznaczyć współczynniki a i b aproksymujące dane punkty do prostej o równaniu y = ax + b. Naszkicować wyznaczoną prostą na jednym wykresie z punkami pomiarowymi. Zastosować założenia regresji liniowej.

4. Dla danych doświadczalnych z zadania 3 wyznaczyć współczynnik korelacji liniowej rxy oraz podać interpretację otrzymanego rezultatu co do stopnia zależności liniowej pomiędzy danymi doświadczalnymi opisującymi x oraz opisywanymi y.

5. Wyznaczyć współczynnik korelacji wielorakiej R dla następujących założeń:

a) zmienne x i y opisują w sposób niezależny zmienną z, b) współczynniki korelacji wynoszą odpowiednio rxy = 0.6, rzx = 0.9,

rzy = 0.3

podać interpretację otrzymanego rezultatu co do stopnia zależności liniowej pomiędzy danymi doświadczalnymi opisującymi x i y oraz opisywanymi z.

Page 7: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

7

ROZWIĄZANIA ZADAŃ:

1. Dla wyników pomiarów reprezentowanych przez n punktów Pi(xi; yi) wyprowadzić wzór ogólny (macierzowy) do wyznaczenia współczynników a i b dla prostej y = ax + b aproksymującej dane punkty stosując założenia regresji liniowej.

Regresja liniowa dla prostej w ujęciu macierzowym:

𝑺(𝒂, 𝒃) =∑[𝒚𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃]𝟐

𝒏

𝒊=𝟏

=∑[𝒚𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃] ∙ [𝒚𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃] =

𝒏

𝒊=𝟏

=∑[𝒚𝒊𝟐 − 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 ∙ 𝒚𝒊 + 𝟐 ∙ 𝒂 ∙ 𝒃 ∙ 𝒙𝒊 − 𝟐 ∙ 𝒃 ∙ 𝒚𝒊 + 𝒂

𝟐 ∙ 𝒙𝒊𝟐 + 𝒃𝟐]

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃)

𝝏𝒂=∑[𝟎 − 𝟐 ∙ 𝒙𝒊 ∙ 𝒚𝒊 + 𝟐 ∙ 𝒃 ∙ 𝒙𝒊 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊

𝟐 + 𝟎] = 𝟎

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃)

𝝏𝒂= 𝟐 ∙∑[−𝒙𝒊 ∙ 𝒚𝒊 + 𝒃 ∙ 𝒙𝒊 + 𝒂 ∙ 𝒙𝒊

𝟐] = 𝟎

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃)

𝝏𝒂=∑[−𝒙𝒊 ∙ 𝒚𝒊] +∑[𝒃 ∙ 𝒙𝒊]

𝒏

𝒊=𝟏

+∑[𝒂 ∙ 𝒙𝒊𝟐]

𝒏

𝒊=𝟏

= 𝟎

𝒏

𝒊=𝟏

∑[𝒃 ∙ 𝒙𝒊]

𝒏

𝒊=𝟏

+∑[𝒂 ∙ 𝒙𝒊𝟐]

𝒏

𝒊=𝟏

=∑[𝒙𝒊 ∙ 𝒚𝒊] ⇒

𝒏

𝒊=𝟏

𝒃 ∙∑𝒙𝒊

𝒏

𝒊=𝟏

+ 𝒂 ∙∑𝒙𝒊𝟐

𝒏

𝒊=𝟏

=∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃)

𝝏𝒃=∑[𝟎 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 − 𝟐 ∙ 𝒚𝒊 + 𝟎 + 𝟐 ∙ 𝒃] = 𝟎

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃)

𝝏𝒃= 𝟐 ∙∑[𝒂 ∙ 𝒙𝒊 − 𝒚𝒊 + 𝒃] = 𝟎

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃)

𝝏𝒃=∑[𝒂 ∙ 𝒙𝒊] +∑[−𝒚𝒊]

𝒏

𝒊=𝟏

+∑[𝒃]

𝒏

𝒊=𝟏

= 𝟎

𝒏

𝒊=𝟏

∑[𝒂 ∙ 𝒙𝒊]

𝒏

𝒊=𝟏

+∑[𝒃]

𝒏

𝒊=𝟏

=∑[𝒚𝒊] ⇒

𝒏

𝒊=𝟏

𝒂 ∙∑𝒙𝒊

𝒏

𝒊=𝟏

+ 𝒃 ∙∑𝟏

𝒏

𝒊=𝟏

=∑𝒚𝒊

𝒏

𝒊=𝟏

[ ∑𝒙𝒊

𝟐

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝟏

𝒏

𝒊=𝟏 ]

∙ [𝒂𝒃] =

[ ∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊

𝒏

𝒊=𝟏 ]

⇒ [𝒂𝒃] =

[ ∑𝒙𝒊

𝟐

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝟏

𝒏

𝒊=𝟏 ] −𝟏

[ ∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊

𝒏

𝒊=𝟏 ]

Page 8: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

8

2. Dla wyników pomiarów reprezentowanych przez n punktów Pi(xi; yi; zi) wyprowadzić wzór ogólny (macierzowy) do wyznaczenia współczynników a i b i c dla płaszczyzny z = ax + by + c aproksymującej dane punkty stosując założenia regresji liniowej.

Regresja liniowa dla płaszczyzny w ujęciu macierzowym:

𝑺(𝒂, 𝒃, 𝒄) =∑[𝒛𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃 ∙ 𝒚𝒊 − 𝒄]𝟐 =

𝒏

𝒊=𝟏

=∑[𝒛𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃 ∙ 𝒚𝒊 − 𝒄] ∙ [𝒛𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃 ∙ 𝒚𝒊 − 𝒄]

𝒏

𝒊=𝟏

=

=∑[𝒛𝒊𝟐 − 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 ∙ 𝒛𝒊 + 𝟐 ∙ 𝒂 ∙ 𝒃 ∙ 𝒙𝒊 ∙ 𝒚𝒊 − 𝟐 ∙ 𝒃 ∙ 𝒚𝒊 ∙ 𝒛𝒊 + 𝟐 ∙ 𝒂 ∙ 𝒄 ∙ 𝒙𝒊 + 𝟐 ∙ 𝒃 ∙ 𝒄 ∙ 𝒚𝒊 − 𝟐

𝒏

𝒊=𝟏

∙ 𝒄 ∙ 𝒛𝒊 + 𝒂𝟐 ∙ 𝒙𝒊

𝟐 + 𝒃𝟐 ∙ 𝒚𝒊𝟐 + 𝒄𝟐]

𝝏𝑺(𝒂, 𝒃, 𝒄)

𝝏𝒂=∑[𝟎 − 𝟐 ∙ 𝒙𝒊 ∙ 𝒛𝒊 + 𝟐 ∙ 𝒃 ∙ 𝒙𝒊 ∙ 𝒚𝒊 − 𝟎 + 𝟐 ∙ 𝒄 ∙ 𝒙𝒊 + 𝟎 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊

𝟐 + 𝟎

𝒏

𝒊=𝟏

+ 𝟎] = 𝟎

𝝏𝑺(𝒂, 𝒃, 𝒄)

𝝏𝒂= 𝟐 ∙∑[−𝒙𝒊 ∙ 𝒛𝒊 + 𝒃 ∙ 𝒙𝒊 ∙ 𝒚𝒊 + 𝒄 ∙ 𝒙𝒊 + 𝒂 ∙ 𝒙𝒊

𝟐] = 𝟎

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃, 𝒄)

𝝏𝒂=∑[−𝒙𝒊 ∙ 𝒛𝒊] +∑[𝒃 ∙ 𝒙𝒊 ∙ 𝒚𝒊] +∑[𝒄 ∙ 𝒙𝒊] +∑[𝒂 ∙ 𝒙𝒊

𝟐] = 𝟎

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒂 ∙∑𝒙𝒊𝟐 +

𝒏

𝒊=𝟏

𝒃 ∙∑𝒙𝒊 ∙ 𝒚𝒊 + 𝒄 ∙∑𝒙𝒊 =∑𝒙𝒊 ∙ 𝒛𝒊

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃, 𝒄)

𝝏𝒃=∑[𝟎 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 ∙ 𝒚𝒊 − 𝟐 ∙ 𝒚𝒊 ∙ 𝒛𝒊 + 𝟎 + 𝟐 ∙ 𝒄 ∙ 𝒚𝒊 − 𝟎 + 𝟎 + 𝟐 ∙ 𝒃 ∙ 𝒚𝒊

𝟐

𝒏

𝒊=𝟏

+ 𝟎] = 𝟎

𝝏𝑺(𝒂, 𝒃, 𝒄)

𝝏𝒃= 𝟐 ∙∑[−𝒚𝒊 ∙ 𝒛𝒊 + 𝒂 ∙ 𝒙𝒊 ∙ 𝒚𝒊 + 𝒄 ∙ 𝒚𝒊 + 𝒃 ∙ 𝒚𝒊

𝟐] = 𝟎

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃, 𝒄)

𝝏𝒃=∑[−𝒚𝒊 ∙ 𝒛𝒊] +∑[𝒂 ∙ 𝒙𝒊 ∙ 𝒚𝒊] +∑[𝒄 ∙ 𝒚𝒊] +∑[𝒃 ∙ 𝒚𝒊

𝟐] = 𝟎

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒂 ∙∑𝒙𝒊 ∙ 𝒚𝒊 +

𝒏

𝒊=𝟏

𝒃 ∙∑𝒚𝒊𝟐 + 𝒄 ∙∑𝒚𝒊 =∑𝒚𝒊 ∙ 𝒛𝒊

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃, 𝒄)

𝝏𝒄=∑[𝟎 − 𝟎 + 𝟎 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 + 𝟐 ∙ 𝒃 ∙ 𝒚𝒊 − 𝟐 ∙ 𝒛𝒊 + 𝟎 + 𝟎 + 𝟐 ∙ 𝒄] = 𝟎

𝒏

𝒊=𝟏

Page 9: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

9

𝝏𝑺(𝒂, 𝒃, 𝒄)

𝝏𝒄= 𝟐 ∙∑[𝒂 ∙ 𝒙𝒊 + 𝒃 ∙ 𝒚𝒊 − 𝒛𝒊 + 𝒄] = 𝟎

𝒏

𝒊=𝟏

𝝏𝑺(𝒂, 𝒃, 𝒄)

𝝏𝒄=∑[𝒂 ∙ 𝒙𝒊] +∑[𝒃 ∙ 𝒚𝒊] +∑[−𝒛𝒊] +∑[𝒄] = 𝟎

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒂 ∙∑𝒙𝒊 +

𝒏

𝒊=𝟏

𝒃 ∙∑𝒚𝒊 + 𝒄 ∙∑𝟏 =∑𝒛𝒊

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

[ ∑𝒙𝒊

𝟐

𝒏

𝒊=𝟏

∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊𝟐

𝒏

𝒊=𝟏

∑𝒚𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊

𝒏

𝒊=𝟏

∑𝟏

𝒏

𝒊=𝟏 ]

∙ [𝒂𝒃𝒄] =

[ ∑𝒙𝒊 ∙ 𝒛𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊 ∙ 𝒛𝒊

𝒏

𝒊=𝟏

∑𝒛𝒊

𝒏

𝒊=𝟏 ]

[𝒂𝒃𝒄] =

[ ∑𝒙𝒊

𝟐

𝒏

𝒊=𝟏

∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊𝟐

𝒏

𝒊=𝟏

∑𝒚𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊

𝒏

𝒊=𝟏

∑𝟏

𝒏

𝒊=𝟏 ] −𝟏

[ ∑𝒙𝒊 ∙ 𝒛𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊 ∙ 𝒛𝒊

𝒏

𝒊=𝟏

∑𝒛𝒊

𝒏

𝒊=𝟏 ]

Page 10: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

10

3. W tabeli podano parametry punktów pomiarowych pozwalające wykreślić je w kartezjańskim układzie współrzędnych 2D:

i xi yi

1 2 1

2 4 3

3 6 3

4 8 3

5 10 5

6 12 7

7 14 6

8 16 8

9 18 9

10 20 12

Tab. 5.1

Rys. 5.2

Wyznaczyć współczynniki a i b aproksymujące dane punkty do prostej o równaniu y = ax + b. Naszkicować wyznaczoną prostą na jednym wykresie z punkami pomiarowymi. Zastosować założenia regresji liniowej.

Page 11: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

11

[ ∑𝒙𝒊

𝟐

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝟏

𝒏

𝒊=𝟏 ]

∙ [𝒂𝒃] =

[ ∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊

𝒏

𝒊=𝟏 ]

⇒ [𝒂𝒃] =

[ ∑𝒙𝒊

𝟐

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝒙𝒊

𝒏

𝒊=𝟏

∑𝟏

𝒏

𝒊=𝟏 ] −𝟏

[ ∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

∑𝒚𝒊

𝒏

𝒊=𝟏 ]

∑𝒙𝒊𝟐

𝒏

𝒊=𝟏

= (𝟐𝟐 + 𝟒𝟐 + 𝟔𝟐 + 𝟖𝟐 + 𝟏𝟎𝟐 + 𝟏𝟐𝟐 + 𝟏𝟒𝟐 + 𝟏𝟔𝟐 + 𝟏𝟖𝟐 + 𝟐𝟎𝟐) = 𝟏𝟓𝟒𝟎

∑𝒙𝒊

𝒏

𝒊=𝟏

= (𝟐 + 𝟒 + 𝟔 + 𝟖 + 𝟏𝟎 + 𝟏𝟐 + 𝟏𝟒 + 𝟏𝟔 + 𝟏𝟖 + 𝟐𝟎) = 𝟏𝟏𝟎

∑𝒚𝒊

𝒏

𝒊=𝟏

= (𝟏 + 𝟑 + 𝟑 + 𝟑 + 𝟓 + 𝟕 + 𝟔 + 𝟖 + 𝟗 + 𝟏𝟐) = 𝟓𝟕

∑𝒙𝒊 ∙ 𝒚𝒊

𝒏

𝒊=𝟏

= (𝟐 ∙ 𝟏 + 𝟒 ∙ 𝟑 + 𝟔 ∙ 𝟑 + 𝟖 ∙ 𝟑 + 𝟏𝟎 ∙ 𝟓 + 𝟏𝟐 ∙ 𝟕 + 𝟏𝟒 ∙ 𝟔 + 𝟏𝟔 ∙ 𝟖 + 𝟏𝟖 ∙ 𝟗 + 𝟐𝟎

∙ 𝟏𝟐) = 𝟖𝟎𝟒

𝑨 = [𝟏𝟓𝟒𝟎 𝟏𝟏𝟎𝟏𝟏𝟎 𝟏𝟎

] ⇒ 𝒅𝒆𝒕𝑨 = 𝟏𝟓𝟒𝟎 ∙ 𝟏𝟎 − 𝟏𝟏𝟎 ∙ 𝟏𝟏𝟎 = 𝟑𝟑𝟎𝟎

𝑴𝟏𝟏 = 𝟏 ∙ 𝟏𝟎 = 𝟏𝟎 𝑴𝟏𝟐 = −𝟏 ∙ 𝟏𝟏𝟎 = −𝟏𝟏𝟎 𝑴𝟐𝟏 = −𝟏 ∙ 𝟏𝟏𝟎 = −𝟏𝟏𝟎 𝑴𝟐𝟐 = 𝟏 ∙ 𝟏𝟓𝟒𝟎 = 𝟏𝟓𝟒𝟎

𝑩 = [𝟏𝟎 −𝟏𝟏𝟎−𝟏𝟏𝟎 𝟏𝟓𝟒𝟎

] ⇒ 𝑩𝑻 = [𝟏𝟎 −𝟏𝟏𝟎−𝟏𝟏𝟎 𝟏𝟓𝟒𝟎

]

𝑨−𝟏 =𝟏

𝒅𝒆𝒕𝑨∙ 𝑩𝑻 =

𝟏

𝟑𝟑𝟎𝟎∙ [

𝟏𝟎 −𝟏𝟏𝟎−𝟏𝟏𝟎 𝟏𝟓𝟒𝟎

] = [

𝟏

𝟑𝟑𝟎

−𝟏

𝟑𝟎−𝟏

𝟑𝟎

𝟕𝟕

𝟏𝟔𝟓

]

[𝒂𝒃] = [

𝟏

𝟑𝟑𝟎

−𝟏

𝟑𝟎−𝟏

𝟑𝟎

𝟕𝟕

𝟏𝟔𝟓

] ∙ [𝟖𝟎𝟒𝟓𝟕

] = [

𝟏

𝟑𝟑𝟎∙ 𝟖𝟎𝟒 −

𝟏

𝟑𝟎∙ 𝟓𝟕

−𝟏

𝟑𝟎∙ 𝟖𝟎𝟒 +

𝟕𝟕

𝟏𝟔𝟓∙ 𝟓𝟕

] = [

𝟏𝟕𝟕

𝟑𝟑𝟎−𝟔𝟔

𝟑𝟑𝟎

] ≅ [𝟎. 𝟓𝟑𝟔−𝟎. 𝟐𝟎𝟎

]

Prosta aproksymująca liniowo punkty pomiarowe ma równanie: 𝒚 = 𝟎. 𝟓𝟑𝟔 ∙ 𝒙 − 𝟎. 𝟐

Page 12: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

12

Rys. 5.3

4. Dla danych doświadczalnych z zadania 3 wyznaczyć współczynnik korelacji liniowej rxy

oraz podać interpretację otrzymanego rezultatu co do stopnia zależności liniowej pomiędzy danymi doświadczalnymi opisującymi x oraz opisywanymi y.

𝒓𝒙𝒚 =𝒄𝒐𝒗(𝒙, 𝒚)

𝒔𝒙 ∙ 𝒔𝒚=

𝟏𝒏 ∙∑ (𝒙𝒊 − �̅�) ∙ (𝒚𝒊 − �̅�)𝒏𝒊=𝟏

√𝟏𝒏 ∙∑ (𝒙𝒊 − �̅�)𝟐𝒏𝒊=𝟏 ∙ √

𝟏𝒏 ∙∑ (𝒚𝒊 − �̅�)𝟐𝒏𝒊=𝟏

�̅� =∑ 𝐱𝐢𝐧𝐢=𝟏

𝐧=(𝟐 + 𝟒 + 𝟔 + 𝟖 + 𝟏𝟎 + 𝟏𝟐 + 𝟏𝟒 + 𝟏𝟔 + 𝟏𝟖 + 𝟐𝟎)

𝟏𝟎=𝟏𝟏𝟎

𝟏𝟎= 𝟏𝟏

�̅� =∑ 𝐲𝐢𝐧𝐢=𝟏

𝐧=(𝟏 + 𝟑 + 𝟑 + 𝟑+ 𝟓 + 𝟕 + 𝟔 + 𝟖+ 𝟗 + 𝟏𝟐)

𝟏𝟎=𝟓𝟕

𝟏𝟎= 𝟓. 𝟕

𝐜𝐨𝐯(𝐱, 𝐲) = 𝟎. 𝟏 ∙ [(𝟐 − 𝟏𝟏) ∙ (𝟏 − 𝟓. 𝟕) + (𝟒 − 𝟏𝟏) ∙ (𝟑 − 𝟓. 𝟕) + (𝟔 − 𝟏𝟏) ∙ (𝟑 − 𝟓. 𝟕) + (𝟖 − 𝟏𝟏) ∙ (𝟑 − 𝟓. 𝟕) + (𝟏𝟎 − 𝟏𝟏) ∙ (𝟓 − 𝟓. 𝟕)

+ (𝟏𝟐 − 𝟏𝟏) ∙ (𝟕 − 𝟓. 𝟕) + (𝟏𝟒 − 𝟏𝟏) ∙ (𝟔 − 𝟓. 𝟕) + (𝟏𝟔 − 𝟏𝟏) ∙ (𝟖 − 𝟓. 𝟕) + (𝟏𝟖 − 𝟏𝟏) ∙ (𝟗 − 𝟓. 𝟕) + (𝟐𝟎 − 𝟏𝟏)∙ (𝟏𝟐 − 𝟓. 𝟕)] = 𝟏𝟕. 𝟕

𝒔𝒙 =

√𝟎.𝟏 ∙ [(𝟐 − 𝟏𝟏)𝟐 + (𝟒 − 𝟏𝟏)𝟐 + (𝟔 − 𝟏𝟏)𝟐 + (𝟖 − 𝟏𝟏)𝟐 + (𝟏𝟎 − 𝟏𝟏)𝟐 + (𝟏𝟐 − 𝟏𝟏)𝟐 + (𝟏𝟒 − 𝟏𝟏)𝟐 + (𝟏𝟔 − 𝟏𝟏)𝟐 + (𝟏𝟖 − 𝟏𝟏)𝟐 + (𝟐𝟎 − 𝟏𝟏)𝟐]

=5.74 𝒔𝒚 =

√𝟎.𝟏 ∙ [(𝟏 − 𝟓. 𝟕)𝟐 + (𝟑 − 𝟓. 𝟕)𝟐 + (𝟑 − 𝟓. 𝟕)𝟐 + (𝟑 − 𝟓. 𝟕)𝟐 + (𝟓 − 𝟓. 𝟕)𝟐 + (𝟕 − 𝟓. 𝟕)𝟐 + (𝟔 − 𝟓. 𝟕)𝟐 + (𝟖 − 𝟓. 𝟕)𝟐 + (𝟗 − 𝟓. 𝟕)𝟐 + (𝟏𝟐 − 𝟓. 𝟕)𝟐]

=3.20

𝒓𝒙𝒚 =𝟏𝟕. 𝟕

𝟓. 𝟕𝟒 ∙ 𝟑. 𝟐𝟎=𝟏𝟕. 𝟕

𝟏𝟖. 𝟑𝟕= 𝟎. 𝟗𝟔 > 𝟎 − 𝐬𝐢𝐥𝐧𝐚 𝐤𝐨𝐫𝐞𝐥𝐚𝐜𝐣𝐚 𝐝𝐨𝐝𝐚𝐭𝐧𝐢𝐚

Odp. Zmienne x i y są zatem dobrze skorelowane i założenie, że są powiązane zależnością liniową, jest uzasadnione Wraz ze wzrostem zmiennej x wzrasta wartość zmiennej y.

Page 13: y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej

13

5. Wyznaczyć współczynnik korelacji wielorakiej R dla następujących założeń:

c) zmienne x i y opisują w sposób niezależny zmienną z, d) współczynniki korelacji wynoszą odpowiednio rxy = 0.6, rzx = 0.9,

rzy = 0.3

podać interpretację otrzymanego rezultatu co do stopnia zależności liniowej pomiędzy danymi doświadczalnymi opisującymi x i y oraz opisywanymi z.

Macierz korelacji pomiędzy wszystkimi zmiennymi:

𝑫 = [

𝟏 𝒓𝒛𝒙 𝒓𝒛𝒚𝒓𝒙𝒛 𝟏 𝒓𝒙𝒚𝒓𝒚𝒛 𝒓𝒚𝒙 𝟏

] = [𝟏 𝟎. 𝟗 𝟎. 𝟑𝟎. 𝟗 𝟏 𝟎. 𝟔𝟎. 𝟑 𝟎. 𝟔 𝟏

]

Macierz korelacji pomiędzy zmiennymi objaśniającymi:

𝑹 = [𝟏 𝒓𝒙𝒚𝒓𝒚𝒙 𝟏

] = [𝟏 𝟎. 𝟔𝟎. 𝟔 𝟏

]

𝒅𝒆𝒕𝑫 = |𝟏 𝟎. 𝟗 𝟎. 𝟑𝟎. 𝟗 𝟏 𝟎. 𝟔𝟎. 𝟑 𝟎. 𝟔 𝟏

|𝟏 𝟎. 𝟗𝟎. 𝟗 𝟏𝟎. 𝟑 𝟎. 𝟔

= 𝟏 ∙ 𝟏 ∙ 𝟏 + 𝟎. 𝟗 ∙ 𝟎. 𝟔 ∙ 𝟎. 𝟑 + 𝟎. 𝟑 ∙ 𝟎. 𝟗 ∙

𝟎. 𝟔 − 𝟎. 𝟑 ∙ 𝟏 ∙ 𝟎. 𝟑 − 𝟎. 𝟔 ∙ 𝟎. 𝟔 ∙ 𝟏 − 𝟏 ∙ 𝟎. 𝟗 ∙ 𝟎. 𝟗 = 𝟎. 𝟎𝟔𝟒

𝒅𝒆𝒕𝑹 = |𝟏 𝟎. 𝟔𝟎. 𝟔 𝟏

| = 𝟏 ∙ 𝟏 − 𝟎. 𝟔 ∙ 𝟎. 𝟔 = 𝟎. 𝟔𝟒

Współczynnik korelacji wielorakiej:

𝑹𝒛.𝒙𝒚 = √𝟏 −𝒅𝒆𝒕𝑫

𝒅𝒆𝒕𝑹= √𝟏 −

𝟎. 𝟎𝟔𝟒

𝟎. 𝟔𝟒= √𝟎. 𝟗 ≅ 𝟎. 𝟗𝟓 ⇒ 𝑹𝒛.𝒙𝒚

𝟐 ≅ 𝟎. 𝟗𝟎

Odp. Zmienność zmiennej zależnej (z) została w 90% wyjaśniona zmiennością zmiennych niezależnych (x i y). Model w 90% opisuje dopasowanie modelu do danych.