y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest...
-
Upload
truongnhan -
Category
Documents
-
view
223 -
download
0
Transcript of y = ax + b z = ax + by + c a b c - pg.gda.plolek/5.pdf · Regresja liniowa wyników pomiarów: jest...
1
Ćwiczenia nr 5 TEMATYKA:
Regresja liniowa dla prostej i płaszczyzny DEFINICJE:
Regresja: metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych wartości innych.
Regresja liniowa wyników pomiarów: jest to proces polegający na aproksymowaniu wyników pomiarów przy pomocy prostej lub płaszczyzny. Gdy mamy do czynienia z wynikami pomiarów w postaci punktów na płaszczyźnie (w przestrzeni) i na skutek „błędów pomiarowych” układają się one w przybliżeniu wzdłuż pewnej prostej (płaszczyzny), ale nie są ani współliniowe, ani współpłaszczyznowe, to poszukiwanie prostej y = ax + b (płaszczyzny z = ax + by + c), która by przechodziła możliwie najbliżej wszystkich punktów doświadczalnych nazywamy regresją liniową dla prostej (dla płaszczyzny). Wyznaczenie parametrów a, b, c polega na minimalizacji sumy:
a) Dla prostej:
𝑆(𝑎, 𝑏) =∑[𝑦𝑖 − 𝑎 ∙ 𝑥𝑖 − 𝑏]2
𝑛
𝑖=1
b) Dla płaszczyzny:
𝑆(𝑎, 𝑏, 𝑐) =∑[𝑧𝑖 − 𝑎 ∙ 𝑥𝑖 − 𝑏 ∙ 𝑦𝑖 − 𝑐]2
𝑛
𝑖=1
Metoda ta nosi nazwę metody najmniejszych kwadratów. Formalnie rzecz biorąc są to funkcje dwóch zmiennych w przypadku prostej i trzech zmiennych w przypadku płaszczyzny. Interesują nas takie wartości tych zmiennych, dla których S(a, b) lub S(a, b, c) jest minimalna. Wiadomo, że funkcja wielu zmiennych ma minimum w punkcie, dla którego pochodne cząstkowe tej funkcji po wszystkich zmiennych są równe zeru, a zatem w tym przypadku muszą być spełnione warunki:
a) Dla prostej:
{
𝜕𝑆(𝑎, 𝑏)
𝜕𝑎= 0
𝜕𝑆(𝑎, 𝑏)
𝜕𝑏= 0
b) Dla płaszczyzny:
{
𝜕𝑆(𝑎, 𝑏, 𝑐)
𝜕𝑎= 0
𝜕𝑆(𝑎, 𝑏, 𝑐)
𝜕𝑏= 0
𝜕𝑆(𝑎, 𝑏, 𝑐)
𝜕𝑐= 0
2
Współczynnik korelacji: liczba określająca w jakim stopniu dane doświadczalne (statystyczne) są współzależne. Jest to miara korelacji (współzależności) dwóch (lub więcej) zmiennych. Istnieje wiele różnych wzorów określanych jako współczynniki korelacji. Większość z nich jest normalizowana tak, żeby przybierała wartości od −1 (zupełna korelacja ujemna), przez 0 (brak korelacji) do +1 (zupełna korelacja dodatnia).
a) współczynnik korelacji Pearsona (dla dwóch zmiennych x i y): „x jest objaśniana przez y”
𝑟𝑥𝑦 =𝑐𝑜𝑣(𝑥, 𝑦)
𝑠𝑥 ∙ 𝑠𝑦=
1𝑛 ∙∑ (𝑥𝑖 − �̅�) ∙ (𝑦𝑖 − �̅�)𝑛𝑖=1
√1𝑛 ∙∑ (𝑥𝑖 − �̅�)2𝑛𝑖=1 ∙ √
1𝑛 ∙∑ (𝑦𝑖 − �̅�)2𝑛𝑖=1
�̅� =∑ 𝑥𝑖𝑛𝑖=1
𝑛, �̅� =
∑ 𝑦𝑖𝑛𝑖=1
𝑛− średnie arytmetyczne
Interpretacja: Mówi o sile (wartość) i kierunku (znak) zależności pomiędzy dwoma cechami, np. rxy = 0.9 świadczy o silnej, dodatniej korelacji (zależności, związku) pomiędzy x i y. Właściwości:
1. korelacja pomiędzy dwoma cechami ilościowymi, 2. tylko dla zależności liniowych, 3. korelacja ujemna i dodatnia (od -1 do 1): 4. "+": cechy zmieniają się jednokierunkowo: wzrostowi (spadkowi)
wartości x towarzyszy wzrost (spadek) wartości y, 5. "-": cechy zmieniają się dwukierunkowo: wzrostowi (spadkowi)
wartości x towarzyszy spadek (wzrost) wartości y.
b) współczynnik korelacji cząstkowej Kendalla (dla trzech zmiennych x, y i z) „z jest objaśniana przez x i y”:
𝑟𝑧𝑥.𝑦 =𝑟𝑧𝑥 − 𝑟𝑧𝑦 ∙ 𝑟𝑥𝑦
√(1 − 𝑟𝑧𝑦2 ) ∙ (1 − 𝑟𝑥𝑦2 )
𝑟𝑧𝑦.𝑥 =𝑟𝑧𝑦 − 𝑟𝑧𝑥 ∙ 𝑟𝑥𝑦
√(1 − 𝑟𝑧𝑥2 ) ∙ (1 − 𝑟𝑥𝑦2 )
𝑟𝑥𝑦.𝑧 =𝑟𝑥𝑦 − 𝑟𝑧𝑥 ∙ 𝑟𝑧𝑦
√(1 − 𝑟𝑧𝑥2 ) ∙ (1 − 𝑟𝑧𝑦2 )
rxy, rzx, rzy - współczynniki korelacji Pearsona
3
Interpretacja: rxy.z = 0.9 oznacza, że istnieje silna, dodatnia korelacja (zależność) pomiędzy zmienną x i y, po wyeliminowaniu wpływu zmiennej z. Właściwości:
1. pomiędzy dwoma cechami (zmiennymi) ilościowymi, lecz gdy wpływ innych chcemy odseparować,
2. korelacje różnego rzędu: np. rzędu I: dla 3 zmiennych z wyłączeniem oddziaływania jednej z nich, rzędu II: dla 4 zmiennych z wyłączeniem oddziaływania dwóch z nich,
3. rzędu "n": dla n+2 zmiennych z wyłączeniem oddziaływania "n" z nich, 4. korelacja ujemna i dodatnia (od -1 do 1) jak w przypadku Pearsona.
c) Współczynnik korelacji wielorakiej (pierwiastek ze współczynnika
determinacji), (dla trzech zmiennych x, y i z) „z jest objaśniana przez x i y”:
𝐷 = [
1 𝑟𝑧𝑥 𝑟𝑧𝑦𝑟𝑥𝑧 1 𝑟𝑥𝑦𝑟𝑦𝑧 𝑟𝑦𝑥 1
] - macierz korelacji pomiędzy wszystkimi zmiennymi
𝑅 = [1 𝑟𝑥𝑦𝑟𝑦𝑥 1
] - macierz korelacji pomiędzy zmiennymi objaśniającymi
gdzie: rij = rji
𝑅𝑧.𝑥𝑦 = √1 −𝑑𝑒𝑡𝐷
𝑑𝑒𝑡𝑅
Interpretacja: Zazwyczaj interpretacji podlega kwadrat R zwany współczynnikiem determinacji R2. Jeżeli R = 0.9, to R2 = 0.81, co oznacza, że zmienność zmiennej zależnej (z) została w 81% wyjaśniona zmiennością zmiennych niezależnych (x i y), a mówiąc prościej, że model w 81% opisuje dopasowanie modelu do danych.
Właściwości: 1. pomiędzy wieloma cechami (zmiennymi) ilościowymi, 2. wartości z przedziału <0; 1>: 3. im bliżej 1 tym związek pomiędzy z a (x i y) jest silniejszy, 4. im bliżej 0 tym związek pomiędzy z a (x i y) słabszy, 5. podniesiony do kwadratu daje współczynnik determinacji.
4
Uwagi ogólne: Aproksymacja danych doświadczalnych (statystycznych) krzywymi nosi nazwę regresji. W przypadku, gdy do tych danych dopasowujemy prostą, mówimy o regresji liniowej.
Niedostateczność tej metody (regresji liniowej) w ogólnym przypadku pokazuje m.in. kwartet Anscombe'a – zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) pomimo znacząco różnego charakteru danych.
Rys. 5.1
5
ZADANIA:
1. Dla wyników pomiarów reprezentowanych przez n punktów Pi(xi; yi) wyprowadzić wzór ogólny (macierzowy) do wyznaczenia współczynników a i b dla prostej y = ax + b aproksymującej dane punkty stosując założenia regresji liniowej.
2. Dla wyników pomiarów reprezentowanych przez n punktów Pi(xi; yi; zi) wyprowadzić
wzór ogólny (macierzowy) do wyznaczenia współczynników a i b i c dla płaszczyzny z = ax + by + c aproksymującej dane punkty stosując założenia regresji liniowej.
3. W tabeli podano parametry punktów pomiarowych pozwalające wykreślić je w kartezjańskim układzie współrzędnych 2D:
i xi yi
1 2 1
2 4 3
3 6 3
4 8 3
5 10 5
6 12 7
7 14 6
8 16 8
9 18 9
10 20 12
Tab. 5.1
Rys. 5.2
6
Wyznaczyć współczynniki a i b aproksymujące dane punkty do prostej o równaniu y = ax + b. Naszkicować wyznaczoną prostą na jednym wykresie z punkami pomiarowymi. Zastosować założenia regresji liniowej.
4. Dla danych doświadczalnych z zadania 3 wyznaczyć współczynnik korelacji liniowej rxy oraz podać interpretację otrzymanego rezultatu co do stopnia zależności liniowej pomiędzy danymi doświadczalnymi opisującymi x oraz opisywanymi y.
5. Wyznaczyć współczynnik korelacji wielorakiej R dla następujących założeń:
a) zmienne x i y opisują w sposób niezależny zmienną z, b) współczynniki korelacji wynoszą odpowiednio rxy = 0.6, rzx = 0.9,
rzy = 0.3
podać interpretację otrzymanego rezultatu co do stopnia zależności liniowej pomiędzy danymi doświadczalnymi opisującymi x i y oraz opisywanymi z.
7
ROZWIĄZANIA ZADAŃ:
1. Dla wyników pomiarów reprezentowanych przez n punktów Pi(xi; yi) wyprowadzić wzór ogólny (macierzowy) do wyznaczenia współczynników a i b dla prostej y = ax + b aproksymującej dane punkty stosując założenia regresji liniowej.
Regresja liniowa dla prostej w ujęciu macierzowym:
𝑺(𝒂, 𝒃) =∑[𝒚𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃]𝟐
𝒏
𝒊=𝟏
=∑[𝒚𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃] ∙ [𝒚𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃] =
𝒏
𝒊=𝟏
=∑[𝒚𝒊𝟐 − 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 ∙ 𝒚𝒊 + 𝟐 ∙ 𝒂 ∙ 𝒃 ∙ 𝒙𝒊 − 𝟐 ∙ 𝒃 ∙ 𝒚𝒊 + 𝒂
𝟐 ∙ 𝒙𝒊𝟐 + 𝒃𝟐]
𝒏
𝒊=𝟏
⇒
𝝏𝑺(𝒂, 𝒃)
𝝏𝒂=∑[𝟎 − 𝟐 ∙ 𝒙𝒊 ∙ 𝒚𝒊 + 𝟐 ∙ 𝒃 ∙ 𝒙𝒊 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊
𝟐 + 𝟎] = 𝟎
𝒏
𝒊=𝟏
𝝏𝑺(𝒂, 𝒃)
𝝏𝒂= 𝟐 ∙∑[−𝒙𝒊 ∙ 𝒚𝒊 + 𝒃 ∙ 𝒙𝒊 + 𝒂 ∙ 𝒙𝒊
𝟐] = 𝟎
𝒏
𝒊=𝟏
⇒
𝝏𝑺(𝒂, 𝒃)
𝝏𝒂=∑[−𝒙𝒊 ∙ 𝒚𝒊] +∑[𝒃 ∙ 𝒙𝒊]
𝒏
𝒊=𝟏
+∑[𝒂 ∙ 𝒙𝒊𝟐]
𝒏
𝒊=𝟏
= 𝟎
𝒏
𝒊=𝟏
⇒
∑[𝒃 ∙ 𝒙𝒊]
𝒏
𝒊=𝟏
+∑[𝒂 ∙ 𝒙𝒊𝟐]
𝒏
𝒊=𝟏
=∑[𝒙𝒊 ∙ 𝒚𝒊] ⇒
𝒏
𝒊=𝟏
𝒃 ∙∑𝒙𝒊
𝒏
𝒊=𝟏
+ 𝒂 ∙∑𝒙𝒊𝟐
𝒏
𝒊=𝟏
=∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
𝝏𝑺(𝒂, 𝒃)
𝝏𝒃=∑[𝟎 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 − 𝟐 ∙ 𝒚𝒊 + 𝟎 + 𝟐 ∙ 𝒃] = 𝟎
𝒏
𝒊=𝟏
𝝏𝑺(𝒂, 𝒃)
𝝏𝒃= 𝟐 ∙∑[𝒂 ∙ 𝒙𝒊 − 𝒚𝒊 + 𝒃] = 𝟎
𝒏
𝒊=𝟏
⇒
𝝏𝑺(𝒂, 𝒃)
𝝏𝒃=∑[𝒂 ∙ 𝒙𝒊] +∑[−𝒚𝒊]
𝒏
𝒊=𝟏
+∑[𝒃]
𝒏
𝒊=𝟏
= 𝟎
𝒏
𝒊=𝟏
⇒
∑[𝒂 ∙ 𝒙𝒊]
𝒏
𝒊=𝟏
+∑[𝒃]
𝒏
𝒊=𝟏
=∑[𝒚𝒊] ⇒
𝒏
𝒊=𝟏
𝒂 ∙∑𝒙𝒊
𝒏
𝒊=𝟏
+ 𝒃 ∙∑𝟏
𝒏
𝒊=𝟏
=∑𝒚𝒊
𝒏
𝒊=𝟏
[ ∑𝒙𝒊
𝟐
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝟏
𝒏
𝒊=𝟏 ]
∙ [𝒂𝒃] =
[ ∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊
𝒏
𝒊=𝟏 ]
⇒ [𝒂𝒃] =
[ ∑𝒙𝒊
𝟐
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝟏
𝒏
𝒊=𝟏 ] −𝟏
∙
[ ∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊
𝒏
𝒊=𝟏 ]
8
2. Dla wyników pomiarów reprezentowanych przez n punktów Pi(xi; yi; zi) wyprowadzić wzór ogólny (macierzowy) do wyznaczenia współczynników a i b i c dla płaszczyzny z = ax + by + c aproksymującej dane punkty stosując założenia regresji liniowej.
Regresja liniowa dla płaszczyzny w ujęciu macierzowym:
𝑺(𝒂, 𝒃, 𝒄) =∑[𝒛𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃 ∙ 𝒚𝒊 − 𝒄]𝟐 =
𝒏
𝒊=𝟏
=∑[𝒛𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃 ∙ 𝒚𝒊 − 𝒄] ∙ [𝒛𝒊 − 𝒂 ∙ 𝒙𝒊 − 𝒃 ∙ 𝒚𝒊 − 𝒄]
𝒏
𝒊=𝟏
=
=∑[𝒛𝒊𝟐 − 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 ∙ 𝒛𝒊 + 𝟐 ∙ 𝒂 ∙ 𝒃 ∙ 𝒙𝒊 ∙ 𝒚𝒊 − 𝟐 ∙ 𝒃 ∙ 𝒚𝒊 ∙ 𝒛𝒊 + 𝟐 ∙ 𝒂 ∙ 𝒄 ∙ 𝒙𝒊 + 𝟐 ∙ 𝒃 ∙ 𝒄 ∙ 𝒚𝒊 − 𝟐
𝒏
𝒊=𝟏
∙ 𝒄 ∙ 𝒛𝒊 + 𝒂𝟐 ∙ 𝒙𝒊
𝟐 + 𝒃𝟐 ∙ 𝒚𝒊𝟐 + 𝒄𝟐]
𝝏𝑺(𝒂, 𝒃, 𝒄)
𝝏𝒂=∑[𝟎 − 𝟐 ∙ 𝒙𝒊 ∙ 𝒛𝒊 + 𝟐 ∙ 𝒃 ∙ 𝒙𝒊 ∙ 𝒚𝒊 − 𝟎 + 𝟐 ∙ 𝒄 ∙ 𝒙𝒊 + 𝟎 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊
𝟐 + 𝟎
𝒏
𝒊=𝟏
+ 𝟎] = 𝟎
𝝏𝑺(𝒂, 𝒃, 𝒄)
𝝏𝒂= 𝟐 ∙∑[−𝒙𝒊 ∙ 𝒛𝒊 + 𝒃 ∙ 𝒙𝒊 ∙ 𝒚𝒊 + 𝒄 ∙ 𝒙𝒊 + 𝒂 ∙ 𝒙𝒊
𝟐] = 𝟎
𝒏
𝒊=𝟏
𝝏𝑺(𝒂, 𝒃, 𝒄)
𝝏𝒂=∑[−𝒙𝒊 ∙ 𝒛𝒊] +∑[𝒃 ∙ 𝒙𝒊 ∙ 𝒚𝒊] +∑[𝒄 ∙ 𝒙𝒊] +∑[𝒂 ∙ 𝒙𝒊
𝟐] = 𝟎
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
⇒
𝒂 ∙∑𝒙𝒊𝟐 +
𝒏
𝒊=𝟏
𝒃 ∙∑𝒙𝒊 ∙ 𝒚𝒊 + 𝒄 ∙∑𝒙𝒊 =∑𝒙𝒊 ∙ 𝒛𝒊
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝝏𝑺(𝒂, 𝒃, 𝒄)
𝝏𝒃=∑[𝟎 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 ∙ 𝒚𝒊 − 𝟐 ∙ 𝒚𝒊 ∙ 𝒛𝒊 + 𝟎 + 𝟐 ∙ 𝒄 ∙ 𝒚𝒊 − 𝟎 + 𝟎 + 𝟐 ∙ 𝒃 ∙ 𝒚𝒊
𝟐
𝒏
𝒊=𝟏
+ 𝟎] = 𝟎
𝝏𝑺(𝒂, 𝒃, 𝒄)
𝝏𝒃= 𝟐 ∙∑[−𝒚𝒊 ∙ 𝒛𝒊 + 𝒂 ∙ 𝒙𝒊 ∙ 𝒚𝒊 + 𝒄 ∙ 𝒚𝒊 + 𝒃 ∙ 𝒚𝒊
𝟐] = 𝟎
𝒏
𝒊=𝟏
𝝏𝑺(𝒂, 𝒃, 𝒄)
𝝏𝒃=∑[−𝒚𝒊 ∙ 𝒛𝒊] +∑[𝒂 ∙ 𝒙𝒊 ∙ 𝒚𝒊] +∑[𝒄 ∙ 𝒚𝒊] +∑[𝒃 ∙ 𝒚𝒊
𝟐] = 𝟎
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
⇒
𝒂 ∙∑𝒙𝒊 ∙ 𝒚𝒊 +
𝒏
𝒊=𝟏
𝒃 ∙∑𝒚𝒊𝟐 + 𝒄 ∙∑𝒚𝒊 =∑𝒚𝒊 ∙ 𝒛𝒊
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝝏𝑺(𝒂, 𝒃, 𝒄)
𝝏𝒄=∑[𝟎 − 𝟎 + 𝟎 − 𝟎 + 𝟐 ∙ 𝒂 ∙ 𝒙𝒊 + 𝟐 ∙ 𝒃 ∙ 𝒚𝒊 − 𝟐 ∙ 𝒛𝒊 + 𝟎 + 𝟎 + 𝟐 ∙ 𝒄] = 𝟎
𝒏
𝒊=𝟏
9
𝝏𝑺(𝒂, 𝒃, 𝒄)
𝝏𝒄= 𝟐 ∙∑[𝒂 ∙ 𝒙𝒊 + 𝒃 ∙ 𝒚𝒊 − 𝒛𝒊 + 𝒄] = 𝟎
𝒏
𝒊=𝟏
𝝏𝑺(𝒂, 𝒃, 𝒄)
𝝏𝒄=∑[𝒂 ∙ 𝒙𝒊] +∑[𝒃 ∙ 𝒚𝒊] +∑[−𝒛𝒊] +∑[𝒄] = 𝟎
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
⇒
𝒂 ∙∑𝒙𝒊 +
𝒏
𝒊=𝟏
𝒃 ∙∑𝒚𝒊 + 𝒄 ∙∑𝟏 =∑𝒛𝒊
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
𝒏
𝒊=𝟏
[ ∑𝒙𝒊
𝟐
𝒏
𝒊=𝟏
∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊𝟐
𝒏
𝒊=𝟏
∑𝒚𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊
𝒏
𝒊=𝟏
∑𝟏
𝒏
𝒊=𝟏 ]
∙ [𝒂𝒃𝒄] =
[ ∑𝒙𝒊 ∙ 𝒛𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊 ∙ 𝒛𝒊
𝒏
𝒊=𝟏
∑𝒛𝒊
𝒏
𝒊=𝟏 ]
⇒
[𝒂𝒃𝒄] =
[ ∑𝒙𝒊
𝟐
𝒏
𝒊=𝟏
∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊𝟐
𝒏
𝒊=𝟏
∑𝒚𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊
𝒏
𝒊=𝟏
∑𝟏
𝒏
𝒊=𝟏 ] −𝟏
∙
[ ∑𝒙𝒊 ∙ 𝒛𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊 ∙ 𝒛𝒊
𝒏
𝒊=𝟏
∑𝒛𝒊
𝒏
𝒊=𝟏 ]
10
3. W tabeli podano parametry punktów pomiarowych pozwalające wykreślić je w kartezjańskim układzie współrzędnych 2D:
i xi yi
1 2 1
2 4 3
3 6 3
4 8 3
5 10 5
6 12 7
7 14 6
8 16 8
9 18 9
10 20 12
Tab. 5.1
Rys. 5.2
Wyznaczyć współczynniki a i b aproksymujące dane punkty do prostej o równaniu y = ax + b. Naszkicować wyznaczoną prostą na jednym wykresie z punkami pomiarowymi. Zastosować założenia regresji liniowej.
11
[ ∑𝒙𝒊
𝟐
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝟏
𝒏
𝒊=𝟏 ]
∙ [𝒂𝒃] =
[ ∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊
𝒏
𝒊=𝟏 ]
⇒ [𝒂𝒃] =
[ ∑𝒙𝒊
𝟐
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝒙𝒊
𝒏
𝒊=𝟏
∑𝟏
𝒏
𝒊=𝟏 ] −𝟏
∙
[ ∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
∑𝒚𝒊
𝒏
𝒊=𝟏 ]
∑𝒙𝒊𝟐
𝒏
𝒊=𝟏
= (𝟐𝟐 + 𝟒𝟐 + 𝟔𝟐 + 𝟖𝟐 + 𝟏𝟎𝟐 + 𝟏𝟐𝟐 + 𝟏𝟒𝟐 + 𝟏𝟔𝟐 + 𝟏𝟖𝟐 + 𝟐𝟎𝟐) = 𝟏𝟓𝟒𝟎
∑𝒙𝒊
𝒏
𝒊=𝟏
= (𝟐 + 𝟒 + 𝟔 + 𝟖 + 𝟏𝟎 + 𝟏𝟐 + 𝟏𝟒 + 𝟏𝟔 + 𝟏𝟖 + 𝟐𝟎) = 𝟏𝟏𝟎
∑𝒚𝒊
𝒏
𝒊=𝟏
= (𝟏 + 𝟑 + 𝟑 + 𝟑 + 𝟓 + 𝟕 + 𝟔 + 𝟖 + 𝟗 + 𝟏𝟐) = 𝟓𝟕
∑𝒙𝒊 ∙ 𝒚𝒊
𝒏
𝒊=𝟏
= (𝟐 ∙ 𝟏 + 𝟒 ∙ 𝟑 + 𝟔 ∙ 𝟑 + 𝟖 ∙ 𝟑 + 𝟏𝟎 ∙ 𝟓 + 𝟏𝟐 ∙ 𝟕 + 𝟏𝟒 ∙ 𝟔 + 𝟏𝟔 ∙ 𝟖 + 𝟏𝟖 ∙ 𝟗 + 𝟐𝟎
∙ 𝟏𝟐) = 𝟖𝟎𝟒
𝑨 = [𝟏𝟓𝟒𝟎 𝟏𝟏𝟎𝟏𝟏𝟎 𝟏𝟎
] ⇒ 𝒅𝒆𝒕𝑨 = 𝟏𝟓𝟒𝟎 ∙ 𝟏𝟎 − 𝟏𝟏𝟎 ∙ 𝟏𝟏𝟎 = 𝟑𝟑𝟎𝟎
𝑴𝟏𝟏 = 𝟏 ∙ 𝟏𝟎 = 𝟏𝟎 𝑴𝟏𝟐 = −𝟏 ∙ 𝟏𝟏𝟎 = −𝟏𝟏𝟎 𝑴𝟐𝟏 = −𝟏 ∙ 𝟏𝟏𝟎 = −𝟏𝟏𝟎 𝑴𝟐𝟐 = 𝟏 ∙ 𝟏𝟓𝟒𝟎 = 𝟏𝟓𝟒𝟎
𝑩 = [𝟏𝟎 −𝟏𝟏𝟎−𝟏𝟏𝟎 𝟏𝟓𝟒𝟎
] ⇒ 𝑩𝑻 = [𝟏𝟎 −𝟏𝟏𝟎−𝟏𝟏𝟎 𝟏𝟓𝟒𝟎
]
𝑨−𝟏 =𝟏
𝒅𝒆𝒕𝑨∙ 𝑩𝑻 =
𝟏
𝟑𝟑𝟎𝟎∙ [
𝟏𝟎 −𝟏𝟏𝟎−𝟏𝟏𝟎 𝟏𝟓𝟒𝟎
] = [
𝟏
𝟑𝟑𝟎
−𝟏
𝟑𝟎−𝟏
𝟑𝟎
𝟕𝟕
𝟏𝟔𝟓
]
[𝒂𝒃] = [
𝟏
𝟑𝟑𝟎
−𝟏
𝟑𝟎−𝟏
𝟑𝟎
𝟕𝟕
𝟏𝟔𝟓
] ∙ [𝟖𝟎𝟒𝟓𝟕
] = [
𝟏
𝟑𝟑𝟎∙ 𝟖𝟎𝟒 −
𝟏
𝟑𝟎∙ 𝟓𝟕
−𝟏
𝟑𝟎∙ 𝟖𝟎𝟒 +
𝟕𝟕
𝟏𝟔𝟓∙ 𝟓𝟕
] = [
𝟏𝟕𝟕
𝟑𝟑𝟎−𝟔𝟔
𝟑𝟑𝟎
] ≅ [𝟎. 𝟓𝟑𝟔−𝟎. 𝟐𝟎𝟎
]
Prosta aproksymująca liniowo punkty pomiarowe ma równanie: 𝒚 = 𝟎. 𝟓𝟑𝟔 ∙ 𝒙 − 𝟎. 𝟐
12
Rys. 5.3
4. Dla danych doświadczalnych z zadania 3 wyznaczyć współczynnik korelacji liniowej rxy
oraz podać interpretację otrzymanego rezultatu co do stopnia zależności liniowej pomiędzy danymi doświadczalnymi opisującymi x oraz opisywanymi y.
𝒓𝒙𝒚 =𝒄𝒐𝒗(𝒙, 𝒚)
𝒔𝒙 ∙ 𝒔𝒚=
𝟏𝒏 ∙∑ (𝒙𝒊 − �̅�) ∙ (𝒚𝒊 − �̅�)𝒏𝒊=𝟏
√𝟏𝒏 ∙∑ (𝒙𝒊 − �̅�)𝟐𝒏𝒊=𝟏 ∙ √
𝟏𝒏 ∙∑ (𝒚𝒊 − �̅�)𝟐𝒏𝒊=𝟏
�̅� =∑ 𝐱𝐢𝐧𝐢=𝟏
𝐧=(𝟐 + 𝟒 + 𝟔 + 𝟖 + 𝟏𝟎 + 𝟏𝟐 + 𝟏𝟒 + 𝟏𝟔 + 𝟏𝟖 + 𝟐𝟎)
𝟏𝟎=𝟏𝟏𝟎
𝟏𝟎= 𝟏𝟏
�̅� =∑ 𝐲𝐢𝐧𝐢=𝟏
𝐧=(𝟏 + 𝟑 + 𝟑 + 𝟑+ 𝟓 + 𝟕 + 𝟔 + 𝟖+ 𝟗 + 𝟏𝟐)
𝟏𝟎=𝟓𝟕
𝟏𝟎= 𝟓. 𝟕
𝐜𝐨𝐯(𝐱, 𝐲) = 𝟎. 𝟏 ∙ [(𝟐 − 𝟏𝟏) ∙ (𝟏 − 𝟓. 𝟕) + (𝟒 − 𝟏𝟏) ∙ (𝟑 − 𝟓. 𝟕) + (𝟔 − 𝟏𝟏) ∙ (𝟑 − 𝟓. 𝟕) + (𝟖 − 𝟏𝟏) ∙ (𝟑 − 𝟓. 𝟕) + (𝟏𝟎 − 𝟏𝟏) ∙ (𝟓 − 𝟓. 𝟕)
+ (𝟏𝟐 − 𝟏𝟏) ∙ (𝟕 − 𝟓. 𝟕) + (𝟏𝟒 − 𝟏𝟏) ∙ (𝟔 − 𝟓. 𝟕) + (𝟏𝟔 − 𝟏𝟏) ∙ (𝟖 − 𝟓. 𝟕) + (𝟏𝟖 − 𝟏𝟏) ∙ (𝟗 − 𝟓. 𝟕) + (𝟐𝟎 − 𝟏𝟏)∙ (𝟏𝟐 − 𝟓. 𝟕)] = 𝟏𝟕. 𝟕
𝒔𝒙 =
√𝟎.𝟏 ∙ [(𝟐 − 𝟏𝟏)𝟐 + (𝟒 − 𝟏𝟏)𝟐 + (𝟔 − 𝟏𝟏)𝟐 + (𝟖 − 𝟏𝟏)𝟐 + (𝟏𝟎 − 𝟏𝟏)𝟐 + (𝟏𝟐 − 𝟏𝟏)𝟐 + (𝟏𝟒 − 𝟏𝟏)𝟐 + (𝟏𝟔 − 𝟏𝟏)𝟐 + (𝟏𝟖 − 𝟏𝟏)𝟐 + (𝟐𝟎 − 𝟏𝟏)𝟐]
=5.74 𝒔𝒚 =
√𝟎.𝟏 ∙ [(𝟏 − 𝟓. 𝟕)𝟐 + (𝟑 − 𝟓. 𝟕)𝟐 + (𝟑 − 𝟓. 𝟕)𝟐 + (𝟑 − 𝟓. 𝟕)𝟐 + (𝟓 − 𝟓. 𝟕)𝟐 + (𝟕 − 𝟓. 𝟕)𝟐 + (𝟔 − 𝟓. 𝟕)𝟐 + (𝟖 − 𝟓. 𝟕)𝟐 + (𝟗 − 𝟓. 𝟕)𝟐 + (𝟏𝟐 − 𝟓. 𝟕)𝟐]
=3.20
𝒓𝒙𝒚 =𝟏𝟕. 𝟕
𝟓. 𝟕𝟒 ∙ 𝟑. 𝟐𝟎=𝟏𝟕. 𝟕
𝟏𝟖. 𝟑𝟕= 𝟎. 𝟗𝟔 > 𝟎 − 𝐬𝐢𝐥𝐧𝐚 𝐤𝐨𝐫𝐞𝐥𝐚𝐜𝐣𝐚 𝐝𝐨𝐝𝐚𝐭𝐧𝐢𝐚
Odp. Zmienne x i y są zatem dobrze skorelowane i założenie, że są powiązane zależnością liniową, jest uzasadnione Wraz ze wzrostem zmiennej x wzrasta wartość zmiennej y.
13
5. Wyznaczyć współczynnik korelacji wielorakiej R dla następujących założeń:
c) zmienne x i y opisują w sposób niezależny zmienną z, d) współczynniki korelacji wynoszą odpowiednio rxy = 0.6, rzx = 0.9,
rzy = 0.3
podać interpretację otrzymanego rezultatu co do stopnia zależności liniowej pomiędzy danymi doświadczalnymi opisującymi x i y oraz opisywanymi z.
Macierz korelacji pomiędzy wszystkimi zmiennymi:
𝑫 = [
𝟏 𝒓𝒛𝒙 𝒓𝒛𝒚𝒓𝒙𝒛 𝟏 𝒓𝒙𝒚𝒓𝒚𝒛 𝒓𝒚𝒙 𝟏
] = [𝟏 𝟎. 𝟗 𝟎. 𝟑𝟎. 𝟗 𝟏 𝟎. 𝟔𝟎. 𝟑 𝟎. 𝟔 𝟏
]
Macierz korelacji pomiędzy zmiennymi objaśniającymi:
𝑹 = [𝟏 𝒓𝒙𝒚𝒓𝒚𝒙 𝟏
] = [𝟏 𝟎. 𝟔𝟎. 𝟔 𝟏
]
𝒅𝒆𝒕𝑫 = |𝟏 𝟎. 𝟗 𝟎. 𝟑𝟎. 𝟗 𝟏 𝟎. 𝟔𝟎. 𝟑 𝟎. 𝟔 𝟏
|𝟏 𝟎. 𝟗𝟎. 𝟗 𝟏𝟎. 𝟑 𝟎. 𝟔
= 𝟏 ∙ 𝟏 ∙ 𝟏 + 𝟎. 𝟗 ∙ 𝟎. 𝟔 ∙ 𝟎. 𝟑 + 𝟎. 𝟑 ∙ 𝟎. 𝟗 ∙
𝟎. 𝟔 − 𝟎. 𝟑 ∙ 𝟏 ∙ 𝟎. 𝟑 − 𝟎. 𝟔 ∙ 𝟎. 𝟔 ∙ 𝟏 − 𝟏 ∙ 𝟎. 𝟗 ∙ 𝟎. 𝟗 = 𝟎. 𝟎𝟔𝟒
𝒅𝒆𝒕𝑹 = |𝟏 𝟎. 𝟔𝟎. 𝟔 𝟏
| = 𝟏 ∙ 𝟏 − 𝟎. 𝟔 ∙ 𝟎. 𝟔 = 𝟎. 𝟔𝟒
Współczynnik korelacji wielorakiej:
𝑹𝒛.𝒙𝒚 = √𝟏 −𝒅𝒆𝒕𝑫
𝒅𝒆𝒕𝑹= √𝟏 −
𝟎. 𝟎𝟔𝟒
𝟎. 𝟔𝟒= √𝟎. 𝟗 ≅ 𝟎. 𝟗𝟓 ⇒ 𝑹𝒛.𝒙𝒚
𝟐 ≅ 𝟎. 𝟗𝟎
Odp. Zmienność zmiennej zależnej (z) została w 90% wyjaśniona zmiennością zmiennych niezależnych (x i y). Model w 90% opisuje dopasowanie modelu do danych.