KORELACJE I REGRESJA LINIOWA -...
Transcript of KORELACJE I REGRESJA LINIOWA -...
Korelacje i regresja liniowa
Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność
Analiza regresji: Opisanie modelem matematycznym zależności
pomiędzy dwoma zmiennymi
Obie analizy się wzajemnie przeplatają
Korelacje i regresja liniowa
Badamy [%] wyciek soków tkankowych z tkanki mięśniowej ryb w czasie chłodniczego przechowywania przez 2, 4, 6, 8 i 10 dni. Chcemy określić wpływ długości przechowywania na wielkość wycieku.
Czas Wyciek
2 1,7
4 2,2
6 3,2
8 3,6
10 4,5
X Zmienna
niezależna
Y Zmienna zależna
n=5 L-ba par zmiennych X i Y
Korelacje i regresja liniowa
0
1
2
3
4
5
6
0 2 4 6 8 10 12
0
0,5
1
1,5
2
2,5
3
3,5
4
0 2 4 6 8 10 12
0
0,5
1
1,5
2
2,5
0 2 4 6 8 10 12
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
0 2 4 6 8 10 12
Korelacje i regresja liniowa
0
1
2
3
4
5
6
0 2 4 6 8 10 12
0
0,5
1
1,5
2
2,5
3
3,5
4
0 2 4 6 8 10 12
0
0,5
1
1,5
2
2,5
0 2 4 6 8 10 12
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
0 2 4 6 8 10 12
Analiza korelacji
Analiza korelacji
Współczynnik korelacji liniowej
Pearsona
Współczynnik korelacji rang Spearmana
Metoda graficzna
Kowariancja
Analiza korelacji
Analiza korelacji
Współczynnik korelacji liniowej
Pearsona
Współczynnik korelacji rang Spearmana
Metoda graficzna
Kowariancja
Analiza korelacji
Metoda graficzna
Do wykrycia zależności (korelacji) służą wykresy rozrzutu
Wyniki układają się wzdłuż linii Jest zależność!
Wyniki układają się w rozmytą chmurę punktów Brak zależności!
Analiza korelacji
Metoda graficzna
Do wykrycia zależności (korelacji) służą wykresy rozrzutu
Zależność odwrotnie proporcjonalna
Zależność wprosproporcjonalna
Analiza korelacji
Analiza korelacji
Współczynnik korelacji liniowej
Pearsona
Współczynnik korelacji rang Spearmana
Metoda graficzna
Kowariancja
Analiza korelacji
Kowariancja
Liczbowa miara zależności dwóch zmiennych X i Y
𝑐𝑜𝑣 𝑋, 𝑌 =1
𝑛 𝑥𝑖 − 𝑥 2 𝑦𝑖 − 𝑦 2
𝑛
𝑖=1
Zmienne X i Y są niezależne jeśli cov(X,Y)=0
111
Analiza korelacji
Kowariancja
Cov(X,Y) > 0 zależność wprostproporcjonalna (ze wzrostem x rośnie y)
Możemy ocenić kierunek zależności, ale nie możemy ocenić jej siły!
Cov(X,Y) < 0 zależność odwrotnie proporcjonalna (ze wzrostem x maleje y)
Analiza korelacji
Analiza korelacji
Współczynnik korelacji liniowej
Pearsona
Współczynnik korelacji rang Spearmana
Metoda graficzna
Kowariancja
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
• Między zmiennymi X i Y istnieje zależność liniowa, jeżeli najlepszym przybliżeniem obserwowanego związku jest linia prosta • obliczając r Pearsona mierzymy, jak blisko linii prostej najlepiej opisującej ich związek liniowy leżą punkty
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
𝑟 =𝑐𝑜𝑣(𝑋, 𝑌)
𝜎 𝑋 ∙ 𝜎(𝑌)
Dla populacji generalnej:
r
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
𝑟 = 𝑥𝑖 − 𝑥 ∗ 𝑦𝑖 − 𝑦 𝑛
𝑖=1
𝑥𝑖 − 𝑥 2 ∗ 𝑦𝑖 − 𝑦 2𝑛𝑖=1 𝑛
𝑖=1
Dla próby:
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Właściwości: • r przyjmuje wartości z przedziału od -1 do +1 • Znak r wskazuje, czy zależność jest wprostproporcjonalna (dodatni r) czy odwrotnie proporcjonalna (ujemny r) • Wielkość r wskazuje, jak blisko linii prostej znajdują się punkty • X i Y można zamieniać miejscami bez wpływu na wartość r • Korelacja między X i Y niekoniecznie oznacza związek przyczynowy
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
r = 1 Idealna zależność liniowa
wprostproporcjonalna
r = -1 Idealna zależność liniowa odwrotnie proporcjonalna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
r = 0,90 r = -0,90
Silna zależność liniowa wprostproporcjonalna
Silna zależność liniowa odwrotnie proporcjonalna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
r = 0 r = -0,5
Brak zależności Umiarkowana zależność liniowa odwrotnie
proporcjonalna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Na podstawie wartości r oceniamy siłę zależności:
|r| = 0 zmienne nieskorelowane
0 < |r| 0,3 korelacja niska
0,3 < |r| 0,5 korelacja przeciętna (średnia)
0,5 < |r| 0,7 korelacja wysoka
0,7 < |r| 0,9 korelacja bardzo wysoka
0,9 < |r| < 1 korelacja prawie pełna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Aby ocenić korelację pomiędzy zmiennymi należy znać:
poziom istotności p współczynnika r (określa, czy korelacje jest/nie jest statystycznie istotna)
wartość r (siła korelacji)
znak +/- przy r (zależność wprost/odwrotnie proporcjonalna)
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa: H0: |r|=0
Hipoteza alternatywna: H1: |r|0
1) Korzystamy z tablic wartości krytycznych rkr(=0,05, n)
2) Wykorzystujemy funkcję testową t-studenta
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa: H0: |r|=0
Hipoteza alternatywna: H1: |r|0
1) Korzystamy z tablic wartości krytycznych rkr(=0,05, n)
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa: H0: |r|=0
Hipoteza alternatywna: H1: |r|0
1) Korzystamy z tablic wartości krytycznych rkr(=0,05, n)
r<rkr - przyjmujemy hipotezę H0
r>rkr - przyjmujemy hipotezę H1
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa: H0: |r|=0
Hipoteza alternatywna: H1: |r|0
2) Wykorzystujemy funkcję testową t-studenta
𝑡 = 𝑟
(1 − 𝑟2)∙ 𝑛 − 2 tkr(, f=n-2)
Z tablic rozkładu t-studenta
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa: H0: |r|=0
Hipoteza alternatywna: H1: |r|0
2) Wykorzystujemy funkcję testową t-studenta
t<tkr - przyjmujemy hipotezę H0
t>tkr - przyjmujemy hipotezę H1
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Stosujemy gdy: zmienne mają rozkład normalny
ORAZ zależność ma charakter liniowy
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Kiedy nie należy obliczać r: istnieje nieliniowy związek między dwoma zmiennymi (np. związek kwadratowy
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Kiedy nie należy obliczać r: występuje jedna lub więcej wartości odstających
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Kiedy nie należy obliczać r: dane zawierają podgrupy, dla których średnie poziomy wartości dla co najmniej jednej zmiennej są różne
Analiza korelacji
Analiza korelacji
Współczynnik korelacji liniowej
Pearsona
Współczynnik korelacji rang Spearmana
Metoda graficzna
Kowariancja
Analiza korelacji
Współczynnik korelacji rang Spearmana
Alternatywa dla współczynnika korelacji liniowej Pearsona. Nadaje się również do analizy zależności nieliniowych.
Stosujemy, gdy: zmienne nie mają rozkładu normalnego
ORAZ/LUB zależność ma charakter nieliniowy
Analiza korelacji
Współczynnik korelacji rang Spearmana
Uporządkowanym od najmniejszej do największej wartości zmiennym nadaje się rangi i wylicza R Spearmana:
𝑅 = 1 −6 𝐷2𝑛
𝑖=1
𝑛(𝑛2 − 1)
n – ilość pomiarów D - różnica rang
Przyjmuje wartości od -1 do +1 interpretacja taka jaka dla r Pearsona
Analiza korelacji
Współczynnik korelacji rang Spearmana
𝑅 = 1 −6 𝐷2𝑛
𝑖=1
𝑛(𝑛2 − 1)
X Y ranga X ranga Y D D^2
2 3 1 2 -1 1
5 2 2,5 1 1,5 2,25
5 8 2,5 4,5 -2 4
8 6 4 3 1 1
9 9 5 6 -1 1
10 8 6 4,5 1,5 2,25
suma 11,5
Analiza korelacji
Współczynnik korelacji rang Spearmana
Jak ocenić czy R jest istotny?
Hipoteza zerowa: H0: |R|=0
Hipoteza alternatywna: H1: |R|0
Korzystamy z tablic wartości krytycznych Rkr(=0,05, n)
Analiza korelacji
Współczynnik korelacji rang Spearmana
Jak ocenić czy R jest istotny?
Hipoteza zerowa: H0: |R|=0
Hipoteza alternatywna: H1: |R|0
Korzystamy z tablic wartości krytycznych Rkr(=0,05, n)
R<Rkr - przyjmujemy hipotezę H0
R>Rkr - przyjmujemy hipotezę H1
Analiza korelacji
Istotność różnic między wsp. korelacji
Gdy wykonujemy dwie serie niezależnych pomiarów (dwie pary zmiennych X i Y), dla każdej pary możemy uzyskać różny współczynnik korelacji.
Aby ocenić, czy istotnie się między sobą różnią, wykorzystujemy funkcję t-studenta.
Analiza korelacji
Istotność różnic między wsp. korelacji
Hipoteza zerowa: H0: |r1|= |r2|
Hipoteza alternatywna: H1: |r1| |r2|
tkr(=0,05, f=n1+n2-4)
tr<tkr - przyjmujemy hipotezę H0
tr>tkr - przyjmujemy hipotezę H1
𝑡𝑟 =1
2 𝑙𝑛
1 + 𝑟1 (1 − 𝑟2)
1 − 𝑟1 (1 + 𝑟2)
𝑛1 − 3 (𝑛2 − 3)
𝑛1 + 𝑛2 − 6
Analiza regresji liniowej
Regresja liniowa jest rozszerzeniem korelacji liniowej i pozwala na:
graficzną prezentację linii prostej dopasowanej do wykresu rozrzutu
określenie równania opisujące zależność dwóch
zmiennych w postaci y = a + b* x
zmienna zależna
zmienna niezależna
współczynnik kierunkowy prostej
wyraz wolny
Analiza regresji liniowej
W jaki sposób wyznaczana jest linia regresji liniowej?
przez minimalizację sumy kwadratów odchyleń punktów doświadczalnych od linii regresji
tzw. metoda najmniejszych kwadratów
(𝑦𝑖 − 𝑦𝑖 𝑜𝑏𝑙 )2 = 𝑚𝑖𝑛
yi – wartości doświadczalne yi obl – wartości obliczone z równania regresji
Analiza regresji liniowej
Sprowadza się to do obliczenia współczynników a i b
𝑏 =𝑛 𝑥𝑖 ∙ 𝑦𝑖 − 𝑥𝑖 ∙ 𝑦𝑖
𝑛 𝑥𝑖2 − 𝑥𝑖
2
W jaki sposób wyznaczana jest linia regresji liniowej y=a+b*x ?
𝑎 = 𝑦𝑖 − 𝑏 ∙ 𝑥𝑖
𝑛= 𝑦 − 𝑏 ∙ 𝑥
Analiza regresji liniowej
y = a + b*x
a i b wyznaczamy na podstawie danych empirycznych ; a i b pewnym oszacowaniem rzeczywistych wartości i b
a i b obarczone są błędem!
Obliczamy go na podstawie wariancji resztowej
𝜎𝑟2 =
𝑦𝑖 − 𝑦𝑖 𝑜𝑏𝑙 2
𝑛 − 2
Analiza regresji liniowej
Dla współczynnika b:
𝜎𝑏2 =
𝑛 ∙ 𝜎𝑟2
𝑛 ∙ 𝑥𝑖2 − 𝑥𝑖
2
Dla współczynnika a:
𝜎𝑎2 =
𝜎𝑏2
𝑛∙ 𝑥𝑖
2
Analiza regresji liniowej
Dokładność wyznaczenia współczynników:
= a t(P, f=n-2) a
b = b t(P, f=n-2) b
Analiza regresji liniowej
Sprawdzamy, czy a i b istotnie różnią się od 0:
Hipoteza zerowa: H0: a=0 H0: b=0
Hipoteza alternatywna: H1: a0 H1: b0
tkr(, f=n-2)
ta (tb) <tkr - przyjmujemy hipotezę H0
ta (tb) >tkr - przyjmujemy hipotezę H1
𝑡𝑎 = 𝑎 − 0
𝜎𝑎=
𝑎
𝜎𝑎 𝑡𝑏 =
𝑏 − 0
𝜎𝑏=
𝑏
𝜎𝑏
Analiza regresji liniowej
y = a+ b*x
Współczynniki a i b muszą istotnie różnić się od 0 aby były uwzględnione w równaniu.
Jeśli b=0 – wartości y są stałe (równe a)
Jeśli a=0 – równanie upraszcza się do y=b*x
Analiza regresji liniowej
Jeśli chcemy sprawdzić, czy a i b są zgodne z wartościami literaturowymi (sens fizyko-chem):
Hipoteza zerowa: H0: a=a0 H0: b=b0
Hipoteza alternatywna: H1: aa0 H1: bb0
tkr(, f=n-2)
ta (tb) <tkr - przyjmujemy hipotezę H0
ta (tb) >tkr - przyjmujemy hipotezę H1
𝑡𝑎 = 𝑎 − 𝑎0
𝜎𝑎 𝑡𝑏 =
𝑏 − 𝑏0
𝜎𝑏
Analiza regresji liniowej
Do czego służy wyznaczone równanie?
1) Na podstawie znanych x obliczamy y
2) Na podstawie znanych y obliczamy x
Analiza regresji liniowej
1) Na podstawie znanych x obliczamy y
yk=a+b*xk
Błąd wyznaczenia yk
𝜎𝑦𝑘 = 𝜎𝑟
2
𝑛+ 𝑥𝑘 − 𝑥 2 ∙ 𝜎𝑏
2
Im xk jest bardziej oddalony od wartości średniej, tym większy błąd oszacowania
y = yk t(,f=n-2)yk
Do czego służy wyznaczone równanie?
Analiza regresji liniowej
60 80 100 120 140 160 180
IQ
20
30
40
50
60
70
80
90
Wyn
ik t
estu
x
Im xk jest bardziej oddalony od wartości średniej, tym przedział
ufności jest szerszy
Analiza regresji liniowej
2) Na podstawie znanych y obliczamy x
xk=(yk-a)/b
Błąd wyznaczenia xk
Im yk jest bardziej oddalony od wartości średniej, tym większy błąd oszacowania
x = xk t(,f=n-2)xk
𝜎𝑥𝑘 =1
𝑏
𝜎𝑟2
𝑛+
𝑦𝑘 − 𝑦 2
𝑏2∙ 𝜎𝑏
2
Do czego służy wyznaczone równanie?
Analiza regresji liniowej
60 80 100 120 140 160 180
IQ
20
30
40
50
60
70
80
90
Wyn
ik t
estu
y Im yk jest bardziej oddalony od wartości średniej, tym przedział
ufności jest szerszy
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona Im r bliższy 1 tym lepsza jakość modelu
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik determinacji
r2 – współczynnik korelacji liniowej Pearsona podniesiony do kwadratu
Podawany w postaci: - ułamkowej [0,1]
- procentowej 0-100%
Im bliższy 1 tym lepsza jakość modelu
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik indeterminacji
2 = 1- r2 – tzw. współczynnik rozbieżności
Podawany w postaci: - ułamkowej [0,1]
- procentowej 0-100%
Im bliższy 0 tym lepsza jakość modelu
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Analiza reszt ei
ei = yi – yi obl
Reszty powinny spełniać rozkład normalny, mieć charakter losowy i nie wykazywać autokorelacji
• Normalność reszt – badamy testem chi-kwadrat lub testem Kołmogorowa-Smirnowa
• Losowość reszt oceniamy na wykresie