KORELACJE I REGRESJA LINIOWA -...

70
KORELACJE I REGRESJA LINIOWA

Transcript of KORELACJE I REGRESJA LINIOWA -...

KORELACJE I

REGRESJA LINIOWA

Korelacje i regresja liniowa

Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność

Analiza regresji: Opisanie modelem matematycznym zależności

pomiędzy dwoma zmiennymi

Obie analizy się wzajemnie przeplatają

Korelacje i regresja liniowa

Badamy [%] wyciek soków tkankowych z tkanki mięśniowej ryb w czasie chłodniczego przechowywania przez 2, 4, 6, 8 i 10 dni. Chcemy określić wpływ długości przechowywania na wielkość wycieku.

Czas Wyciek

2 1,7

4 2,2

6 3,2

8 3,6

10 4,5

X Zmienna

niezależna

Y Zmienna zależna

n=5 L-ba par zmiennych X i Y

Korelacje i regresja liniowa

0

1

2

3

4

5

6

0 2 4 6 8 10 12

0

0,5

1

1,5

2

2,5

3

3,5

4

0 2 4 6 8 10 12

0

0,5

1

1,5

2

2,5

0 2 4 6 8 10 12

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

0 2 4 6 8 10 12

Korelacje i regresja liniowa

0

1

2

3

4

5

6

0 2 4 6 8 10 12

0

0,5

1

1,5

2

2,5

3

3,5

4

0 2 4 6 8 10 12

0

0,5

1

1,5

2

2,5

0 2 4 6 8 10 12

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

0 2 4 6 8 10 12

Korelacje i regresja liniowa

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

0 2 4 6 8 10 12

Analiza korelacji

Analiza korelacji

Współczynnik korelacji liniowej

Pearsona

Współczynnik korelacji rang Spearmana

Metoda graficzna

Kowariancja

Analiza korelacji

Analiza korelacji

Współczynnik korelacji liniowej

Pearsona

Współczynnik korelacji rang Spearmana

Metoda graficzna

Kowariancja

Analiza korelacji

Metoda graficzna

Do wykrycia zależności (korelacji) służą wykresy rozrzutu

Wyniki układają się wzdłuż linii Jest zależność!

Wyniki układają się w rozmytą chmurę punktów Brak zależności!

Analiza korelacji

Metoda graficzna

Do wykrycia zależności (korelacji) służą wykresy rozrzutu

Zależność odwrotnie proporcjonalna

Zależność wprosproporcjonalna

Analiza korelacji

Analiza korelacji

Współczynnik korelacji liniowej

Pearsona

Współczynnik korelacji rang Spearmana

Metoda graficzna

Kowariancja

Analiza korelacji

Kowariancja

Liczbowa miara zależności dwóch zmiennych X i Y

𝑐𝑜𝑣 𝑋, 𝑌 =1

𝑛 𝑥𝑖 − 𝑥 2 𝑦𝑖 − 𝑦 2

𝑛

𝑖=1

Zmienne X i Y są niezależne jeśli cov(X,Y)=0

111

Analiza korelacji

Kowariancja

Cov(X,Y) > 0 zależność wprostproporcjonalna (ze wzrostem x rośnie y)

Możemy ocenić kierunek zależności, ale nie możemy ocenić jej siły!

Cov(X,Y) < 0 zależność odwrotnie proporcjonalna (ze wzrostem x maleje y)

Analiza korelacji

Analiza korelacji

Współczynnik korelacji liniowej

Pearsona

Współczynnik korelacji rang Spearmana

Metoda graficzna

Kowariancja

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

• Między zmiennymi X i Y istnieje zależność liniowa, jeżeli najlepszym przybliżeniem obserwowanego związku jest linia prosta • obliczając r Pearsona mierzymy, jak blisko linii prostej najlepiej opisującej ich związek liniowy leżą punkty

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

𝑟 =𝑐𝑜𝑣(𝑋, 𝑌)

𝜎 𝑋 ∙ 𝜎(𝑌)

Dla populacji generalnej:

r

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

𝑟 = 𝑥𝑖 − 𝑥 ∗ 𝑦𝑖 − 𝑦 𝑛

𝑖=1

𝑥𝑖 − 𝑥 2 ∗ 𝑦𝑖 − 𝑦 2𝑛𝑖=1 𝑛

𝑖=1

Dla próby:

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Właściwości: • r przyjmuje wartości z przedziału od -1 do +1 • Znak r wskazuje, czy zależność jest wprostproporcjonalna (dodatni r) czy odwrotnie proporcjonalna (ujemny r) • Wielkość r wskazuje, jak blisko linii prostej znajdują się punkty • X i Y można zamieniać miejscami bez wpływu na wartość r • Korelacja między X i Y niekoniecznie oznacza związek przyczynowy

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

r = 1 Idealna zależność liniowa

wprostproporcjonalna

r = -1 Idealna zależność liniowa odwrotnie proporcjonalna

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

r = 0,90 r = -0,90

Silna zależność liniowa wprostproporcjonalna

Silna zależność liniowa odwrotnie proporcjonalna

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

r = 0 r = -0,5

Brak zależności Umiarkowana zależność liniowa odwrotnie

proporcjonalna

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Na podstawie wartości r oceniamy siłę zależności:

|r| = 0 zmienne nieskorelowane

0 < |r| 0,3 korelacja niska

0,3 < |r| 0,5 korelacja przeciętna (średnia)

0,5 < |r| 0,7 korelacja wysoka

0,7 < |r| 0,9 korelacja bardzo wysoka

0,9 < |r| < 1 korelacja prawie pełna

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Aby ocenić korelację pomiędzy zmiennymi należy znać:

poziom istotności p współczynnika r (określa, czy korelacje jest/nie jest statystycznie istotna)

wartość r (siła korelacji)

znak +/- przy r (zależność wprost/odwrotnie proporcjonalna)

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Jak ocenić czy r jest istotny?

Hipoteza zerowa: H0: |r|=0

Hipoteza alternatywna: H1: |r|0

1) Korzystamy z tablic wartości krytycznych rkr(=0,05, n)

2) Wykorzystujemy funkcję testową t-studenta

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Jak ocenić czy r jest istotny?

Hipoteza zerowa: H0: |r|=0

Hipoteza alternatywna: H1: |r|0

1) Korzystamy z tablic wartości krytycznych rkr(=0,05, n)

Analiza korelacji

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Jak ocenić czy r jest istotny?

Hipoteza zerowa: H0: |r|=0

Hipoteza alternatywna: H1: |r|0

1) Korzystamy z tablic wartości krytycznych rkr(=0,05, n)

r<rkr - przyjmujemy hipotezę H0

r>rkr - przyjmujemy hipotezę H1

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Jak ocenić czy r jest istotny?

Hipoteza zerowa: H0: |r|=0

Hipoteza alternatywna: H1: |r|0

2) Wykorzystujemy funkcję testową t-studenta

𝑡 = 𝑟

(1 − 𝑟2)∙ 𝑛 − 2 tkr(, f=n-2)

Z tablic rozkładu t-studenta

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Jak ocenić czy r jest istotny?

Hipoteza zerowa: H0: |r|=0

Hipoteza alternatywna: H1: |r|0

2) Wykorzystujemy funkcję testową t-studenta

t<tkr - przyjmujemy hipotezę H0

t>tkr - przyjmujemy hipotezę H1

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Stosujemy gdy: zmienne mają rozkład normalny

ORAZ zależność ma charakter liniowy

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Kiedy nie należy obliczać r: istnieje nieliniowy związek między dwoma zmiennymi (np. związek kwadratowy

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Kiedy nie należy obliczać r: występuje jedna lub więcej wartości odstających

Analiza korelacji

Współczynnik korelacji liniowej Pearsona

Kiedy nie należy obliczać r: dane zawierają podgrupy, dla których średnie poziomy wartości dla co najmniej jednej zmiennej są różne

Analiza korelacji

Analiza korelacji

Współczynnik korelacji liniowej

Pearsona

Współczynnik korelacji rang Spearmana

Metoda graficzna

Kowariancja

Analiza korelacji

Współczynnik korelacji rang Spearmana

Alternatywa dla współczynnika korelacji liniowej Pearsona. Nadaje się również do analizy zależności nieliniowych.

Stosujemy, gdy: zmienne nie mają rozkładu normalnego

ORAZ/LUB zależność ma charakter nieliniowy

Analiza korelacji

Współczynnik korelacji rang Spearmana

Uporządkowanym od najmniejszej do największej wartości zmiennym nadaje się rangi i wylicza R Spearmana:

𝑅 = 1 −6 𝐷2𝑛

𝑖=1

𝑛(𝑛2 − 1)

n – ilość pomiarów D - różnica rang

Przyjmuje wartości od -1 do +1 interpretacja taka jaka dla r Pearsona

Analiza korelacji

Współczynnik korelacji rang Spearmana

𝑅 = 1 −6 𝐷2𝑛

𝑖=1

𝑛(𝑛2 − 1)

X Y ranga X ranga Y D D^2

2 3 1 2 -1 1

5 2 2,5 1 1,5 2,25

5 8 2,5 4,5 -2 4

8 6 4 3 1 1

9 9 5 6 -1 1

10 8 6 4,5 1,5 2,25

suma 11,5

Analiza korelacji

Współczynnik korelacji rang Spearmana

Jak ocenić czy R jest istotny?

Hipoteza zerowa: H0: |R|=0

Hipoteza alternatywna: H1: |R|0

Korzystamy z tablic wartości krytycznych Rkr(=0,05, n)

Analiza korelacji

Analiza korelacji

Współczynnik korelacji rang Spearmana

Jak ocenić czy R jest istotny?

Hipoteza zerowa: H0: |R|=0

Hipoteza alternatywna: H1: |R|0

Korzystamy z tablic wartości krytycznych Rkr(=0,05, n)

R<Rkr - przyjmujemy hipotezę H0

R>Rkr - przyjmujemy hipotezę H1

Analiza korelacji

Istotność różnic między wsp. korelacji

Gdy wykonujemy dwie serie niezależnych pomiarów (dwie pary zmiennych X i Y), dla każdej pary możemy uzyskać różny współczynnik korelacji.

Aby ocenić, czy istotnie się między sobą różnią, wykorzystujemy funkcję t-studenta.

Analiza korelacji

Istotność różnic między wsp. korelacji

Hipoteza zerowa: H0: |r1|= |r2|

Hipoteza alternatywna: H1: |r1| |r2|

tkr(=0,05, f=n1+n2-4)

tr<tkr - przyjmujemy hipotezę H0

tr>tkr - przyjmujemy hipotezę H1

𝑡𝑟 =1

2 𝑙𝑛

1 + 𝑟1 (1 − 𝑟2)

1 − 𝑟1 (1 + 𝑟2)

𝑛1 − 3 (𝑛2 − 3)

𝑛1 + 𝑛2 − 6

Analiza regresji liniowej

Analiza regresji liniowej

Regresja liniowa jest rozszerzeniem korelacji liniowej i pozwala na:

graficzną prezentację linii prostej dopasowanej do wykresu rozrzutu

określenie równania opisujące zależność dwóch

zmiennych w postaci y = a + b* x

zmienna zależna

zmienna niezależna

współczynnik kierunkowy prostej

wyraz wolny

Analiza regresji liniowej

Iloraz inteligencji

Wyn

ik t

estu

Analiza regresji liniowej

Iloraz inteligencji

Wyn

ik t

estu

y = a + b* x

Analiza regresji liniowej

W jaki sposób wyznaczana jest linia regresji liniowej?

przez minimalizację sumy kwadratów odchyleń punktów doświadczalnych od linii regresji

tzw. metoda najmniejszych kwadratów

(𝑦𝑖 − 𝑦𝑖 𝑜𝑏𝑙 )2 = 𝑚𝑖𝑛

yi – wartości doświadczalne yi obl – wartości obliczone z równania regresji

Analiza regresji liniowej

Analiza regresji liniowej

Sprowadza się to do obliczenia współczynników a i b

𝑏 =𝑛 𝑥𝑖 ∙ 𝑦𝑖 − 𝑥𝑖 ∙ 𝑦𝑖

𝑛 𝑥𝑖2 − 𝑥𝑖

2

W jaki sposób wyznaczana jest linia regresji liniowej y=a+b*x ?

𝑎 = 𝑦𝑖 − 𝑏 ∙ 𝑥𝑖

𝑛= 𝑦 − 𝑏 ∙ 𝑥

Analiza regresji liniowej

y = a + b*x

a i b wyznaczamy na podstawie danych empirycznych ; a i b pewnym oszacowaniem rzeczywistych wartości i b

a i b obarczone są błędem!

Obliczamy go na podstawie wariancji resztowej

𝜎𝑟2 =

𝑦𝑖 − 𝑦𝑖 𝑜𝑏𝑙 2

𝑛 − 2

Analiza regresji liniowej

Dla współczynnika b:

𝜎𝑏2 =

𝑛 ∙ 𝜎𝑟2

𝑛 ∙ 𝑥𝑖2 − 𝑥𝑖

2

Dla współczynnika a:

𝜎𝑎2 =

𝜎𝑏2

𝑛∙ 𝑥𝑖

2

Analiza regresji liniowej

Dokładność wyznaczenia współczynników:

= a t(P, f=n-2) a

b = b t(P, f=n-2) b

Analiza regresji liniowej

Sprawdzamy, czy a i b istotnie różnią się od 0:

Hipoteza zerowa: H0: a=0 H0: b=0

Hipoteza alternatywna: H1: a0 H1: b0

tkr(, f=n-2)

ta (tb) <tkr - przyjmujemy hipotezę H0

ta (tb) >tkr - przyjmujemy hipotezę H1

𝑡𝑎 = 𝑎 − 0

𝜎𝑎=

𝑎

𝜎𝑎 𝑡𝑏 =

𝑏 − 0

𝜎𝑏=

𝑏

𝜎𝑏

Analiza regresji liniowej

y = a+ b*x

Współczynniki a i b muszą istotnie różnić się od 0 aby były uwzględnione w równaniu.

Jeśli b=0 – wartości y są stałe (równe a)

Jeśli a=0 – równanie upraszcza się do y=b*x

Analiza regresji liniowej

Jeśli chcemy sprawdzić, czy a i b są zgodne z wartościami literaturowymi (sens fizyko-chem):

Hipoteza zerowa: H0: a=a0 H0: b=b0

Hipoteza alternatywna: H1: aa0 H1: bb0

tkr(, f=n-2)

ta (tb) <tkr - przyjmujemy hipotezę H0

ta (tb) >tkr - przyjmujemy hipotezę H1

𝑡𝑎 = 𝑎 − 𝑎0

𝜎𝑎 𝑡𝑏 =

𝑏 − 𝑏0

𝜎𝑏

Analiza regresji liniowej

Do czego służy wyznaczone równanie?

1) Na podstawie znanych x obliczamy y

2) Na podstawie znanych y obliczamy x

Analiza regresji liniowej

1) Na podstawie znanych x obliczamy y

yk=a+b*xk

Błąd wyznaczenia yk

𝜎𝑦𝑘 = 𝜎𝑟

2

𝑛+ 𝑥𝑘 − 𝑥 2 ∙ 𝜎𝑏

2

Im xk jest bardziej oddalony od wartości średniej, tym większy błąd oszacowania

y = yk t(,f=n-2)yk

Do czego służy wyznaczone równanie?

Analiza regresji liniowej

60 80 100 120 140 160 180

IQ

20

30

40

50

60

70

80

90

Wyn

ik t

estu

x

Im xk jest bardziej oddalony od wartości średniej, tym przedział

ufności jest szerszy

Analiza regresji liniowej

2) Na podstawie znanych y obliczamy x

xk=(yk-a)/b

Błąd wyznaczenia xk

Im yk jest bardziej oddalony od wartości średniej, tym większy błąd oszacowania

x = xk t(,f=n-2)xk

𝜎𝑥𝑘 =1

𝑏

𝜎𝑟2

𝑛+

𝑦𝑘 − 𝑦 2

𝑏2∙ 𝜎𝑏

2

Do czego służy wyznaczone równanie?

Analiza regresji liniowej

60 80 100 120 140 160 180

IQ

20

30

40

50

60

70

80

90

Wyn

ik t

estu

y Im yk jest bardziej oddalony od wartości średniej, tym przedział

ufności jest szerszy

Analiza regresji liniowej

Ocena dobroci dopasowania

Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt

Analiza regresji liniowej

Ocena dobroci dopasowania

Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt

Analiza regresji liniowej

Ocena dobroci dopasowania

Współczynnik korelacji liniowej Pearsona Im r bliższy 1 tym lepsza jakość modelu

Analiza regresji liniowej

Ocena dobroci dopasowania

Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt

Analiza regresji liniowej

Ocena dobroci dopasowania

Współczynnik determinacji

r2 – współczynnik korelacji liniowej Pearsona podniesiony do kwadratu

Podawany w postaci: - ułamkowej [0,1]

- procentowej 0-100%

Im bliższy 1 tym lepsza jakość modelu

Analiza regresji liniowej

Ocena dobroci dopasowania

Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt

Analiza regresji liniowej

Ocena dobroci dopasowania

Współczynnik indeterminacji

2 = 1- r2 – tzw. współczynnik rozbieżności

Podawany w postaci: - ułamkowej [0,1]

- procentowej 0-100%

Im bliższy 0 tym lepsza jakość modelu

Analiza regresji liniowej

Ocena dobroci dopasowania

Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt

Analiza regresji liniowej

Ocena dobroci dopasowania

Analiza reszt ei

ei = yi – yi obl

Reszty powinny spełniać rozkład normalny, mieć charakter losowy i nie wykazywać autokorelacji

• Normalność reszt – badamy testem chi-kwadrat lub testem Kołmogorowa-Smirnowa

• Losowość reszt oceniamy na wykresie

Analiza regresji liniowej re

szty

Reszty losowo znajdują się powyżej i poniżej 0