Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

20
Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa dr hab. Ryszard Walkowiak prof. nadzw.

description

Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa. dr hab. Ryszard Walkowiak prof. nadzw. Kowariancja i współczynnik korelacji. - PowerPoint PPT Presentation

Transcript of Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Page 1: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Dwie zmienne losoweKowariancja, współczynnik korelacji i regresja liniowa

dr hab. Ryszard Walkowiak prof. nadzw.

Page 2: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Kowariancja i współczynnik korelacjiW przypadku badania wielu cech danej populacji, a więc wielu zmiennych losowych, np. masa ciała matki i masa ciała noworodka, rozkład prawdopodobieństwa każdej z tych zmiennych jest tylko częścią wiedzy, którą musimy posiąść aby dokładnie zobrazować populację.

Nie daje on odpowiedzi na temat wzajemnych zależności między zmiennymi.

Wiedzę na temat tych zależności możemy uzyskać badając tzw. łączny rozkład prawdopodobieństwa tych zmiennych, a przede wszystkim tzw. momenty mieszane, czyli kowariancje i korelacje.

Page 3: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Ograniczymy się do badania dwóch zmiennych w danej populacji.

Odwołując się do oznaczeń wprowadzonych w wykładzie pt. „Zmienne losowe. Rozkład prawdopodobieństwa zmiennej losowej”, możemy dwa interesujące nas momenty wyrazić w postaci następującej.

Kowariancja zmiennych losowych X i Y :

Cov (X, Y) = E(X - X)(Y - Y),

gdzie

X i Y oznaczają wartości oczekiwane odpowiednio zmiennych losowych X i Y.

Kowariancja i współczynnik korelacji

Page 4: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Współczynnik korelacji zmiennych losowych X i Y:

Warto zauważyć, że jeśli zmienne wyrażają się w różnych jednostkach, np. w metrach i gramach, to jednostką kowariancji jest metr gram.

Współczynnik korelacji zawsze jest niemianowany.

Kowariancja i współczynnik korelacji

YVarXVar

YXCovXY

,

Page 5: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Współczynnik korelacji może przyjmować wartości z przedziału -1, 1.XY > 0 oznacza korelację dodatnią, tzn. wraz ze

wzrostem wartości jednej z cech, wzrastają wartości drugiej.

XY < 0 oznacza korelację ujemną, tzn. wraz ze wzrostem wartości jednej z cech, maleją wartości drugiej.

XY = 0 oznacza brak zależności.

XY = -1 lub XY = 1 oznacza dokładną zależność liniową.

Kowariancja i współczynnik korelacji

Page 6: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Oczywiście, przedstawione wzory dotyczą sytuacji, gdy możemy przebadać całą populację. Zazwyczaj takiej możliwości nie ma. Musimy wówczas pobrać próbę n jednostek z populacji i na każdej jednostce zmierzyć wartości zmiennych X i Y.

Otrzymujemy wówczas n par (xi, yi), i = 1, 2, …, n.

Estymatorem kowariancji jest wówczas

Estymatorem współczynnika korelacji jest

Kowariancja i współczynnik korelacji z próby

n

iiiXY yyxx

nS

11

1

22 ˆˆ YX

XYXY

Sr

n

iix

nx

1

1

n

iiy

ny

1

1

Page 7: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Przykład

Aby sprawdzić, czy istnieje zależność między masą ciała matki a masą ciała jej dziecka (noworodka), zbadano próbę n = 20 kobiet ich dzieci.

Kowariancja i współczynnik korelacji z próby Masa ciała (kg)

Kobiety Noworodki61 3,7955 3,5562 3,2755 4,352 3,0560 3,2570 3,4563 3,450 3,149 2,5153 3,6593 3,9563 3,155 2,6366 3,8568 3,6554 3,4260 2,9157 3,257 3,4

Page 8: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Na podstawie tej próby, oznaczając przez K masę ciała kobiety a przez N masą ciała noworodka, otrzymano:

rKN = 0,444714 .

Kowariancja i współczynnik korelacji z próby Masa ciała (kg)

Kobiety Noworodki61 3,7955 3,5562 3,2755 4,352 3,0560 3,2570 3,4563 3,450 3,149 2,5153 3,6593 3,9563 3,155 2,6366 3,8568 3,6554 3,4260 2,9157 3,257 3,4

15,60Kx 93,39736ˆ 2 K

3,37150Nx 0,1899ˆ 2 N

Page 9: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Kowariancja i współczynnik korelacji z próby

Page 10: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Regresja liniowaSkoro stwierdziliśmy istnienie wyraźnej zależności między wartościami dwóch zmiennych losowych, np. między masą ciała kobiety i jej dziecka, to chcielibyśmy tę zależność wyrazić w postaci funkcji.

Przypomnę, że na wykładzie pt.” Właściwości danych geograficznych” wprowadziłem już pojęcie zmiennej objaśnianej i zmiennych objaśniających, oraz pojęcie wielozmiennej funkcji regresji

Y = f(X1, X2, X3, …, Xn) + .Tutaj ograniczymy się do liniowej funkcji jednej zmiennej, co będzie analogiczne do omawianego na wykładzie pt. ”Generalizacja danych przestrzennych” dopasowania trendu liniowego rozumianego jako generalizacja statystyczna danych.

Page 11: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Za pomocą równania regresji liniowej nie estymujemy poszczególnych wartości objaśnianej zmiennej losowej Y, lecz jej wartości oczekiwane przy konkretnych wartościach objaśniającej zmiennej X.

Równanie regresji jest w istocie równaniem prostej

y = ax + b, w którym współczynniki dobiera się w ten sposób, aby, na wykresie takim jak poprzednio pokazany, odległość punktów obserwacji od tej prostej była najmniejsza.

Regresja liniowa

Page 12: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Współczynnik kierunkowy prostej regresji, nazywany odtąd współczynnikiem regresji oblicza się według wzoru

a wyraz wolny według wzoru

Równanie regresji przyjmuje więc postać

Regresja liniowa

2

2

2 ˆ

ˆ

ˆˆ

X

YXY

X

XY rS

a

xayb ˆˆ

bxay ˆˆ

Page 13: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Regresja liniowa przykład Kobiety - Noworodki

Noworodki = 2,1653+0,0201*x

45 50 55 60 65 70 75 80 85 90 95

Kobiety

2,2

2,4

2,6

2,8

3,0

3,2

3,4

3,6

3,8

4,0

4,2

4,4N

owor

odki

Page 14: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Regresja liniowa przykład Noworodki - Kobiety

Kobiety = 26,8994+9,8622*x

2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,4

Noworodki

45

50

55

60

65

70

75

80

85

90

95K

obie

ty

Page 15: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Na przykładzie dwóch poprzednich wykresów zobaczyliśmy, że zamiana ról pomiędzy zmiennymi objaśnianą i objaśniającą prowadzi do znacznie różniących się prostych regresji. Tak więc kluczową rolę gra prawidłowy dobór tych zmiennych.

Zmienną objaśniającą jest ta, która ma wpływ na zmienną objaśnianą.

W naszym przykładzie oczywiście masa ciała kobiety wpływa na masę ciała jej dziecka a nie na odwrót. Tak więc prawidłowo zdefiniowana jest pierwsza prosta regresji.

Regresja liniowa

Page 16: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Po wyestymowaniu parametrów prostej regresji otrzymujemy następujący model zmiennej objaśnianej

gdzie

Aby stwierdzić, czy zmienna objaśniana zależy rzeczywiście od zmiennej objaśniającej, oraz jak dobrze prosta regresji dopasowana jest do obserwacji, należy ten model porównać do modelu nie zawierającego zmiennej objaśniającej

Wprowadzamy w tym celu pojęcia odchyleń od regresji,

, i odchyleń od średniej

Współczynnik determinacji

iii yy ˆ

ii yy

bxay iiˆˆˆ

yyi ˆ yyi

Page 17: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Współczynnik determinacjiRegresja liniowa

Noworodki = 2,1653+0,0201*x Średnia

Noworodki = 3,37

45 50 55 60 65 70 75 80 85 90 95

Kobiety

2,2

2,4

2,6

2,8

3,0

3,2

3,4

3,6

3,8

4,0

4,2

4,4

Now

orod

ki

Odchylenie od regresji

Odchylenie od średniej

Page 18: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Prosta regresji jest dobrze dopasowana do obserwacji jeśli suma kwadratów odchyleń od regresji jest znacznie mniejsza (nigdy nie jest większa) od sumy kwadratów odchyleń od średniej.

Miarą dopasowania jest współczynnik determinacji:

Współczynnik determinacji

10 ,

ˆ

1 2

1

2

1

2

2

Ryy

yyR n

ii

n

iii

Page 19: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

Współczynnik determinacji R2 opisuje procentowy udział zmienności spowodowanej przez zmienną X w całkowitej zmienności zmiennej Y .

Jeżeli jest bliski zeru, oznacza to, że zmienna X nie ma wpływu na zmienną Y.

Jeżeli R2 jest bliski jedności, to zmienna X ma istotny wpływ na Y i regresja jest dobrze dopasowana.

W naszym przykładzie R2 = 0,198. Zatem wpływ masy ciała kobiety na masę ciała noworodka jest niewielki.

Z analizy wariancji, o której tutaj nie mówimy, wynika jednak, że jest on istotny.

Współczynnik determinacji

Page 20: Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa

LiteraturaRadosław Kala (2002): Statystyka dla przyrodników.

Wydawnictwo Akademii Rolniczej im. A. Cieszkowskiego w Poznaniu.

Czesław Platt (1981): Problemy rachunku prawdopodobieństwa i statystyki matematycznej, PWN Warszawa