Dwie zmienne losoweKowariancja, współczynnik korelacji i regresja liniowa
dr hab. Ryszard Walkowiak prof. nadzw.
Kowariancja i współczynnik korelacjiW przypadku badania wielu cech danej populacji, a więc wielu zmiennych losowych, np. masa ciała matki i masa ciała noworodka, rozkład prawdopodobieństwa każdej z tych zmiennych jest tylko częścią wiedzy, którą musimy posiąść aby dokładnie zobrazować populację.
Nie daje on odpowiedzi na temat wzajemnych zależności między zmiennymi.
Wiedzę na temat tych zależności możemy uzyskać badając tzw. łączny rozkład prawdopodobieństwa tych zmiennych, a przede wszystkim tzw. momenty mieszane, czyli kowariancje i korelacje.
Ograniczymy się do badania dwóch zmiennych w danej populacji.
Odwołując się do oznaczeń wprowadzonych w wykładzie pt. „Zmienne losowe. Rozkład prawdopodobieństwa zmiennej losowej”, możemy dwa interesujące nas momenty wyrazić w postaci następującej.
Kowariancja zmiennych losowych X i Y :
Cov (X, Y) = E(X - X)(Y - Y),
gdzie
X i Y oznaczają wartości oczekiwane odpowiednio zmiennych losowych X i Y.
Kowariancja i współczynnik korelacji
Współczynnik korelacji zmiennych losowych X i Y:
Warto zauważyć, że jeśli zmienne wyrażają się w różnych jednostkach, np. w metrach i gramach, to jednostką kowariancji jest metr gram.
Współczynnik korelacji zawsze jest niemianowany.
Kowariancja i współczynnik korelacji
YVarXVar
YXCovXY
,
Współczynnik korelacji może przyjmować wartości z przedziału -1, 1.XY > 0 oznacza korelację dodatnią, tzn. wraz ze
wzrostem wartości jednej z cech, wzrastają wartości drugiej.
XY < 0 oznacza korelację ujemną, tzn. wraz ze wzrostem wartości jednej z cech, maleją wartości drugiej.
XY = 0 oznacza brak zależności.
XY = -1 lub XY = 1 oznacza dokładną zależność liniową.
Kowariancja i współczynnik korelacji
Oczywiście, przedstawione wzory dotyczą sytuacji, gdy możemy przebadać całą populację. Zazwyczaj takiej możliwości nie ma. Musimy wówczas pobrać próbę n jednostek z populacji i na każdej jednostce zmierzyć wartości zmiennych X i Y.
Otrzymujemy wówczas n par (xi, yi), i = 1, 2, …, n.
Estymatorem kowariancji jest wówczas
Estymatorem współczynnika korelacji jest
Kowariancja i współczynnik korelacji z próby
n
iiiXY yyxx
nS
11
1
22 ˆˆ YX
XYXY
Sr
n
iix
nx
1
1
n
iiy
ny
1
1
Przykład
Aby sprawdzić, czy istnieje zależność między masą ciała matki a masą ciała jej dziecka (noworodka), zbadano próbę n = 20 kobiet ich dzieci.
Kowariancja i współczynnik korelacji z próby Masa ciała (kg)
Kobiety Noworodki61 3,7955 3,5562 3,2755 4,352 3,0560 3,2570 3,4563 3,450 3,149 2,5153 3,6593 3,9563 3,155 2,6366 3,8568 3,6554 3,4260 2,9157 3,257 3,4
Na podstawie tej próby, oznaczając przez K masę ciała kobiety a przez N masą ciała noworodka, otrzymano:
rKN = 0,444714 .
Kowariancja i współczynnik korelacji z próby Masa ciała (kg)
Kobiety Noworodki61 3,7955 3,5562 3,2755 4,352 3,0560 3,2570 3,4563 3,450 3,149 2,5153 3,6593 3,9563 3,155 2,6366 3,8568 3,6554 3,4260 2,9157 3,257 3,4
15,60Kx 93,39736ˆ 2 K
3,37150Nx 0,1899ˆ 2 N
Kowariancja i współczynnik korelacji z próby
Regresja liniowaSkoro stwierdziliśmy istnienie wyraźnej zależności między wartościami dwóch zmiennych losowych, np. między masą ciała kobiety i jej dziecka, to chcielibyśmy tę zależność wyrazić w postaci funkcji.
Przypomnę, że na wykładzie pt.” Właściwości danych geograficznych” wprowadziłem już pojęcie zmiennej objaśnianej i zmiennych objaśniających, oraz pojęcie wielozmiennej funkcji regresji
Y = f(X1, X2, X3, …, Xn) + .Tutaj ograniczymy się do liniowej funkcji jednej zmiennej, co będzie analogiczne do omawianego na wykładzie pt. ”Generalizacja danych przestrzennych” dopasowania trendu liniowego rozumianego jako generalizacja statystyczna danych.
Za pomocą równania regresji liniowej nie estymujemy poszczególnych wartości objaśnianej zmiennej losowej Y, lecz jej wartości oczekiwane przy konkretnych wartościach objaśniającej zmiennej X.
Równanie regresji jest w istocie równaniem prostej
y = ax + b, w którym współczynniki dobiera się w ten sposób, aby, na wykresie takim jak poprzednio pokazany, odległość punktów obserwacji od tej prostej była najmniejsza.
Regresja liniowa
Współczynnik kierunkowy prostej regresji, nazywany odtąd współczynnikiem regresji oblicza się według wzoru
a wyraz wolny według wzoru
Równanie regresji przyjmuje więc postać
Regresja liniowa
2
2
2 ˆ
ˆ
ˆˆ
X
YXY
X
XY rS
a
xayb ˆˆ
bxay ˆˆ
Regresja liniowa przykład Kobiety - Noworodki
Noworodki = 2,1653+0,0201*x
45 50 55 60 65 70 75 80 85 90 95
Kobiety
2,2
2,4
2,6
2,8
3,0
3,2
3,4
3,6
3,8
4,0
4,2
4,4N
owor
odki
Regresja liniowa przykład Noworodki - Kobiety
Kobiety = 26,8994+9,8622*x
2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,4
Noworodki
45
50
55
60
65
70
75
80
85
90
95K
obie
ty
Na przykładzie dwóch poprzednich wykresów zobaczyliśmy, że zamiana ról pomiędzy zmiennymi objaśnianą i objaśniającą prowadzi do znacznie różniących się prostych regresji. Tak więc kluczową rolę gra prawidłowy dobór tych zmiennych.
Zmienną objaśniającą jest ta, która ma wpływ na zmienną objaśnianą.
W naszym przykładzie oczywiście masa ciała kobiety wpływa na masę ciała jej dziecka a nie na odwrót. Tak więc prawidłowo zdefiniowana jest pierwsza prosta regresji.
Regresja liniowa
Po wyestymowaniu parametrów prostej regresji otrzymujemy następujący model zmiennej objaśnianej
gdzie
Aby stwierdzić, czy zmienna objaśniana zależy rzeczywiście od zmiennej objaśniającej, oraz jak dobrze prosta regresji dopasowana jest do obserwacji, należy ten model porównać do modelu nie zawierającego zmiennej objaśniającej
Wprowadzamy w tym celu pojęcia odchyleń od regresji,
, i odchyleń od średniej
Współczynnik determinacji
iii yy ˆ
ii yy
bxay iiˆˆˆ
yyi ˆ yyi
Współczynnik determinacjiRegresja liniowa
Noworodki = 2,1653+0,0201*x Średnia
Noworodki = 3,37
45 50 55 60 65 70 75 80 85 90 95
Kobiety
2,2
2,4
2,6
2,8
3,0
3,2
3,4
3,6
3,8
4,0
4,2
4,4
Now
orod
ki
Odchylenie od regresji
Odchylenie od średniej
Prosta regresji jest dobrze dopasowana do obserwacji jeśli suma kwadratów odchyleń od regresji jest znacznie mniejsza (nigdy nie jest większa) od sumy kwadratów odchyleń od średniej.
Miarą dopasowania jest współczynnik determinacji:
Współczynnik determinacji
10 ,
ˆ
1 2
1
2
1
2
2
Ryy
yyR n
ii
n
iii
Współczynnik determinacji R2 opisuje procentowy udział zmienności spowodowanej przez zmienną X w całkowitej zmienności zmiennej Y .
Jeżeli jest bliski zeru, oznacza to, że zmienna X nie ma wpływu na zmienną Y.
Jeżeli R2 jest bliski jedności, to zmienna X ma istotny wpływ na Y i regresja jest dobrze dopasowana.
W naszym przykładzie R2 = 0,198. Zatem wpływ masy ciała kobiety na masę ciała noworodka jest niewielki.
Z analizy wariancji, o której tutaj nie mówimy, wynika jednak, że jest on istotny.
Współczynnik determinacji
LiteraturaRadosław Kala (2002): Statystyka dla przyrodników.
Wydawnictwo Akademii Rolniczej im. A. Cieszkowskiego w Poznaniu.
Czesław Platt (1981): Problemy rachunku prawdopodobieństwa i statystyki matematycznej, PWN Warszawa
Top Related