Badanie współzaleŜności dwóch cech ilościowych X i Y...
-
Upload
truongminh -
Category
Documents
-
view
221 -
download
0
Transcript of Badanie współzaleŜności dwóch cech ilościowych X i Y...
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 1
Badanie współzaleŜności dwóch cech ilościowych X i Y.
Analiza korelacji prostej
Badanie zaleŜności dwóch cech ilościowych.
Analiza regresji prostej
Kody znaków:
Ŝółte wyróŜnienie – nowe pojęcie czerwony – uwaga kursywa – komentarz
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 2
Zagadnienia 1. Związek deterministyczny (funkcyjny)
a korelacyjny.
2. Idea opisu współzaleŜności.
3. Testowanie hipotezy o korelacji.
1. Regresja liniowa Y względem X.
2. Prosta regresji.
3. Testowanie hipotezy o regresji.
4. Współczynniki opisujące regresję.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 3
Wprowadzenie - przykład A
W firmie_A za 1 godzinę dyŜuru pracownik otrzymuje 10 zł. Zapytano 10 osób o ich tygodniowy czas pracy i zarobki. tygodniowy czas pracy w godzinach – cecha X tygodniowe zarobki w złotych – cecha Y
Firma_A osoba 1 osoba 2 osoba 3 osoba 4 osoba 5 osoba 6 osoba 7 osoba 8 osoba 9 osoba 10 czas pracy
1 40 40 34 21 7 16 12 31 9
zarobki 10 400 400 340 210 70 160 120 310 90
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 4
Wprowadzenie - przykład A
W firmie_A za 1 godzinę dyŜuru pracownik otrzymuje 10 zł. Zapytano 10 osób o ich tygodniowy czas pracy i zarobki. tygodniowy czas pracy w godzinach – cecha X tygodniowe zarobki w złotych – cecha Y
Firma_A osoba 1 osoba 2 osoba 3 osoba 4 osoba 5 osoba 6 osoba 7 osoba 8 osoba 9 osoba 10
czas pracy
1 40 40 34 21 7 16 12 31 9
zarobki 10 400 400 340 210 70 160 120 310 90
Posortowane rosnąco wg czasu pracy:
Firma_A osoba 1 osoba 6 osoba 10 osoba 8 osoba 7 osoba 5 osoba 9 osoba 4 osoba 2 osoba 3
czas pracy
1 7 9 12 16 21 31 34 40 40
zarobki 10 70 90 120 160 210 310 340 400 400
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 5
Wprowadzenie - przykład A
Firma A
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 6
Wprowadzenie - przykład A
Firma A
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Zarobki zaleŜą od czasu pracy według wzoru: zarobki = 10*czas pracy
y=10x
Jest to zaleŜność funkcyjna (deterministyczna).
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 7
Wprowadzenie - przykład B
W firmie_B za 1 godzinę dyŜuru pracownik otrzymuje 8 zł+opłatę za interwencję. Zapytano 10 osób o ich tygodniowy czas pracy i zarobki. tygodniowy czas pracy w godzinach – cecha X tygodniowe zarobki w złotych – cecha Y
czas pracy
3 8 9 12 19 24 35 35 38 40
zarobki 44 120 72 128 310 260 427 310 380 430
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 8
Wprowadzenie - przykład B
Firma B
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Punkty nie leŜą na jednej prostej. Jest to zaleŜność korelacyjna.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 9
Wprowadzenie - przykład B
Firma B
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Firma B
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 10
wyniki
z pierwszego
poletka
wyniki
z drugiego
poletka
Idea opisu współzaleŜności cech
Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli:
plon xi (kg)
20 21 22 23 22 25 30 27 24 26
zawartość skrobi yi (%)
17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Czy te wyniki wskazują na występowanie współzaleŜności między cechami X, Y?
Tworzenie wykresu.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 11
Diagram korelacyjny
zawartość skrobi
16,216,316,416,516,616,716,816,9
1717,117,2
18 20 22 24 26 28 30 32
plon Interpretacja bieŜącego diagramu korelacyjnego.
wyniki
z pierwszego poletka
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 12
wyniki dla pierwszej jednostki doświadczalnej
wyniki dla n-tej jednostki doświadczalnej
Korelacja cech ilościowych
X, Y – cechy ilościowe obserwowane w doświadczeniu, n – liczba jednostek doświadczalnych, Wyniki doświadczenia:
wartości cechy X: x1 x2 x3 ... xn wartości cechy Y: y1 y2 y3 ... yn
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 13
Kierunek korelacji
Diagram korelacyjny 1
wartości cechy X
wartości cechy Y
y1
x1
Cechy X, Y są ujemnie skorelowane
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 14
Kierunek korelacji cd.
Diagram korelacyjny 2
wartości cechy X
wartości cechy Y
Cechy X, Y są dodatnio skorelowane
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 15
Siła korelacji
Diagram korelacyjny 3 Diagram korelacyjny 4
X
Y
X
Y
Cechy X, Y są silnie skorelowane
Cechy X, Y są słabo skorelowane
Wyjaśnienie na tablicy.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 16
Brak korelacji
Diagram korelacyjny 5
wartości cechy X
wartości cechy Y
Cechy X, Y są nieskorelowane
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 17
Prezentacja braku korelacji cd.
Diagram korelacyjny 6
wartości cechy X
wartości cechy Y
Cechy X, Y są nieskorelowane
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 18
Problem
Jak wykryć (opisać) współzaleŜność pomiędzy cechami za pomocą parametru
liczbowego?
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 19
* Przykłady teoretyczne
Doświadczenie losowe D - dwukrotny rzut monetą.
Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne?
Przykład 1. zm. los. X1: liczba orłów w obu rzutach zm. los. X2: (liczba orłów w obu rzutach)·2
Przykład 2. zm. los. X3: liczba orłów w pierwszym rzucie zm. los. X4: liczba orłów w drugim rzucie
Przykład 3. zm. los. X1: liczba orłów w obu rzutach zm. los. X5: (liczba orłów w obu rzutach)·(-1)
Przykład 4. zm. los. X1: liczba orłów w obu rzutach zm. los. X6: (liczba orłów w obu rzutach)2
Jak wykryć (opisać) współzaleŜność pomiędzy zmiennymi losowymi, kiedy znane
są tylko ich rozkłady?
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 20
Kowariancja
WspółzaleŜność między zmiennymi losowymi X i Y opisuje parametr kowariancja
ozn.: COV ( X, Y ) Definicja
COV ( X, Y ) = E [ ( X – EX ) · ( Y – EY ) ] = = E ( X·Y) – ( EX ) · ( EY ) Obliczanie kowariancji w przykładach 1 – 4.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 21
* Kowariancja - przykłady
Doświadczenie losowe D -dwukrotny rzut monetą.
Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne - odp.
na podstawie wartości kowariancji:
Odp. intuicyjna
Kowariancja
P 1.
zm. los. X1: l. orłów zm. los. X2: (l. orłów)·2
zaleŜne COV(X1, X2)=1
P 2.
zm. los. X3: l. orłów w pierwszym rzucie zm. los. X4: l. orłów w drugim rzucie
niezaleŜne COV(X3, X4)=0
P 3. zm. los. X1: l. orłów zm. los. X5: (l. orłów)·(-1)
zaleŜne COV(X1, X5)=-0,5
P 4.
zm. los. X1: l. orłów zm. los. X6: (l. orłów)2
zaleŜne COV(X1, X6)=1
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 22
Współczynnik korelacji
Miarą współzaleŜności liniowej dwóch zmiennych losowych X, Y jest wskaźnik nazywany współczynnikiem korelacji liniowej Pearsona,
oznaczany grecką literą ρ (czyt.: ro):
( )DYDX
YXCOV
⋅=
,ρ
Dla dowolnych dwóch zmiennych losowych X oraz Y zachodzi:
1,1ρ −∈
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 23
* Współczynnik korelacji – przykłady
Doświadczenie losowe D - dwukrotny rzut monetą
Czy zmienne losowe w poszczególnych przykładach są niezaleŜne czy zaleŜne – odp. na
podstawie współczynnika korelacji:
Odp. intuicyjna
Współcz. korelacji ρ
P 1.
X1: l. orłów X2: (l. orłów)·2
zaleŜne ρ1 = 1
P 2.
X3: l. orłów w pierwszym rz. X4: l. orłów w drugim rz.
niezaleŜne ρ2 = 0
P 3. X1: l. orłów X5: (l. orłów)·(-1)
zaleŜne ρ3 = -1
P 4.
X1: l. orłów X6: (l. orłów)2
zaleŜne ρ4 ≈ 0,94
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 24
Uwagi i terminologia
1. Jeśli zmienne losowe są zaleŜne liniowo, to nazywamy je skorelowanymi.
2. Do wykrywania korelacji (zaleŜności liniowej) słuŜy współczynnik korelacji ρ:
• jeśli ρ = 0, to zmienne są nieskorelowane,
• jeśli | ρ | = 1, to zmienne losowe są całkowicie
skorelowane (zaleŜne liniowo), o jeśli ρ = 1, to są skorelowane dodatnio,
o jeśli ρ = - 1, to są skorelowane ujemnie.
3. Współczynnik korelacji ρ słuŜy do opisywania siły
korelacji: • jeśli ρ ≈ 0, to zmienne są słabo skorelowane,
• jeśli | ρ | ≈1, to zmienne są silnie skorelowane. Diagram na tablicy.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 25
Idea
Jak wykryć (opisać) współzaleŜność pomiędzy cechami?
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 26
Opis współzaleŜności
• W jednej populacji rozpatrujemy dwie cechy; modelują je zmienne losowe X, Y. W populacji występuje zaleŜność między X, Y opisana
współczynnikiem ρ, ale nie znamy jego wartości
liczbowej - moŜna ją estymować, testować hipotezy o tej wartości.
• Losujemy n-elementową próbę dwucechową: (x1, y1), (x2, y2), ..., (xn, yn);
• Oceniamy nieznaną wartość współczynnika
korelacji ρ na podstawie próby:
r=ρ
(współczynnik r jest oceną parametru populacyjnego ρ)
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 27
Opis współzaleŜności cd.
Obliczamy współczynnik korelacji r dla próby według wzoru:
( ) ( )
( ) ( ) ( ) ( )∑∑
∑
∑∑
∑
==
=
==
=
−⋅−
⋅⋅−⋅=
−⋅−
−⋅−=
n
ii
n
ii
n
iii
n
ii
n
ii
n
iii
yyxx
yxnyx
yyxx
yyxxr
1
2
1
2
1
1
2
1
2
1
RównowaŜny zapis licznika:
( ) ( ) ∑∑==
⋅⋅−⋅=−⋅−n
iii
n
iii yxnyxyyxx
11
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 28
Opis współzaleŜności cd.
Oznaczenia upraszczające zapis wzoru:
( )∑=
−=n
iix xxSS
1
2
, ( )∑
=
−=n
iiy yySS
1
2
, ( ) ( )∑
=
−⋅−=n
iiixy yyxxS
1
Określenia: SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y.
Uproszczony zapis wzoru na współczynnik korelacji liniowej Pearsona dla próby:
yx
xy
SSSS
Sr
⋅=
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 29
Testowanie współzaleŜności
Czy korelacja między cechami X, Y jest znacząca (istotna)?
Jeśli cechy X oraz Y mają rozkład normalny, moŜna weryfikować hipotezę dotyczącą korelacji:
Hipoteza zerowa o braku korelacji
Hipoteza alternatywna
0ρ:0 =H 0ρ:1 ≠H
• wybieramy poziom istotności α, • losujemy próbę dwucechową: (x1, y1), (x2, y2 ), ..., (xn, yn), • obliczamy współczynnik korelacji r dla próby według wzoru:
yx
xy
SSSS
Sr
⋅=
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 30
Test r • stosujemy test r: wartość empiryczna funkcji testowej remp = r, • odczytujemy wartość krytyczną r α , v = n -2 , • jeŜeli | remp | > r α , v = n – 2, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 31
Test t
MoŜna zastosować teŜ test t-Studenta:
• wartość empiryczna funkcji testowej wyraŜona jest wzorem
21 2
−⋅−
= nr
rtemp
• odczytujemy wartość krytyczną t α , v, gdzie
ν = n-2
• jeŜeli | temp | > t α , v, to H0 odrzucamy, w
przeciwnym przypadku H0 nie moŜna odrzucić.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 32
Przykład Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi
17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Diagram korelacyjny zawartość skrobi (%)
16,216,316,416,516,616,716,816,9
1717,117,2
18 20 22 24 26 28 30 32
plon
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 33
Przykład cd. Przyjmujemy, Ŝe: 1. cecha X - plon z poletka, cecha Y – zawartość skrobi mają rozkłady normalne, oraz 2. ρ jest współczynnikiem korelacji między zmiennymi losowymi X, Y; jego wartość jest nieznana. • Obliczamy współczynnik korelacji r między cechami X, Y na podstawie próby ze wzoru:
yx
xy
SSSS
Sr
⋅=
,
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 34
Przykład cd.
kgx 24= , %7,16=y , 84=xSS , 680,SS y =
, 86,S xy −=
r = - 0,90,
Czy korelacja między cechami X, Y jest znacząca (istotna)?
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 35
Przykład cd. • stawiamy hipotezę o braku korelacji:
0ρ:0 =H , 0ρ:1 ≠H ,
• wybieramy poziom istotności α = 0,05, • stosujemy test r; wzór funkcji testowej:
remp = r gdzie: r - współczynnik korelacji między cechami X, Y obliczony na podstawie próby; w przykładzie r = - 0,9, zatem remp = - 0,9, • odczytujemy wartość krytyczną r α , v = n -2 = r 0,05 , 8 = 0,632, • poniewaŜ | remp | = | - 0,90 | > r 0,05, 8 = 0,632, więc hipotezę H0 odrzucamy.
Stwierdzamy statystycznie istotną korelację między plonem bulw ziemniaczanych a zawartością skrobi.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 36
Przykład cd.
Zastosowanie testu t-Studenta:
( )84,5210
9,01
9,02
1 22−=−⋅
−−
−=−⋅−
= nr
rtemp
• odczytujemy wartość krytyczną t α , v = n -2 = t 0,05 , 8 =2,31,
• poniewaŜ | temp | = 5,84 > 2,31 = t 0,05 , 8, to H0 odrzucamy.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 37
Badanie zaleŜności dwóch cech ilościowych.
Analiza regresji prostej
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 38
Badanie zaleŜności cechy Y od X Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi
17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Diagram korelacyjny zawartość skrobi (%)
16,2
16,3
16,4
16,5
16,6
16,7
16,8
16,9
17
17,1
17,2
18 20 22 24 26 28 30 32
plon
Analiza korelacji przeprowadzona przy poziomie istotności 0,05 wykazała istotną korelację między plonem bulw a zawartością skrobi. Wyznaczono współczynnik korelacji Pearsona r = -0,90. Plon bulw i zawartość skrobi są ujemnie skorelowane.
O tej zaleŜności moŜna powiedzieć więcej (wzór zaleŜności, idea opisu)...
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 39
Oznaczenia i terminologia
Opis zaleŜności cechy Y od cechy X (opis regresji cechy Y względem cechy X)
cecha X : objaśniająca, opisująca, niezaleŜna
cecha Y : objaśniana, opisywana, zaleŜna
Postać funkcji regresji II rodzaju:
g (x) = β1 ∙ x + β0 lub g (x) = β ∙ x + α współczynnik regresji stała regresji
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 40
Opis zaleŜności cechy Y od X X, Y – cechy obserwowane w doświadczeniu, Y~N n – liczba jednostek doświadczalnych (liczebność próby), Próba:
nr jednostki doświadczalnej 1 2 3 n wartości cechy X: x1 x2 x3 ... xn wartości cechy Y: y1 y2 y3 ... yn
Diagram korelacyjny:
prosta regresji
cecha X
cecha Y
11β b= , 00β b=
równanie prostej regresji:
y = b1*x + b0
b1 - współczynnik regresji
b0 - stała regresji
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 41
Prosta regresji
Estymacja parametrów β1 i β0 metodą najmniejszych kwadratów
(MNK):
Komentarz...
ei
cecha X
cecha Y
równanie prostej regresji:
y = b1*x + b0
b1 = ? b0 = ?
y (xi) = b1*xi + b0
ei = y( xi ) – yi
min1
2 →∑=
n
iie
yi
xi
y(xi)
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 42
Prosta regresji cd. Estymatory uzyskane metodą najmniejszych kwadratów:
( ) ( )
( )∑
∑
=
=
−
−⋅−= n
ii
n
iii
xx
yyxx
b
1
2
11
xbyb ⋅−= 10
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 43
Prosta regresji cd.
Oznaczenia upraszczające zapis wzoru:
( )∑=
−=n
iix xxSS
1
2
, ( )∑
=
−=n
iiy yySS
1
2
,
( ) ( )∑=
−⋅−=n
iiixy yyxxS
1
Określenia:
SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y.
Estymatory uzyskane metodą najmniejszych kwadratów:
x
xy
SS
Sb =1
, xbyb ⋅−= 10
Interpretacja współczynnika regresji b1...
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 44
Test t
Czy badana zaleŜność jest znacząca (istotna)?
Stawiamy hipotezę:
H0: β1 = 0 H1: β1 ≠ 0
(hipoteza o braku regresji)
Wybieramy poziom istotności α, stosujemy test t-Studenta:
b
emps
bt 1=
, gdzie ( ) x
xyy
bSSn
SbSSs
⋅−⋅−
=2
1
Odczytujemy z tablic wartość krytyczną: 2,α −== nvkryt tt
Wnioskujemy:
Jeśli | temp | > t kryt to H0 odrzucamy, w przeciwnym przypadku
H0 nie moŜna odrzucić.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 45
Test F Stawiamy hipotezę:
H0: β1 = 0 H1: β1 ≠ 0
(hipoteza o braku regresji)
Wybieramy poziom istotności α, stosujemy test F-Fishera:
xyy
xy
empSbSS
nSbF
1
1 )2(
−−⋅⋅
=
Odczytujemy z tablic wartość krytyczną: 2,1,α 21 −=== nvvkryt FF
Wnioskujemy:
Jeśli Femp > Fkryt to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 46
Przykład W przykładzie: n=10, kgx 24= , %7,16=y , SSx = 84, SSy = 0,68,
Sxy = -6,8.
Wyznaczamy równanie prostej regresji.
Współczynniki w równaniu
081,084
8,61 −=−==
x
xy
SS
Sb
64,1824)081,0(7,1610 =⋅−−=⋅−= xbyb
Prosta regresji: y = 18,64 – 0,081x
y = – 0,081x + 18,64 Uwaga o odczytaniu znaku współczynnika regresji.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 47
Przykład cd.
Badamy istotność regresji cechy Y względem cechy X (istotność zaleŜności Y od X)
Stawiamy hipotezę:
H0: β1 = 0 H1: β1 ≠ 0
(hipoteza o braku regresji)
Poziom istotności α = 0,05, stosujemy test t-Studenta:
( ) ( ) 014,0672
1292,0
84210
)8,6()081,0(68,0
2
1 ==⋅−
−⋅−−=⋅−⋅−
=x
xyy
bSSn
SbSSs
79,5014,0
081,01 −=−==b
emps
bt
31,2tt 8,05,0kryt ==
Wnioskujemy: |temp| = 5,79 > 2,31 = t kryt , zatem H0 odrzucamy.
Stwierdzono statystycznie istotną zaleŜność zawartości skrobi od plonu bulw ziemniaka.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 48
Przykład cd. Zamiast testu t moŜna zastosować test F:
11,341292,0
4064,4
)8,6()081,0(68,0
2)-(10)8,6()081,0()2(
1
1 ==−⋅−−
⋅−⋅−=−
−⋅⋅=
xyy
xy
empSbSS
nSbF
11,34=empF 32,58,1,05,0 == FFkryt
Wnioskujemy: Femp = 34,11 > 5,32 = F kryt , zatem H0 odrzucamy.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 49
Zgodność znaków współczynników b1 oraz r
Prosta regresji: y = b0 + b1*x
Dla cech X, Y znaki współczynnika regresji b1 i współczynnika
korelacji r są jednakowe. Na podstawie współczynnika regresji
b1 moŜna powiedzieć, jaki jest kierunek korelacji badanych cech.
W przykładzie
Prosta regresji y = 18,64 – 0,081x b1 = -0,081
zatem współczynnik korelacji r < 0.
Zawartość skrobi jest ujemnie skorelowana z plonem bulw ziemniaka. Kiedy plon rośnie, zawartość skrobi maleje.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 50
Interpretacja współczynnika regresji b1
Prosta regresji: y = b0 + b1*x
Jeśli wartość cechy X wzrośnie o jednostkę (w jednostkach
cechy X), to wartość cechy Y zmieni się o |b1| jednostek
(w jednostkach cechy Y), a dokładniej:
• wzrośnie, gdy b1 > 0
• zmaleje, gdy b1 < 0
Interpretacja współczynnika regresji b1 w przykładzie
Prosta regresji y = 18,64 – 0,081x b1 = -0,081
Jeśli plon bulw ziemniaka wzrośnie o 1 kg, to zawartość skrobi zmniejszy się o 0,081%.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 51
Interpretacja – współczynnik determinacji
Współczynnik determinacji, ozn. d
d = r2 · 100%, gdzie r – współczynnik korelacji
Interpretacja współczynnika determinacji
Współczynnik d przedstawia udział zmienności cechy Y
objaśnionej (wytłumaczonej) zmiennością cechy X.
W przykładzie:
r = - 0,9, to d = (- 0,9)2· 100% = 0,81· 100% = 81%
W 81% zmienność zawartości skrobi jest wytłumaczona zmiennością plonu, natomiast 19% zmienności zawartości skrobi nie jest wytłumaczona zmiennością plonu.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 52
Predykcja wartości cechy Y
Obliczanie wartości przewidywanej dla cechy zaleŜnej Y oparte na równaniu regresji.
Prosta regresji: y = b0 + b1*x
Przewidywana wartość cechy Y
Gdy cecha X przyjmie wartość x, to cecha Y
przyjmie wartość, którą oznaczymy y .
Ocena punktowa:
xbby 10ˆ +=
Ocena przedziałowa: ( )regrregr stystyY ⋅+⋅−∈ ν,αν,α
ˆ;ˆ
α1−=P
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 53
Predykcja wartości cechy Y cd.
We wzorze:
( )regrregr stystyY ⋅+⋅−∈ ν,αν,αˆ;ˆ
α1−=P
mamy:
( )x
xy
regrSS
xx
nn
SSbSSs
221 1
2
−+⋅−
−=
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 54
Przykład - predykcja wartości cechy Y W przykładzie:
Prosta regresji y = 18,64 – 0,081x
n=10, kgx 24= , %7,16=y , SSx = 84, SSy = 0,68, Sxy = -6,8
Dla plonu x=20 kg przewidywana zawartość skrobi wyniesie: Ocena punktowa (%):
02,1720*)081,0(64,18ˆ10 =−+=+= xbby
Ocena przedziałowa: ( )regrregr stystyY ⋅+⋅−∈ ν,αν,α
ˆ;ˆ
α1−=P
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 55
Przykład - predykcja wartości cechy Y cd. W przykładzie:
Prosta regresji y = 18,64 – 0,081x
n=10, kgx 24= , %7,16=y , SSx = 84, SSy = 0,68, Sxy = -6,8
Dla plonu x=20 kg przewidywana zawartość skrobi wyniesie
%02,17ˆ =y
Ocena przedziałowa dla poziomu ufności P=1-α=95%
( )
( )
068,05390,01269,0
84
2420
10
1
210
84)81,0(68,0
1
2
22
221
=⋅=
=−+⋅−
⋅−−=
=−+⋅−
−=
x
xy
regrSS
xx
nn
SSbSSs
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 56
Przykład - predykcja wartości cechy Y cd.
W przykładzie:
t α, ν = t 0,05, 8 = 2,3060, s regr = 0,068 ( )regrregr stystyY ⋅+⋅−∈ ν,αν,α
ˆ;ˆ
α1−=P
( )068,03060,202,17;068,03060,202,17 ⋅+⋅−∈Y
05,01−=P
( )16,002,17;16,002,17 +−∈Y 95,0=P
( )18,17;86,16∈Y %95=P
Dla plonu na poziomie 20 kg przewidywana zawartość skrobi wyniesie między 16,9 a 17,2% z p-stwem 95%.
Praktyczne warunki ustalania cechy zaleŜnej i niezaleŜnej. Wykorzystanie prostej regresji.