STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja...

18
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Transcript of STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja...

Page 1: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Page 2: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Analiza korelacji - współczynnik korelacji Pearsona

Cel: ocena współzależności między dwiema zmiennymi ilościowymi

Ocenia jedynie zależność liniową.

yx ss)Y,Xcov(r

⋅=

gdzie, wartość kowariancji (cov) na podstawie próby liczymy wgnastępującego wzoru:

∑=

−−−

=n

iii )YY)(XX(

n)Y,Xcov(

111

natomiast sx i sy są odchyleniami standardowymi dla zmiennych: X i Y

Page 3: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Współczynnik korelacji liniowej przyjmuje zawsze wartości w zakresie [ -1,1].Im większa wartość bezwzględna współczynnika, tym silniejsza jest zależność liniowa między zmiennymi.

rxy = 0 oznacza brak korelacji,

rxy = 1 oznacza silną korelację dodatnią, jeżeli jedna zmienna (X) rośnie to również rośnie druga zmienna (Y),

rxy = -1 oznacza korelację ujemną (jeżeli zmienna X rośnie, to Y maleje i naodwrót).

Page 4: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej
Page 5: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

r =0,007

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9

Zależność nieliniowa

Page 6: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Testowanie istotności korelacjiTestowanie jest tylko wtedy uzasadnione, gdy obydwie zmienne mająrozkład normalny lub zbliżony do normalnegoHipoteza zerowa: H0:ρ=0ρ- wartość współczynnika korelacji dla całej populacjiJeżeli |remp|>rα,2,n-2 to H0 odrzucamy.rα,2,n-2 – jest wartością krytyczną współczynnika korelacji prostej Pearsona

Podobnie jak w przypadku innych hipotez w programach statystycznych(wnioskowanie o istotności współzależności dwóch zmiennych odbywa się napodstawie wartości p (p<α oznacza istotna współzależność)Należy pamiętać również, że współczynnik korelacji liniowej Pearsona dobrzeopisuje jedynie zależności liniowe. W przypadku, gdy zależność istnieje ale jest nieliniowa (np. punkty są położone na paraboli) wartość współczynnika korelacjimoże być bliska 0.

Page 7: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Współczynnik korelacji rang Spearmana (rs) służy do ocenywspółzależności między dwiema zmiennymi. W odróżnieniu od współczynnikakorelacji Pearsona można przy pomocy współczynnika korelacji Spearmanaoceniać zależności nieliniowe. Przy testowaniu nie jest wymagananormalność rozkładu zmiennych, tak więc możliwe jest stosowanie tegowspółczynnika korelacji wtedy gdy nie możemy stosować współczynnikakorelacji Persona.Wartości współczynnika korelacji rang Spearmana są z zakresu [-1, 1] a ichinterpretacja jest podobna jak w przypadku współczynnika korelacji Pearsona, czyli czym wartość rs jest bliższa 1 tym zależność jest silniejsza, dodatnia, czym bliższa jest -1 tym zależność silniejsza, ujemna, a jeśli wartość rs jest bliska 0 to oznacza brak zależności lub bardzo słabą zależność.

r=0,64 rs=1,00

0

500

1000

1500

2000

2500

3000

0 2 4 6 8 10 12

Page 8: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Regresja prosta liniowa

Regresja prosta jest metodą statystyczną, w której określamy zależnośćjednej zmiennej (Y) od drugiej (X), czyli zależność ta jest między tylko dwiema zmiennymi.

Regresja prosta liniowaRegresja liniowa to metoda szacowania wartości oczekiwanej jednej zmiennej (Y) znając wartości innej zmiennej (X) na podstawie funkcji liniowej. Szukana zmienna, Y, jest nazywana zmienną zależną, zmienna X nazywa się zmiennąniezależną.

Page 9: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Model regresji prostej liniowej

Y=a+bX+ei

gdzie:b – współczynnik regresjia – stała regresjiei – błędy losowe o rozkładzie N(0;σe

‏(2

Stała regresji (a) jest zatem szacowaną średnią wartością zmiennej Y w przypadku gdy X=0, natomiast wartość współczynnika regresji (b) oznacza średnią zmianę wartości Y w przypadku gdy X zwiększymy o jedną jednostkę.

Ujemna wartość współczynnika regresji (b) świadczy o ujemnej zależności, a dodatnia wartość wskazuje na dodatnią zależność

Page 10: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Estymację (szacowanie wartości) współczynników równania regresji prowadzi się zwykle metodą najmniejszych kwadratów, która polega na minimalizacji następującej sumy kwadratów:

∑=

−−n

iii )bxay(

1

2

Estymatory wartości współczynników a i b oblicza się ze wzorów:

2x

xy

ss

b = xbya −=

Page 11: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

R2 – współczynnik determinacji

Określa stosunek zmienności wyjaśnianej przez model regresji do zmienności całkowitej. W przypadku regresji prostej liniowej R2=rxy

2

Czym wartość R2 jest bliższa 100 % (czyli 1) to zależność Y od X jest silniejsza, i na odwrót gdy wartość R2 jest bliższa 0 % (czyli 0) to zależność Y od X jest słabsza. Wartość współczynnika determinacji jest równa w przypadku regresji prostej liniowej kwadratowi współczynnika korelacji prostej Pearsona (r)‏

Testowanie hipotezy H0: β=0 (współczynnik regresji dla całej populacji jest równy 0) pozwala na ocenę, czy występuje istotna zależność Y od X. Jeśli tę hipotezęodrzucimy to uznajemy, że Y istotnie zależy od X.(powyższą hipotezę odrzucamy jeśli p<α)‏

Page 12: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

y = 0,0439x + 0,7413R2 = 0,8299 (82,99%)

0

1

2

3

4

5

6

7

8

0 20 40 60 80 100 120 140

X -nawożenie N (kg/ha)

Y -p

lon

(t/h

a)

Page 13: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Regresja prosta nieliniowa

Nie wszystkie zależności między dwiema zmiennymi są liniowe, dlatego teżczasami uzasadnione jest stosowanie innego niż liniowy modelu regresji. Stosowane są w tym celu różne inne modele regresji np. zamiast funkcji liniowej można użyć:-funkcji kwadratowej- pierwiastkowej -logarytmicznej lub innych.

Dobór modelu regresji dokonuje się najczęściej na podstawie wartości współczynnika determinacji (R2), większa wartość R2 oznacza lepiej dopasowany model regresji, a tym samym lepiej opisujący zmiany Y w zależności od X.Szczególnym przykładem regresji prostej jest regresja prosta wielomianowa, czyli wykorzystanie funkcji wielomianowej, w której zmienna niezależna (X) występuje w kolejnych potęgach. Najprostszym modelem regresji wielomianowej jest funkcja kwadratowa (X występuje w pierwszej i drugiej potędze)

Page 14: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

y = -0,0001x2 + 0,0587x + 0,4438R2 = 0,8995

0

1

2

3

4

5

6

7

8

9

0 50 100 150 200 250 300

X -nawożenie N (kg/ha)

Y -p

lon

(t/ha

)

Page 15: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Regresja wielokrotna

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).Najprostszym modelem regresji wielokrotnej, a jednocześnie najczęściej stosowanym w praktyce jest regresja wielokrotna liniowa.

Page 16: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Regresja wielokrotna liniowa

Jeżeli zmienna zależna (Y) jest determinowana przez więcej niż jednązmienną niezależną (Xi) to estymowany model regresji możemy zapisaćrównaniem:Y = a + b1∙X1 + b2∙X2 + ... + bk∙Xk

Gdziea- stała regresji, b1, b2,... – cząstkowe współczynniki regresji

Interpretacja wartości stałej regresji i cząstkowych współczynników regresji jest podobna jak w przypadku regresji prostej. Stała regresji jest to szacowana średnia wartość Y, gdy wszystkie zmienne niezależne (Xi) sąrówne 0. Wartość każdego cząstkowego współczynnika regresji oznacza szacowaną średnią zmianę wartości Y, gdy dana wartość zmiennej niezależnej (Xi) zwiększy się o jedną jednostkę.W przypadku regresji wielokrotnej zastosowanie metody najmniejszych kwadratów to minimalizowanie sumy:

∑=

−−−−−n

iikkiii )xb...xbxbay(

1

22211

Page 17: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Graficzne przedstawienie regresji z 2 zmiennymi niezależnymi (X1, X2)‏

Page 18: STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5serwis.netstrefa.pl/ogrodnictwo/zaoczne/5.pdf · Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej

Dobór modelu regresji

Nie wszystkie zmienne niezależne (Xi) które bierzemy do analizy regresji wielokrotnej mają wpływ na zmienna zależną (Y), a więc uzasadnione jest usunięcie tych zmiennych i pozostawienie tylko tych zmiennych niezależnych, które mają istotny wpływ.W tym celu stosuje się różne metody pozwalające na usunięcie z modelu regresji nieistotnie wpływających zmiennych niezależnych i pozostawienie tylko tych, których wpływ udowodnimy. Jedną z metod, które są dość często stosowane jest regresja krokowa, która pozwala na dobór modelu z pominięciem zmiennych słabo lub nie wpływających na zmienną zależną.