R egresj a i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

37
Regresja i korelacja (materiał z internetu do wykorzystania jako powtórzenie) materiały dydaktyczne

description

R egresj a i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie ). materiały dydaktyczne. Regresja liniowa. W populacji generalnej rozważamy dwie zmienne X i Y takie, że zmienna losowa Y ma rozkład normalny z parametrami μ = m(x) i σ = σ y/x - PowerPoint PPT Presentation

Transcript of R egresj a i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Page 1: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Regresja i korelacja

(materiał z internetu do wykorzystania jako powtórzenie)

materiały dydaktyczne

Page 2: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Regresja liniowa

W populacji generalnej rozważamy dwie zmienne X i Y takie, że zmienna losowa Y ma rozkład normalny z parametrami

μ = m(x) i σ = σy/x zaś zmienna X jest zmienną rzeczywistą (lub losową).

Wartość oczekiwana zmiennej losowej Y jest funkcją liniową zmiennej X postaci:m(x) = b + ax.

Wariancja σ2y/x oznacza, że zmienność cechy Y jest niezależna od zmiennej X (jest

stała).

Page 3: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Estymacja parametrów modelu

Nieznane parametry modelu

y = b +ax

muszą być estymowane na podstawie odpowiedniej próby losowej.

Zagadnienie estymacji parametrów modelu sprowadza się do takiego dobrania parametrów aby suma kwadratów odległości każdego punktu empirycznego od prostej regresji była jak najmniejsza.

Page 4: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Estymacja parametrów modelu

gdzie (yi, xi) oznacza elementy próby losowej.

Page 5: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Estymacja parametrów modelu

Każdą obserwację empiryczną można zapisać jako:

yi = b + a·xi +i.

Problem estymacji sprowadza się do wyznaczenia minium funkcji s danej wzorem.

n

iii

n

ii xabybas

1

2

1

2 )(),(

Page 6: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Estymacja parametrów modelu

Funkcja s jest funkcją dwóch niewiadomych (a i b), aby znaleźć minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji s względem obu niewiadomych:

i przyrównać te pochodne do zera.

n

iiiia

n

iiib

xabyxs

xabys

1

1

)(2'

)(2'

Page 7: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Otrzymujemy układ równań postaci:

0)ˆˆ(

0)ˆˆ(

1

1n

iiii

n

iii

xabyx

xaby

x

xy

xx

xxyya n

ii

n

iii

var

cov

)(

))((ˆ

1

2

1

xayb ˆˆ

Estymacja parametrów modelu

Rozwiązując mamy:

Page 8: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Istotność równania regresji

Istotność wyestymowanego równania regresji badamy weryfikując hipotezę zerową

H0 : a = 0 wobec H1 : a ≠ 0

Przy prawdziwości H0 statystyka:

ma rozkład t Studenta z liczbą stopni swobody równej n - 2. Wyrażenie jest oszacowaniem wariancji odchyleń od regresji z próby:

x

s

a

s

at

xyb

var

ˆˆ2

sy x/2

2

covˆvarˆ 2

/2

/

n

xyays xyxy

Page 9: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Istotność współczynnika regresji

Jeżeli |t| > tkryt, to H0 : a = 0 odrzucamy jako statystycznie mało prawdopodobną i mówimy o istotności wyznaczonego równania regresji.

Jeśli nie to wyniki próby nie przeczą hipotezie H0 i funkcja regresji jest stała.

Współczynnik regresji mówi nam o tym, o ile zmieni się zmienna zależna y przy wzroście zmiennej x o jednostkę.

Page 10: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Dopasowanie prostej regresji

Odchylenie obserwowanej wartości od jej średniej można zapisać następująco:

y y y y y yi i i i

Pierwszy składnik to część całkowitego odchylenia zmiennej y, która jest wyjaśniona regresją liniową y względem x, drugi składnik to część zmienności całkowitej, która nie została wyjaśniona regresją.

Page 11: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Współczynnik determinacji

Wyrażenie to nazywamy współczynnikiem determinacji.

r2 <0; 1>

Informuje on o tym,

jaka część zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem X.

y y y y y yii

n

ii

n

i ii

n

2

1

2

1

2

1

y

xya

yy

yyr n

ii

n

ii

var

covˆˆ

1

2

1

2

2

Page 12: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Jeżeli między zmiennymi Y i X istnieje pełna zależność, to wszystkie punkty empiryczne leżą na prostej, reszty są zerowe, a r2 = 1.

W przypadku braku zależności (a = 0) funkcja regresji jest stała i r2 = 0.

Page 13: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

-3 -2 -1 0 1 2 3

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

-tn, t

n,

/2 /21-

Z tablic rozkładu Studenta odczytujemy, dla wcześniej przyjętego poziomu istotności , wartość krytyczną tn-2,. Jeżeli obliczona wartość t znajduje w dwustronnym obszarze krytycznym (-, - tn-2,), (tn-2,, +), to H0 należy odrzucić na korzyść hipotezy H1

Page 14: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Weryfikacja hipotezy o istotności regresji

n

iiR yySS

1

SS y y yT ii

n

2

1

var

Zmienność df SS M.S Femp. F

Regresji 1 MSR FR

Odchyleń n-2 SSE MSEF,1,n-2

Całkowita n-1

Weryfikacji hipotezy o istotności regresji testem F Fishera-Snedecora.

Analiza wariancji ma postać

Page 15: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Predykcja na podstawie regresji liniowej

Model regresji można wykorzystać do przewidywania wartości które przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej X.

Jest to zagadnienie predykcji lub prognozowania.

Niestety, im wartość x, dla której dokonujemy predykcji jest bardziej odległa od średniej z próby tym mniejsza dokładność prognozy.

Page 16: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )
Page 17: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Przedział ufności dla wartości z modelu

Dla regresji liniowej statystyka:

ma rozkład t Studenta z liczbą stopni swobody n - 2.

Na tej podstawie możemy wyznaczyć przedział ufności dla wartości z modelu:

tm x m x

Sm x

( ) ( )

( )

StxmStxmxm xmnxmn )(ˆ2,)(ˆ2, )(ˆ;)(ˆ)(

Page 18: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Współczynnik korelacji

Miarą siły związku między zmiennymi losowymi jest współczynnik korelacji ,

Empiryczny współczynnik korelacji r ma wszystkie własności określone dla współczynnika korelacji .

Współczynnik korelacji określa także kierunek zależności.

r = 1 r = -1

yx

xy

SS

Sr

yx

xy

Page 19: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Kwadrat współczynnika korelacji z próby nazywany jest współczynnikiem determinacji i jest on, drugim poza współczynnikiem korelacji miernikiem siły związku między zmiennymi.

Interpretacja współczynnika determinacji – podaje on w jakiej części zmienność jednej cechy jest wyjaśniona przez drugą cechę.

Page 20: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Weryfikacja hipotezy o istotności korelacji

Założymy, że rozkład zmiennych losowych Y i X w populacji generalnej jest normalny. Na podstawie n - elementowej próby chcemy zweryfikować hipotezę, że zmienne te są liniowo niezależne:

wobec

Jeżeli H0 jest prawdziwa, to statystyka:

ma rozkład t Studenta z liczbą stopni swobody v = n – 2.Hipoteza o istotności korelacji może być także zweryfikowana poprzez porównanie wyznaczonego współczynnika z próby z wartościami krytycznymi współczynnika korelacji wielokrotnej Pearsona.

H0 0: H1 0:

tr

rn

12

2

1,, knkRr

Page 21: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Regresja wielokrotna liniowa

Dotychczas rozpatrywaliśmy tylko dwie zmienne: Y i X.

Częściej mamy do czynienia z przypadkami w których jest zmienna losową Y oraz k zmiennych X (stałych lub losowych).

Y N m x xk y x xk~ ( ( ,..., ), )/ ,...,1 1

kkk xbxbbxxmy 1101 ),...(

Page 22: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Współczynniki modelu b1, ..., bk będziemy nazywać cząstkowymi współczynnikami regresji.

y b b x b x ej j k kj j 0 1 1

Kryterium estymacji : należy tak dobrać parametry modelu, aby suma kwadratów odchyleń od modelu była jak najmniejsza:

s e y b b x b xjj

j j k kjj

20 1 1

2min

Page 23: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Badanie istotności regresji wielokrotnej

Hipotezę o nieistotności regresji wielokrotnej możemy zapisać jako:

jej weryfikacja testem F Fishera-Snedecora.

Tabela analizy wariancji ma postać:

Zmienność d.f SS MS Femp. FRegresji k SSR MSR FR

Odchyleń n-k-1 SSE MSE

Całkowita n-1 SST

H b b bk0 1 2 0:

F k n k , , 1

Page 24: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Sumy kwadratów odchyleń i średnie kwadraty potrzebne do zweryfikowania hipotezy o istotności regresji mogą być wyznaczone z niżej podanych wzorów.

SS yT var

SS b x y MSSS

kR i ii

RR cov

SS y b x y MSSS

n kE i i EE

i

var cov

1

Page 25: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Hipotezę

H b b bk0 1 2 0:

F FR k n k , , 1

Odrzucenie hipotezy H0 jest równoznaczne z tym, że co najmniej jeden współczynnik regresji jest różny od zera;

tzn. istnieje związek funkcyjny liniowy między zmienną zależną a zmiennymi niezależnymi.

Problem statystycznyktóre zmienne niezależne powinny pozostać w modelu regresji.

odrzucamy gdy

Badanie istotności regresji wielokrotnej

Page 26: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Weryfikacja hipotez o istotności cząstkowych współczynników regresji

Problem sprowadza się do zweryfikowania serii k hipotez zerowych mówiących o tym, że i-ty cząstkowy współczynnik regresji jest równy zero.

Hipotezy te mogą być weryfikowane testem t-Studenta

Page 27: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Weryfikacja hipotez

Wyrażenie

jest oszacowaniem średniego kwadratu odchyleń od regresji.

Przy prawdziwości hipotez zerowych tak określone statystyki mają rozkład t-Studenta z liczbą stopni swobody równą n-k-1

H bi0 0:

sy b x y

n ky x x

i ii

k/ ,...

var cov

1

2

1

Page 28: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Hipotezę

będziemy odrzucać, jeżeli wartość statystyki t znajdzie się w obszarze krytycznym.

Jeżeli zmienne niezależne są z sobą powiązane

to oceny istotności cząstkowych współczynników regresji nie są niezależne.

0:0 ibH

Page 29: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Problem doboru zmiennych

W przypadku istnienia silnych współzależności między zmiennymi niezależnymi analizując funkcję regresji wielokrotnej dochodzimy do wniosku, że jest ona istotna statystycznie (testem F).

Weryfikując dalej hipotezy o istotności cząstkowych współczynników uzyskujemy wartości testu t Studenta, które nie przeczą hipotezom zerowym.

Czyli mamy istotną funkcję regresji ale wszystkie zmienne (analizowane oddzielnie) są nieistotne, powinny więc być usunięte z modelu.

Zaczynamy od pełnego zestawu potencjalnych zmiennych niezależnych, a następnie kolejno usuwamy z modelu tę zmienną niezależną, której rola w opisywaniu zależności między zmienną Y a zmiennymi niezależnymi jest najmniejsza. Podejście takie nosi nazwę regresji krokowej.

Page 30: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Regresja krokowa

Algorytm postępowania:

1. Zaczynamy od pełnego (potencjalnie) zestawu zmiennych niezależnych. Estymujemy model i wyznaczamy

2. Wyznaczamy wektor wartości empirycznych statystyk t dla hipotez

.3. Usuwamy z modelu tę zmienną, dla której uzyskaliśmy najmniejszą wartość

empiryczną statystyki t (co do wartości bezwzglednej) i ponownie estymujemy model.

Postępowanie takie kontynuujemy tak długo, dopóki w modelu nie pozostaną tylko zmienne istotne.

R sy x xk

2 2

1oraz / ,...,

H bi0 0:

Page 31: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

W trakcie wykonywania regresji krokowej powinniśmy obserwować zmiany wartości współczynnika determinacji jak i średniego kwadratu błędu.

Postępowanie ma doprowadzić do

maksymalizacji wartości współczynnika determinmaksymalizacji wartości współczynnika determinaacjicji przy

jednoczesnej minimalizacji średniego kwadratu błędujednoczesnej minimalizacji średniego kwadratu błędu..

Page 32: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Miarą stopnia dopasowania modelu jest korelacja wielokrotna R lub jej kwadrat (współczynnik determinacji D).

Dobierając model funkcji regresji powinniśmy dążyć do uzyskania jak największego współczynnika determinacji (korelacji), ale przy możliwie małym średnim kwadracie odchyleń od regresji:

Rb x y

y

i ii cov

varD R 2

sy b x y

n ky x x

i ii

k/ ,...

var cov

1

2

1

Ocena dopasowania modelu

Page 33: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Regresja wielomianowa (krzywoliniowa)

W wielu przypadkach interesuje nas nieliniowy związek między zmienną Y a zmienną X, np.:

Page 34: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Linearyzacja modelu regresji wielomianowej

Przykład modelu nieliniowego z dwoma zmiennymi niezależnymi:

21522423

212110 xxbxbxbxbxbby

Page 35: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Wnioskowanie dla regresji wielokrotnej

Współczynniki regresji:

• i-ty, cząstkowy współczynnik regresji opisuje o ile średnio zmieni się wartość zmiennej Y przy wzroście i-tej wartości zmiennej X o jednostkę przy ustalonych wartościach pozostałych zmiennych niezależnych.

W przypadku większości modeli regresji krzywoliniowej taka interpretracja nie jest możliwa.

Page 36: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Funkcje wielomianowe

Model regresji wielomianowej dwóch zmiennych niezależnych jest postaci:

Etap pierwszy - Wyznaczanie funkcji regresji dla jednej zmiennej niezależnej tzn. zmienna Y jest funkcją tylko jednej zmiennej niezależnej, np.

215224

21322110 xxaxaxaxaxaay

2121102021 )( xbxbbxxxy 2222101012 )( xaxaaxxxy

Page 37: R egresj a  i korelacj a ( materiał z internetu do wykorzystania jako powtórzenie )

Problemy z estymacją funkcji regresji

Estymacja funkcji regresji jest zagadniem trudnym ponieważ:

1. Brak jest pewności, że zbiór analizowanych zmiennych niezależnych jest pełny.

2. Typ funkcji regresji nie jest znany dlatego pojawia się problem doboru kształtu funkcji regresji i zestawu zmiennych niezależnych.

3. W wielu sytuacjach można uzyskać porównywalną „dobroć dopasowania modelu”, współczynnik korelacji lub R2, dla różnych typów funkcji regresji i zestawów zmiennych niezależnych.