R egresj a i korelacj a

37
Regresja i korelacja materiały dydaktyczne

description

R egresj a i korelacj a. materiały dydaktyczne. Regresja liniowa. W populacji generalnej rozważamy dwie zmienne X i Y takie, że zmienna losowa Y ma rozkład normalny z parametrami μ = m(x) i σ = σ y/x zaś zmienna X jest zmienną rzeczywistą (lub losową). - PowerPoint PPT Presentation

Transcript of R egresj a i korelacj a

Page 1: R egresj a  i korelacj a

Regresja i korelacja

materiały dydaktyczne

Page 2: R egresj a  i korelacj a

Regresja liniowa

W populacji generalnej rozważamy dwie zmienne X i Y takie, że zmienna losowa Y ma rozkład normalny z parametrami

μ = m(x) i σ = σy/x zaś zmienna X jest zmienną rzeczywistą (lub losową).

Wartość oczekiwana zmiennej losowej Y jest funkcją liniową zmiennej X postaci:m(x) = b + ax.

Wariancja σ2y/x oznacza, że zmienność cechy Y jest niezależna od zmiennej X (jest

stała).

Page 3: R egresj a  i korelacj a

Estymacja parametrów modelu

Nieznane parametry modelu

y = b +ax

muszą być estymowane na podstawie odpowiedniej próby losowej.

Zagadnienie estymacji parametrów modelu sprowadza się do takiego dobrania parametrów aby suma kwadratów odległości każdego punktu empirycznego od prostej regresji była jak najmniejsza.

Page 4: R egresj a  i korelacj a

Estymacja parametrów modelu

gdzie (yi, xi) oznacza elementy próby losowej.

Page 5: R egresj a  i korelacj a

Estymacja parametrów modelu

Każdą obserwację empiryczną można zapisać jako:

yi = b + a·xi +i.

Problem estymacji sprowadza się do wyznaczenia minium funkcji s danej wzorem.

n

iii

n

ii xabybas

1

2

1

2 )(),(

Page 6: R egresj a  i korelacj a

Estymacja parametrów modelu

Funkcja s jest funkcją dwóch niewiadomych (a i b), aby znaleźć minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji s względem obu niewiadomych:

i przyrównać te pochodne do zera.

n

iiiia

n

iiib

xabyxs

xabys

1

1

)(2'

)(2'

Page 7: R egresj a  i korelacj a

Otrzymujemy układ równań postaci:

0)ˆˆ(

0)ˆˆ(

1

1n

iiii

n

iii

xabyx

xaby

x

xy

xx

xxyya n

ii

n

iii

var

cov

)(

))((ˆ

1

2

1

xayb ˆˆ

Estymacja parametrów modelu

Rozwiązując mamy:

Page 8: R egresj a  i korelacj a

Istotność równania regresji

Istotność wyestymowanego równania regresji badamy weryfikując hipotezę zerową

H0 : a = 0 wobec H1 : a ≠ 0

Przy prawdziwości H0 statystyka:

ma rozkład t Studenta z liczbą stopni swobody równej n - 2. Wyrażenie jest oszacowaniem wariancji odchyleń od regresji z próby:

x

s

a

s

at

xyb

var

ˆˆ2

sy x/2

2

covˆvarˆ 2

/2

/

n

xyays xyxy

Page 9: R egresj a  i korelacj a

Istotność współczynnika regresji

Jeżeli |t| > tkryt, to H0 : a = 0 odrzucamy jako statystycznie mało prawdopodobną i mówimy o istotności wyznaczonego równania regresji.

Jeśli nie to wyniki próby nie przeczą hipotezie H0 i funkcja regresji jest stała.

Współczynnik regresji mówi nam o tym, o ile zmieni się zmienna zależna y przy wzroście zmiennej x o jednostkę.

Page 10: R egresj a  i korelacj a

Dopasowanie prostej regresji

Odchylenie obserwowanej wartości od jej średniej można zapisać następująco:

y y y y y yi i i i

Pierwszy składnik to część całkowitego odchylenia zmiennej y, która jest wyjaśniona regresją liniową y względem x, drugi składnik to część zmienności całkowitej, która nie została wyjaśniona regresją.

Page 11: R egresj a  i korelacj a

Współczynnik determinacji

Wyrażenie to nazywamy współczynnikiem determinacji.

r2 <0; 1>

Informuje on o tym,

jaka część zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem X.

y y y y y yii

n

ii

n

i ii

n

2

1

2

1

2

1

y

xya

yy

yyr n

ii

n

ii

var

covˆˆ

1

2

1

2

2

Page 12: R egresj a  i korelacj a

Jeżeli między zmiennymi Y i X istnieje pełna zależność, to wszystkie punkty empiryczne leżą na prostej, reszty są zerowe, a r2 = 1.

W przypadku braku zależności (a = 0) funkcja regresji jest stała i r2 = 0.

Page 13: R egresj a  i korelacj a

-3 -2 -1 0 1 2 3

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

-tn, t

n,

/2 /21-

Z tablic rozkładu Studenta odczytujemy, dla wcześniej przyjętego poziomu istotności , wartość krytyczną tn-2,. Jeżeli obliczona wartość t znajduje w dwustronnym obszarze krytycznym (-, - tn-2,), (tn-2,, +), to H0 należy odrzucić na korzyść hipotezy H1

Page 14: R egresj a  i korelacj a

Weryfikacja hipotezy o istotności regresji

n

iiR yySS

1

SS y y yT ii

n

2

1

var

Zmienność df SS M.S Femp. F

Regresji 1 MSR FR

Odchyleń n-2 SSE MSEF,1,n-2

Całkowita n-1

Weryfikacji hipotezy o istotności regresji testem F Fishera-Snedecora.

Analiza wariancji ma postać

Page 15: R egresj a  i korelacj a

Predykcja na podstawie regresji liniowej

Model regresji można wykorzystać do przewidywania wartości które przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej X.

Jest to zagadnienie predykcji lub prognozowania.

Niestety, im wartość x, dla której dokonujemy predykcji jest bardziej odległa od średniej z próby tym mniejsza dokładność prognozy.

Page 16: R egresj a  i korelacj a
Page 17: R egresj a  i korelacj a

Przedział ufności dla wartości z modelu

Dla regresji liniowej statystyka:

ma rozkład t Studenta z liczbą stopni swobody n - 2.

Na tej podstawie możemy wyznaczyć przedział ufności dla wartości z modelu:

tm x m x

Sm x

( ) ( )

( )

StxmStxmxm xmnxmn )(ˆ2,)(ˆ2, )(ˆ;)(ˆ)(

Page 18: R egresj a  i korelacj a

Współczynnik korelacji

Miarą siły związku między zmiennymi losowymi jest współczynnik korelacji ,

Empiryczny współczynnik korelacji r ma wszystkie własności określone dla współczynnika korelacji .

Współczynnik korelacji określa także kierunek zależności.

r = 1 r = -1

yx

xy

SS

Sr

yx

xy

Page 19: R egresj a  i korelacj a

Kwadrat współczynnika korelacji z próby nazywany jest współczynnikiem determinacji i jest on, drugim poza współczynnikiem korelacji miernikiem siły związku między zmiennymi.

Interpretacja współczynnika determinacji – podaje on w jakiej części zmienność jednej cechy jest wyjaśniona przez drugą cechę.

Page 20: R egresj a  i korelacj a

Weryfikacja hipotezy o istotności korelacji

Założymy, że rozkład zmiennych losowych Y i X w populacji generalnej jest normalny. Na podstawie n - elementowej próby chcemy zweryfikować hipotezę, że zmienne te są liniowo niezależne:

wobec

Jeżeli H0 jest prawdziwa, to statystyka:

ma rozkład t Studenta z liczbą stopni swobody v = n – 2.Hipoteza o istotności korelacji może być także zweryfikowana poprzez porównanie wyznaczonego współczynnika z próby z wartościami krytycznymi współczynnika korelacji wielokrotnej Pearsona.

H0 0: H1 0:

tr

rn

12

2

1,, knkRr

Page 21: R egresj a  i korelacj a

Regresja wielokrotna liniowa

Dotychczas rozpatrywaliśmy tylko dwie zmienne: Y i X.

Częściej mamy do czynienia z przypadkami w których jest zmienna losową Y oraz k zmiennych X (stałych lub losowych).

Y N m x xk y x xk~ ( ( ,..., ), )/ ,...,1 1

kkk xbxbbxxmy 1101 ),...(

Page 22: R egresj a  i korelacj a

Współczynniki modelu b1, ..., bk będziemy nazywać cząstkowymi współczynnikami regresji.

y b b x b x ej j k kj j 0 1 1

Kryterium estymacji : należy tak dobrać parametry modelu, aby suma kwadratów odchyleń od modelu była jak najmniejsza:

s e y b b x b xjj

j j k kjj

20 1 1

2min

Page 23: R egresj a  i korelacj a

Badanie istotności regresji wielokrotnej

Hipotezę o nieistotności regresji wielokrotnej możemy zapisać jako:

jej weryfikacja testem F Fishera-Snedecora.

Tabela analizy wariancji ma postać:

Zmienność d.f SS MS Femp. FRegresji k SSR MSR FR

Odchyleń n-k-1 SSE MSE

Całkowita n-1 SST

H b b bk0 1 2 0:

F k n k , , 1

Page 24: R egresj a  i korelacj a

Sumy kwadratów odchyleń i średnie kwadraty potrzebne do zweryfikowania hipotezy o istotności regresji mogą być wyznaczone z niżej podanych wzorów.

SS yT var

SS b x y MSSS

kR i ii

RR cov

SS y b x y MSSS

n kE i i EE

i

var cov

1

Page 25: R egresj a  i korelacj a

Hipotezę

H b b bk0 1 2 0:

F FR k n k , , 1

Odrzucenie hipotezy H0 jest równoznaczne z tym, że co najmniej jeden współczynnik regresji jest różny od zera;

tzn. istnieje związek funkcyjny liniowy między zmienną zależną a zmiennymi niezależnymi.

Problem statystycznyktóre zmienne niezależne powinny pozostać w modelu regresji.

odrzucamy gdy

Badanie istotności regresji wielokrotnej

Page 26: R egresj a  i korelacj a

Weryfikacja hipotez o istotności cząstkowych współczynników regresji

Problem sprowadza się do zweryfikowania serii k hipotez zerowych mówiących o tym, że i-ty cząstkowy współczynnik regresji jest równy zero.

Hipotezy te mogą być weryfikowane testem t-Studenta

Page 27: R egresj a  i korelacj a

Weryfikacja hipotez

Wyrażenie

jest oszacowaniem średniego kwadratu odchyleń od regresji.

Przy prawdziwości hipotez zerowych tak określone statystyki mają rozkład t-Studenta z liczbą stopni swobody równą n-k-1

H bi0 0:

sy b x y

n ky x x

i ii

k/ ,...

var cov

1

2

1

Page 28: R egresj a  i korelacj a

Hipotezę

będziemy odrzucać, jeżeli wartość statystyki t znajdzie się w obszarze krytycznym.

Jeżeli zmienne niezależne są z sobą powiązane

to oceny istotności cząstkowych współczynników regresji nie są niezależne.

0:0 ibH

Page 29: R egresj a  i korelacj a

Problem doboru zmiennych

W przypadku istnienia silnych współzależności między zmiennymi niezależnymi analizując funkcję regresji wielokrotnej dochodzimy do wniosku, że jest ona istotna statystycznie (testem F).

Weryfikując dalej hipotezy o istotności cząstkowych współczynników uzyskujemy wartości testu t Studenta, które nie przeczą hipotezom zerowym.

Czyli mamy istotną funkcję regresji ale wszystkie zmienne (analizowane oddzielnie) są nieistotne, powinny więc być usunięte z modelu.

Zaczynamy od pełnego zestawu potencjalnych zmiennych niezależnych, a następnie kolejno usuwamy z modelu tę zmienną niezależną, której rola w opisywaniu zależności między zmienną Y a zmiennymi niezależnymi jest najmniejsza. Podejście takie nosi nazwę regresji krokowej.

Page 30: R egresj a  i korelacj a

Regresja krokowa

Algorytm postępowania:

1. Zaczynamy od pełnego (potencjalnie) zestawu zmiennych niezależnych. Estymujemy model i wyznaczamy

2. Wyznaczamy wektor wartości empirycznych statystyk t dla hipotez

.3. Usuwamy z modelu tę zmienną, dla której uzyskaliśmy najmniejszą wartość

empiryczną statystyki t (co do wartości bezwzglednej) i ponownie estymujemy model.

Postępowanie takie kontynuujemy tak długo, dopóki w modelu nie pozostaną tylko zmienne istotne.

R sy x xk

2 2

1oraz / ,...,

H bi0 0:

Page 31: R egresj a  i korelacj a

W trakcie wykonywania regresji krokowej powinniśmy obserwować zmiany wartości współczynnika determinacji jak i średniego kwadratu błędu.

Postępowanie ma doprowadzić do

maksymalizacji wartości współczynnika determinmaksymalizacji wartości współczynnika determinaacjicji przy

jednoczesnej minimalizacji średniego kwadratu błędujednoczesnej minimalizacji średniego kwadratu błędu..

Page 32: R egresj a  i korelacj a

Miarą stopnia dopasowania modelu jest korelacja wielokrotna R lub jej kwadrat (współczynnik determinacji D).

Dobierając model funkcji regresji powinniśmy dążyć do uzyskania jak największego współczynnika determinacji (korelacji), ale przy możliwie małym średnim kwadracie odchyleń od regresji:

Rb x y

y

i ii cov

varD R 2

sy b x y

n ky x x

i ii

k/ ,...

var cov

1

2

1

Ocena dopasowania modelu

Page 33: R egresj a  i korelacj a

Regresja wielomianowa (krzywoliniowa)

W wielu przypadkach interesuje nas nieliniowy związek między zmienną Y a zmienną X, np.:

Page 34: R egresj a  i korelacj a

Linearyzacja modelu regresji wielomianowej

Przykład modelu nieliniowego z dwoma zmiennymi niezależnymi:

21522423

212110 xxbxbxbxbxbby

Page 35: R egresj a  i korelacj a

Wnioskowanie dla regresji wielokrotnej

Współczynniki regresji:

• i-ty, cząstkowy współczynnik regresji opisuje o ile średnio zmieni się wartość zmiennej Y przy wzroście i-tej wartości zmiennej X o jednostkę przy ustalonych wartościach pozostałych zmiennych niezależnych.

W przypadku większości modeli regresji krzywoliniowej taka interpretracja nie jest możliwa.

Page 36: R egresj a  i korelacj a

Funkcje wielomianowe

Model regresji wielomianowej dwóch zmiennych niezależnych jest postaci:

Etap pierwszy - Wyznaczanie funkcji regresji dla jednej zmiennej niezależnej tzn. zmienna Y jest funkcją tylko jednej zmiennej niezależnej, np.

215224

21322110 xxaxaxaxaxaay

2121102021 )( xbxbbxxxy 2222101012 )( xaxaaxxxy

Page 37: R egresj a  i korelacj a

Problemy z estymacją funkcji regresji

Estymacja funkcji regresji jest zagadniem trudnym ponieważ:

1. Brak jest pewności, że zbiór analizowanych zmiennych niezależnych jest pełny.

2. Typ funkcji regresji nie jest znany dlatego pojawia się problem doboru kształtu funkcji regresji i zestawu zmiennych niezależnych.

3. W wielu sytuacjach można uzyskać porównywalną „dobroć dopasowania modelu”, współczynnik korelacji lub R2, dla różnych typów funkcji regresji i zestawów zmiennych niezależnych.