Regresja wieloraka

17
Regresja wieloraka

description

Regresja wieloraka. Regresja wieloraka. Ogólny problem obliczeniowy : dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować na wykresie rozrzutu). Regresja wieloraka. - PowerPoint PPT Presentation

Transcript of Regresja wieloraka

Page 1: Regresja wieloraka

Regresja wieloraka

Page 2: Regresja wieloraka

Regresja wieloraka

Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów.

Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować na wykresie rozrzutu)

Page 3: Regresja wieloraka

Regresja wieloraka

Estymacja najmniejszych kwadratów: Program tak dobierze równanie tej linii, że suma kwadratów odległości punktów na wykresie rozrzutu od linii regresji będzie minimalna.

Page 4: Regresja wieloraka

Równanie regresji

Linia prosta w przestrzeni dwuwymiarowej (na płaszczyźnie): Y=a+b*XStała- wyraz wolny, nachylenie- współczynnik regresji.

W przypadku wielowymiarowym (mamy do czynienia z więcej niż jedną zmienną niezależną) linia regresji nie może już być tak prosto przedstawiona wizualnie w przestrzeni dwuwymiarowej. Postać równania:

Y=a+b1*X1+b2*X2+...+bp*Xp

Page 5: Regresja wieloraka

Równanie regresji

Y=a+b1*X1+b2*X2+...+bp*Xp

Współczynniki regresji (b) reprezentują niezależne wkłady każdej ze zmiennych niezależnych do predykcji zmiennej zależnej.

Page 6: Regresja wieloraka

Równanie regresji

Y=a+b1*X1+b2*X2+...+bp*Xp

Kierunek zależności od poszczególnej zmiennej ustala się na podstawie znaku wartości współczynnika regresji (b).

Jeśli b ma wartość dodatnią- związek jest dodatni (wraz ze wzrostem zmiennej X rośnie wartość Y)

Jeśli b jest ujemne- związek jest negatywny

b=0 - między zmiennymi nie ma zależności

Page 7: Regresja wieloraka

Równanie regresji

Wartości przewidywane a wartości resztowe

Linia regresji wyraża najlepszą predykcję zmiennej zależnej (Y) przy danych zmiennych niezależnych (X). Zazwyczaj mamy do czynienia z odchyleniami punktów pomiarowych od linii regresji

Wartość resztowa: odchylenie danego punktu na wykresie od linii regresji (czyli od jego wartości przewidywanej)

Page 8: Regresja wieloraka

Równanie regresji

Wariancja resztowa a R2

Im mniejsza wariancja wartości resztowych wokół linii regresji w stosunku do zmienności ogólnej, tym lepsza jakość predykcji.

Page 9: Regresja wieloraka

Równanie regresji

Wariancja resztowa a R2

Brak zależności pomiędzy zmiennymi X i Y - stosunek zmienności resztowej Y do zmienności całkowitej równa się 1,0.

X i Y ściśle (w sensie zależności funkcyjnej) zależne od siebie- zmienność resztowa równa się 0 i taki stosunek również 0,0.

Najczęściej: stosunek zmienności resztowej Y do zmienności całkowitej zawiera się gdzieś pomiędzy tymi wartościami ekstremalnymi.

Page 10: Regresja wieloraka

Równanie regresji

Wariancja resztowa a R2

1 minus ten stosunek= R2 (współczynnik determinacji)- wskaźnik jakości dopasowania modelu do danych

Bliski 1,0 wskazuje, że prawie cała zmienność zmiennej zależnej może być objaśniona przez zmienne niezależne włączone do modelu).

Page 11: Regresja wieloraka

Równanie regresji

Wariancja resztowa a R2

1 minus ten stosunek= R2 (współczynnik determinacji)- wskaźnik jakości dopasowania modelu do danych

Interpretacja: Gdyby wartość R2 wynosiła 0,4 wówczas wiadomo byłoby, że wariancja wartości Y wokół linii regresji wynosi 1-0,4 razy pierwotna wariancja Y (40% pierwotnej zmienności Y zostało wytłumaczone przez regresję, a 60% pozostało w zmienności resztowej).

Page 12: Regresja wieloraka

Równanie regresji

Interpretacja współczynnika korelacji R

Stopień, w jakim dwie lub więcej zmiennych objaśniających (niezależnych lub X) jest powiązanych ze zmienną objaśnianą (zmienna zależna Y), wyrażany jest przez wartość współczynnika korelacji R (pierwiastek kwadratowy z R2) .

W regresji wielorakiej R może przyjmować wartości pomiędzy 0 i 1.

Page 13: Regresja wieloraka

Równanie regresji

Założenia i ograniczenia

• założenie braku obserwacji odstających (normalności rozkładów zmiennych) •założenie liniowości

• założenie normalności reszt

• wybór liczby zmiennych

Page 14: Regresja wieloraka

Równanie regresji

Założenia i ograniczenia

Założenie braku obserwacji odstających: należy przeanalizować pod tym kątem wykresy P-P. histogramy, przeprowadzić testy normalności.

-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2

Dystrybuanta teoretyczna

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

Dystryb

ua

nta

em

piryczn

a

Page 15: Regresja wieloraka

Równanie regresji

Założenia i ograniczenia

Założenie liniowości: założenie, że zależność między zmiennymi jest liniowa.

Rada: przeanalizowanie pod tym kątem dwuwymiarowych wykresów rozrzutu badanych zmiennych.

Page 16: Regresja wieloraka

Równanie regresji

Założenia i ograniczenia

Założenie normalności reszt: reszty (różnice między wartością obserwowaną a obliczoną z równania regresji) podlegają rozkładowi normalnemu.

Page 17: Regresja wieloraka

Równanie regresji

Założenia i ograniczenia

Wybór liczby zmiennych: Zaleca się, aby brać do analizy przynajmniej około 10 do 20 razy więcej przypadków niż występuje w niej zmiennych. W przeciwnym wypadku oceny linii regresji będą bardzo niestabilne i będą się silnie zmieniać wraz ze wzrostem liczby przypadków.