Dzisiaj na wykładzie

36
Dzisiaj na wykładzie •Regresja wieloraka – podstawy i założenia •Przykładowe oblicznia w SASie •Weryfikacja założeń w SASie •Zadanie

description

Dzisiaj na wykładzie. Regresja wieloraka – podstawy i założenia Przykładowe oblicznia w SASie Weryfikacja założeń w SASie Zadanie. Regresja wieloraka. Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi). - PowerPoint PPT Presentation

Transcript of Dzisiaj na wykładzie

Page 1: Dzisiaj na wykładzie

Dzisiaj na wykładzie

•Regresja wieloraka – podstawy i założenia

•Przykładowe oblicznia w SASie

•Weryfikacja założeń w SASie

•Zadanie

Page 2: Dzisiaj na wykładzie

Regresja wieloraka

Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi)

Page 3: Dzisiaj na wykładzie

Jak przewidzieć odsetek upadków zwierząt przy transporcie?

Jakie zmienne związane są z upadkami zwierząt? Co decyduje o upadkach zwierząt?

Które z nich są najważniejsze i w jakim stopniu są powiązane ze stratami zwierząt?

Typowe zadanie

Page 4: Dzisiaj na wykładzie

regresja pierwszego rzęduy = a + b1x1 + b2x2 + b3x3 + ...

+ e

drugiego rzędu y = a + b1x1 + b2x2x2 + ...

y = a + b1x1 + b2x2 + b3x2x3 +

Dlaczego te regresje są liniowe?

Page 5: Dzisiaj na wykładzie

y = a + b1x1 + b2x2 + b3x3 + ... + e

a to wyraz wolny. Średnia?

b1, b2, b3 – cząstkowe współczynniki regresji to niezależne wkłady każdej ze zmiennych objaśniających

Page 6: Dzisiaj na wykładzie

Współczynniki cząstkowe obrazują zależności po uwzględnieniu pozostałych czynników.

Jak je oszacować?

Page 7: Dzisiaj na wykładzie

Jak wyznaczyć prostą regresji

•metoda najmniejszych kwadratów

•metoda najmniejszych kwadratów ważonych

•metoda najmniejszych reszt bezwględnych

Page 8: Dzisiaj na wykładzie

Metoda najmniejszych kwadratów

Wy kr. rozrzutu: upadki (%) wzgldy stans (km)

dy stans (km) = 1,4419 + 15,277 * upadki (%)

Korelacja: r = ,91987

1 2 3 4 5 6 7 8

upadki (%)

20

30

40

50

60

70

80

90

100

110

120

dy

sta

ns

(km

)

95% p.uf ności

Page 9: Dzisiaj na wykładzie

R-kwadrat czyli współczynnik determinacji• Mówi o jakości przewidywania

• R2=30% znaczy 30% wariancji opisane przez zmienne opisujące i 70% wciąż nie opisane (błędy)

Page 10: Dzisiaj na wykładzie

R-kwadrat

R-kwadrat = 1 - SSE / SST

• SSE - suma kwadratów reszt

• SST - suma kwadratów obserwacji

Page 11: Dzisiaj na wykładzie

R-kwadrat skorygowane

R-kwadrat zależy od liczby zmiennych objaśniających! Im więcej zmiennych tym większy.

• R-kwadrat skorygowane NIE zależy od liczby zmiennych objaśniających

• Porównując dwa modele o różnej liczbie zmiennych patrz na R-kwadrat skorygowane

Page 12: Dzisiaj na wykładzie

R czyli korelacja

• R to pierwiastek z R-kwadrat. Tylko dodatni ( 0 - 1 ) !!!

• wskazuje na stopień powiązania zmiennych

Page 13: Dzisiaj na wykładzie

Zależność między zmiennymi jest liniowa

• Trudne do sprawdzenia• Małe odstępstwa niegroźne• Liniowość oceniamy na oko –

wykresy rozrzutu• Co jeżeli zależność nie jest liniowa?

– transformacja danych– regresja nieliniowa

Page 14: Dzisiaj na wykładzie

Regresja mówi o współwystępowaniu zjawisk, a nie o przyczynach i skutkach!

Regresja liczby kradzieży na liczbę policjantów jest dodatnia!

Page 15: Dzisiaj na wykładzie

Zwodnicza regresja

Jeżeli w modelu umieścisz dużą liczbę zmiennych objaśniających część z nich na pewno będzie istotna.

Im więcej danych tym mniej złudne są wyniki. Ile?

Page 16: Dzisiaj na wykładzie

Reszty mają rozkład normalny

• Ważne przy testowaniu, nie przy szacowaniu

• Stosujemy histogramy reszt i wykresy normalności reszt

• Niewielkie odchylenia nie są groźne• Dobry model daje duży R-kwadrat i

normalność reszt. Czy taki potrafimy znaleźć?

Page 17: Dzisiaj na wykładzie

Nadmiarowość danych

• % upadków przy transporcie tak samo dobrze opisuje liczba przejechanych kilometrów jak i dystans do ubojni (to to samo)

• Należy uważać, żeby zmienne objaśniające nie były zbytnio skorelowane

Page 18: Dzisiaj na wykładzie

Odstające obserwacje

Znacznie przekłamują oszacowania.

Najczęściej to błędy powstałe przy wpisywaniu danych.

Najlepiej usunąć je przed analizą regresji.

Page 19: Dzisiaj na wykładzie

Przykładowe dane

wbp 58.7 200 38.9 1.18wbp 57.7 171 41.2 1.22wbp 60.4 185 38.4 1.14wbp 51.9 177 40.8 2.44wbp 61.7 169 38.8 1.52wbp 62.4 169 39.6 1.18wbp 60.9 169 40.2 1.48............

1. Rasa

2. Zawartość mięsa w tuszy

3. Wiek w dniu uboju

4. Masa półtuszy

5. Średnia grubość słoniny

Page 20: Dzisiaj na wykładzie

data swinie ;

infile "dane.txt" ;

input rasa $ zmwt wiekub mtuszy grsloniny ;

proc reg

model zwmt = wiekub ;

plot upadki*dystans ;

run ;

Wyznaczamy model do przewidywania zawartości

mięsa w tuszy na podstawie wieku

Page 21: Dzisiaj na wykładzie

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 1 47.58626 47.58626 5.91 0.0160

Error 190 1530.37291 8.05459

Corrected Total 191 1577.95917

Root MSE 2.83806 R-Square 0.0302

Dependent Mean 59.40208 Adj R-Sq 0.0251

Coeff Var 4.77771

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 65.41199 2.48104 26.36 <.0001

wiekub 1 -0.03121 0.01284 -2.43 0.0160

Page 22: Dzisiaj na wykładzie

Wybór modeluKtóry model jest

najlepszy?• Ten z max. R-kwadrat? Ale uwaga!

-im szerszy model tym większy wsp. determ.

• CP = (SSE/war.błędu) + 2*l.parametrów - liczba obserwacji

Page 23: Dzisiaj na wykładzie

Jak wyznaczyć najlepszy model?

• Najlepiej rozpatrywać każdy model z osobna (za dużo kombinacji).

• Jeżeli więcej zmiennych kandydujących to korzystamy z regresji krokowej

– wstecznej– postępującej– i innych

Page 24: Dzisiaj na wykładzie

Wybór modelu

• FORWARD - dokładanie po jednej zmiennej• BACKWARD - ujmowanie po jednej zmiennej• STEPWISE – jak FORWARD ale zmienna raz

dodana nie musi pozostać w modelu• MAXR – wybór najlepszego modelu dla jednej

zmiennej, najlepszego dla dwóch zmiennych, itd..• CP - szuka podanej liczby modeli o najmniejszej

wartosci Cp i zadanym rozmiarze modelu

Page 25: Dzisiaj na wykładzie

R. krokowa postępująca

1. Najprostszy model – tylko wyraz wolny

2. Testujemy każdy z osobna, i dodajemy do modelu zmienną, której F>Fwprow.

3. Kontynuujemy - wprowadzamy następne zmienne i usuwamy te, dla których F<Fusun.

Page 26: Dzisiaj na wykładzie

Wybór modelu

proc reg

model zwmt = wiekub mtuszy grsloniny / selection=stepwise ;

run ;

Page 27: Dzisiaj na wykładzie

Stepwise Selection: Step 3

Variable wiekub Entered: R-Square = 0.3802 and C(p) = 4.0000

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 3 599.86830 199.95610 38.43 <.0001

Error 188 978.09086 5.20261

Corrected Total 191 1577.95917

Parameter Standard

Variable Estimate Error Type II SS F Value Pr > F

Intercept 100.83899 6.26631 1347.26952 258.96 <.0001

wiekub -0.03992 0.01038 76.98254 14.80 0.0002

mtuszy -0.66982 0.15427 98.07421 18.85 <.0001

grsloniny -4.72688 0.60845 313.99019 60.35 <.0001

zwmt = 100.8 - 0.04*wiekub - 0.67*mtuszy - 4.73*grsloniny

Page 28: Dzisiaj na wykładzie

Po dopasowaniu modelu zawsze analizujemy reszty.

Powtarzamy analizę jeżeli mamy duże wartości odstające!

Page 29: Dzisiaj na wykładzie

proc reg ;

model zmwt = wiekub mtuszy grsloniny / p r cli clm ;

run;P – drukuje numer obserwacji, wartość obserwowaną , predykowaną i reszte

R – drukuje więcej szczegółow o resztach

CLM – 95% przedizał ufności dla predykowanych wartości

Dependent Predicted Std Error Std Error Student

Obs Variable Value Mean Predict 95% CL Mean 95% CL Predict Residual Residual Residual -2 -1 0 1 2 1 58.7000 61.2208 0.2699 60.6885 61.7532 56.6899 65.7517 -2.5208 2.265 -1.113 | **| | 2 57.7000 60.6489 0.4211 59.8182 61.4796 56.0734 65.2244 -2.9489 2.242 -1.315 | **| | 3 60.4000 62.3436 0.3247 61.7032 62.9841 57.7988 66.8885 -1.9436 2.258 -0.861 | *| | 4 51.9000 54.9105 0.5844 53.7576 56.0634 50.2657 59.5553 -3.0105 2.205 -1.365 | **| | 5 61.7000 60.9182 0.3347 60.2580 61.5785 56.3706 65.4659 0.7818 2.256 0.346 | | | 6 62.4000 61.9895 0.3602 61.2790 62.7001 57.4343 66.5448 0.4105 2.252 0.182 | | | 7 60.9000 60.1696 0.3018 59.5742 60.7650 55.6309 64.7083 0.7304 2.261 0.323 | | | 8 55.5000 60.4452 0.2379 59.9758 60.9146 55.9213 64.9691 -4.9452 2.268 -2.180 | ****| | 9 59.4000 58.2251 0.2220 57.7872 58.6631 53.7044 62.7459 1.1749 2.270 0.518 | |* | 10 59.0000 56.9470 0.3760 56.2053 57.6887 52.3868 61.5072 2.0530 2.250 0.913 | |* | 11 60.8000 60.1635 0.1822 59.8040 60.5230 55.6497 64.6774 0.6365 2.274 0.280 | | |

Page 30: Dzisiaj na wykładzie

Reszty studentyzowane - reszty podzielone przez odchylenie standardowe reszt – duża liczba obserwacji z wartościami bezwzględnymi >2 wskazuje na nieadekwatność modelu.

Wartosci D Cooka – odzwierciedlają zmianę w oszacowaniu, gdyby obserwacje usunięto z analizy. Duża wartość (>1) wskazuje, że obserwacja silnie wpływa na oszacowania w modelu – możliwe że jest to obserwacja odstająca!

Page 31: Dzisiaj na wykładzie

Wpływowe obserwacje

proc reg ;

model zmwt = wiekub mtuszy grsloniny / influential ;

run;

Obserwacje, które mają największy wpływ na oszacowania parametrów w modelu.

Page 32: Dzisiaj na wykładzie

• RSTUDENT – reszta studentyzowana, uwaga na wartości >2

• DFFITS- podobne do wartości D Cooka,, uwaga na te, które > 2

• DFBETAS – uwaga na wartości >2

Page 33: Dzisiaj na wykładzie

udział tłuszczu w ciele

•Ważny dla zdrowia•Trudny w pomiarze - wymaga ważenia ciała w wodzie.•Czy można go przewidzieć na podstawie łatwych pomiarów.

Problem na ćwiczenia

Page 34: Dzisiaj na wykładzie

Density determined from underwater weighing Percent body fat from Siri's (1956) equation Age (years) Weight (lbs) Height (inches) Neck circumference (cm) Chest circumference (cm) Abdomen 2 circumference (cm) Hip circumference (cm) Thigh circumference (cm) Knee circumference (cm) Ankle circumference (cm) Biceps (extended) circumference (cm) Forearm circumference (cm) Wrist circumference (cm)

http://lib.stat.cmu.edu/datasets/

dane

BODYFAT

Page 35: Dzisiaj na wykładzie

Zadania na ćwiczenia

•Skonstruuj dobry model predykcji udziału tłuszczu w ciele

•Które zmienne są najlepiej objaśniają udział tłuszczu w ciele człowieka?

•Dokonaj analizy reszt. Usuń przypadki zniekształcające przewidywanie i popraw model.

Page 36: Dzisiaj na wykładzie

zadanie dla chętnych

Zbrodnie Detroit

The data are on the homicide rate in Detroit for the years 1961-1973.FTP - Full-time police per 100,000 populationUEMP - % unemployed in the populationMAN - number of manufacturing workers in thousandsLIC - Number of handgun licences per 100,000 populationGR - Number of handgun registrations per 100,000 populationCLEAR - % homicides cleared by arrestsWM - Number of white males in the populationNMAN - Number of non-manufacturing workers in thousandsGOV - Number of government workers in thousandsHE - Average hourly earningsWE - Average weekly earningsHOM - Number of homicides per 100,000 of population ACC - Death rate in accidents per 100,000 populationASR - Number of assaults per 100,000 population

http://lib.stat.cmu.edu/datasets/detroit

skonstruuj model

predykcji liczby

zabójstw