Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności...

62
Analiza regresji część II Agnieszka Nowak - Brzezińska

Transcript of Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności...

Page 1: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Analiza regresji – część II

Agnieszka Nowak - Brzezińska

Page 2: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Niebezpieczeństwo ekstrapolacji

• Analitycy powinni ograniczyć predykcję i estymację , które są wykonywane za pomocą równania regresji dla wartości objaśniającej w obrębie przedziału wartości x w zbiorze danych.

• Np. w zbiorze płatków śniadaniowych najmniejsza zawartość cukru to 0 a największa to 15 więc szacowana wartości odżywcza jest właściwa tylko dla dowolnej wartości z przedziału 0..15.

Page 3: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Ekstrapolacja

• Ekstrapolacja - szacowanie dla wartości poza przedziałem może być niebezpieczne, ponieważ nie znamy natury relacji pomiędzy x i y poza tym zakresem.

• Ekstrapolacji należy oczywiście unikać.

• Załóżmy , że nowe płatki zostały wpuszczone na rynek z bardzo dużą zawartością cukru. Np.. 30 gram.

• Nasze równanie regresji oszacuje wartość odżywczą płatków na -13.2 !

Page 4: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

rysunek

• Chcielibyśmy aby nasze punkty układały się tylko jako czarne punkty. Jednak rzeczywiście relacja między x i y składa się zarówno z punktów czarnych (obserwowanych), jak i szarych (nieobserwowanych).

• Linia regresji oparta jedynie na dostępnych danych jest taka jak na rysunku.

Page 5: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Oszacowanie najmniejszych kwadratów

• Gdybyśmy mieli inny zbiór płatków to nie możemy zakładać, że zależność pomiędzy wartością odżywczą a zawartością cukrów będzie dokładnie taka sama jak:

sugarsrating *42.24.59

Nie – ponieważ b0 i b1 są statystykami, których wartości zmieniają się w zależności od próby. b0 i b1 są używane do estymacji parametrów populacji, w tym przypadku 0,1 czyli wyrazu wolnego oraz współczynnika nachylenia prostej regresji.

10y

Page 6: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Równanie regresji

• Reprezentuje prawdziwą liniową zależność między wartością odżywczą płatków a zawartością cukrów dla wszystkich rodzajów płatków śniadaniowych, nie tylko tych z naszej próby 77 typów płatków.

• Losowy błąd w powyższym równaniu regresji stosuje się w celu uwzględnienia nieoznaczoności w modelu, ponieważ dwa różne rodzaje płatków śniadaniowych mogą mieć tę samą zawartość cukrów ale inną wartość odżywczą.

xy 10

Page 7: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

W regresji prostej bada się relację pomiędzy dwiema zmiennymi ilościowymi x i y.

Model zależności w prostej regresji dla n elementowej próby jest postaci:

Gdzie: Yi – wartość zmiennej y dla obserwacji i-tej Xi- wartość zmiennej x dla i-tej obserwacji i – zakłócenie losowe o rozkładzie N(0,2) czyli ma rozkład

normalny o wariancji 2 1 in Są niezależne, a więc: A 0,1 są współczynnikami modelu.

iii xy 10

0),(cov jiji

Page 8: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Taki model regresyjny opisuje często spotykaną w praktyce sytuację, gdy obserwowane wartości funkcji nie są dokładne, ponieważ są losowo zakłócane.

• Znając wartości wektora zmiennych objaśniających oraz losowo zakłócane wartości funkcji d, naszym zadaniem jest „odfiltrowanie” zakłóceń i podanie dokładnej postaci funkcji.

• Zmienne objaśniające to zmienne nielosowe, ale to nie ma tu akurat znaczenia.

Page 9: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Wyznaczywszy oszacowania parametrów modelu, można obliczyć również wartości reszt, czyli oszacowania dla zakłóceń losowych wyznaczanych jako:

• Metoda najmniejszych kwadratów gwarantuje, że prosta regresji opisana równaniem

minimalizuje sumę kwadratów reszt dla wszystkich obserwacji.

01 iii xy

01 xy

Page 10: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Współczynnik determinacji

• Pozwala on stwierdzić czy oszacowane równanie regresji jest przydatne do przewidywania czy nie.

• Nazywa się go często współczynnikiem dopasowania regresji i oznacza jako R2.

• Określa on stopień w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych.

y

yy

Oznacza estymowaną wartość zmiennej objaśnianej

Oznacza błąd oszacowania lub resztę.

Page 11: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Suma kwadratów błędów SSE • Całkowita wartość błędu oszacowania gdy użyjemy równania regresji

• Całkowita suma kwadratów SST • Stanowi miarę całkowitej zmienności wartości y bez odniesienia do

zmiennej objaśniającej. Mówi się, że SST jest funkcją wariancji zmiennej y.

• Regresyjna suma kwadratów SSR • Stanowi miarę całkowitej poprawy dokładności przewidywań w przypadku

stosowania regresji w porównaniu z sytuacją gdy nie uwzględniamy wartości zmiennej objaśniającej

SST = SSR + SSE

2)(

yySSE

2)( yySST

2)(

yySSR

Page 12: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Współczynnik determinacji (ang. coefficient od determination)

• Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy zmienną celu a zmienną objaśniającą:

• Możemy go interpretować jako tę część zmienności zmiennej y, która została wyjaśniona przez regresję, czyli przez liniowy związek pomiędzy zmienną celu a zmienną objaśniającą.

SST

SSRr 2

Page 13: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Współczynniki regresji

•Współczynnik determinacji z prostego modelu regresji liniowej dla zestawu

danych cereals to 0,5771056.

Page 14: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Na ile dobra jest regresja?

Współczynnik determinacji jest opisową miarą siły liniowego związku

między zmiennymi, czyli miarą dopasowania linii regresji do danych

współczynnik determinacji ---przyjmuje wartości z przedziału [0,1] i wskazuje jaka część zmienności zmiennej y jest wyjaśniana przez znaleziony model. Na przykład dla R2=0.619 znaleziony model wyjaśnia około 62% zmienności y.

Page 15: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Współczynnik determinacji

• Oczywiście zawsze można znaleźć taką linię regresji metodą najmniejszych kwadratów, która modeluje zależność pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak nie ma gwarancji, że taka regresja będzie przydatna. Zatem powstaje pytanie, w jaki sposób możemy stwierdzić, czy oszacowane równanie regresji jest przydatne do przewidywania. Jedną z miar dopasowania regresji jest współczynnik determinacji R2.

• Określa on stopień, w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych. Przypomnijmy, że oznacza estymowaną wartość zmiennej objaśnianej, a jest błędem oszacowania lub resztą.

yy

y

Page 16: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Suma kwadratów błędu oszacowania lub suma kwadratów błędów reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia równania regresji.

• Jeśli nie znamy wartości zmiennej objaśniającej do oszacowania wartości zmiennej objaśnianej- nasze oszacowania będą oczywiście mało wartościowe.

• Lepszym oszacowaniem dla y będzie po prostu średnia(y). To zazwyczaj prezentuje pozioma linia na wykresie. Punkty danych jednak koncentrują się bardziej wokół oszacowanej linii regresji a nie wokół tej linii poziomej, co sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy.

• Jeśli liczymy różnice x – średnia(x) dla każdego rekordu, a następnie sumę kwadratów tych miar, tak jak przy oszacowanej wartości y ( ), kiedy obliczaliśmy sumę kwadratów błędów otrzymujemy całkowitą sumę kwadratów SST (sum of squares total):

• Stanowi ona miarę całkowitej zmienności wartości samej zmiennej objaśnianej bez odniesienia do zmiennej objaśniającej. Zauważmy, że SST jest funkcją wariancji zmiennej y, gdzie wariancja jest kwadratem odchylenia standardowego .

2

1

2 )1()()1()( y

n

i

i nyVarnyySST

n

i

i yySST1

2)(

yy

Page 17: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

SST

SSRr 2

Współczynnik determinacji r2:

Współczynnik determinacji r2

Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy zmienną celu a zmienną objaśniającą.

Jaka jest wartość maksymalna współczynnika determinacji r2 ?

Jest ona osiągana wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wtedy gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji. Wówczas nie ma błędów oszacowania, a więc wartości resztowe (rezydua) wynoszą 0, a więc SSE=0 a wtedy SST = SSR a r2=1.

Jaka jest wartość minimalna współczynnika determinacji r2 ?

Jest ona osiągana wtedy, gdy regresja nie wyjaśnia zmienności, wtedy SSR = 0, a więc r2=0.

Im większa wartość r2 tym lepsze dopasowanie regresji do zbioru

danych.

Page 18: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Przykład analizy współczynnika R2 dla wielu zmiennych objaśniających

Jak już wspomnieliśmy na początku, często w świecie rzeczywistym mamy do czynienia z zależnościami zmiennej objaśnianej nie od jednej ale raczej od wielu zmiennych objaśniających. Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie. Nim przeprowadzimy analizę zależności zmiennej rating od wielu zmiennych objaśniających np. sugars oraz fiber przyjrzyjmy się wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zależności między pojedynczymi zmiennymi.

Page 19: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,
Page 20: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Funkcja r.square

Page 21: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Funkcja r.square.adjusted

Page 22: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Skorygowany R2

• Jest to sposób na wyeliminowanie z modelu zmiennych objaśniających, które nie są przydatne.

• Dodanie zmiennej do modelu regresji zwiększa wartość współczynnika determinacji, niezależnie od przydatności tej zmiennej.

• Sposobem jest tu kara miary R2 dla modeli które uwzględniają nieprzydatne zmienne objaśniające. Taką miarą jest skorygowany współczynnik determinacji ( adjusted R2).

Page 23: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Test istotności regresji

Ponieważ wartość p jest znacznie mniejsza niż 0,05 odrzucamy hipotezę zerową, że β = 0. Czyli mówimy, że istnieje istotna zależność między zmiennymi w modelu regresji.

Page 24: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Sprawdzanie założeń regresji

Istnieją dwie podstawowe metody graficzne używane do sprawdzenia założeń regresji:

• Normalny wykres kwantylowy

• Wykres standaryzowanych reszt względem wartości przewidywanych

Page 25: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Założenia: liniowość, niezależność, normalność i stała wariancja – mogą zostać zweryfikowane za pomocą normalnego wykresu kwantylowego i wykresu standaryzowanych reszt względem przewidywanych wartości.

• Wykres kwantylowy to wykres kwantyli próbkowych rozkładu reszt (rezyduów) względem kwantyli rozkładu normalnego odpowiedniego rzędu.

• Normalność można ocenić, sprawdzając, czy wykres wykazuje systematyczne odchylenie od linii prostej. Wtedy można wywnioskować, że wykreślone wartości danych (w tym wypadku reszty) nie pochodzą z żadnego szczególnego rozkładu (rozkładu normalnego w tym przykładzie). Nie wykrywamy systematycznych odchyleń od liniowości na wykresie standaryzowanych reszt, a zatem stwierdzamy, że założenie normalności jest nienaruszone.

Page 26: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Normalność

Normalne mają być rezydua, czyli różnica między modelem a danymi, a nie same dane!!!

Jeżeli zmienna była mierzona przyrządem, to jest duża szansa, że ma rozkład normalny

Jeżeli wartości zmiennej są średnimi z jakichś liczb, to zmienna jest najprawdopodobniej normalna

Jeżeli zmienna oznacza liczbę czegoś na jednostkę (liczbę komórek w objętości) i średnia tej liczby jest 10 lub więcej, to można przyjąć, że zmienna ma rozkład normalny

Page 27: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Metoda 1: Normalny wykres kwantylowy

• Jest wykresem kwantyli próbkowych rozkładu reszt względem kwantyli rozkładu normalnego odpowiedniego rzędu.

• Używa się go do określenia, czy dany rozkład odbiega od rozkładu normalnego.

• Na wykresie tym, wartości obserwowane dla badanego rozkładu są porównywane z wartościami dla rozkładu normalnego.

• Podobnie jak centyl, kwantyl rozkładu jest wartością xp, taką, że p% wartości rozkładu jest mniejsze lub równe xp.

• Jeżeli rozkład jest normalny to punkty na wykresie powinny tworzyć linię prostą; zaś systematyczne odchylenia od linii prostej wskazują na nieliniowość.

Czytanie wykresu…

Page 28: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Normalny wykres kwantylowy

Wykres kwantylowy to wykres kwantyli próbkowych rozkładu reszt (rezyduów) względem kwantyli rozkładu normalnego odpowiedniego rzędu.

Page 29: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Dla rozkładu normalnego

Page 30: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Dla rozkładu jednostajnego

Page 31: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Dla rozkładu Chi2 (prawoskośny)

Page 32: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

W praktyce…

• Nie możemy liczyć na to że rzeczywiste dane dostarczą nam takich idealnych wykresów kwantylowych.

• Obecność błędu próbkowania i innych źródeł szumu powoduj zwykle, że wykres będzie miał mniej jednoznaczny kształt.

Page 33: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,
Page 34: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Dla zbioru Cereals

Page 35: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Metoda 2: Wykres standaryzowanych reszt względem wartości przewidywanych

• Drugą graficzną metodą używaną do sprawdzenia założeń modelu regresji jest wykres standaryzowanych reszt względem wartości przewidywanych.

Page 36: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,
Page 37: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Czytanie wykresu…

• Wykres reszt względem wartości przewidywanych jest sprawdzany ze względu na dostrzegalne wzorce. Jeżeli istnieje oczywista krzywizna na wykresie rozrzutu, to założenie liniowości jest naruszone.

• Jeżeli pionowy rozrzut punktów na wykresie jest systematycznie niejednakowy, to założenie o stałej wariancji jest naruszone. Gdy nie wykrywamy takich wzorców to stwierdzamy, że założenia liniowości i stałej wariancji są nienaruszone.

• Założenie niezależności jest sensowne w naszym zbiorze danych ponieważ nie spodziewamy się, że wartość odżywcza jednego rodzaju płatków zależy od wartości innego rodzaju płatków.

• Dane zależne od czasu mogą być sprawdzone ze względu na niezależność kolejności za pomocą testów przebiegu lub wykresów reszt względem kolejności.

Page 38: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Wykres standaryzowanych reszt względem wartości przewidywanych

Page 39: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,
Page 40: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Sprawdzamy więc, czy istnieją pewne charakterystyczne układy punktów na wykresach reszt względem wartości przewidywanych.

• Jeżeli tak, to jedno z założeń zostało naruszone, a jeżeli nie ma takich widocznych wzorców, to założenia pozostają nienaruszone.

Page 41: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,
Page 42: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

4 wzorce archetypów obserwowane na wykresach reszt względem wartości przewidywanych

• Wykres A pokazuje poprawny wykres gdzie nie są obserwowane żadne widoczne wzorce i punkty zajmują cały prostokątny obszar od lewej do prawej.

• Wykres B pokazuje krzywiznę, co świadczy o naruszonym założeniu niezależności.

• Wykres C pokazuje wzór lejka co świadczy o naruszonym założeniu o stałej wariancji.

• Wykres D pokazuje wzorzec, który rośnie od lewej strony do prawej, co świadczy o naruszonym założeniu o zerowej średniej.

Page 43: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Wykres B

• Dlaczego mówimy, że założenie niezależności nie jest tu spełnione ?

• Ponieważ zakłada się, że błędy są niezależne, więc reszty (oszacowania błędów) powinny być również niezależne.

• Jeżeli jednak reszty tworzą zakrzywiony wzorzec, to możemy przypuszczać, że dla danej reszty sąsiadujące z nią reszty (na lewo i na prawo) będą wewnątrz pewnego marginesu błędu.

• Jeżeli reszty byłyby rzeczywiście niezależne, to taka prognoza nie byłaby możliwa.

Page 44: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Dlaczego na wykresie C założenie o stałej wariancji nie jest prawdziwe ?

• Na wykresie A – wariancja reszt pokazana jako pionowa odległość, jest niemal stała, niezależnie od wartości x.

• Z kolei na wykresie C wartości reszt są mniejsze dla mniejszych wartości x i większe dla większych wartości x.

• Dlatego zmienność nie jest stała co narusza założenie o stałej wariancji.

Page 45: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Dlaczego z wykresu D możemy odczytać że zostało naruszone założenie o zerowej średniej?

• Założenie o zerowej średniej stwierdza, że średnia błędu jest równa zero, niezależnie od wartości x.

• Jednak na wykresie D dla małych wartości x średnia reszt jest mniejsza od zera, podczas, gdy dla dużych wartości x średnia reszt jest większa od 0.

• To stanowi naruszenie założenia o zerowej średniej, jak również naruszenie założenie niezależności.

Page 46: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Jeżeli wykres kwantylowy nie pokazuje systematycznego odchylenia od linii prostej a wykres reszty względem wartości przewidywanych nie pokazuje widocznych wzorców, to możemy wyciągnąć wniosek, że nie ma graficznych dowodów na naruszenie założeń regresji i możemy kontynuować analizę regresji.

Page 47: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Co jednak, gdy te wykresy wskazują na naruszenie założeń regresji ?

• Wtedy możemy zastosować transformację zmiennej celu y, taką jak transformacja logarytmiczna.

Transformacja logarytmiczna, ln, czyli logarytm naturalny czyli o podstawie e.

Page 48: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Przykład zastosowania transformacji

• Jak to jest z transformowaniem zmiennych do regresji?

• Jedni mówią, że można, inni że to manipulowanie danymi?

• Odpowiedź: można, a nawet czasem TRZEBA

Page 49: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Transformacje danych – kiedy podejrzewamy, że można

• log – jeżeli stosunek pomiędzy największą a najmniejszą wartością przekracza 10 (i zmienne są „skrzywione”) to można, jeżeli przekracza 100, to nawet trzeba

Page 50: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Diagnostyka modelu liniowego

• Aby model można było uznać za dobry, należy wykonać jego diagnostykę.

• Przykład:

Oceny współczynników i statystyki testowe są prawie identyczne

Page 51: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

wniosek

Po dopasowaniu modelu, diagnostyka jest krokiem koniecznym, pozwalającym na ocenę, czy model jest dopasowany poprawnie.

Page 52: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Współliniowość Gdy zmienne objaśniające są wysoko skorelowane wyniki analizy regresji mogą być niestabilne. Szacowana wartość zmiennej xi może zmienić wielkość a nawet kierunek zależnie od pozostałych zmiennych objaśniających zawartych w tak testowanym modelu regresji. Taka zależność liniowa między zmiennymi objaśniającymi może zagrażać trafności wyników analizy regresji. Do wskaźników oceniających współliniowość należy, m.in. VIF (Variance Inflation Factor) zwany współczynnikiem podbicia (inflacji) wariancji. VIF pozwala wychwycić wzrost wariancji ze względu na współliniowość cechy. Innymi słowy: wskazuje on o ile wariancje współczynników są zawyżone z powodu zależności liniowych w testowanym modelu. Niektóre pakiety statystyczne pozwalają także alternatywnie mierzyć tzw. współczynnik toleracji (TOL - ang. tolerance), który mierzy się jako: 1/VIF

dla modelu xi = f(x1, …., xi-1, xi+1, …, xp) gdzie zmienna xi będzie wyjaśniana przez wszystkie pozostałe zmienne. Gdy VIF > 10 mówimy, że współliniowość wystąpiła i chcąc się jej pozbyć z modelu, usuwamy te cechy, które są liniową kombinacją innych zmiennych niezależnych.

12)1( ii RVIF

Page 53: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Radą na współliniowość jest według niektórych prac zwiększenie zbioru obserwacji o nowe, tak, by zminimalizować istniejące zależności liniowe pomiędzy zmiennymi objaśniającymi. Oczywiście, zwiększenie liczby obserwacji nie gwarantuje poprawy -stąd takie rozwiązanie na pewno nie należy do najlepszych i jedynych. Lepszym wydaje się komponowanie zmiennych zależnych w nowe zmienne (np. waga i wzrost są skorelowane silnie i zamiast nich stworzenie jednej zmiennej stosunek wzrostu do wagi. Taką nową zmienną nazywa się w literaturze kompozytem. Często - dla dużej liczby zmiennych objaśniających - stosuje sie metodę analizy składowych głównych (ang. principal component analysis) dla redukcji liczby zmiennych do jednego lub kilku kompozytów niezależnych.

Page 54: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Przykład modelu ze współliniowością

Gdzie x3i = 10 * x1i - 2 * x2i . Wtedy powiemy, że zmienna x3 jest kombinacją liniową zmiennych x1 i x2. Próba szacowania takiego modelu związana jest ze świadomym popełnianiem błędu, gdyż w modelu tym występuje dokładna współliniowość (jedna ze zmiennych objaśniających jest kombinacją liniową pozostałych).

Dla modelu postaci:

yi = b0 + b1 x1i + b2 x2i + b3 x3i + e1i

Page 55: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

W środowisku R sprawdzanie współliniowości nie jest trudne. Wystarczy skorzystać z funkcji vif której argumentem jest model regresji dla danego zbioru danych. Przykład dotyczący naszego zbioru płatków zbożowych przedstawiamy poniżej:

> vif(lm(rating~sugars+fiber, data=dane))

sugars fiber

1.020345 1.020345.

Wartości współczynnika VIF nie są zbyt wysokie toteż uznajemy, że w modelu tym nie występuje zjawisko współliniowości.

Page 56: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Współliniowość (ang. multicollinearity)

• To sytuacja, gdy kilka zmiennych objaśniających jest skorelowanych ze sobą. Prowadzi to bowiem do niestabilności w przestrzeni poszukiwań, a wyniki mogą być niespójne.

• Aby uniknąć współliniowości, należy zbadać strukturę korelacji między zmiennymi objaśniającymi.

cukry błonnik Półka 2

Błonnik -0.137

Półka 2 0.374 -0.330

potas 0.022 0.905 -0.331

Dwie zmienne potas i błonnik są silnie skorelowane.

Page 57: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Jest też inna metoda…

• Możemy posłużyć się wskaźnikami podbicia wariancji. Co to jest wskaźnik podbicia wariancji ?

• Wartość sbi oznacza zmienność związaną ze współczynnikiem bi dla i-tej zmiennej objaśniającej xi. Wartość sbi możemy wyrazić jako iloczyn standardowego błędu oszacowania s i stałej ci. Stałą ci wyrazimy jako:

• Gdzie si2 oznacza wariancję próby obserwowanych wartości i-tej zmiennej

opisującej xi, • A Ri

2 oznacza wartość współczynnika regresji wielokrotnej R2 dla regresji zmiennej xi traktowanej jako zmiennej zależnej względem pozostałych zmiennych objaśniających.

• Ri2 będzie duże, gdy xi będzie silnie skorelowane z innymi zmiennymi

objaśniającymi.

22 1

1

)1(

1

ii

iRsn

c

Page 58: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

• Pierwszy czynnik mierzy tylko wewnętrzną zmienność i-tej zmiennej objaśniającej xi,

• zaś drugi czynnik mierzy korelację między i–tą zmienną objaśniającą x i a pozostałymi zmiennymi objaśniającymi. Dlatego drugi czynnik jest nazywany wskaźnikiem podbicia wariancji VIF dla xi :

21

1

i

iR

VIF

22 1

1

)1(

1

ii

iRsn

c

Page 59: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

W praktyce…

• Jeśli zmienna xi jest całkowicie nieskorelowana z pozostalymi zmiennymi objaśniającymi, Ri

2 = 0. Wtedy VIF = 1. Czyli minimalna wartość wskaźnika inflacji to 1.

• W miarę tego jak rośnie stopień korelacji pomiędzy zmienną xi i pozostałymi wartość Ri

2 również rośnie. Gdy wartość ta zbliża się do 1, to VIF rośnie do nieskończoności. Zatem nie ma górnej granicy.

• Praktyczną zasadą dotyczącą interpretacji wartości wskaźnika podbicia wariacji jest oznanie VIF>=5 jako wskazania umiarkowanej współliniowości i VIV >=10 jako wskazania silnej współliniowości.

• Wskaźnik podbicia wariancji =5 odpowiada wartości Ri2 = 0.80.

Wartość VIF=10 odpowiada Ri2 = 0.9

21

1

i

iR

VIF

Page 60: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

W środowisku R sprawdzanie współliniowości nie jest trudne. Wystarczy skorzystać z funkcji vif której argumentem jest model regresji dla danego zbioru danych.

Przykład dotyczący naszego zbioru płatków zbożowych przedstawiamy poniżej:

> vif(lm(rating~sugars+fiber, data=dane))

sugars fiber

1.020345 1.020345

Page 61: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,
Page 62: Analiza regresji – część IIzsi.tech.us.edu.pl/~nowak/smad/SMAD_w4.pdf · Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż , odrzucamy hipotezę zerową,

Są trzy typy obserwacji, które mogą ale nie muszą wywierać nadmiernego nacisku na wyniki regresji:

• Obserwacje oddalone

• Obserwacje wysokiej dźwigni

• Obserwacje wpływowe.