Analiza Regresji Liniowej w Praktyce

download Analiza Regresji Liniowej w Praktyce

of 14

Transcript of Analiza Regresji Liniowej w Praktyce

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    1/14

    Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 31

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    PROSTO ODOPASOWANIU PROSTYCH,

    CZYLI ANALIZA REGRESJI LINIOWEJ WPRAKTYCE

    Janusz Wtroba, StatSoft Polska Sp.z o.o.

    W niemal wszystkich dziedzinach bada empirycznych mamy do czynienia ze zoonocizjawisk iprocesw. W zwizku z tym wystpuje naturalne zainteresowanie ze strony

    badaczy metodami analizy danych, ktre umoliwiaj ilociow ocen zwizkw wystpu-jcych pomidzy rnymi aspektami badanych zjawisk iprocesw. Stosunkowo najcz-ciej do tego celu wykorzystywane s metody regresji liniowej prostej i wielorakiej.

    W opracowaniu przedstawiono krtko ide metody regresji liniowej, sposb jej doboruoraz zagadnienie interpretacji oszacowanego modelu.

    W drugiej czci zaprezentowano przykady analiz przeprowadzonychz uyciem narzdzidostpnychw rodowisku programu STATISTICA.

    Wprowadzenie

    Jednym z najczstszych powodw stosowania metod statystycznej analizy danych jest

    poszukiwanie przyczyn majcych wpyw na interesujce badacza zjawiska. Przykadowodla ekonomisty moe by interesujce stwierdzenie, jakie czynniki ksztatuj sprzeda

    wybranych produktw lub usug. Lekarz jest zainteresowany poszukiwaniem czynnikwwpywajcych na stan kliniczny pacjentw, u ktrych zdiagnozowano pewn jednostkchorobow.Wbadaniach pedagogicznych celem moe by poszukiwanie czynnikw, ktre

    wpywaj na wynik egzaminu.Z kolei socjologa moe interesowa,jakie czynniki s odpo-wiedzialne za poparcie kandydatw w wyborach. Praktycznie w kadej dziedzinie bada

    empirycznych mona bez trudu poda dalsze przykady zagadnie stawianychw podobnysposb.

    Zazwyczaj mamy do czynienia z sytuacj, w ktrej interesujce nas aspekty badanych zja-wisk zale od caego szeregu czynnikw, traktowanych jako potencjalne przyczyny(wybr takich potencjalnych przyczyn jest oczywicie atwiejszy w tych dziedzinach

    bada,w ktrych istnieje dobrze ugruntowana teoria). Bardzo czsto trudno jest stwierdzi,wjaki sposb okrelone przyczyny ksztatuj wybrane przez badacza lub analityka skutki.

    Kolejnym problemem jest fakt, i brane pod uwag czynniki nie s od siebie niezalene ,lecz s nawzajem w rny sposb od siebie uzalenione. W zwizku z tym badaczwiadomie wybiera podejcie polegajce na uproszczeniu badanych powiza.

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    2/14

    www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 201132

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    Opisywansytuacj mona przedstawi oglnie za pomoc zapisu:

    Skutek Przyczyna(y)

    Bardziej formalny sposb podejcia do rozwaanego problemu prowadzi do sformuowaniajednokierunkowej zalenociw postaci funkcji:

    )(PfS

    Najprostsz postaci takiego rwnania jest funkcja liniowa,wprzypadku ktrej przyjmu-jemy, eSjest proporcjonalne doP. Przyjcie liniowej postaci zalenoci pozwalaw atwysposb przedstawi graficznie rozwaany problem.

    Poniej na dwuwymiarowym wykresie rozrzutu zaprezentowano przykadowy obraz zale-

    noci midzy wielkociamiSiP. Kady punkt wykresu oznacza pojedynczy obiekt (obser-wacj, pomiar).

    Rys. 1. Wykres ilustrujcy powizanie pomidzy wielkociamiSiP.

    Pooenie punktw na wykresie wskazuje na wystpowanie wyranej prawidowoci(tendencji). Jednoczenie wida, e prawidowo ta nie moe by opisana wycznie za

    pomoc zwykej funkcji liniowej.

    Model regresji liniowej prostej

    Jedno z moliwych rozwiza wskazanego powyej problemu polega na wprowadzeniu do

    deterministycznego rwnania S = f (P) zmiennej losowej i zaoeniu, e rzeczywista

    zaleno Sod Pma charakter stochastyczny [6]. Zmienna losowa to tzw. skadniklosowy, ktrego zadaniem jest odzwierciedleniew modelu nieprzewidywanego elementu

    losowoci (zwizanego np. z ludzkimi zachowaniami), wpywu wielu pominitych

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    3/14

    Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 33

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    w modelu zmiennych oraz bdw pomiaru wielkoci S. W ten sposb otrzymujemy

    rwnanie (model), ktre moemyw oglnej postaci zapisa jako:

    ),( XfY

    Jest to model regresj i l ini owej prostej. W modelu tym Yoznacza zmienn zalen1 lub

    objanian, Xto zmienna niezalena lub objaniajca. W klasycznej analizie regresjiwprowadza si kilka zaoe [6]. Najwaniejszez nich to:

    model zakada stabilno relacjifmidzy badanymi zjawiskami,

    model jest liniowy wzgldem parametrw

    XY 10 ,

    gdzie 0 i 1 to tzw. parametry strukturalne modelu,

    skadnik losowy jest zmienn losowo rozkadzie normalnym ).,0( 2N

    Zaoenie stabilnoci relacji jest bardzo naturalne. Uchylenie tego zaoenia prowadzi do

    modeli o parametrach zmiennych w czasie lub modeli przecznikowych. Liniowa postabadanej funkcji umoliwia wykorzystanie stosunkowo prostych metod estymacji.

    Zaoenie normalnoci rozkadu skadnika losowego pozwala przeprowadzi wnios-kowanie statystyczne, poniewa odpowiednie statystyki maj wwczas podane rozkady(np. t-Studenta,F).

    Innymi sowy mona powiedzie, e ze wzgldu na zoono badanych zjawisk pojawiajsi trudnoci w odwzorowaniu rzeczywistych mechanizmw odpowiedzialnych za ich

    przebieg. Potrzebne jest zatem uproszczenie. Uproszczone odwzorowanie rzeczywistychwspzalenoci pomidzy badanymi zjawiskami wymaga od badacza umiejtnegowydobycia istoty mechanizmu generujcego dane iprzeksztacenie go do postaci umo-

    liwiajcej zastosowaniepodejcia statystycznego. Sprowadza si to doprzyjcia okrelonejmatematycznej formuy, ujmujcej powizania pomidzy zmiennymi oraz zaoe o loso-

    wych procesach, wpywajcych na wyniki pojedynczych pomiarw[3]. Warto jeszcze razzwrci uwag na to, e przy prbie ilociowego opisu powiza potrzebne jest rozrnie-nie dwch typw zalenoci: deterministycznej(funkcyjnej), ktra kadej wartoci zmien-nejxprzyporzdkowuje jedni tylko jedn warto zmiennej y, orazstatystycznej(proba-bilistycznej), ktra nie przyporzdkowuje jednoznacznie wartociydanym wartociom x,

    ale moe by precyzyjnie opisana za pomoc metod probabilistycznych [4].

    Jak dobierana jest linia regresji?

    Biorc pod uwag rozmieszczeniu punktw na wykresie pokazane na rys. 1, mona

    zaproponowa wiele rnych sposobw doboru prostej, ktra opisywaaby obserwowanprawidowo. Najprostszaz tych metod mogaby polega na posueniu si zwyk linijk

    1W ksice Maddali [4] na str 96 zamieszczono zestawienie innych nazw uywanych dla zmiennych YiX.

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    4/14

    www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 201134

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    i dopasowaniu prostej na okow taki sposb, aby poszczeglne obserwacje leay blisko

    niej. Oczywicie potrzebne jest bardziej formalne kryterium, ale sama idea dopasowaniajest waciwie bardzo podobna. Linia regresji bdca graficznym odpowiednikiem modelu

    regresji jest tak dobierana, aby wielko bdca sum kwadratw odlegoci wszystkichpunktw empirycznych od odpowiednich punktw na linii regresji bya jak najmniejsza

    (rys. 2).

    Rys. 2. Wykres ilustrujcy kryterium doboru linii regresji.

    Opisane kryterium jest okrelane nazw: metoda najmniejszych kwadratw(MNK). Kry-terium to mona formalnie zapisa jako:

    min)( 2

    1

    i

    n

    i

    i yy

    Praktycznym efektem zastosowania tego kryterium jest moliwo oszacowania para-

    metrw strukturalnych modelu regresji ( 0 i 1 ), ktre charakteryzuj si podanymi

    wasnociami.

    Od czego zacz interpretacj?

    Po oszacowaniu parametrw strukturalnych otrzymuje si ich ocenywprbiei w zwizkuz tym model regresji moemy zapisaw postaci:

    xbby 10 ,

    gdzie y oznacza warto przewidywan zmiennejzalenej, a 0b i 1b to oceny parametrw

    strukturalnych modelu.

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    5/14

    Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 35

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    Wielko 0b oznacza wsprzdn y-ow punktu przecicia dopasowanej linii regresji

    z osi OY, natomiast 1b jest wspczynnikiem nachylenia linii regresji do osi OX. Poka-

    zano to na poniszym rysunku.

    Rys. 3. Interpretacja ocen parametrw strukturalnych modelu regresji liniowej.

    Przy wnioskowaniu statystycznym oparametrach strukturalnych modelu sprawdza si, czy

    parametry te istotnie rni si od zera. W tym celu korzysta si z rozkadu statystykit-Studenta. Wpraktyce wiksze znaczenie ma ocena istotnoci parametru1 , ktrego oce-

    na zprby mwio tym,jakiego przecitnego przyrostu wartoci zmiennej zalenej moe-my si spodziewa,przy zaoeniu przyrostu wartoci zmiennej niezalenejo 1 jednostk.

    Jak sprawdzi, czy model dobrze pasuje do danych?

    Do oceny dopasowania modelu do danych empirycznych stosowanych jest wiele rnychstatystyk diagnostycznych. Jedn z najczciej stosowanych jest wspczynnik determi-

    nacji, oznaczany przez R2. Oblicza si go ze wzoru:

    n

    i

    i

    n

    i

    i

    yy

    yy

    R

    1

    2

    1

    2

    2

    )(

    )(

    gdzie y oznacza warto przewidywan zmiennej zalenej, a y redni warto zmiennej

    zalenejy.

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    6/14

    www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 201136

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    Licznik powyszego uamka okrela zmienno wielkoci iy , a mianownik mierzy

    zmienno obserwowanych wartociyi. Wspczynnik R2jest wic miar stopnia,w jakim

    model wyjania ksztatowanie si zmiennej y. Przyjmuje on wartoci zprzedziau [0; 1].Im jego warto jest blisza 1, tym dopasowanie modelu do danych jest lepsze.

    Inna miara zgodnoci modelu z danymi empirycznymi opiera si na wariancji skadnikalosowego. Punktem wyjcia s w tym przypadku tzw. reszty modelu. Reszta, ktra

    odpowiada i-tej obserwacji, wyraa si wzorem:

    iii yye , gdzie i=1, 2, ..., n

    Ocena wariancji skadnika losowego, tzw. wariancja resztowa, jest obliczana wedugwzoru:

    1

    1

    2

    2

    kn

    e

    S

    n

    i

    i

    e

    gdzie: noznacza liczb obserwacji, a kliczb zmiennych objaniajcychw modelu.

    Pierwiastek z wariancji resztowej, czyli odchylenie standardowe reszt Se (zwany take

    bdem standardowym estymacji), jest powszechnie stosowan miar zgodnoci modeluz danymi empirycznymi. Wielko ta wskazuje na przecitn rnic midzy zaobserwo-wanymi wartociami zmiennej objanianej i wartociami teoretycznymi. Jest to wielko

    mianowana (miano tej wielkoci jest takie samo jak zmiennej objanianej). Na jej pod-stawie mona rwnie obliczy miar niemianowan, a mianowicie tzw. wspczynnik

    zmiennoci losowej, ktry okrela wzr:

    y

    SW e

    Wspczynnik ten informuje o tym, jak cz redniej wartoci zmiennej objanianejstanowi bd standardowy estymacji, ijest zazwyczaj wyraanyw procentach.

    A co z zaoeniami?

    Poprawno wynikw analizy regresji zaley od tego, wjakim stopniu s spenione jejnajwaniejsze zaoenia. Wyczerpujcy opis oraz dyskusj zaoe klasycznej analizyregresji, konsekwencje ich niespenienia oraz omwienie zalecanych sposobw postpo-wania mona znale wpodrczniku Welfego [6]. W niniejszym opracowaniu zwrcimy

    uwag na zaoenia dotyczce skadnika losowego (). Najwaniejszez nich dotyczy nor-malnoci rozkadu. Jak to zostao ju wspomniane wczeniej, spenienie tego zaoenia

    pozwala przeprowadzi wnioskowanie statystyczne, poniewa odpowiednie statystyki majwwczas podane rozkady (np. t-Studenta, F). W czci zawierajcej opis przykadw

    analizy regresji zostanie przedstawiony sposb sprawdzania normalnoci rozkadu skad-

    nika losowego.

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    7/14

    Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 37

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    Przykad analizy regresji liniowej prostejw STATISTICA

    Dla zilustrowania kolejnych etapw budowy modelu regresji liniowej prostej w rodowiskuprogramu STATISTICAwykorzystano wyniki oceny 25 marek papierosw rnych produ-centw, przeprowadzanej corocznie przez Federaln Komisj Handluw USA [5]. Ocenie

    podlegay m.in. takie informacje,jak ilo tlenku wgla zawartegow dymie papierosowymoraz zawarto nikotynyi substancji smolistych. Znana jest powszechnie szkodliwo tychsubstancji dla zdrowia palaczy. Ponadto wyniki bada wskazuj na to, e zwikszeniezawartoci nikotynyi substancji smolistych wie si ze zwikszeniem iloci tlenku wglaw dymie papierosowym.

    Dane te posuyy do wstpnej oceny powiza wystpujcych pomidzy branymi poduwag zmiennymi oraz budowy modelu regresji liniowej prostej. Ilo tlenku wglaw dy-

    mie papierosowym zostaa potraktowana jako zmienna zalena (objaniana), natomiastzawarto nikotyny i substancji smolistych jako potencjalne zmienne niezalene (obja-

    niajce). Przy okazji zosta pokazany wpyw jednej nietypowej obserwacji oraz zjawiskowspliniowoci zmiennych niezalenych.

    Przy wstpnej ocenie charakterui siy badanych powiza warto posuy si dwuwymia-rowymi wykresami rozrzutu. Zgodnie zpowszechnie przyjmowan konwencj na wykresietakim na osi OYumieszczane s wartoci zmiennej zalenej, a na osi OXwartoci zmiennejniezalenej. Wykresy zostay przedstawione poniej.

    Rys. 4. Powizanie zawartoci tlenku wglaz zawartoci nikotynyi substancji smolistych.

    Pooenie punktw na wykresach wskazuje na wystpowanie wyranego powizania za-wartoci nikotynyi substancji smolistych z zawartoci tlenku wglaw dymie papieroso-wym. Ponadto charakter powizania wskazuje na moliwo dopasowania do danychfunkcji liniowej. Jednoczenie na obu wykresach atwo zauway jedn obserwacj niety-

    pow (odstajc, skrajn, ang. outlier) wyranie odbiegajc od pozostaych (powrcimydo tej sprawy w dalszej czci opracowania). W kolejnym kroku analizy zostan zbudo-wane dwa odrbne modele dla kadej ze zmiennych niezalenych.

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    8/14

    www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 201138

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    W trakcie budowy modelu regresji program STATISTICAudostpnia rwnie analityczne

    narzdzia oceny badanych powiza. Zamieszczona poniej tabela zawiera wspczynnikikorelacji pomidzy branymi pod uwag zmiennymi.

    Rys. 5. Korelacje pomidzy zmiennymi.

    Otrzymane wartoci wspczynnikw korelacji liniowej Pearsona potwierdzaj wystpo-wanie silnych dodatnich korelacji pomidzy zawartoci tlenku wgla a zawartocinikotyny (r = 0,926) i substancji smolistych (r = 0,957). Na tej podstawie moemy stwier-

    dzi, e obydwie analizowane zmienne niezalene mog by brane pod uwag jako

    potencjalne predyktory przy modelowaniu badanych powiza. Wynikiw tabeli wskazujponadto na wystpowanie wspliniowoci zmiennych niezalenych. Na og jest onospowodowane tym, e zmienne charakteryzujce badane zjawiska s ze sob mocno

    powizane lub te jest to zwizane ze specyfik zbioru danych, wykorzystywanego doestymacji parametrw modelu regresji. Welfe [2009] rozrnia dwa rodzaje wsplinio-woci: dokadniprzyblion. Jednym zprostych sposobw postpowania z takimi zmien-

    nymi jest usunicie jednej ze skorelowanych zmiennych. Omwienie rnych podejstosowanych wprzypadku stwierdzenia silnej wspliniowoci mona znaleu Welfego[2009] i Maddali [2006]. W opisywanym przykadzie zbudowanoiporwnano dwa odrb-ne modele dla kadej ze zmiennych niezalenych.

    Rys. 6. Wyniki analizy regresji.

    Wyniki analizy pozwalaj stwierdzi, e model regresji uwzgldniajcy zmienn nieza-lenNikotyna [mg]pozwala wyjani ponad 85% wariancji zmiennej Tlenek wgla [mg].Przecitna rnica pomidzy rzeczywistymi wartociami zmiennej zalenej i wartociami

    przewidywanymi przez model wyniosa 1,83 mg (stanowi to 14,6% redniej dla zmiennejzalenej). Wysoka warto statystykiF(138,27) i odpowiadajcy jej poziomprawdopodo-

    biestwa p(p

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    9/14

    Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 39

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    odpowiadajcy jej poziom prawdopodobiestwappotwierdzaj, e parametr ten istotnie

    rni si od zera. Interpretujc oszacowan warto oceny tego parametru (12,4) , moemystwierdzi, e zwikszenie zawartoci nikotynyo 1 mg powoduje zwikszenie zawartoci

    tlenku wgla w dymie papierosowym o 12,4 mg. Z kolei wyraz wolny w modelu (0)nieistotnie rni si od zera (oznacza to, e linia regresji przechodzi bardzo blisko rodkaukadu wsprzdnych).

    Drugi z otrzymanych modeli, uwzgldniajcy zmienn niezalen Subst smoliste [mg],wyjania ponad 91% wariancji zmiennej Tlenek wgla [mg]. Tym razem przecitna rnica

    pomidzy rzeczywistymi wartociami zmiennej zalenej i wartociami przewidywanymibya nieco nisza i wyniosa 1,4 mg (stanowi to 11,2% redniej dla zmiennej zalenej).Wysoka warto statystykiF(253,37) i odpowiadajcyjej poziom prawdopodobiestwa

    p(p

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    10/14

    www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 201140

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    Rys. 8. Wyniki analizy regresji po usuniciu jednej nietypowej obserwacji.

    Otrzymane modele wyjaniaj dodatkowo ponad 1% wariancji modelowanej zmiennej

    zalenej. Do znacznym zmianom ulegy natomiast oceny wyrazw wolnychi wspczyn-nikw regresji. Ponadto wyranie spady wartoci bdw standardowych estymacji, cooznacza, e modele maj lepsze wasnoci prognostyczne. Naley jednak wyranie pod -kreli, e usunicie kadej obserwacji nietypowej musi zawsze by odpowiednio uzasad-nione wzgldami merytorycznymi [1].

    W ostatniej czci przykadu sprawdzimy spenienie zaoenia dotyczcego normalnoci

    rozkadu skadnika losowego. W tym celu utworzono wykres normalnoci reszt orazprzeprowadzono test Shapiro-Wilka (rys. 9). Wyniki dotycz modelu uwzgldniajcegozmienn niezalenNikotyna.

    Rys. 9. Wykres normalnoci reszti wyniki testu Shapiro-Wilka.

    Pooenie punktw na wykresie oraz wyniki testu analitycznego wskazuj na brak podstaw

    do kwestionowania normalnoci rozkadu skadnika losowego.

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    11/14

    Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 41

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    Przykad analizy regresji liniowej wielorakiej

    W drugim zprezentowanych przykadw do ilustracji budowy modelu regresji wielorakiejzostanie wykorzystany zbir danych zawierajcy wyniki pomiarw procentowej zawartocitkanki tuszczowej (uzyskane z zastosowaniem techniki waenia pod wod) oraz pomiary

    wybranych cech somatycznych (gwnie wymiary obwodw okrelonych czci ciaa)zebrane dla 252 dorosych mczyzn [2].

    Znaczenie zawartoci tkanki tuszczowejw skadzie ciaa wynikaz faktu, i zbyt wysokailo tkanki tuszczowej moe by przyczyn problemw zdrowotnych zwizanychz uka-dem krenia, cukrzyc typu II, znaczniepodnosi poziom cholesterolu (w konsekwencji

    prowadzi do miadycy) i innych powanych schorze. Natomiast jeeli poziom tkankituszczowej utrzymywany jestw normie, to czowiek pozostaje w dobrym zdrowiu, ma

    lepsze samopoczucie, czuje si lekkii szczuplejszy.

    Ze wzgldu na trudnocizbezporednim pomiarem iloci tkanki tuszczowej opracowanowiele porednich metod oceny stanu otuszczenia. Wszystkie te metody wykorzystujrnego rodzaju pomiary cech budowy ciaa lub tworzone na ich podstawie wskaniki.Merytorycznym celem opisywanego przykadu jest budowa modelu sucego do szacowa-nia procentowej zawartoci tkanki tuszczowej, wykorzystujcego pomiary cech budowyciaa otrzymywane z wykorzystaniem prostych narzdzi pomiarowych: wagi i tamymierniczej.

    Przy budowie modelu regresji pomiar zawartoci tkanki tuszczowej przeprowadzony tech-nik waenia pod wod zostanie potraktowany jako zmienna zalena (objaniana), a wiek,

    pomiary wagi i wzrostu oraz obwody jako potencjalne zmienne niezalene (objaniajce).

    W przypadku budowania modelu regresji wielorakiej pojawia si problem sposobu doborui liczby zmiennych objaniajcych (niezalenych), ktre maj zosta uwzgldnionew modelu. Liczba zmiennych objaniajcych wynika ze znajomoci badanej problematyki.Badacz nie powinien tumaczy si, e powodem nieuwzgldnienia okrelonej zmiennejobjaniajcej bya nieznajomo jej wpywu na zmienn objanian (zalen) lubnieodpowiednia wielko prby czy te niewaciwy pomiar wartoci tej zmiennej. Wanrzecz jest skuteczno,a model regresyjny bez zmiennych, ktre powoduj systematycznezmiany zmiennej zalenej Y, jest nieprawdziwy, aponadto prowadzi do obcionychestymatorw parametrw modelu. Istotno niektrych zmiennych ustala si metodami

    statystycznymi,jednak nie mona tym zastpi analizy merytorycznej. Statystyczna analizazbioru zmiennych objaniajcych dotyczy zmniejszania liczby tych zmiennych. Model

    uwzgldniajcy zbyteczne zmienne charakteryzuje si gorszymi wasnociami numerycz-nymi ijako estymatorw jest zwykle gorsza zpowodu wikszych bdw i wystpo-wania intensywniejszych wzajemnych zalenoci wrd zmiennych objaniajcych.

    Wrd metod doboru zmiennych do modelu wyrniamy: standardow, krokowe, wprowa-dzania lub usuwania zmiennych oraz wszystkich moliwych regresji.W niniejszym opra-

    cowaniu przedstawiono wyniki budowania modelu metod regresji krokowej wstecznejoraz wszystkich moliwych regresji. W pierwszej z tych metod w pierwszym etapie

    budowany jest model zawierajcy wszystkie dostpne zmienne niezalene. Nastpnie

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    12/14

    www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 201142

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    w kolejnych etapach usuwane s kolejne najmniej istotne zmienne niezalene, a do

    uzyskania modelu uwzgldniajcego tylko zmienne niezalene istotne.

    Na samym pocztku warto przyjrze si korelacjom wszystkich zmiennych niezalenych

    z modelowan zmienn zalen.

    Rys. 10. Wspczynniki korelacji zmiennej zalenej ze zmiennymi niezalenymioraz w obrbie zmiennych niezalenych.

    Jak wida, stosunkowo najmocniejsze powizaniez otuszczeniem ciaa wykazuje obwdbrzucha (r=0,825), BMI (r=0,748) oraz obwd klatki piersiowej (r=0,701). Jednoczenie

    wida wyranie, e niektre ze zmiennych niezalenych s rwnie mocno powizane zesob (np. wspczynnik korelacji pomidzy obwodem bioder i wag wynosi 0,929).W zwizkuz tym zmienne te bd si nawzajem eliminowaw kolejnych etapach budowymodelu.

    Poniej przedstawiono kocowe wyniki ostatecznego modelu, do ktrego weszy zmienne:Wiek, Obwd brzuchaoraz Obwd nadgarstka.

    Rys. 11. Wspczynniki korelacji zmiennej zalenej ze zmiennymi niezalenymi

    oraz w obrbie zmiennych niezalenych.

    Na podstawie otrzymanych wynikw stwierdzamy, e zbudowany model pozwala wyjaniokoo 73% zmiennoci modelowanej zmiennej zalenej. Warto statystykiFi odpowia-

    dajcy jej poziom prawdopodobiestwa testowegoppotwierdzaj istotny statystyczniezwizek liniowy. Ponadto wartoci statystyki t wskazuj, e wyraz wolnyi wspczynnikiregresji istotnie rni si od zera.

    Interpretujc oszacowan warto ocen poszczeglnych parametrw, moemy stwierdzi,e z kadym rokiem otuszczenie ciaa ronie przecitnie o 0,07% (przy niezmienionych

    wartociach pozostaych zmiennych niezalenych, zasada ceteris paribus[1, 4, 6]). Z kolei

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    13/14

    Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 43

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    zwikszenie obwodu brzucha ojedn jednostk powoduje zwikszenie otuszczenia ciaa

    o 0,72% (rwnie przy ustalonych wartociach pozostaych zmiennych). Do zaskakujcowypada interpretacja oceny wspczynnika regresji przy zmiennej Obwd nadgarstka.

    Zwikszenie jej wartoci ojedn jednostk powoduje zmniejszenie otuszczenia ciaao 2,2% (rwnie przy ustalonych wartociach pozostaych zmiennych).

    Przy wykorzystaniu modelu do szacowania rzeczywistego otuszczenia ciaa na podstawiewieku iprostych cech budowy ciaa (obwd brzucha i obwd nadgarstka) przecitny bdwynosi 4 %.

    Pewne ograniczenie podejcia wykorzystujcego poszukiwanie metod regresji krokowejpolega na przyjciu, e istnieje jeden najlepszypodzbir zmiennych niezalenychi po-

    szukiwaniu metody jego identyfikacji. Czsto zachodzi sytuacja, gdy nie ma jednegonajlepszego podzbioru. W zwizku z tym niektrzy statystycy sugeruj, e monanastpnie sprbowa dopasowa modele metod wszystkich moliwych regresji, zawie-

    rajce podobn liczb zmiennych niezalenych jak wprzypadku rozwizania metodregresji krokowej, aby zbada, czy przypadkiem niektre inne podzbiory zmiennych nie s

    lepsze. Rozumowanie to sugeruje, e po znalezieniu rozwizania metod krokow, powi -nien zosta zbadany najlepszyze wszystkich moliwych podzbiorwo tej samej liczbieefektw,w celu sprawdzenia, czy rozwizanie uzyskane metod krokow jest rzeczywicie

    najlepsze.

    Poniej przedstawiono zbiorcze wyniki budowy modelio liczbie zmiennych niezalenych

    od 1 do 6. Dla kadej liczby zmiennych niezalenych przedstawiono wyniki trzech najlep-szych modeli, przy przyjciu jako kryterium wartoci wspczynnika determinacji R

    2.Zamieszczona poniej tabela zawiera informacj o wartoci wspczynnika determinacji

    dla danego modelu, liczbie uwzgldnionych zmiennych niezalenych oraz standaryzowanewspczynniki regresji dla zmiennych, ktre weszy do modelu.

    Rys. 12. Zbiorcze podsumowanie wynikw analizy regresji

    metod wszystkich moliwych regresji.

    Zawarte w tabeli wyniki pozwalaj na porwnanie rnych modeli o rnej liczbieuwzgldnianych zmiennych niezalenych. W ten sposb badacz moe na przykad

  • 7/25/2019 Analiza Regresji Liniowej w Praktyce

    14/14

    www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 201144

    StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

    w stosunkowo atwy sposb uwzgldni koszty uzyskania danych oposzczeglnych

    zmiennych niezalenych. Jak wida, model zbudowany poprzednio przy pomocy metodykrokowej wstecznej znalaz siw tym zestawieniu podpozycj 12.

    Podsumowanie

    W rzeczywistych badaniach czsto podejmowane jest zagadnienie oceny ilociowychzwizkw midzy rnymi aspektami zjawisk. Celem takich analiz jest zazwyczaj ch

    lepszego ich poznania (potwierdzenie lub obalenie formuowanych w teorii hipotez),moliwo przewidywania rozwoju badanych zjawisk lub procesw, czy wreszcie wyko-rzystanie znajomoci ilociowych zalenoci do symulacji [1]. Dla zrealizowania tak

    postawionych celw niezbdne jest odwoanie si do teorii badanego zjawiska, dostp dowyrnionych w opisie zjawiska danych, znajomo metody umoliwiajcej odwzoro-

    wanie hipotez teoretycznych za pomoc zgromadzonych danych statystycznych orazwiedza potrzebna do tego, aby stwierdzi, wjakim stopniu to odwzorowanie si udao.

    Literatura

    1. Ekonometria i badania operacyjne. Podrcznik dla studiw licencjackich, pod red.

    naukow M. Gruszczyskiego, T. Kuszewskiego i M. Podgrskiej (2009), PWN.

    2. Johnson R. W. (1996), Fitting Percentage of Body Fat to Simple Body Measurements,Journal of Statistics Education v. 4, n. 1 (www.amstat.org/publications/jse/v4n1/da-

    tasets.johnson.html).3. Krzanowski W. J. (1998), An Introduction to Statistical Modelling, Arnold.

    4. Maddala G. S. (2006), Ekonometria, PWN.

    5. McIntyre L. (1994), Using Cigarette Data for An Introduction to Multiple Regression,

    Journal of Statistics Education v. 2, n. 1 (www.amstat.org/publications/jse/v2n1/da-tasets.mcintyre.html).

    6. Welfe A. (2009), Ekonometria. Metody i ich zastosowanie, PWE.