Analiza Regresji Liniowej w Praktyce

7/25/2019 Analiza Regresji Liniowej w Praktyce

1/14

Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 31

StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, [email protected], www.StatSoft.pl

PROSTO ODOPASOWANIU PROSTYCH,

CZYLI ANALIZA REGRESJI LINIOWEJ WPRAKTYCE

Janusz Wtroba, StatSoft Polska Sp.z o.o.

W niemal wszystkich dziedzinach bada empirycznych mamy do czynienia ze zoonocizjawisk iprocesw. W zwizku z tym wystpuje naturalne zainteresowanie ze strony

badaczy metodami analizy danych, ktre umoliwiaj ilociow ocen zwizkw wystpu-jcych pomidzy rnymi aspektami badanych zjawisk iprocesw. Stosunkowo najcz-ciej do tego celu wykorzystywane s metody regresji liniowej prostej i wielorakiej.

W opracowaniu przedstawiono krtko ide metody regresji liniowej, sposb jej doboruoraz zagadnienie interpretacji oszacowanego modelu.

W drugiej czci zaprezentowano przykady analiz przeprowadzonychz uyciem narzdzidostpnychw rodowisku programu STATISTICA.

Wprowadzenie

Jednym z najczstszych powodw stosowania metod statystycznej analizy danych jest

poszukiwanie przyczyn majcych wpyw na interesujce badacza zjawiska. Przykadowodla ekonomisty moe by interesujce stwierdzenie, jakie czynniki ksztatuj sprzeda

wybranych produktw lub usug. Lekarz jest zainteresowany poszukiwaniem czynnikwwpywajcych na stan kliniczny pacjentw, u ktrych zdiagnozowano pewn jednostkchorobow.Wbadaniach pedagogicznych celem moe by poszukiwanie czynnikw, ktre

wpywaj na wynik egzaminu.Z kolei socjologa moe interesowa,jakie czynniki s odpo-wiedzialne za poparcie kandydatw w wyborach. Praktycznie w kadej dziedzinie bada

empirycznych mona bez trudu poda dalsze przykady zagadnie stawianychw podobnysposb.

Zazwyczaj mamy do czynienia z sytuacj, w ktrej interesujce nas aspekty badanych zja-wisk zale od caego szeregu czynnikw, traktowanych jako potencjalne przyczyny(wybr takich potencjalnych przyczyn jest oczywicie atwiejszy w tych dziedzinach

bada,w ktrych istnieje dobrze ugruntowana teoria). Bardzo czsto trudno jest stwierdzi,wjaki sposb okrelone przyczyny ksztatuj wybrane przez badacza lub analityka skutki.

Kolejnym problemem jest fakt, i brane pod uwag czynniki nie s od siebie niezalene ,lecz s nawzajem w rny sposb od siebie uzalenione. W zwizku z tym badaczwiadomie wybiera podejcie polegajce na uproszczeniu badanych powiza.


2/14

www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 201132


Opisywansytuacj mona przedstawi oglnie za pomoc zapisu:

Skutek Przyczyna(y)

Bardziej formalny sposb podejcia do rozwaanego problemu prowadzi do sformuowaniajednokierunkowej zalenociw postaci funkcji:

)(PfS

Najprostsz postaci takiego rwnania jest funkcja liniowa,wprzypadku ktrej przyjmu-jemy, eSjest proporcjonalne doP. Przyjcie liniowej postaci zalenoci pozwalaw atwysposb przedstawi graficznie rozwaany problem.

Poniej na dwuwymiarowym wykresie rozrzutu zaprezentowano przykadowy obraz zale-

noci midzy wielkociamiSiP. Kady punkt wykresu oznacza pojedynczy obiekt (obser-wacj, pomiar).

Rys. 1. Wykres ilustrujcy powizanie pomidzy wielkociamiSiP.

Pooenie punktw na wykresie wskazuje na wystpowanie wyranej prawidowoci(tendencji). Jednoczenie wida, e prawidowo ta nie moe by opisana wycznie za

pomoc zwykej funkcji liniowej.

Model regresji liniowej prostej

Jedno z moliwych rozwiza wskazanego powyej problemu polega na wprowadzeniu do

deterministycznego rwnania S = f (P) zmiennej losowej i zaoeniu, e rzeczywista

zaleno Sod Pma charakter stochastyczny [6]. Zmienna losowa to tzw. skadniklosowy, ktrego zadaniem jest odzwierciedleniew modelu nieprzewidywanego elementu

losowoci (zwizanego np. z ludzkimi zachowaniami), wpywu wielu pominitych


3/14



w modelu zmiennych oraz bdw pomiaru wielkoci S. W ten sposb otrzymujemy

rwnanie (model), ktre moemyw oglnej postaci zapisa jako:

),( XfY

Jest to model regresj i l ini owej prostej. W modelu tym Yoznacza zmienn zalen1 lub

objanian, Xto zmienna niezalena lub objaniajca. W klasycznej analizie regresjiwprowadza si kilka zaoe [6]. Najwaniejszez nich to:

model zakada stabilno relacjifmidzy badanymi zjawiskami,

model jest liniowy wzgldem parametrw

XY 10 ,

gdzie 0 i 1 to tzw. parametry strukturalne modelu,

skadnik losowy jest zmienn losowo rozkadzie normalnym ).,0( 2N

Zaoenie stabilnoci relacji jest bardzo naturalne. Uchylenie tego zaoenia prowadzi do

modeli o parametrach zmiennych w czasie lub modeli przecznikowych. Liniowa postabadanej funkcji umoliwia wykorzystanie stosunkowo prostych metod estymacji.

Zaoenie normalnoci rozkadu skadnika losowego pozwala przeprowadzi wnios-kowanie statystyczne, poniewa odpowiednie statystyki maj wwczas podane rozkady(np. t-Studenta,F).

Innymi sowy mona powiedzie, e ze wzgldu na zoono badanych zjawisk pojawiajsi trudnoci w odwzorowaniu rzeczywistych mechanizmw odpowiedzialnych za ich

przebieg. Potrzebne jest zatem uproszczenie. Uproszczone odwzorowanie rzeczywistychwspzalenoci pomidzy badanymi zjawiskami wymaga od badacza umiejtnegowydobycia istoty mechanizmu generujcego dane iprzeksztacenie go do postaci umo-

liwiajcej zastosowaniepodejcia statystycznego. Sprowadza si to doprzyjcia okrelonejmatematycznej formuy, ujmujcej powizania pomidzy zmiennymi oraz zaoe o loso-

wych procesach, wpywajcych na wyniki pojedynczych pomiarw[3]. Warto jeszcze razzwrci uwag na to, e przy prbie ilociowego opisu powiza potrzebne jest rozrnie-nie dwch typw zalenoci: deterministycznej(funkcyjnej), ktra kadej wartoci zmien-nejxprzyporzdkowuje jedni tylko jedn warto zmiennej y, orazstatystycznej(proba-bilistycznej), ktra nie przyporzdkowuje jednoznacznie wartociydanym wartociom x,

ale moe by precyzyjnie opisana za pomoc metod probabilistycznych [4].

Jak dobierana jest linia regresji?

Biorc pod uwag rozmieszczeniu punktw na wykresie pokazane na rys. 1, mona

zaproponowa wiele rnych sposobw doboru prostej, ktra opisywaaby obserwowanprawidowo. Najprostszaz tych metod mogaby polega na posueniu si zwyk linijk

1W ksice Maddali [4] na str 96 zamieszczono zestawienie innych nazw uywanych dla zmiennych YiX.


4/14



i dopasowaniu prostej na okow taki sposb, aby poszczeglne obserwacje leay blisko

niej. Oczywicie potrzebne jest bardziej formalne kryterium, ale sama idea dopasowaniajest waciwie bardzo podobna. Linia regresji bdca graficznym odpowiednikiem modelu

regresji jest tak dobierana, aby wielko bdca sum kwadratw odlegoci wszystkichpunktw empirycznych od odpowiednich punktw na linii regresji bya jak najmniejsza

(rys. 2).

Rys. 2. Wykres ilustrujcy kryterium doboru linii regresji.

Opisane kryterium jest okrelane nazw: metoda najmniejszych kwadratw(MNK). Kry-terium to mona formalnie zapisa jako:

min)( 2

1

i

n

i

i yy

Praktycznym efektem zastosowania tego kryterium jest moliwo oszacowania para-

metrw strukturalnych modelu regresji ( 0 i 1 ), ktre charakteryzuj si podanymi

wasnociami.

Od czego zacz interpretacj?

Po oszacowaniu parametrw strukturalnych otrzymuje si ich ocenywprbiei w zwizkuz tym model regresji moemy zapisaw postaci:

xbby 10 ,

gdzie y oznacza warto przewidywan zmiennejzalenej, a 0b i 1b to oceny parametrw

strukturalnych modelu.


5/14



Wielko 0b oznacza wsprzdn y-ow punktu przecicia dopasowanej linii regresji

z osi OY, natomiast 1b jest wspczynnikiem nachylenia linii regresji do osi OX. Poka-

zano to na poniszym rysunku.

Rys. 3. Interpretacja ocen parametrw strukturalnych modelu regresji liniowej.

Przy wnioskowaniu statystycznym oparametrach strukturalnych modelu sprawdza si, czy

parametry te istotnie rni si od zera. W tym celu korzysta si z rozkadu statystykit-Studenta. Wpraktyce wiksze znaczenie ma ocena istotnoci parametru1 , ktrego oce-

na zprby mwio tym,jakiego przecitnego przyrostu wartoci zmiennej zalenej moe-my si spodziewa,przy zaoeniu przyrostu wartoci zmiennej niezalenejo 1 jednostk.

Jak sprawdzi, czy model dobrze pasuje do danych?

Do oceny dopasowania modelu do danych empirycznych stosowanych jest wiele rnychstatystyk diagnostycznych. Jedn z najczciej stosowanych jest wspczynnik determi-

nacji, oznaczany przez R2. Oblicza si go ze wzoru:

n

i

i

n

i

i

yy

yy

R

1

2

1

2

2

)(

)(

gdzie y oznacza warto przewidywan zmiennej zalenej, a y redni warto zmiennej

zalenejy.


6/14



Licznik powyszego uamka okrela zmienno wielkoci iy , a mianownik mierzy

zmienno obserwowanych wartociyi. Wspczynnik R2jest wic miar stopnia,w jakim

model wyjania ksztatowanie si zmiennej y. Przyjmuje on wartoci zprzedziau [0; 1].Im jego warto jest blisza 1, tym dopasowanie modelu do danych jest lepsze.

Inna miara zgodnoci modelu z danymi empirycznymi opiera si na wariancji skadnikalosowego. Punktem wyjcia s w tym przypadku tzw. reszty modelu. Reszta, ktra

odpowiada i-tej obserwacji, wyraa si wzorem:

iii yye , gdzie i=1, 2, ..., n

Ocena wariancji skadnika losowego, tzw. wariancja resztowa, jest obliczana wedugwzoru:

1

1

2

2

kn

e

S

n

i

i

e

gdzie: noznacza liczb obserwacji, a kliczb zmiennych objaniajcychw modelu.

Pierwiastek z wariancji resztowej, czyli odchylenie standardowe reszt Se (zwany take

bdem standardowym estymacji), jest powszechnie stosowan miar zgodnoci modeluz danymi empirycznymi. Wielko ta wskazuje na przecitn rnic midzy zaobserwo-wanymi wartociami zmiennej objanianej i wartociami teoretycznymi. Jest to wielko

mianowana (miano tej wielkoci jest takie samo jak zmiennej objanianej). Na jej pod-stawie mona rwnie obliczy miar niemianowan, a mianowicie tzw. wspczynnik

zmiennoci losowej, ktry okrela wzr:

y

SW e

Wspczynnik ten informuje o tym, jak cz redniej wartoci zmiennej objanianejstanowi bd standardowy estymacji, ijest zazwyczaj wyraanyw procentach.

A co z zaoeniami?

Poprawno wynikw analizy regresji zaley od tego, wjakim stopniu s spenione jejnajwaniejsze zaoenia. Wyczerpujcy opis oraz dyskusj zaoe klasycznej analizyregresji, konsekwencje ich niespenienia oraz omwienie zalecanych sposobw postpo-wania mona znale wpodrczniku Welfego [6]. W niniejszym opracowaniu zwrcimy

uwag na zaoenia dotyczce skadnika losowego (). Najwaniejszez nich dotyczy nor-malnoci rozkadu. Jak to zostao ju wspomniane wczeniej, spenienie tego zaoenia

pozwala przeprowadzi wnioskowanie statystyczne, poniewa odpowiednie statystyki majwwczas podane rozkady (np. t-Studenta, F). W czci zawierajcej opis przykadw

analizy regresji zostanie przedstawiony sposb sprawdzania normalnoci rozkadu skad-

nika losowego.


7/14



Przykad analizy regresji liniowej prostejw STATISTICA

Dla zilustrowania kolejnych etapw budowy modelu regresji liniowej prostej w rodowiskuprogramu STATISTICAwykorzystano wyniki oceny 25 marek papierosw rnych produ-centw, przeprowadzanej corocznie przez Federaln Komisj Handluw USA [5]. Ocenie

podlegay m.in. takie informacje,jak ilo tlenku wgla zawartegow dymie papierosowymoraz zawarto nikotynyi substancji smolistych. Znana jest powszechnie szkodliwo tychsubstancji dla zdrowia palaczy. Ponadto wyniki bada wskazuj na to, e zwikszeniezawartoci nikotynyi substancji smolistych wie si ze zwikszeniem iloci tlenku wglaw dymie papierosowym.

Dane te posuyy do wstpnej oceny powiza wystpujcych pomidzy branymi poduwag zmiennymi oraz budowy modelu regresji liniowej prostej. Ilo tlenku wglaw dy-

mie papierosowym zostaa potraktowana jako zmienna zalena (objaniana), natomiastzawarto nikotyny i substancji smolistych jako potencjalne zmienne niezalene (obja-

niajce). Przy okazji zosta pokazany wpyw jednej nietypowej obserwacji oraz zjawiskowspliniowoci zmiennych niezalenych.

Przy wstpnej ocenie charakterui siy badanych powiza warto posuy si dwuwymia-rowymi wykresami rozrzutu. Zgodnie zpowszechnie przyjmowan konwencj na wykresietakim na osi OYumieszczane s wartoci zmiennej zalenej, a na osi OXwartoci zmiennejniezalenej. Wykresy zostay przedstawione poniej.

Rys. 4. Powizanie zawartoci tlenku wglaz zawartoci nikotynyi substancji smolistych.

Pooenie punktw na wykresach wskazuje na wystpowanie wyranego powizania za-wartoci nikotynyi substancji smolistych z zawartoci tlenku wglaw dymie papieroso-wym. Ponadto charakter powizania wskazuje na moliwo dopasowania do danychfunkcji liniowej. Jednoczenie na obu wykresach atwo zauway jedn obserwacj niety-

pow (odstajc, skrajn, ang. outlier) wyranie odbiegajc od pozostaych (powrcimydo tej sprawy w dalszej czci opracowania). W kolejnym kroku analizy zostan zbudo-wane dwa odrbne modele dla kadej ze zmiennych niezalenych.


8/14



W trakcie budowy modelu regresji program STATISTICAudostpnia rwnie analityczne

narzdzia oceny badanych powiza. Zamieszczona poniej tabela zawiera wspczynnikikorelacji pomidzy branymi pod uwag zmiennymi.

Rys. 5. Korelacje pomidzy zmiennymi.

Otrzymane wartoci wspczynnikw korelacji liniowej Pearsona potwierdzaj wystpo-wanie silnych dodatnich korelacji pomidzy zawartoci tlenku wgla a zawartocinikotyny (r = 0,926) i substancji smolistych (r = 0,957). Na tej podstawie moemy stwier-

dzi, e obydwie analizowane zmienne niezalene mog by brane pod uwag jako

potencjalne predyktory przy modelowaniu badanych powiza. Wynikiw tabeli wskazujponadto na wystpowanie wspliniowoci zmiennych niezalenych. Na og jest onospowodowane tym, e zmienne charakteryzujce badane zjawiska s ze sob mocno

powizane lub te jest to zwizane ze specyfik zbioru danych, wykorzystywanego doestymacji parametrw modelu regresji. Welfe [2009] rozrnia dwa rodzaje wsplinio-woci: dokadniprzyblion. Jednym zprostych sposobw postpowania z takimi zmien-

nymi jest usunicie jednej ze skorelowanych zmiennych. Omwienie rnych podejstosowanych wprzypadku stwierdzenia silnej wspliniowoci mona znaleu Welfego[2009] i Maddali [2006]. W opisywanym przykadzie zbudowanoiporwnano dwa odrb-ne modele dla kadej ze zmiennych niezalenych.

Rys. 6. Wyniki analizy regresji.

Wyniki analizy pozwalaj stwierdzi, e model regresji uwzgldniajcy zmienn nieza-lenNikotyna [mg]pozwala wyjani ponad 85% wariancji zmiennej Tlenek wgla [mg].Przecitna rnica pomidzy rzeczywistymi wartociami zmiennej zalenej i wartociami

przewidywanymi przez model wyniosa 1,83 mg (stanowi to 14,6% redniej dla zmiennejzalenej). Wysoka warto statystykiF(138,27) i odpowiadajcy jej poziomprawdopodo-

biestwa p(p


9/14



odpowiadajcy jej poziom prawdopodobiestwappotwierdzaj, e parametr ten istotnie

rni si od zera. Interpretujc oszacowan warto oceny tego parametru (12,4) , moemystwierdzi, e zwikszenie zawartoci nikotynyo 1 mg powoduje zwikszenie zawartoci

tlenku wgla w dymie papierosowym o 12,4 mg. Z kolei wyraz wolny w modelu (0)nieistotnie rni si od zera (oznacza to, e linia regresji przechodzi bardzo blisko rodkaukadu wsprzdnych).

Drugi z otrzymanych modeli, uwzgldniajcy zmienn niezalen Subst smoliste [mg],wyjania ponad 91% wariancji zmiennej Tlenek wgla [mg]. Tym razem przecitna rnica

pomidzy rzeczywistymi wartociami zmiennej zalenej i wartociami przewidywanymibya nieco nisza i wyniosa 1,4 mg (stanowi to 11,2% redniej dla zmiennej zalenej).Wysoka warto statystykiF(253,37) i odpowiadajcyjej poziom prawdopodobiestwa

p(p


10/14



Rys. 8. Wyniki analizy regresji po usuniciu jednej nietypowej obserwacji.

Otrzymane modele wyjaniaj dodatkowo ponad 1% wariancji modelowanej zmiennej

zalenej. Do znacznym zmianom ulegy natomiast oceny wyrazw wolnychi wspczyn-nikw regresji. Ponadto wyranie spady wartoci bdw standardowych estymacji, cooznacza, e modele maj lepsze wasnoci prognostyczne. Naley jednak wyranie pod -kreli, e usunicie kadej obserwacji nietypowej musi zawsze by odpowiednio uzasad-nione wzgldami merytorycznymi [1].

W ostatniej czci przykadu sprawdzimy spenienie zaoenia dotyczcego normalnoci

rozkadu skadnika losowego. W tym celu utworzono wykres normalnoci reszt orazprzeprowadzono test Shapiro-Wilka (rys. 9). Wyniki dotycz modelu uwzgldniajcegozmienn niezalenNikotyna.

Rys. 9. Wykres normalnoci reszti wyniki testu Shapiro-Wilka.

Pooenie punktw na wykresie oraz wyniki testu analitycznego wskazuj na brak podstaw

do kwestionowania normalnoci rozkadu skadnika losowego.


11/14



Przykad analizy regresji liniowej wielorakiej

W drugim zprezentowanych przykadw do ilustracji budowy modelu regresji wielorakiejzostanie wykorzystany zbir danych zawierajcy wyniki pomiarw procentowej zawartocitkanki tuszczowej (uzyskane z zastosowaniem techniki waenia pod wod) oraz pomiary

wybranych cech somatycznych (gwnie wymiary obwodw okrelonych czci ciaa)zebrane dla 252 dorosych mczyzn [2].

Znaczenie zawartoci tkanki tuszczowejw skadzie ciaa wynikaz faktu, i zbyt wysokailo tkanki tuszczowej moe by przyczyn problemw zdrowotnych zwizanychz uka-dem krenia, cukrzyc typu II, znaczniepodnosi poziom cholesterolu (w konsekwencji

prowadzi do miadycy) i innych powanych schorze. Natomiast jeeli poziom tkankituszczowej utrzymywany jestw normie, to czowiek pozostaje w dobrym zdrowiu, ma

lepsze samopoczucie, czuje si lekkii szczuplejszy.

Ze wzgldu na trudnocizbezporednim pomiarem iloci tkanki tuszczowej opracowanowiele porednich metod oceny stanu otuszczenia. Wszystkie te metody wykorzystujrnego rodzaju pomiary cech budowy ciaa lub tworzone na ich podstawie wskaniki.Merytorycznym celem opisywanego przykadu jest budowa modelu sucego do szacowa-nia procentowej zawartoci tkanki tuszczowej, wykorzystujcego pomiary cech budowyciaa otrzymywane z wykorzystaniem prostych narzdzi pomiarowych: wagi i tamymierniczej.

Przy budowie modelu regresji pomiar zawartoci tkanki tuszczowej przeprowadzony tech-nik waenia pod wod zostanie potraktowany jako zmienna zalena (objaniana), a wiek,

pomiary wagi i wzrostu oraz obwody jako potencjalne zmienne niezalene (objaniajce).

W przypadku budowania modelu regresji wielorakiej pojawia si problem sposobu doborui liczby zmiennych objaniajcych (niezalenych), ktre maj zosta uwzgldnionew modelu. Liczba zmiennych objaniajcych wynika ze znajomoci badanej problematyki.Badacz nie powinien tumaczy si, e powodem nieuwzgldnienia okrelonej zmiennejobjaniajcej bya nieznajomo jej wpywu na zmienn objanian (zalen) lubnieodpowiednia wielko prby czy te niewaciwy pomiar wartoci tej zmiennej. Wanrzecz jest skuteczno,a model regresyjny bez zmiennych, ktre powoduj systematycznezmiany zmiennej zalenej Y, jest nieprawdziwy, aponadto prowadzi do obcionychestymatorw parametrw modelu. Istotno niektrych zmiennych ustala si metodami

statystycznymi,jednak nie mona tym zastpi analizy merytorycznej. Statystyczna analizazbioru zmiennych objaniajcych dotyczy zmniejszania liczby tych zmiennych. Model

uwzgldniajcy zbyteczne zmienne charakteryzuje si gorszymi wasnociami numerycz-nymi ijako estymatorw jest zwykle gorsza zpowodu wikszych bdw i wystpo-wania intensywniejszych wzajemnych zalenoci wrd zmiennych objaniajcych.

Wrd metod doboru zmiennych do modelu wyrniamy: standardow, krokowe, wprowa-dzania lub usuwania zmiennych oraz wszystkich moliwych regresji.W niniejszym opra-

cowaniu przedstawiono wyniki budowania modelu metod regresji krokowej wstecznejoraz wszystkich moliwych regresji. W pierwszej z tych metod w pierwszym etapie

budowany jest model zawierajcy wszystkie dostpne zmienne niezalene. Nastpnie


12/14



w kolejnych etapach usuwane s kolejne najmniej istotne zmienne niezalene, a do

uzyskania modelu uwzgldniajcego tylko zmienne niezalene istotne.

Na samym pocztku warto przyjrze si korelacjom wszystkich zmiennych niezalenych

z modelowan zmienn zalen.

Rys. 10. Wspczynniki korelacji zmiennej zalenej ze zmiennymi niezalenymioraz w obrbie zmiennych niezalenych.

Jak wida, stosunkowo najmocniejsze powizaniez otuszczeniem ciaa wykazuje obwdbrzucha (r=0,825), BMI (r=0,748) oraz obwd klatki piersiowej (r=0,701). Jednoczenie

wida wyranie, e niektre ze zmiennych niezalenych s rwnie mocno powizane zesob (np. wspczynnik korelacji pomidzy obwodem bioder i wag wynosi 0,929).W zwizkuz tym zmienne te bd si nawzajem eliminowaw kolejnych etapach budowymodelu.

Poniej przedstawiono kocowe wyniki ostatecznego modelu, do ktrego weszy zmienne:Wiek, Obwd brzuchaoraz Obwd nadgarstka.

Rys. 11. Wspczynniki korelacji zmiennej zalenej ze zmiennymi niezalenymi

oraz w obrbie zmiennych niezalenych.

Na podstawie otrzymanych wynikw stwierdzamy, e zbudowany model pozwala wyjaniokoo 73% zmiennoci modelowanej zmiennej zalenej. Warto statystykiFi odpowia-

dajcy jej poziom prawdopodobiestwa testowegoppotwierdzaj istotny statystyczniezwizek liniowy. Ponadto wartoci statystyki t wskazuj, e wyraz wolnyi wspczynnikiregresji istotnie rni si od zera.

Interpretujc oszacowan warto ocen poszczeglnych parametrw, moemy stwierdzi,e z kadym rokiem otuszczenie ciaa ronie przecitnie o 0,07% (przy niezmienionych

wartociach pozostaych zmiennych niezalenych, zasada ceteris paribus[1, 4, 6]). Z kolei


13/14



zwikszenie obwodu brzucha ojedn jednostk powoduje zwikszenie otuszczenia ciaa

o 0,72% (rwnie przy ustalonych wartociach pozostaych zmiennych). Do zaskakujcowypada interpretacja oceny wspczynnika regresji przy zmiennej Obwd nadgarstka.

Zwikszenie jej wartoci ojedn jednostk powoduje zmniejszenie otuszczenia ciaao 2,2% (rwnie przy ustalonych wartociach pozostaych zmiennych).

Przy wykorzystaniu modelu do szacowania rzeczywistego otuszczenia ciaa na podstawiewieku iprostych cech budowy ciaa (obwd brzucha i obwd nadgarstka) przecitny bdwynosi 4 %.

Pewne ograniczenie podejcia wykorzystujcego poszukiwanie metod regresji krokowejpolega na przyjciu, e istnieje jeden najlepszypodzbir zmiennych niezalenychi po-

szukiwaniu metody jego identyfikacji. Czsto zachodzi sytuacja, gdy nie ma jednegonajlepszego podzbioru. W zwizku z tym niektrzy statystycy sugeruj, e monanastpnie sprbowa dopasowa modele metod wszystkich moliwych regresji, zawie-

rajce podobn liczb zmiennych niezalenych jak wprzypadku rozwizania metodregresji krokowej, aby zbada, czy przypadkiem niektre inne podzbiory zmiennych nie s

lepsze. Rozumowanie to sugeruje, e po znalezieniu rozwizania metod krokow, powi -nien zosta zbadany najlepszyze wszystkich moliwych podzbiorwo tej samej liczbieefektw,w celu sprawdzenia, czy rozwizanie uzyskane metod krokow jest rzeczywicie

najlepsze.

Poniej przedstawiono zbiorcze wyniki budowy modelio liczbie zmiennych niezalenych

od 1 do 6. Dla kadej liczby zmiennych niezalenych przedstawiono wyniki trzech najlep-szych modeli, przy przyjciu jako kryterium wartoci wspczynnika determinacji R

2.Zamieszczona poniej tabela zawiera informacj o wartoci wspczynnika determinacji

dla danego modelu, liczbie uwzgldnionych zmiennych niezalenych oraz standaryzowanewspczynniki regresji dla zmiennych, ktre weszy do modelu.

Rys. 12. Zbiorcze podsumowanie wynikw analizy regresji

metod wszystkich moliwych regresji.

Zawarte w tabeli wyniki pozwalaj na porwnanie rnych modeli o rnej liczbieuwzgldnianych zmiennych niezalenych. W ten sposb badacz moe na przykad


14/14



w stosunkowo atwy sposb uwzgldni koszty uzyskania danych oposzczeglnych

zmiennych niezalenych. Jak wida, model zbudowany poprzednio przy pomocy metodykrokowej wstecznej znalaz siw tym zestawieniu podpozycj 12.

Podsumowanie

W rzeczywistych badaniach czsto podejmowane jest zagadnienie oceny ilociowychzwizkw midzy rnymi aspektami zjawisk. Celem takich analiz jest zazwyczaj ch

lepszego ich poznania (potwierdzenie lub obalenie formuowanych w teorii hipotez),moliwo przewidywania rozwoju badanych zjawisk lub procesw, czy wreszcie wyko-rzystanie znajomoci ilociowych zalenoci do symulacji [1]. Dla zrealizowania tak

postawionych celw niezbdne jest odwoanie si do teorii badanego zjawiska, dostp dowyrnionych w opisie zjawiska danych, znajomo metody umoliwiajcej odwzoro-

wanie hipotez teoretycznych za pomoc zgromadzonych danych statystycznych orazwiedza potrzebna do tego, aby stwierdzi, wjakim stopniu to odwzorowanie si udao.

Literatura

1. Ekonometria i badania operacyjne. Podrcznik dla studiw licencjackich, pod red.

naukow M. Gruszczyskiego, T. Kuszewskiego i M. Podgrskiej (2009), PWN.

2. Johnson R. W. (1996), Fitting Percentage of Body Fat to Simple Body Measurements,Journal of Statistics Education v. 4, n. 1 (www.amstat.org/publications/jse/v4n1/da-

tasets.johnson.html).3. Krzanowski W. J. (1998), An Introduction to Statistical Modelling, Arnold.

4. Maddala G. S. (2006), Ekonometria, PWN.

5. McIntyre L. (1994), Using Cigarette Data for An Introduction to Multiple Regression,

Journal of Statistics Education v. 2, n. 1 (www.amstat.org/publications/jse/v2n1/da-tasets.mcintyre.html).

6. Welfe A. (2009), Ekonometria. Metody i ich zastosowanie, PWE.

Analiza Regresji Liniowej w Praktyce

Documents

Transcript of Analiza Regresji Liniowej w Praktyce