Analiza regresji

PREDYKCJA PODSTAWY ANALIZY REGRESJI

WYOBRAŹMY SOBIE

w firmie X pracownik na starcie zarabia 2000 zł;

w firmie X dochód pracownika zależy wyłącznie od jego stażu pracy;

z każdym rokiem jego pracy, jego wynagrodzenie wzrasta o 200 zł;

Ania pracuje w firmie 5 lat, Kasia 8 lat, a Małgosia 12 lat;

Ile zarabia każda z nich?

dochód= 200*liczba lat + 2000 zł;

bardziej ogólnie:

y=b*x+a dostaliśmy równanie linowe

czyli opis prostej, wzdłuż której

układają się poszczególne wyniki

WYOBRAŹMY SOBIE 2

czas potrzebny na przeczytanie tekstu w stanie upojenia alkoholowego zależy wyłącznie od czasu potrzebnego na przeczytanie tekstu w stanie trzeźwym;

z innych badań wiemy, że czytanie tekstu trwa o 30% dłużej niż w stanie trzeźwym;

Ile czasu na przeczytanie tekstu potrzebują:

Tomek – na trzeźwo 500 s Kasia – na trzeźwo 300 s Ania – na trzeźwo 450 s

równanie:czas (alkohol) = 1,3*czas trzeźwo

WYOBRAŹMY SOBIE 3

Badaliśmy zależność między czasem nauki, a wynikiem na teście;

Otrzymaliśmy następujące wyniki:

Ania – 3h, 130 pkt Marysia – 5h, 150 pkt Tomek – 2h, 120 pkt Michał – 8h, 180 pkt

Druga grupa będzie pisać ten sam test. Wojtek uczył się 7h. Ile dostanie punktów?

Szukamy równania prostej opisującej zależność widoczną w wynikach:

wynik na teście = 10*liczba godzin + 100

Na podstawie uzyskanych wyników możemy:

określać inne wyniki (=> predykcja) określać zależności między wynikiem jednej zmiennej (najczęściej niezależnej) a wynikiem drugiej zmiennej (najczęściej zależnej) (=> analiza regresji)

zakładaliśmy zależność doskonałą (=> brak wpływu innych czynników)

liniową (=> równomierne powiązanie dwóch badanych zmiennych)

RÓWNANIE REGRESJI

SZUKAMY

PROSTA METODA

KRYTERIUM NAJMNIEJSZYCH KWADRATÓWnajlepiej dopasowana linia to taka, dla której

suma kwadratów odchyleń poszczególnych wyników od wyników przewidywanych jest

najmniejsza.

MATEMATYKA

r – współczynnik korelacji dla X i Y

SX – odchylenie standardowe dla X

SY – odchylenie standardowe dla Y

PROBLEM

w rzeczywistości korelacje nie są doskonałe (r=1); wartość Y’ jest więc szacunkiem wartości Y, obarczonym określonym błędem; standardowy błąd oszacowania:

do obliczeń:

PO CO BŁĄD?

PRZYPOMNIJMY

dla rozkładu normalnego mogę oszacować procent wyników znajdujący się w określonej odległości (mierzonej przy pomocy odchylenia standardowego) od średniej;

np. 68% wartości Y znajdzie się w przedziale +/- 1,00SY

ANALOGICZNIE

SYX jest pewnym rodzajem odchylenia;

jeżeli Y ma rozkład normalny (lub możemy to sensownie przypuszczać), to możemy szacować przedział, w jakim znajdzie się określony procent wyników;

np. 95% wyników: dolna granica: Y’-1,96* SYX górna granica: Y’-1,96* SYX

WARUNKI STOSOWANIA

związek między X i Y jest linowy; rzeczywiste wyniki Y mają rozkład normalny dla wszystkich

wyników X spełnione jest założenie o homoscedastyczności:•zmienność rzeczywistych wyników Y skupionych wokół Y’ musi być

taka sama dla wszystkich wartości X.•sposoby szacowania:owykres (diagram rozrzutu)otesty statystyczne

INTERPRETACJA 1

wartość a: ile będzie wynosiło y, jeżeli X jest równe 0

wyraz wolny, współczynnik przesunięcia, intercept Y

wartość b: dla wartości znormalizowanych:

o ile przeciętnie wzroście Y jeżeli X zwiększy się o jedną jednostkę (np. odchylenie standardowe) dla wartości surowych:

r(SY/SX) o ile przeciętnie wzrośnie wartość Y wtedy, gdy X zwiększy się o jedną jednostkę

współczynnik regresji

y=bx+a

INTERPRETACJA 2

całkowita wariancja:(Y-)

inaczej:(Y-) = (Y-Y’) + (Y’-)𝑌

Y’

wariancja wyników

standardowy błąd oszacowania – zmienność Y

niezależna od X

zmienność Y, która jest związana ze

zmiennością Xr2

MOŻLIWOŚCI

•MODELOWANIE (np. binary logistic regression): szukamy najlepszego dopasowania uwzględniającego wiele zmiennych np. chcemy przewidzieć pensję pracownika naukowego na podstawie:• stażu pracy;• liczby publikacji;• średniej ocen z ankiet studenckich;

uzyskujemy równanie postaci:• pensja = A + B1*staż pracy + B2*liczba publikacji + B3*średnia ocen

na jego podstawie możemy określać procent zmienności zmiennej zależnej (pensja) za który odpowiadają poszczególne zmienne niezależne

ĆWICZENIE

badamy zależność wyników testu fluecji słownej od różnych czynników:oZMIENNE ZALEŻNE: wynik zwierzęta (FS1), wynik przedmioty ostre (FS2); ogólny wynik –

zmienna porządkowa (FS_całość);oZMIENNE NIEZALEŻNE: IQ, wykształcenie, płeć.

zbadaliśmy 30 osób; zmienne dla których mogę obliczyć współczynnik korelacji Pearsona:

o wynik zwierzęta (FS1), o wynik przedmioty ostre (FS2);o IQ

analiza regresji:oFS1 jako predyktor dla FS2o IQ jako predyktor dla FS1o IQ jako predyktor dla FS2

=WSP.KORELACJI(zmienna 1; zmienna 2)

Analiza regresji

Education

Transcript of Analiza regresji