Analiza regresji
-
Upload
victoria-kamasa -
Category
Education
-
view
171 -
download
1
Transcript of Analiza regresji
PREDYKCJA PODSTAWY ANALIZY REGRESJI
WYOBRAŹMY SOBIE
w firmie X pracownik na starcie zarabia 2000 zł;
w firmie X dochód pracownika zależy wyłącznie od jego stażu pracy;
z każdym rokiem jego pracy, jego wynagrodzenie wzrasta o 200 zł;
Ania pracuje w firmie 5 lat, Kasia 8 lat, a Małgosia 12 lat;
Ile zarabia każda z nich?
dochód= 200*liczba lat + 2000 zł;
bardziej ogólnie:
y=b*x+a dostaliśmy równanie linowe
czyli opis prostej, wzdłuż której
układają się poszczególne wyniki
WYOBRAŹMY SOBIE 2
czas potrzebny na przeczytanie tekstu w stanie upojenia alkoholowego zależy wyłącznie od czasu potrzebnego na przeczytanie tekstu w stanie trzeźwym;
z innych badań wiemy, że czytanie tekstu trwa o 30% dłużej niż w stanie trzeźwym;
Ile czasu na przeczytanie tekstu potrzebują:
Tomek – na trzeźwo 500 s Kasia – na trzeźwo 300 s Ania – na trzeźwo 450 s
równanie:czas (alkohol) = 1,3*czas trzeźwo
WYOBRAŹMY SOBIE 3
Badaliśmy zależność między czasem nauki, a wynikiem na teście;
Otrzymaliśmy następujące wyniki:
Ania – 3h, 130 pkt Marysia – 5h, 150 pkt Tomek – 2h, 120 pkt Michał – 8h, 180 pkt
Druga grupa będzie pisać ten sam test. Wojtek uczył się 7h. Ile dostanie punktów?
Szukamy równania prostej opisującej zależność widoczną w wynikach:
wynik na teście = 10*liczba godzin + 100
Na podstawie uzyskanych wyników możemy:
określać inne wyniki (=> predykcja) określać zależności między wynikiem jednej zmiennej (najczęściej niezależnej) a wynikiem drugiej zmiennej (najczęściej zależnej) (=> analiza regresji)
zakładaliśmy zależność doskonałą (=> brak wpływu innych czynników)
liniową (=> równomierne powiązanie dwóch badanych zmiennych)
RÓWNANIE REGRESJI
SZUKAMY
PROSTA METODA
KRYTERIUM NAJMNIEJSZYCH KWADRATÓWnajlepiej dopasowana linia to taka, dla której
suma kwadratów odchyleń poszczególnych wyników od wyników przewidywanych jest
najmniejsza.
MATEMATYKA
r – współczynnik korelacji dla X i Y
SX – odchylenie standardowe dla X
SY – odchylenie standardowe dla Y
PROBLEM
w rzeczywistości korelacje nie są doskonałe (r=1); wartość Y’ jest więc szacunkiem wartości Y, obarczonym określonym błędem; standardowy błąd oszacowania:
do obliczeń:
PO CO BŁĄD?
PRZYPOMNIJMY
dla rozkładu normalnego mogę oszacować procent wyników znajdujący się w określonej odległości (mierzonej przy pomocy odchylenia standardowego) od średniej;
np. 68% wartości Y znajdzie się w przedziale +/- 1,00SY
ANALOGICZNIE
SYX jest pewnym rodzajem odchylenia;
jeżeli Y ma rozkład normalny (lub możemy to sensownie przypuszczać), to możemy szacować przedział, w jakim znajdzie się określony procent wyników;
np. 95% wyników: dolna granica: Y’-1,96* SYX górna granica: Y’-1,96* SYX
WARUNKI STOSOWANIA
związek między X i Y jest linowy; rzeczywiste wyniki Y mają rozkład normalny dla wszystkich
wyników X spełnione jest założenie o homoscedastyczności:•zmienność rzeczywistych wyników Y skupionych wokół Y’ musi być
taka sama dla wszystkich wartości X.•sposoby szacowania:owykres (diagram rozrzutu)otesty statystyczne
INTERPRETACJA 1
wartość a: ile będzie wynosiło y, jeżeli X jest równe 0
wyraz wolny, współczynnik przesunięcia, intercept Y
wartość b: dla wartości znormalizowanych:
o ile przeciętnie wzroście Y jeżeli X zwiększy się o jedną jednostkę (np. odchylenie standardowe) dla wartości surowych:
r(SY/SX) o ile przeciętnie wzrośnie wartość Y wtedy, gdy X zwiększy się o jedną jednostkę
współczynnik regresji
y=bx+a
INTERPRETACJA 2
całkowita wariancja:(Y-)
inaczej:(Y-) = (Y-Y’) + (Y’-)𝑌
Y’
wariancja wyników
standardowy błąd oszacowania – zmienność Y
niezależna od X
zmienność Y, która jest związana ze
zmiennością Xr2
MOŻLIWOŚCI
•MODELOWANIE (np. binary logistic regression): szukamy najlepszego dopasowania uwzględniającego wiele zmiennych np. chcemy przewidzieć pensję pracownika naukowego na podstawie:• stażu pracy;• liczby publikacji;• średniej ocen z ankiet studenckich;
uzyskujemy równanie postaci:• pensja = A + B1*staż pracy + B2*liczba publikacji + B3*średnia ocen
na jego podstawie możemy określać procent zmienności zmiennej zależnej (pensja) za który odpowiadają poszczególne zmienne niezależne
ĆWICZENIE
badamy zależność wyników testu fluecji słownej od różnych czynników:oZMIENNE ZALEŻNE: wynik zwierzęta (FS1), wynik przedmioty ostre (FS2); ogólny wynik –
zmienna porządkowa (FS_całość);oZMIENNE NIEZALEŻNE: IQ, wykształcenie, płeć.
zbadaliśmy 30 osób; zmienne dla których mogę obliczyć współczynnik korelacji Pearsona:
o wynik zwierzęta (FS1), o wynik przedmioty ostre (FS2);o IQ
analiza regresji:oFS1 jako predyktor dla FS2o IQ jako predyktor dla FS1o IQ jako predyktor dla FS2
=WSP.KORELACJI(zmienna 1; zmienna 2)