Support Predictive Solutions - System Wsparcia...

7
Dzisiejszy artykuł jest wstępem do Automatycznego modelowania liniowego – krótkiej serii mającej przybliżyć Państwu jedną z procedur do tworzenia modeli liniowych w IBM SPSS Stascs. Wspomniana procedura ma na celu ułatwić życie przede wszystkim osobom pracującym na dużych zbiorach danych, które chcą korzystać z modeli regresji. Automatyczne modele liniowe pozbawione są wielu ustawień zaawansowanych oraz opcji zapisu wyników służących do eksploracji modeli znanych z innych procedur regresyjnych. Jak każda procedura tego typu, jej celem jest przyśpieszenie i ułatwienie pracy z danymi. Jakie są różnice? Tradycyjnie do analizy regresji w IBM SPSS Stascs używa się procedury Regresji liniowej (REGRESSION). W wersji 19 programu wprowadzono procedurę LINEAR, której poświęcimy ten i kilka kolejnych artykułów. Dedykowana jest ona analizom predykcyjnym kojarzonym z zastosowaniami w data miningu. Zarówno jedna i druga z tych metod ma swoje zalety oraz wady, podobnie jak zwolenników oraz przeciwników. My skupimy się dzisiaj na tym, jakie korzyści mogą wiązać się ze stosowaniem procedury LINEAR oraz jak zbudować prosty model i skorzystać z wyników. Przykład wykorzystania procedury REGRESSION do budowy modelu regresji liniowej możemy prześledzić natomiast w serii artykułów Janusza Wach- nickiego [EKSPRESS nr 1‒12]. W klasycznej procedurze regresji mamy do wyboru wiele różnych technik doboru zmiennych do modelu. Techniki te pochodzą z rodziny metod tzw. kroczących (np. krokowa postępu- jąca, selekcji postępującej czy eliminacji wstecznej). W metodach tych dobór zmiennych do modelu jest wykonywany automatycznie zgodnie z pewnym kryterium statystycznym. Zazwyczaj opierają się one na sekwencjach testów t lub F. W procedurze LINEAR dodatkowo dostajemy możliwość korzystania z metody all-possible-subsets. Model regresji (REGRESSION) daje nam możliwość przeprowadzenia szczegółowej analizy wartości odstających i wpływających. Możemy zapisać do zbioru, takie statystyki jak odległość Cooka, DfBety itp. Wykonując model w sposób automatyczny z wykorzystaniem funkcji LINEAR nie mamy tej możliwości. Przypadki takie są obsługiwane już na etapie budowy modelu. Program automatycznie decyduje o tym, który z przypadków należy uznać za odstający, o czym zostajemy poinformowani stosownym komunikatem wyświetlonym w raporcie. Trzecią cechą procedury LINEAR jest możliwość budowania tzw. modeli zespolonych (ensem- ble model) – np. poprzez bagging lub boosng. Po czwarte wreszcie, procedura LINEAR jest dostosowana do przetwarzania dużych zbiorów danych. Jednak do wykorzystania tego atutu niezbędna jest praca z IBM SPSS Stascs z wykorzystaniem serwera. Co jest w środku? Na początek zapoznamy się z interfejsem okna Automatycznego modelowania liniowego i obiektami wynikowymi, a także zwrócimy uwagę na opcje automatycznego przygotowania danych do analizy, które są dostępne w ramach procedury. W kolejnych krokach skupimy się na metodach wyboru predyktorów i możliwościach budowy modeli zespolonych, z którymi możemy się spotkać przy okazji pracy z wieloma technikami, nie tylko regresyjnymi. Sprinterska analiza predykcyjna – automatyzacja w modelowaniu liniowym Marta Płonka Predicve Soluons AutOMAtyczNE MOdELOwANIE LINIOwE /// 1

Transcript of Support Predictive Solutions - System Wsparcia...

Page 1: Support Predictive Solutions - System Wsparcia Technicznegosupport.predictivesolutions.pl/ekspress/...liniowe... · Created Date: 7/22/2015 7:56:13 AM

Dzisiejszy artykuł jest wstępem do Automatycznego modelowania liniowego – krótkiej serii mającej przybliżyć Państwu jedną z procedur do tworzenia modeli liniowych w IBM SPSS Statistics.

Wspomniana procedura ma na celu ułatwić życie przede wszystkim osobom pracującym na dużych zbiorach danych, które chcą korzystać z modeli regresji. Automatyczne modele liniowe pozbawione są wielu ustawień zaawansowanych oraz opcji zapisu wyników służących do eksploracji modeli znanych z innych procedur regresyjnych. Jak każda procedura tego typu, jej celem jest przyśpieszenie i ułatwienie pracy z danymi.

Jakie są różnice?

Tradycyjnie do analizy regresji w IBM SPSS Statistics używa się procedury Regresji liniowej (REGRESSION). W wersji 19 programu wprowadzono procedurę LINEAR, której poświęcimy ten i kilka kolejnych artykułów. Dedykowana jest ona analizom predykcyjnym kojarzonym z zastosowaniami w data miningu. Zarówno jedna i druga z tych metod ma swoje zalety oraz wady, podobnie jak zwolenników oraz przeciwników. My skupimy się dzisiaj na tym, jakie korzyści mogą wiązać się ze stosowaniem procedury LINEAR oraz jak zbudować prosty model i skorzystać z wyników. Przykład wykorzystania procedury REGRESSION do budowy modelu regresji liniowej możemy prześledzić natomiast w serii artykułów Janusza Wach-nickiego [EKSPRESS nr 1‒12].

W klasycznej procedurze regresji mamy do wyboru wiele różnych technik doboru zmiennych do modelu. Techniki te pochodzą z rodziny metod tzw. kroczących (np. krokowa postępu-jąca, selekcji postępującej czy eliminacji wstecznej). W metodach tych dobór zmiennych do modelu jest wykonywany automatycznie zgodnie z pewnym kryterium statystycznym. Zazwyczaj opierają się one na sekwencjach testów t lub F. W procedurze LINEAR dodatkowo dostajemy możliwość korzystania z metody all-possible-subsets.

Model regresji (REGRESSION) daje nam możliwość przeprowadzenia szczegółowej analizy wartości odstających i wpływających. Możemy zapisać do zbioru, takie statystyki jak odległość Cooka, DfBety itp. Wykonując model w sposób automatyczny z wykorzystaniem funkcji LINEAR nie mamy tej możliwości. Przypadki takie są obsługiwane już na etapie budowy modelu. Program automatycznie decyduje o tym, który z przypadków należy uznać za odstający, o czym zostajemy poinformowani stosownym komunikatem wyświetlonym w raporcie.

Trzecią cechą procedury LINEAR jest możliwość budowania tzw. modeli zespolonych (ensem-ble model) – np. poprzez bagging lub boosting.

Po czwarte wreszcie, procedura LINEAR jest dostosowana do przetwarzania dużych zbiorów danych. Jednak do wykorzystania tego atutu niezbędna jest praca z IBM SPSS Statistics z wykorzystaniem serwera.

Co jest w środku?

Na początek zapoznamy się z interfejsem okna Automatycznego modelowania liniowego i obiektami wynikowymi, a także zwrócimy uwagę na opcje automatycznego przygotowania danych do analizy, które są dostępne w ramach procedury. W kolejnych krokach skupimy się na metodach wyboru predyktorów i możliwościach budowy modeli zespolonych, z którymi możemy się spotkać przy okazji pracy z wieloma technikami, nie tylko regresyjnymi.

Sprinterska analiza predykcyjna – automatyzacja w modelowaniu liniowym

Marta Płonka Predictive Solutions

AutOMAtyczNE MOdELOwANIE LINIOwE ///  1

Page 2: Support Predictive Solutions - System Wsparcia Technicznegosupport.predictivesolutions.pl/ekspress/...liniowe... · Created Date: 7/22/2015 7:56:13 AM

www.predictivesolutions.pl 2AutOMAtyczNE MOdELOwANIE LINIOwE ///  1Sprinterska analiza predykcyjna – automatyzacja w modelowaniu liniowym

Otwórzmy zbiór sprzedaż.sav. W artykule spróbujemy zbudować przykładowy model regresji, żeby zweryfikować czy istnieje liniowa zależność pomiędzy sprzedażą albumów muzycznych wydanych na płytach cd a takimi cechami jak:

z ocena atrakcyjności wykonawcy/zespołu przez słuchaczy, z nakłady na reklamę, z liczba odtworzeń w radiu.

Wybierzmy z menu ANALIzA u REGRESjA u AutOMAtyczNE MOdELOwANIE LINIOwE. Przejdźmy na zakładkę zMIENNE i dokonajmy wyboru zmiennych do analizy.

Przenieśmy zmienną sprzedaż do pola PRzEwIdywANA, a pozostałe trzy zmienne (reklama, radio i atrakcyjność) na listę predyktorów.

Czytelnicy korzystający z oprogramowania IBM SPSS Modeler mogą zauważyć, że okno to wygląda znajomo. Innym elementem integracji IBM SPSS Modeler i IBM SPSS Statistics jest możliwość zadeklarowania roli zmiennej w metadanych zbioru (zakładka zMIENNE w GłówNyM OKNIE EdytORA dANych). Jeżeli rolę zadeklarujemy, procedura Automatycznego modelowania liniowego umieści zmienne w odpowiednich polach.

RySuNEK 1. Wybór zmiennych do analizy

RySuNEK 2. Automatyczne przygotowanie danych

Page 3: Support Predictive Solutions - System Wsparcia Technicznegosupport.predictivesolutions.pl/ekspress/...liniowe... · Created Date: 7/22/2015 7:56:13 AM

www.predictivesolutions.pl 3AutOMAtyczNE MOdELOwANIE LINIOwE ///  1Sprinterska analiza predykcyjna – automatyzacja w modelowaniu liniowym

Przejdźmy na zakładkę OPcjE BudOwANIA modelu. Na liście po lewej stronie widzimy różne grupy opcji. Dzisiaj zajmiemy się wyłącznie opcjami w grupie POdStAwOwE. Tak jak przedsta-wione jest to na Rys. 2, w opcjach podstawowych możemy zdecydować się na automatyczne przygotowanie danych. Większość tych transformacji ma na celu zwiększenie możliwości predykcyjnych modelu – jeśli się na nie decydujemy, do modelu nie są wykorzystywane zmienne oryginalne tylko ich transformacje. Zastosowane przekształcania są jedną z infor-macji, jakie zachowujemy wraz z zapisem modelu. Przekształcenia na jakie decydujemy się wybierając tę opcję to:

z Obsługa danych typu data i czas – predyktory typu data i czas zostaną przekształcone na liczbę np. miesięcy od/do dnia dzisiejszego.

z Korekta poziomu pomiaru – zmienne zadeklarowane przez nas jako ilościowe z mniej niż pięcioma unikalnymi wartościami będą traktowane jako zmienne jakościowe (porząd-kowe). Z kolei zmienne porządkowe o większej niż 10 liczbie kategorii, będą traktowane jako zmienne ilościowe.

z Obsługa wartości odstających – wartości, które nie mieszczą się w przedziale +/- trzy odchylenia standardowe od średniej, są uważane za wartości odstające.

z Obsługa braków danych – braki danych zmiennych jakościowych zastępowane są modalną dla skali nominalnej i medianą dla porządkowej. W przypadku zmiennych ilościowych brak danych zastępowany jest wartością średnią.

z Kategoryzacja jakościowych predyktorów – przed obsługą zmiennych jakościowych w modelu sprawdzane jest, czy na pewno utrzymywanie informacji o wszystkich katego-riach w zmiennej jest istotne z punktu widzenia przewidywania zmiennej celu. Jeśli naszym predyktorem jest zmienna jakościowa (np. poziom wykształcenia), możemy sprawdzić, czy kategorie wyodrębnione przez nas są odpowiednie. Czy wyznaczone kategorie wykształ-cenia dobrze różnicują to, ile kto zarabia? Zbyt duża liczba szczegółowych kategorii może utrudnić nam zaobserwowanie ogólniejszych zależności. W przypadku modeli regresji zmienne jakościowe są przekształcane na zbiór zmiennych zero-jedynkowych przed ich użyciem. Korzystając ze zmiennych o mniejszej liczbie kategorii upraszczamy i uogólniamy nasze modele. Zmienne, których kategorie nie różnicują zmiennej przewidywanej w ogóle nie będą wykorzystane w modelu.

Dodatkowo mamy jeszcze możliwość ustawienia poziomu ufności, dla którego będzie wyko-nana estymacja przedziałowa parametrów modelu. Standardowo jest to liczba z zakresu od 0,9 do 0,99.

Przejdźmy teraz na zakładkę OPcjE MOdELu. Możemy tu zdecydować o zapisie naszego modelu. Po pierwsze, jeżeli chcemy, żeby do zbioru danych została dodana informacja o przewidywanych wartościach sprzedaży, to musimy zaznaczyć pierwszą opcję, która domyślnie jest odznaczona: zAPISz wARtOścI PRzEwIdywANE w zBIORzE dANych i wybrać odpowiednią nazwę dla zmiennej wartości przewidywanych.

RySuNEK 3. Opcje zapisu modelu

Page 4: Support Predictive Solutions - System Wsparcia Technicznegosupport.predictivesolutions.pl/ekspress/...liniowe... · Created Date: 7/22/2015 7:56:13 AM

www.predictivesolutions.pl 4AutOMAtyczNE MOdELOwANIE LINIOwE ///  1Sprinterska analiza predykcyjna – automatyzacja w modelowaniu liniowym

Dodatkowo możemy wyeksportować model do pliku (lub plików) xml. Dzięki temu będziemy mogli wykorzystać model do scoringu danych przy pomocy np. Kreatora scoringu (dostęp-nego w menu NARzędzIA u KREAtOR ScORINGu).

Możemy teraz wybrać uRuchOM. Otrzymamy w raporcie dwa obiekty wynikowe. Stan-dardową tabelę z informacją o liczbie rekordów, które zostały wykorzystane w modelu i podsumowanie modelu.

Informacja o analIzowanych danych

n ProcentUwzględnIone 200 100,0%wyklUczone 0 0,0%ogółem 200 100,0%

Zapoznajmy się z modelem

W podsumowaniu widzimy informacje ogólne o utworzonym modelu i przedstawione na wykresie skorygowane R2 w wartościach procentowych. Uzyskaliśmy wynik 65,2%, co w zależności od dziedziny jaką się zajmujemy, może być już zadowalającym wynikiem.

Klikając dwukrotnie na obiekt w raporcie otworzymy nowe okno przeglądarki modelu, gdzie możemy przejrzeć pozostałe wyniki. Nawigujemy, wybierając obiekty z listy po lewej stronie. Pierwszy obiekt to ten, któremu mieliśmy się okazję już przyjrzeć. Zobaczmy co jest dalej.

RySuNEK 4. Podsumowanie modelu

RySuNEK 5. Podsumowanie kroków automatycznego przygotowania danych

Page 5: Support Predictive Solutions - System Wsparcia Technicznegosupport.predictivesolutions.pl/ekspress/...liniowe... · Created Date: 7/22/2015 7:56:13 AM

www.predictivesolutions.pl 5AutOMAtyczNE MOdELOwANIE LINIOwE ///  1Sprinterska analiza predykcyjna – automatyzacja w modelowaniu liniowym

Na drugim polu znajdziemy podsumowanie kroków automatycznego przygotowania danych. Wszystkie trzy predyktory zostały przepuszczone przez detekcję wartości odstających i po takiej transformacji zostały wykorzystane do budowy modelu.

Następny obiekt przedstawia nam wykres ważności predyktorów, dobrze znany użytkow-nikom IBM SPSS Modeler.

Ważność predyktora to miara siły wpływu danej zmiennej na wartości przewidywane (nie na poprawność tego przewidywania). Ważność dla wszystkich predyktorów reprezentuje całość – sumuje się do 1. Nasz model jest zdominowany głównie przez budżet na reklamę (0,48) i liczbę odtworzeń w radiu (0,47), podczas gdy ocena atrakcyjności wykonawcy lub zespołu ma najmniej do powiedzenia przy wyznaczaniu predykcji (0,05).

RySuNEK 6. Ważność predyktorów

RySuNEK 7. Pozostałe graficzne obiekty wynikowe

Page 6: Support Predictive Solutions - System Wsparcia Technicznegosupport.predictivesolutions.pl/ekspress/...liniowe... · Created Date: 7/22/2015 7:56:13 AM

www.predictivesolutions.pl 6AutOMAtyczNE MOdELOwANIE LINIOwE ///  1Sprinterska analiza predykcyjna – automatyzacja w modelowaniu liniowym

Do przeglądania wyników mamy jeszcze do wyboru trzy inne formy wizualizacji. Po pierwsze, wykres rozrzutu pomiędzy przewidywaną przez model sprzedażą a faktycznie osiągniętą. Gdyby nasz model przewidywał wartość każdej obserwacji bezbłędnie, punkty układałyby się na linii 45 stopni. Z wykresów diagnostycznych modelu mamy do wyboru dwa wykresy do sprawdzenia założenia o normalności rozkładu reszt. Możemy wybrać histogram reszt (studentyzowanych) z dopasowaniem krzywej rozkładu normalnego lub rozkład typu P-P. Ponieważ dane są ćwiczeniowe, oba wykresy potwierdzają normalność rozkładu, co nie zawsze zdarza się w praktyce.

RySuNEK 7. Pozostałe graficzne obiekty wynikowe

Page 7: Support Predictive Solutions - System Wsparcia Technicznegosupport.predictivesolutions.pl/ekspress/...liniowe... · Created Date: 7/22/2015 7:56:13 AM

Predictive Solutionsul. Racławicka 58 /// 30–017 Krakówt 12 636 96 80 /// F wew. 102

7www.predictivesolutions.pl AutOMAtyczNE MOdELOwANIE LINIOwE ///  1Sprinterska analiza predykcyjna – automatyzacja w modelowaniu liniowym

Powyższa lista zawiera identyfikatory poszczególnych albumów muzycznych, które mają silny wpływ na model. W przypadku gdybyśmy jednej ze zmiennych (np. z nazwą płyty) przypisali rolę identyfikator rekordu (na zakładce zMIENNE w oknie zbioru danych), zostałaby ona wykorzystana w kolumnie ID rekordu. Wysoka odległość Cooka wskazuje na to, że usunię-cie danej płyty z analizy może wpłynąć znacząco na parametry modelu. Kryterium uznania obserwacji za silnie wpływającą jest reguła kciuka Foxa.1

Chociaż automatyczne procedury budzą wiele kontrowersji, to mają one jednak swoje zastosowania. Najczęściej takie podejście znajduje uzasadnienie przy dużej liczbie danych, a automatyczne procedury pozwalają nam wykorzystać możliwości obliczeniowe sprzętu w przeszukiwaniu i wstępnej eksploracji danych. W następnych artykułach przyjrzymy się budowie modeli, czyli opcjom, na które mamy wpływ przy budowie modeli z pomocą pro-cedury Automatycznego modelowania liniowego.

Zainteresowanych praktycznymi aspektami tworzenia modeli linowych w IBM SPSS Statistics, zapraszamy do uczestnictwa w szkoleniu St2 – Statystyczna analiza danych

RySuNEK 8. Lista wartości odstających

1. Odległość Cooka > 4/N−pc, gdzie pc – liczba parametrów modelu