DATA MINING - mif.pg.gda.pl mining.pdf · CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample...

114

Transcript of DATA MINING - mif.pg.gda.pl mining.pdf · CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample...

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    DATA MINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    02.06.2015

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Co to jest Data Mining?

    def 1

    Proces zwi¡zany z odkrywaniem wzorców i relacji wekstremalnie du»ych zbiorach danych.

    def 2

    Zbiór metod pozwalaj¡cych na automatyczne wykrywanieistotnych zale»no±ci i wzorców w bardzo du»ych zbiorachdanych, wraz z metodologi¡ prowadz¡c¡ od poznania danych,do podj¦cia decyzji na podstawie przeprowadzonych analiz.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Co to jest Data Mining?

    Data Mining od lat 90 XX wieku jest pewnym standardem winstytucjach biznesowych z bran»: bankowo±ci, ubezpiecze«,telekomunikacji, handlu, farmacji.

    DM jest stosowane jako wsparcie procesów decyzyjnych,zarówno przez eksploracj¦ danych jak i modelowaniepredykcyjne.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Co to jest Data Mining?

    Problemy zwi¡zane z tymi dwoma gaª¦ziami:Modelowanie predykcyjne:

    • Klasy�kacja (np. czy klient o danych parametrachzrezygnuje z usªugi?)

    • Predykcja (np. jaka jest warto±¢ nieruchomo±ci o danychparametrach?)

    Eksploracja danych:

    • Analiza powi¡za« (np. czy produkt X jest zwykle kupowanywraz z produktem Y?)

    • Klasteryzacja (np. czy istniej¡ grupy klientów z podobnymizachowaniami konsumenckimi?)

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Co to jest Data Mining?

    W porównaniu z poszczególnymi metodami statystycznymipojawiaj¡cymi si¦ wcze±niej na tym przedmiocie, Data Miningnie narzuca z góry jednej metody któr¡ nale»y u»y¢.Dopuszczanych jest wiele ró»nych metod statystycznych. Woparciu o te metody tworzone s¡ modele, które nast¦pnie s¡porównywane jako±ciowo.

    Przedstawianymi w tej prezentacji metodami s¡:

    • drzewa decyzyjne• regresja logistyczna• sieci neuronowe

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Metodologie

    Aby skutecznie przeprowadzi¢ Data Mining, potrzebny jestlogiczny plan dziaªania uwzgl¦dniaj¡cy wszystkie kroki koniecznedo zrozumienia i rozwi¡zania problemu.Najcz¦±ciej spotyka si¦ poni»sze dwie metodologie:

    • CRISP-DM• SEMMA (u»ywana w tej prezentacji)

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Cross Industry Standard Process for

    Data Mining

    Najcz¦±ciej u»ywana ogólna metodologia (nie w tej prezentacji).

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    SEMMA

    • Sample• Explore• Modify• Model• Asses

    SEMMA

    Metodologia opracowana przez SAS Institute, stworzona idopasowana do Data Mining w SAS Enterprise Miner.Jest to logicznie uporz¡dkowana lista kroków, zorganizowanapod k¡tem u»ywania kolejnych narz¦dzi w ±rodowisku EnterpriseMiner.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Kilka sªów o SAS Enterprise Miner.Jest to produkt SAS Institute stworzony z my±l¡ o DATAMINING. Polega na budowie procesu DM na diagramie zapomoc¡ w¦zªów.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Opis danychDane na których b¦dziemy pracowa¢ to dane demogra�czne,zebrane przez Ameryka«ski urz¡d statystyczny (census.gov) wroku 1994. Dane dotycz¡ dorosªych pracj¡cych ludzi.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Opis danych

    Zbiór zawiera 15 zmiennych.Ka»da obserwacja zawiera informacje dotycz¡ce jednejankietowanej osoby.Zmienne wyst¦puj¡ce w zbiorze to:

    • age - wiek osoby (zm. numeryczna)• workclass - rodzaj pracy: prywatny, rz¡dowy (lokalny,stanowy lub federalny), wªasna dziaªalno±¢ (praca w niej,lub posiadanie)

    • fnlwgt - zmienna wagowa (zm. numeryczna)• education - najwy»szy zdobyty poziom edukacji:przedszkole, klasy 1− 4, klasy 5− 6, klasy 7− 8, klasa 9,klasa 10, klasa 11, klasa 12, high-school, some-college (nieuko«czone studia) , associate-vocational,associate-academic (tytuª pracownika naukowego),bachelors, masters, professional schools, doctorate.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Opis danych

    • education_num - numeryczny odpowiednik zmiennejeducation

    • marital_status - stan cywilny: Married-civ-spouse(maª»onek/maª»onka to osoba cywilna), Never-married,Divorced, Separated, Widowed, Married-AF-spouse(maª»onek/maª»onka to osoba zwi¡zana z siªamizbrojnymi), Married-spouse-absent (maª»onek/maª»onkanieobecna)

    • occupation - zawód: Adm-clerical, Craft-repair,Exec-managerial, Farming-�shing, Handlers-cleaners,Machine-op-insp, Other-service, Priva-house-serv,Prof-specialty, Protective-serv, Sales, Tech-support,Transport-moving

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Opis danych

    • relationship - zwi¡zek: Husband, Wife, Not-in-family,Own-child, Unmarried, Other-relative

    • race - rasa: White, Black, Asian/Paci�c islander,American Indian/Eskimo, Other

    • sex - pªe¢: Female, Male• capital_gain - wzrost kapitaªu (zm. numeryczna)• capital_loss - strata kapitaªu (zm. numeryczna)• hours_per_week - ilo±¢ godzin przepracowywanych wtygodniu

    • native_country - kraj pochodzenia (42 kraje)• y : 1 = dana osoba osi¡gn¦ªa roczny dochód > 50 000 $, 0= dana osoba osi¡gn¦ªa dochód poni»ej 50 000 $.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Opis danych

    Zbiór danych posiada ª¡cznie okoªo 32000 obserwacji.Zmienna Y jest zmienn¡ zale»n¡ - szuka¢ b¦dziemy najlepszegomodelu, który b¦dzie ocenia¢ czy roczny dochód osoby ozadanych, przez zmienne niezale»ne cechach przekroczy próg 50000$. Model wyja±nia¢ b¦dzie tak»e, które z cech najbardziejwpªywaj¡ na przekroczenie tego progu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sampling

    Sampling jest pierwszym etapem metodyki SEMMA i skªada si¦z trzech etapów

    • Importowanie danych(Input Data Source)• Dobór próby(Sampling)• Partycjonowanie(Data Partition)

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Importowanie danych

    Ten w¦zeª mo»e wykonywa¢ nast¦puj¡ce dziaªania

    • Dla ka»dej zmiennej tworzy metadane pobieraj¡c losowo2000 obserwacji. W przypadku danych maj¡cych mniej niz2000 obserwacji SAS wykorzystuje wszystkie dane

    • Na podstawie metadanych sprawdza poziom zmiennychoraz ich granice

    • Tworzy statystyki opisowe dla ka»dych zmiennych(napodstawie pobranych metadanych)

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sampling

    Ten w¦zeª jest opcjonalny w tym etapie, warto go stosowa¢ przydu»ych zbiorach danych. Sampling polega na doborze próby zwi¦kszego zbioru w taki sposób, aby dobór próby byªreprezentatywny. Mo»na tego dokona¢ na kilka sposobów:

    • N pierwszych• Losowanie zwykªe Ka»da obserwacja ma to samoprawdopodobie«stwo zostania wylosowanej.

    • Losowanie warstwowe Losowanie to ma nast¦puj¡cekryteria

    • Proporcjonalne Udziaª obserwacji na ka»dej z warstwb¦dzie taki sam w populacji

    • Równe W¦zeª losuje t¡ sam¡ liczb¦ obserwacji z ka»dej zwarstw.

    • Optymalne Udziaª obserwacji na warstwach jak iwariancja b¦d¡ takie same jak w populacji

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Partycjonowanie

    Partycjonowanie polega na podziale zbioru na 3 cz¦±ci:

    • Ucz¡cy - Sªu»y do zbudowania modelu. Próba powinnaby¢ liczebno±ci 50%-70% próby wej±ciowej

    • Walidacyjna- Wykorzystuje si¦ j¡ do porównywaniaskuteczno±ci modeli

    • Testowa- Sprawdza si¦ w niej ostateczn¡ ocen¦ modeluwybranego w zbiorze walidacyjnym

    Ten etap jest bardzo podobny do samplingu, gdy» dzielimy naszzbiór przez dobór próby, który mo»emy zrobi¢ na te samesposoby co w sampilngu

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Partycjonowanie

    W przypadku zagadnie« klasy�kacyjnych, stosuje si¦ podziaªzachowuj¡cy rozkªad zmiennej obja±nianej we wszystkichzbiorach. Je»eli mamy wybran¡ zmienn¡ celu(obja±nian¡) towybieramy domy±ln¡ metod¦ partycjonowania:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Eksploracja danychW etapie eksploracji, b¦dziemy stara¢ si¦ "zrozumie¢" dane.Bada¢ b¦dziemy rozkªady poszczególnych zmiennych oraz ichstatystyki opisowe, a tak»e analizowa¢ zale»no±ci wyst¦puj¡cemi¦dzy nimi.Sprawdzona zostanie kompletno±¢ danych (braki danych), atak»e czy w zbiorze nie ma obserwacji odstaj¡cych (bª¦dy wdanych).

    Po otwarciu diagramu, górny pasek narz¦dzi zawiera w¦zªypogrupowane pod k¡tem kolejnych kroków wprowadzonejmetodologii. W tym kroku prezentacji gªównym w¦zªem b¦dziewezeª o nazwie "Eksploracja statystyk" z powodu jegorozbudowania.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Eksploracja statystyk "StatExplore"

    W¦zeª ten umo»liwia obliczenie podstawowych statystykopisowych oraz wst¦pn¡ analiz¦ wspóªzale»no±ci zmiennych.

    Aby badane korelacje pomi¦dzy zmienn¡ zale»n¡ a zmiennyminiezale»nymi obliczane byªy jedn¡ metod¡, nale»y umo»liwi¢obliczenie statystyk Chi-kwadrat równie» dla zmiennych ci¡gªych(przedziaªowych)

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Eksploracja statystyk "StatExplore"

    Umo»liwi to zastosowanie wspóªczynnika V Cramera,przyjmuj¡cego warto±ci od 0 do 1. Wspóªczynnik ten jestunormowan¡ miar¡ wspóªzale»no±ci zmiennych.Wspóªczynnik V Cramera oblicza si¦ w nast¦puj¡cy sposób:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Eksploracja statystyk "StatExplore"W rezultacie uruchomienia skon�gurowanego w ten sposóbw¦zªa SAS EM zwraca szereg statystyk oraz wykresów. Poni»ejprzedstawiony jest wykres wspóªzale»no±ci zmiennychniezale»nych ze zmienn¡ zale»n¡.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Eksploracja statystyk "StatExplore"

    W dalszej cz¦±ci rezultatów umieszczone s¡ statystyki opisowedla wszystkich zmiennych, pocz¡wszy od zmiennychklasy�kuj¡cych:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Eksploracja statystyk "StatExplore"

    Kolejno statystyki dla zmiennych ci¡gªych:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Eksploracja statystyk "StatExplore"

    Zwracane s¡ równie» warto±ci statystyki Chi-kwadrat wraz zwarto±ciami p.

    Na tym etapie tylko zmienna fnlwgt jest naturalnie zmienn¡nieistotn¡.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    "MultiPlot"

    Poza zaprezentowanymi statystykami, w rezultacie poprzedniegow¦zªa otrzymywane s¡ równie» statystyki poszczególnychzmiennych bior¡c pod uwag¦ zmienn¡ zale»n¡.Te wyniki lepiej jednak zobrazowa¢ za pomoc¡ kolejnego w¦zªao nazwie "Wykresy ró»ne" ("MultiPlot").

    W¦zeª ten tworzy dla ka»dej zmiennej niezale»nej wykressªupkowy uwzgl¦dniaj¡cy cz¦stotliwo±ci wyst¦powa« warto±cidanej zmiennej, wraz z naªo»eniem na ka»d¡ kolumn¦ wykresurozkªadu zmiennej zale»nej. Dzi¦ki temu wykresowi mo»na lepiejzrozumie¢ wpªyw danego efektu na zmienn¡ celu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    "MultiPlot"

    Wykres wieku.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    "MultiPlot"

    Wykres lat edukacji.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    "MultiPlot"

    Wykres w zale»no±ci od stanu cywilnego.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    "MultiPlot"

    Wykres w zale»no±ci od przepracowywanych tygodniowo godzin.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    "MultiPlot"Wykres w zale»no±ci od zawodu.

    Na tym wykresie widzimy pojawienie si¦ warto±ci "?" która jestzakodowanym brakiem danych i której SAS nie wyªoniª wewcze±niejszych w¦zªach.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Macierz korelacji - "SAScode"Poza zbadaniem zale»no±ci pomi¦dzy efektami a zmienn¡zale»n¡, nale»y sprawdzi¢ tak»e korelacje wyst¦puj¡ce pomi¦dzyposzczególnymi efektami, gdy» silnie skorelowane zmienneniezale»ne mogªyby znieksztaªci¢ tworzone modele.

    Mo»na to zrobi¢ w 2 krokach. Po 1 mo»na skonstruowa¢macierz korelacji (ze wspóªczynnikami Pearsona) mi¦dzyzmiennymi ci¡gªymi za pomoc¡ w¦zªa "Kod SAS-owy"znajduj¡cego si¦ w zakªadce "Pomocnicze".

    Po wybraniu w¦zªa, w oknie wªa±ciwo±ci w¦zªa klikamy "EdytorKodu" i umieszczamy tam kod:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Macierz korelacji - "SAScode"

    Otrzymane rezultaty:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Lista korelacji - zmienne

    klasy�kuj¡ce

    Poniewa» otrzymana w ten sposób macierz nie uwzgl¦dniazmiennych klasy�kuj¡cych, zbadamy korelacje pomi¦dzyefektami za pomoc¡ wspóªczynnika V Cramera.Kod ze wzgl¦du na dªugo±¢ zamieszczony jest w zaª¡czniku.

    Kod dziaªa w sposób nast¦puj¡cy: na ka»dej kombinacji dwóchzmiennych ze zbioru bazacensus obliczony zostajewspóªczynnik V Cramera (wraz z informacj¡ czy wynik mo»eby¢ uznany za wiarygodny). Nast¦pnie tworzony jest zbiórª¡cz¡cy wszystkie wyniki i posortowany malej¡co powspóªczynniku.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Lista korelacji - zmienne

    klasy�kuj¡ce

    Posortowana malej¡co lista korelacji:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Explore - podsumowanie

    W tym etapie Data Mining'u lepiej poznali±my dane, ichpotencjalny wpªyw na zmienn¡ zale»n¡, ich rozkªady orazkorelacje mi¦dzy zmiennymi. Po statystykach opisowych mo»nastwierdzi¢, »e dane s¡ wolne od bª¦dów, jednak»e odkryli±my »edla przynajmiej jednej zmiennej istnieje warto±¢ "?", która jestzakodowanym brakiem danych. W kolejnym etapie sprawdzimydokªadnie warto±ci przyjmowane przez dane zmienne.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Mody�kowanie danych

    Mody�kacja to etap w którym nale»y przygotowa¢ dane domodelowania. Przygotowanie danych do budowy drzewdecyzyjnych ró»ni si¦ od przygotowywania ich do regresji isieci neuronowych.Etap ten zostanie wi¦c podzielony ze wzgl¦du na metod¦budowy modelu i zostanie rozwini¦ty w kroku "Model".Teraz wi¦c zostanie przeprowadzona podstawowa mody�kacjadanych któr¡ mo»na zastosowa¢ zarówno do drzew jak i regresjioraz sieci neuronowych.Polega ona na:

    • Porzuceniu nieistotnych dla budowy modelu oraz silnieskorelowanych zmiennych

    • Sprawdzeniu obserwacji pod k¡tem zakodowanych brakówdanych

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Porzucanie

    W pierwszym kroku tego etapu usuniemy zmienne którychnapewno nie powinno by¢ w budowanych modelach. Po etapieeksploracji wiadomo ju», »e korelacja pomi¦dzy education ieducation_num wynosi 1, wi¦c jedna z tych zmiennychzostanie odrzucona.Po za tym odrzucona zostanie równie» zmienna wagowafnlwgt.

    Dokonuje si¦ tego za pomoc¡ w¦zªa "Porzucanie", zmieniaj¡cwarto±¢ kolumny "Porzu¢" z "Domy±lne" na "Tak".

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Zast¦powanie - braki danych

    Kolejnym krokiem tego etapu b¦dzie sprawdzenie obserwacjipod k¡tem zakodowanych braków danych i zmienienie ichwarto±ci na braki danych odczytywane przez SAS.Ma to szczególne znaczenie przy budowie modeli, poniewa»drzewa decyzyjne "radz¡ sobi¦" z brakami danych, natomiastregresja i sieci neuronowe pomijaj¡ caªe obserwacje dla którychwyst¦puj¡ w której± ze zmiennych braki danych.Dla prawidªowego porównywania modeli nale»y je tworzy¢ natych samych zbiorach danych (lub mo»liwie jak najbardziejzbli»onych). Problem ten zostanie rozwi¡zany przy budowiemodeli.Z etapu eksploracji wiadomo ju», »e zmienne ci¡gªe iklasy�kuj¡ce nie maj¡ braków danych.Przyjrzyjmy si¦ jednak warto±ciom które przyjmuj¡ te zmienneMo»na tego dokona¢ w w¦¹le "Zast¦powanie" klikaj¡c na"Edytor zast¡pie«" we wªa±ciwo±ciach w¦zªa.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Zast¦powanie - braki danych

    Jak wida¢ na zaª¡czonym wykresie warto±¢ "?" wyst¦puje dla 3zmiennych.Zast¦pujemy te warto±ci przez warto±¢ "_missing_". Dzi¦kitemu SAS potraktuje te komórki jako braki danych.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Podsumowanie

    W tym momencie otrzymali±my gotowy zbiór ucz¡cy, którymo»e sªu»y¢ do dalszego modelowania drzew decyzyjnych.Na tym etapie mo»na równie» zmieni¢ spojrzenie narozpatrywany problem i u»y¢ narz¦dzi analizy zmiennychskªadowych za pomoc¡ w¦zªa "Zmienne skªadowe" czego nieb¦dziemy robi¢ w tej prezentacji. Mo»na równie» w tymmomencie r¦cznie zmody�kowa¢ wybrane zmienne (np.sklasy�kowa¢ zmienn¡ wiek) za pomoc¡ w¦zªa "Konstruowaniereguª".

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Podsumowanie

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    DRZEWA DECYZYJNE

    W praktycznych zastosowaniach modeli predykcyjnych istotnajest ªatwo±¢ interpretacji i wyja±nienia generowanych wyników.Bardzo pomocne s¡ przy tym drzewa decyzyjne, któregeneruj¡ zale»no±ci w postaci zbioru warunków logicznych.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Budowa drzewa

    Budow¦ drzewa zaczynamy od podziaªu korzenia.W pierwszymkroku poszukujemy podziaªu,który pozwoli odnale¹¢ grupycharakteryzuj¡ce si¦ du»¡ jednorodno±ci¡ ze wzgl¦du na warto±¢zmiennej obja±nianej.Warunkiem koniecznym jest poprawastopnia takiej jednorodno±ci wzgl¦dem elementu,który jestdzielony.Szukany jest podziaª,który zmaksymalizuje ró»nic¦:

    ∆Z = Z0 −r∑

    i=1

    nin0Zi

    gdzie: Z0-stopie« niejednorodno±ci dzielonego elementu;Zi -stopie« niejednorodno±ci i-tego elementu powstaj¡cego wwyniku podziaªu; n0-liczebno±¢ dzielonego elementu;ni -liczebno±¢ i-tego elementu powstaj¡cego w wyniku podziaªu;r -liczba elementów powstaj¡cych w wyniku podziaªu

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Miary niejednorodno±ci

    Wspóªczynnik entropii

    H(p1, ..., pk) = −k∑

    i=1pi log2(pi )

    Wspóªczynnik Giniego

    1−k∑

    i=1p2i

    gdzie: k-liczba kategorii przyjmowanych przez zmienn¡obja±nian¡; pi -odsetek populacji przyjmuj¡cy i-t¡ warto±¢zmiennej obja±nianej

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Miary niejednorodno±ci

    Log-warto±¢ chi-kwadrat

    -log(p-warto±¢)

    gdzie p-warto±¢ jest granicznym poziomem istotno±ci statystyki:

    k∑i=1

    r∑j=1

    (R(ij)−E(ij))2E(ij)

    przy czym R(ij) jest macierz¡ rzeczywist¡ przyjmuj¡c¡ w i-tymwierszu i j-tej kolumnie warto±¢ równ¡ liczbie obserwacjiprzyjmuj¡cych i-t¡ warto±¢ zmiennej obja±nianej w j-tym w¦¹le,aE(ij) jest macierz¡ przyjmuj¡c¡ w i-tym wierszu i j-tej kolumniewarto±¢ równ¡ oczekiwanej na podstawie rozkªadu liczbieobserwacji przyjmuj¡cych i-t¡ warto±¢ zmiennej obja±nianej wj-tym w¦¹le

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Miary niejednorodno±ci

    Ostatnia statystyka ma tendencj¦ do "faworyzowania"wielokrotnych podziaªów w¦zªa nad dwukrotnymi,dlatego cz¦stomody�kuje si¦ wzór,uwzgl¦dniaj¡c kar¦ za liczb¦ badanychpodziaªów

    -log(m*p-warto±¢)

    gdzie m jest liczb¡ podziaªów

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Ustawienia drzewa

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Ustawienia drzewa cd.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Dost¦pne metody tworzenia drzewa

    • Najwi¦ksze -Wybiera caªe drzewo• Ocena -Wybiera najmniejsze drzewo o jak najlepszejwarto±ci oceny

    • N -Wybiera najwi¦ksze drzewo z co najwy»ej n li±cmi

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Wyniki

    Wyniki przedstawione s¡ w sze±ciu oknach

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Nakªadka rankingów ocen punktowych

    Porównanie wykresów wzrostu liftu dla zbioru treningowego iwalidacyjnego. Je»eli krzywe si¦ istotnie ró»ni¡,to ±wiadczy to oprzetrenowaniu lub niedotrenowaniu modelu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Statystyki li±ciowe

    Wykres porównuje procentowy udziaª warto±ci zmiennejobja±nianej równej 1 we wszystkich li±ciach dla danychtreningowych i walidacyjnych.Du»e ró»nice w wysoko±ci sªupkówwskazuj¡,»e dany li±¢ nale»y przyci¡¢.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Mapa drzewa

    Mapa drzewa pokazuje jego struktur¦,powierzchnia prostok¡tówodpowiada liczebno±ci w danych w¦zªach drzewa.Nat¦»eniekoloru pokazuje stopie« jednorodno±ci populacji w danym w¦¹le.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Statystyki dopasowania

    Tabela pokazuje statystyki dopasowania na zbiorachtreningowym, walidacyjnym i ewentualnie testowym. Du»eró»nice w warto±ciach statystyk dopasowania mog¡ wskazywa¢na przetrenowanie lub niedotrenowanie modelu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Wynik

    W wyniku warto zwróci¢ uwag¦ na tabel¦klasy�kacji,pokazuj¡c¡ udziaª dobrze i ¹le sklasy�kowanychobserwacji na zbiorach treningowym i walidacyjnym.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Drzewo

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Drzewko

    Kolorem czerwonym oznaczone s¡ reguªy podziaªu,zielonymzmienne dziel¡ce w¦zeª.Grubo±¢ czarnych linii wskazuje naliczebno±¢ podzbioru. Stopie« jednorodno±ci w danym w¦¹le jesttym wi¦kszy,im ciemniejszy jest jego kolor.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    W¦zeª

    Z w¦zªa mo»emy odczyta¢ nast¦puj¡ce informacje:

    • Ile zawiera obserwacji ze zbioru treningowego iwalidacyjnego

    • Rozkªad procentowy warto±ci zmiennej obja±nianej zezbioru treningowego i walidacyjnego w danym w¦¹le

    • Numer w¦zªa

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Interpretacja fragmentu drzewa

    W zbiorze jest 24, 1% bogatych ludzi,za± w podzbiorze ludzib¦d¡cych w zwi¡zku maª»e«skim bogaci stanowi¡ ponad 45%.Dziel¡c dalej ten podzbiór stopniem wyksztaªcenia widzimy,»ew±ród zam¦»nych/»onatych ≥ licencjatów odsetek ten wynosiponad 72%.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    English rules

    W rezultatach klikamywidok −→ model −→ reguªy j¦zykaangielskiego

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    ER

    Pokazuje nam si¦ okno peªne logicznych formuª. Np. je±li danyosobnik z populacji jest w zwi¡zku maª»e«skim,ma ni»szewyksztaªcenie ni» licencjackie i wzrost kapitaªu ≥ 5095, 5 to napodstawie wcze±niejszych obserwacji stwierdzamy,»e na 98%jest bogaty.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Budowa odpowiedniego drzewa

    Zbyt zªo»one drzewo (wielokrotno±¢ podziaªów,du»a gª¦boko±¢ iilo±¢ li±ci) jest nadmiernie dopasowane do zale»no±cicharakterystycznych dla zbioru treningowego,przez co jestbardziej niestabilne (przetrenowanie).Zbyt maªe drzewo mawi¦kszy odsetek bª¦dnych klasy�kacji. Optymaln¡ wielko±¢drzewa mo»emy wybra¢ posªuguj¡c si¦ wykresem bª¦du±redniokwadratowego lub skuteczno±ci klasy�kacji wzgl¦demliczby li±ci drzewa.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    MSE

    W rezultatach klikamywidok −→ model −→ wykres ocenypoddrzewa

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Interakcyjne drzewo decyzyjne

    W interakcyjnych drzewach decyzyjnych mamy "caª¡ wªadz¦"podczas budowy.Mo»emy zmienia¢ reguªy podziaªu, dzieli¢ zbiórnajpierw przy pomocy zmiennych mniej istotnych,w peªnidecydujemy o wygl¡dzie drzewa.

    Pokaz na »ywo

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Boosting Gradientowy

    Polega na stworzeniu szeregu drzew decyzyjnych,w którychka»de nast¦pne drzewo nadaje wi¦ksz¡ wag¦ obserwacjom ¹lesklasy�kowanym w poprzednim drzewie,a mniejsz¡ dobrzesklasy�kowanym.Zachodzi formuªa:

    wki =1+mk−1(i)

    4

    n∑i=1

    (1+mk−1(i)4)

    gdzie: wki -waga i-tej obserwacji w k-tej iteracji algorytmu;mk−1(i)-liczba niepoprawnych klasy�kacji i-tej obserwacji wk − 1 poprzednich iteracjach; n-liczba obserwacji w zbiorzetreningowym

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Regresja logistyczna w porównaniu do drzew decyzyjnychreprezentuje odmienne podej±cie do zagadnie« klasy�kacyjnych.Zakªada si¦ bowiem, »e warto±¢ prawdopodobie«stwa jestuzale»niona predyktorem liniowym η = Xβ.

    logit(p̂) = Xβ = β0 + β1X1 + β2X2 + · · ·+ βNXN

    Po estymacji parametrów modelu mo»emy dla wektoraX = (X1,X2,X3 . . .Xn) policzy¢ wyestymowaneprawdopodobie«stwo:

    p̂ =1

    1 + exp(−Xβ)

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Imputacja

    W przypadku komercyjnych zagadnie« analitycznych, zale»nieod ilo±ci danych, mo»na uzupeªni¢ braki w danych(w¦zeª�imputacja�). Mo»na to zrobi¢ na kilka sposobów:

    • Wykorzystuj¡c znajomo±¢ specy�ki modelu danych• Zastosowanie metod automatycznych:

    • Miara tendencji centralnej mediana, dominanta, ±rednia• Wylosowanie warto±ci zgodnie z rozkªadem zmiennej• Warto±¢ oparta na modelu drzewa decyzyjnego

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Przy doborze zmiennych obja±niaj¡cych warto zastanowi¢ si¦,czy na pewno b¦d¡ miaªy wpªyw w modelu na zmienn¡obja±nian¡ oraz usun¡¢ zmienne, które s¡ ze sob¡ silnieskorelowane. W przypadku wyst¦powania interakcji mi¦dzydwoma zmiennymi, warto w modelu uwzgl¦dni¢ ich iloczyn.Cz¦sto przy du»ej ilo±ci zmiennych klasy�kuj¡cych mo»emymie¢ problem z ich optymalnym doborem do modelu. Mo»na jewyselekcjonowa¢ nast¦puj¡cymi metodami:

    • Krokowa wprzód(Forward) - Najpierw dobieramy wyrazwolny, nast¦pnie dobieramy pojedynczo zmienne

    • Krokowa wstecz(Backward)- Zaczynamy od doboruwszystich zmiennych i usuwamy kolejno najmniej istotne

    • Krokowa- Metoda analogiczna do metody Forward, zró»nic¡, »e po ka»dym kroku bada si¦ istotno±¢ zmiennychobecnych ju» w modelu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Aby u»y¢ modelu regresji logistycznej, nale»y u»y¢ w¦zªa�Regresja� dla zmody�kowanych danych, oraz wybra¢odpowiednie zmienne klasy�kuj¡ce. Jak zmienna celu jestbinarna, to model automatycznie dobiera funkcj¦ logitow¡ jakowi¡»¡c¡

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Przeksztaªcanie danych

    Przy regresji logistycznej wa»ne jest, aby rozkªad zmiennychci¡gªych miaª sko±no±¢ blisk¡ zeru. Je»eli w rezultacie w¦zªamultiplot warto±¢ bezwzgl¦dna estymatora sko±no±ci dla danegorozkªadu przekracza 5 to konieczne jest przeksztaªcenie danych.Równie» warto zwróci¢ uwag¦ na relacj¦ pomi¦dzy zmienn¡obja±nian¡. Zmienna �age� b¦dzie wymagaªa przeksztaªceniakwadratowego.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Wybieramy post¦puj¡c¡(forward) metod¦ iteracyjn¡

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Po uruchomieniu w¦zªa otrzymujemy okienko z rezultatami wktórych s¡ pokazane kolejne iteracje procesu, oraz ostatecznymodel. Wykres liftu:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Budowa wykresu liftu

    • Jak mamy dany model, to rankujemy dane wzgl¦demwyestymowanych prawdopodobie«stw

    • Dzielimy zbiór na równe cz¦±ci np co 5 centyli czyli 20cz¦±ci.

    • Zliczamy w ka»dej cz¦±ci ilo±¢ sukcesów(y=1)• Liczymy skumulowan¡ ilo±¢ sukcesów• Obliczamy skumulowan¡ ilo±¢ sukcesów w ka»dej cz¦±ci wprocentach(tzw. Gain score)

    • W ostatnim kroku, dzielimy Gain score przez górny kwantyldanego przedziaªu w procentach, np. dla przedziaªu zgórnym centylem 15% gain score dzielimy na 15

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Ostateczny model z nast¦puj¡cymi zmiennymi obja±niaj¡cymi

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Z racji tego, »e w modelu wi¦kszo±¢ zmiennych to zmiennekategoryzuj¡ce, mo»na porówna¢ najbardziej istotnewspóªczynniki βi , st¡d, najwi¦ksze efekty dodatnie wyst¦puj¡dla:

    • Ludzi po ±lubach cywilnych - 1.58• Ludzi po ±lubach wojskowych- 1.49• Profesjonalistów w swoich dziedzinach(informatycy,adwokaci itd.)- 1.47

    za± najwi¦ksze efekty ujemne dla

    • Obywatele Kolumbii - 1.46• Usªugi domowe- 1.34• Obywatele Dominikany- 1.26

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Wykres efektów bezwzgl¦dnych

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    def 1

    Zbiór prostych jednostek obliczeniowych przetwarzaj¡cych dane,komunikuj¡cych si¦ ze sob¡ i pracuj¡cych równolegle.

    def 2

    Zbiór poª¡czonych ze sob¡ jednostek wej±ciowo-wyj±ciowych. Zka»dym poª¡czeniem skojarzona jest waga, która mo»e zosta¢zmieniona w trakcie uczenia.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    W zaªo»eniu s¡ to obiekty, które swoim dziaªaniem na±laduj¡aktywno±¢ rzeczywistych ukªadów nerwowych w mózgachorganizmów »ywych. W skutek poª¡czenia szeregu neuronów ostosunkowo prostej budowie i niewielkich mo»liwo±ciachuzyskuje si¦ struktur¦ zdoln¡ do przeprowadzania bardzoskomplikowanych procesów rozpoznawania wzorców iklasy�kacji.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Prosta sie¢ neuronowa z skªada si¦ warstwy wej±ciowejzawieraj¡cej n neuronów (odpowiadaj¡cych zmiennym) orazwarstwy wyj±ciowej sumuj¡cej wa»one impulsy i transformuj¡c¡je do skali oryginalnej zmiennej Y.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Rozszerzeniem tak opisanej architektury s¡ modele, któredodatkowo zawieraj¡ warstw¦ ukryt¡. Skªada si¦ ona zokre±lonej ilo±ci neuronów, które nieliniowo przeksztaªcaj¡kombinacj¦ liniow¡ otrzymanych sygnaªów. Pojedynczy neuron zwarstwy ukrytej skªada si¦ z dwóch elementów:

    • funkcji ª¡czenia• funkcji aktywacji

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Funkcja ª¡czenia odpowiada za wytworzenie jednej warto±ciwej±ciowej dla danego neuronu z warto±ci jego poprzedników.Du»a cz¦±¢ dost¦pnych w SAS EM funkcji opiera si¦ naradialnej funkcji bazowej - jest to funkcja, której warto±ci zale»¡tylko od odlegªo±ci od ustalonego punktu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Funkcja aktywacji oblicza warto±¢ na wyj±ciu neuronu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Ostateczny wynik generowany przez sie¢ jest rezultatemdziaªania funkcji transformuj¡cej sum¦ wa»onych wyj±¢ zneuronów ukrytych. W zale»no±ci od tego, czy zmiennaobja±niana jest binarna, czy ci¡gªa, stosuje si¦ odpowiednieprzeksztaªcenie sªu»¡ce zachowaniu odpowiedniej skali (dlazmiennej ci¡gªej jest to przeksztaªcenie identyczno±ciowe, dlabinarnej odwrotno±¢ przeksztaªcenia logitowego).

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Ogólny zapis sieci z jedn¡ warstw¡ ukryt¡ zawieraj¡c¡ nneuronów.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Dodatkowym rozszerzeniem tak zde�nioweanego modelu mo»eby¢ wprowadzenie bezpo±redniego poª¡czenia pomi¦dzy warstw¡wej±ciow¡ i wyj±ciow¡. Takie podej±cie umo»liwi wª¡czenie doanalizy równie» prostej kombinacji liniowej predyktorów, jednakrozbuduje rozpatrywane zagadnienie estymacji

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Sposobem na wyznaczenie niezb¦dnej liczby neuronów wwarstwie ukrytej mo»e by¢ tzw. reguªa piramidy geometrycznej,która mówi, »e dla wielu praktycznych zastosowa« sieci liczbaneuronów w warstwach tworzy ksztaªt piramidy, przy czymliczba neuronów maleje od wej±cia w kierunku wyj±cia. Neuronyposzczególnych warstw tworz¡ ci¡g geometryczny.

    n =√xm

    Nale»y pami¦ta¢, »e powy»sz¡ zale»no±¢ mo»na traktowa¢ jakwzór okre±laj¡cy minimaln¡ liczb¦ neuronów przy, której sie¢ si¦uczy zadanego problemu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Uczenie sieci

    Standardowo proces uczenia sieci odbywa si¦ w nast¦puj¡cysposób:

    • Zmienne obja±niaj¡ce s¡ standaryzowane, co sªu»y redukcjiryzyka bª¦dnej estymacji parametrów i umo»liwia"sprawiedliwe" przydzielenie wag pocz¡tkowych,

    • Ustalane s¡ parametry pocz¡tkowe - najcz¦±ciej przezlosowanie,

    • Ze zbioru treningowego wczytywane s¡ wszystkieobserwacje. Po przeliczeniu predykcji dla ka»dej z nichuruchamiany jest algorytm optymalizacyjny, który korygujewagi w celu poprawienia stopnia dopasowania modelu,

    • Poprzedni krok powtarzany jest do osi¡gni¦cia zbie»no±cialgorytmu optymalizacyjnego lub osi¡gni¦cia innegowarunku stopu, którym mo»e by¢ np. przekroczenieokre±lonej liczby iteracji,

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Uczenie sieci cd.

    • Dla wszystkich zestawów wag otrzymanych w kolejnychiteracjach oceniany jest stopie« dopasowania modelu napróbie walidacyjnej. Na tej podstawie wybierany jestostateczny model.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    W aplikacji SAS Enterprise Miner istnieje kilka narz¦dziwykorzystuj¡cych sieci neuronowe. U»yte zostanie jedno z nich -Sie¢ neuronowa. Pozwala ono na budow¦ modelu siecineuronowej na podstawie architektury odpowiedaj¡cej m.in.modelom liniowym lub perceptronowi wielowarstwowemu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    SAS EM posiada kilka prede�niowanych architektur siecineuronowych.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowaPo podª¡czenu w¦zªa i "klikni¦ciu" go otrzymujemy:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowaPodª¡czenie w¦zªa i ustawienie kryterium wyboru modelu jakobª¦dna klasy�kacja oraz architektury jako wielowarstwowyperceptron

    powoduje otrzymanie raportu zawieraj¡ce m.in okno output, wktórym mo»na zobaczy¢ nast¦puj¡cy komunikat:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Oznacza to, »e zastosowany algorytm optymalizacyjny(domy±lnie metoda quasi-Newtonowska) nie osi¡gn¡ª zbie»no±ci.Przeprowadzenie 20 iteracji na zbiorze treningowym niepozwoliªo na znalezienie ostatecznego rozwi¡zania. Spojrzeniena wykres iteracyjny pozwala zauwa»y¢ tendencj¦ spadkow¡bª¦du klasy�kacji, a zatem prawdopodobnie mo»liwe jest lepszedopasowanie modelu, pod warunkiem zwi¦kszenia liczby iteracji.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Zmiana opcji maksymalnie iteracji na wato±¢ równ¡ 200powoduje wydªu»enie czasu uczenia modelu, ale algorytm osi¡gazbie»no±¢.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Na wykresie wida¢, »e najlepszy model osi¡gni¦to w okoªo 42iteracji, co jets oznaczone niebiesk¡ lini¡. Stopie« dopasowaniaotrzymanej sieci przedstawiony jest poni»ej:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Sie¢ neuronowa

    Próbuj¡c poprawi¢ dopasowanie sieci stworzono now¡, w którejwª¡czone zostaªy bezpo±rednie poª¡czenia, a tak»e zwi¦kszonoliczb¦ jednostek ukrytych do 5 (domy±lnie 3).

    Otrzymano sie¢ o nast¦puj¡cych parametrach dopasowania:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Ocena i wybór modelu

    Po wybudowaniu wielu konkurenyjnych modeli predykcyjnychpozostaje zagadnienie wyboru najlepszego z nich, który b¦dziemógª by¢ zastosowany dla nowo napªywaj¡cych danych.Dopasowanie modelu mo»e by¢ ocenione przy u»yciu ró»nychstatystyk. Przykªadowe z nich to:

    • Skuteczno±¢ klasy�kacji - odsetek poprawniezaklasy�kowanych przypadków. Miara cz¦sto u»ywana dooceny modeli klasy�kacyjnych wtedy, gdy ka»dy zobserwowanych przypadków mo»na traktowa¢ z równ¡wag¡.

    • Bª¡d ±redniokwadratowy - ±rednia warto±¢ kwadraturó»nicy pomi¦dzy predykcj¡ a rzeczywist¡ warto±ci¡. Wprzypadku binarnych zagadnie« klasy�kacyjnych warto±ci¡przewidywan¡ jest prawdopodobie«stwo, a warto±ci¡rzeczywist¡ 0 lub 1.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Statystyki dopasowania

    • Maksymalny bª¡d bezwzgl¦dny - warto±¢ bezwzgl¦dnanajwi¦kszej ró»nicy pomi¦dzy warto±ci¡ przewidywan¡ arzeczywist¡. Miara oceniaj¡ca maksymalny spodziewanybª¡d predykcji.

    • Statystyka Koªmogorowa-Smirnowa - okre±la, jak dobrzedwie klasy zmiennej obja±nianej s¡ rozró»niane przezmodel. Jej warto±¢ obliczana jest jako:

    maxt |F1(t)− F0(t)|,

    gdzie F0(t), F1(t) - warto±ci dystrybuanty empirycznejpredykcji dla grup obserwacji, w których zmiennaobja±niana przyjmuje odpowiednio warto±ci 0 i 1. Imwi¦ksza warto±¢ tej statystyki, tym wi¦ksze ró»nice wprawdopodobie«stwach przydzielanych obu grupom, a wi¦ctym wi¦ksza moc dyskryminacyjna modelu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Statystyki dopasowania

    • Wzrost (Lift) - miara dla okre±lonego odsetka populacjib¦d¡cej przedmiotem zagadnienia klasy�kacyjnego.Obliczana jest poprzez podzielenie odsetkazaobserwowanych zdarze« w górnych n% populacjiposortowanej malej¡co wedªug przewidywanychprawdopodobie«stw przez procent tych samych zdarze« wcaªej populacji.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Statystyki dopasowania

    • Indeks ROC - miara okre±laj¡ca skuteczno±¢ modelu wrozpoznawaniu ro»nic pomi¦dzy podpopulacjami o ró»nychwarto±ciach zmiennej obja±nianej. Powstaje poprzezobliczenie pola pod krzyw¡ ROC, któa konstruowana jest wnast¦puj¡cy sposób:

    • z populacji posortowanej malej¡co wedªug przydzielonychprawdopodobie«stw wybierane jest górne k% obserwacji;

    • przy zaªo»eniu, »e w wybranej podpopulacji znajduje si¦ xjedynek i y zer oraz oznaczaj¡c przez n1 i n0 liczno±ci tychklas w caªej rozpatrywanej próbie, obliczane s¡ nast¦puj¡ce

    warto±ci:

    1-specy�czno±¢= yn0wra»liwo±¢ = xn1

    • tak opisane operacje powtarzane s¡ dla ró»nych warto±ci k ,a otrzymane warto±ci ª¡czone s¡ w krzyw¡

    W zwi¡zku z powy»szym im bardziej wykres krzywej skierowanyjest w stron¦ lewego górnego rogu, tym lepsze wªasno±ciklasy�kacyjne badanego modelu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Porównanie modeli

    Narz¦dziem umo»liwiaj¡cym porównanie dziaªania modelipredykcyjnych w SAS EM jest w¦zeª Porównanie modeli.Poª¡czenie z nim wybranych w¦zªów odpowiadaj¡cym wcze±niejwykorzystywanym metodom pozwoli na wybór najlepszegomodelu.

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Porównanie modeli

    ¡cz¡c wszystkie modele z w¦zªem Porównanie modeli iuruchamiaj¡c go otrzymujemy m.in.:

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Porównanie modeliWykresy ROC

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Porównanie modeliWykresy klasy�kacji

  • DATAMINING

    G. JaªochaA. PomykaªaB. SzymeckiK. Zera

    Data Mining

    De�nicjaMetodologieCRISP-DMSEMMAEnterpriseMiner

    Analizowanedane

    Sample

    ImportowaniedanychSamplingPartycjonowanie

    Explore

    Modify

    Model

    DrzewaRegresjalogistycznaSiecineuronowe

    Asses

    Scoring

    Zanim wybrany model b¦dzie mógª zosta¢ wdro»ony izastosowany do nowo napªywaj¡cych przypadków, nale»ydokona¢ jego ostatecznej oceny na kolejnej niezale»nej próbiedanych. T¦ rol¦ odgrywa zbiór testowy, który w przypadkuzastosowa« komercyjnych jest najcz¦±ciej wycinkiem danych znajnowszego okresu.Nale»y pami¦ta¢, »e ka»dy model w przypadku danychkomercyjnych po pewnym czasie zacznie traci¢ na jako±ci,dlatego niezb¦dnym jest monitorowanie jego skuteczno±ci.Zatem poj¦cie DATA MINING powinno by¢ rozumiane jakoproces cykliczny - wraz z napªywem nowych danych pojawia si¦potrzeba zmiany zaªo»e« lub poprawy jako±ci analizy.

    Data MiningDefinicjaMetodologieEnterprise Miner

    Analizowane daneSampleImportowanie danychSamplingPartycjonowanie

    ExploreModifyModelDrzewaRegresja logistycznaSieci neuronowe

    Asses