wykład7 Eksploracjadanych...

39
Co to jest eksploracja danych? Jak dziala eksploracja danych? Metody w eksploracji danych Podstawy sztucznej inteligencji wyklad 7 Eksploracja danych Joanna Kolodziejczyk 09 stycznia 2013 Joanna Kolodziejczyk Podstawy sztucznej inteligencji

Transcript of wykład7 Eksploracjadanych...

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Podstawy sztucznej inteligencjiwykład 7

    Eksploracja danych

    Joanna Kołodziejczyk

    09 stycznia 2013

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Plan wykładu

    1 Co to jest eksploracja danych?

    2 Jak działa eksploracja danych?

    3 Metody w eksploracji danych

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Definicja

    Eksploracja danych ED (Data mining)

    Metody wydobywania ukrytych informacji z dużych baz danych.

    CelDo prognozowania przyszłych trendów i zachowań, które pozwoląprzedsiębiorstwom na podejmowanie opartych na wiedzy decyzji.

    Zalety

    Zautomatyzowana prospektywna analiza danych wykracza pozazwykłe narzędzia wspomagania decyzji.

    ED udziela odpowiedzi na pytania, które nie znajdowały odpowiedzize względu na złożoność obliczeniową.

    Poszukują w bazach danych ukrytych wzorców, informacji, któreekspert może pominąć, gdyż znajdują się poza jego oczekiwaniami.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Technologie pozwalające na rzeczywiste wykorzystanie ED

    Zasoby zapewniające wykorzystanie ED:olbrzymie i prawie wszechobecne zbiory danychzwiększająca się moc obliczeniowa komputerówalgorytmy eksploracji danych.

    Technologie eksploracji danych wywodzą się z obszarów badań:statystykasztuczna inteligencjamaszynowe uczenie się.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Zakres zastosowania eksploracji danych

    Automatyczne przewidywanie trendów i zachowańAutomatyzuje się proces wyszukiwania informacji i można szybkoudzielać odpowiedzi na pytania dotyczące danych.Przykłady:

    Ukierunkowany marketing: wykorzystanie np. danych zprzeszłych korespondencji promocyjnych do określenia klientówmaksymalizujących szansę ponownych inwestycji.Prognozowanie upadłości: identyfikacja segmentów biznesu,które mogą reagować podobnie na pewną sekwencję zdarzeń.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Zakres zastosowania eksploracji danych

    Automatyczne wykrywanie nieznanych wcześniej wzorcówNarzędzia eksplorują bazy danych i identyfikują ukryte wzorce.Przykłady odkrywania wzorców

    Analiza danych o sprzedaży detalicznej do identyfikacjipozornie niepowiązanych produktów, które często są nabywanerazem.Wykrywanie wzorca fałszywych transakcji z użyciem kartkredytowych.Identyfikacja anomalii w danych.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Plan wykładu

    1 Co to jest eksploracja danych?

    2 Jak działa eksploracja danych?

    3 Metody w eksploracji danych

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Zadania wykonywane w ramach eksploracji danych

    KlasyfikacjaGrupowanieAsocjacjeWzory sekwencyjne

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Klasyfikacja

    Definicja

    Dane układa się w ustalonych grupach (klasach). Dane składają sięz atrybutów obiektów i przypisanych im etykiet klas. Jeżeli pojawisię nowy obiekt o znanych atrybutach a nieznanej klasie zostaje ondopasowany do jednej z klas. Modelowanie zależnościwejście-wyjście nazywane jest uczeniem nadzorowanym.

    Przykłady:Filtrowanie spamu (niechcianych wiadomości).Zwiększenie konkurencyjności restauracji poprzez ustalaniespecjalności dnia na podstawie zamówień klientów. Możliwejest określenie kiedy najczęściej klienci odwiedzają lokal i cozazwyczaj zamawiają.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Grupowanie

    DefinicjaDane są grupowane według logicznych powiązań. Dane składają sięz atrybutów obiektów i nie posiadamy przypisanych im etykiet klas.Obiekty łączy się w grupy według pewnej przyjętej relacji. Nowyobiekt zostaje przypisany do pewnej grupy przez podobieństwo dogrupy. Modelowanie grup nazywa się uczeniem nienadzorowanym.

    Przykłady:Bardzo często wykorzystywane przy pracy z danymiankietowymi i testach. Wykorzystuje się grupowane, by całąpopulację klientów podzielić na mniejsze grupy tak, byzidentyfikować działy rynku i lepiej zrozumieć zależnościpomiędzy różnymi grupami klientów, potrzebami rynku.Stosuje się do określenia polityki marketingowej.Grupowanie produktów w sklepach internetowych.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Asocjacje

    DefinicjaDane służą do identyfikacji związków pomiędzy atrybutami. Wdużych bazach danych poszukuje się reguł, które określają silne(według przyjętego kryterium) powiązania pomiędzy cechamiobiektu.

    Przykłady:Reguła asocjacyjna: piwo-> pieluchy, cebula, ziemniaki ->mięso. Wykorzystywane do rozmieszczanie produktów i akcjipromocyjnych.Wykrywanie włamań komputerowych. Wykrywanie reguł, którełączy się z atakiem. Wykonuje się to poprzez analizy tysięcylinii logów i poszukiwaniu anomalii.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Wzory sekwencyjne

    DefinicjaDane wykorzystuje się do przewidywania zachowań i trendów. Danepojawiają się sekwencyjnie i przechowywane są w sposóbwskazujący na kolejność ich pojawiania się. Poszukuje się w nichstatystycznie istotnych wzorców.

    Przykłady:Sprzedawcy sprzętu mogą przewidzieć prawdopodobieństwonabycia ubezpieczenia w pewnym czasie po zakupie komórkina podstawie zakupu konkretnego typu telefonu komórkowego.W pewnym sensie jest to wykrycie reguły, w której ważne jestnastępstwo czasowejWykrywanie brakującego fragmentu DNA lub ciągu znaków.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Techniki eksploracji danych

    sztuczne sieci neuronowedrzewa decyzyjne: struktura drzewiasta, które zawierazestawy decyzji. Decyzje te generują zasad klasyfikacji zbiorudanych. Metody wykorzystujące drzewa decyzyjne to drzewaklasyfikacyjne i regresyjne.algorytmy genetyczne do wykrywania reguł w danychmetoda najbliższego sąsiedztwa: technika, która grupujerekordy w zbiorze danych łącząc ze sobą k rekordównajbliższych (podobnych do niego) dla pewnego wybranegorekordu.indukcja reguł: wydobycie reguł (jeśli-to) w oparciu oistotność statystyczną.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Modelowanie

    Modelowaniejest to tworzenie modelu dopasowanego do pewnej sytuacji, wktórej znane jest zachowanie/odpowiedź i zastosowanie go do innejsytuacji, gdy odpowiedź nie jest znana.

    Przykład firmy telekomunikacyjnejZ danych historycznych o usługobiorcach zostanie zbudowanymodel, który określi potencjalnych klientów rozmówmiędzynarodowych. Modelowanie odgaduje zależności istniejące wbazie danych i tak możliwy model to:98% klientów, którzy zarabiają więcej niż 60.000 rocznie wydajewięcej niż 80/miesiąc na rozmowy międzynarodowe.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Przykłady zastosowań

    Firma transportowa może określać najlepsze perspektywy dla swojejdziałalności na podstawie eksploracji danych. Analizującdoświadczenia z klientami można wyznaczyć segmenty działalności(wyznaczyć atrybuty) o największym wpływie na przyszłądziałalność. Można takie wyniki uogólnić na cały region.

    Firmy prowadzące sprzedaż mogą próbować zwiększać wskaźnikisprzedaży wykorzystując eksplorację danych. Dane z panelikonsumenckich, dostaw, aktywności konkurencji pozwalajązrozumieć trendy w zmianach marki i sklepów. Producent na tejpodstawie może planować kampanię reklamową i najlepsze sposobydotarcia do klienta.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Proces eksploracji danych

    1

    1źródło: http://www.crisp-dm.org/Process/index.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Plan wykładu

    1 Co to jest eksploracja danych?

    2 Jak działa eksploracja danych?

    3 Metody w eksploracji danychStatystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Statystyka

    Używając narzędzi ze statystyki można udzielać odpowiedzi napytania:

    Jakie wzorce są ukryte w bazie danych?Jaka jest szansa, że nastąpi pewne zdarzenie?Jakie wzorce są istotne?Co wynika z „podsumowania” (np. średnia) danych? Zyskujesię pewne wyobrażenie o tym, co jest zawarte w bazie danych.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Histogramy

    2

    kolor oczu wiek

    2źródło: http://www.crisp-dm.org/Process/index.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Użyteczne miary

    Max - maksymalna wartość z danych.Min - minimalna wartość z danych.Średnia - średnia wartość w próbie.Mediana - wartość w bazie, powyżej i poniżej której znajdujesię jednakowa liczba rekordów (dzieli bazę na połówki o równejliczbie rekordów).Dominanta - wartość najczęściej występująca (o największymprawdopodobieństwie wystąpienia).Wariancja - miara zmienności, tego, jak rozkładają sięwartości od wartości średniej.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Rozkłady

    Czasami zamiast histogramu chce się opisać rozkład danychrównaniem. W klasycznej statystyce zakłada się, że istnieje pewien„prawdziwy”, podstawowy kształt rozkładu, który powstaje wtedy,gdy zostaną zebrane wszystkie możliwe dane.

    Zadaniem statystyka jest określenie prawdopodobnego rozkładu zograniczonej liczby danych .

    Wiele rozkładów opisanych jest tylko przez średnią i wariancję.

    3

    jednostajny normalny3źródło: wikipedia

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Regresja liniowa

    Podstawowa zasada regresji jest taka, że z mapy wartości jesttworzony taki model, by uzyskać najniższy błąd (zazwyczajśredniokwadratowy).

    Prediction = a + b · Predictor

    4

    4źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Bardziej złożone modele niż liniowe

    Złożoność modelu może wynikać z:zwiększenia liczby wejść (predictors) (zwiększeniewymiarowości)

    Y = a + b1X1 + b2X2 + b3X3 + b4X4 + b5X5

    regresja nieliniowa — zastosowania przekształcenie dla wejścia(podnoszenie do potęgi)

    Y = a + b1X1 + b2X 21

    wymnażania przez siebie wejśćmodyfikacji by odpowiedź modelu była binarna (regresjalogistyczna)

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Grupowanie

    Klasyfikacja metodą najbliższego sąsiadaZasada polega na tym, że jeżeli chcę wiedzieć jaka jest odpowiedź(prognozowane wyjście) na sygnał wejściowy, to patrzę nanajbliższe sąsiednie rekordy o podobnych wejściach z danychhistorycznych i używam taką samą klasę.

    Przykład grupowaniaGrupowanie odzieży do prania, czyszczenia. Grupuje się je, gdyżmają podobną charakterystykę.

    Grupowanie przez najbliższe sąsiedztwo

    Przykład: prawdopodobnie większość Twoich sąsiadów (sąsiedztwogeograficzne) ma podobny przychód. Metoda ta jest intuitywna ajednocześnie łatwa do zautomatyzowania.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Metoda najbliższego sąsiada w predykcji

    U podstaw koncepcji klastrów (grup) leży to, że dany obiekt (czy tosamochody, żywność lub klient) może być bliżej do innego obiektu,niż jakiś inny trzeci obiekt. Większość ludzi ma wrodzone poczucieporządkowania różnych przedmiotów i zgodzi się, że jabłku bliżej dopomarańczy niż do pomidora. To poczucie pozwala nam budowaćklastry - zarówno w bazach danych, jak również w codziennymżyciu. Definicja bliskości pozwala również dokonać prognozy.

    Sąsiedztwo do predykcjiObiekty leżące blisko siebie powinny mieć taką samą wartośćpredykcyjną. Wystarczy zatem znać wartość wyjściową dla jednegoobiektu.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    K-najbliższych sąsiadów do klasyfikacji

    5

    Zaufanie do predykcjiTym większa wiarygodność im bliższe sąsiedztwo lub jednorodnośćK-sąsiadów.

    5źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Grupowanie nienadzorowane (bez znanej odpowiedzi)

    W danych nie ma predykcji. Grupowanie polega na obserwacjirozkładu danych w przestrzeni wejść i nadawanie tej samej etykietydla blisko sąsiadujących rekordów separowalnych od innych.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Grupowanie pozwala wychwycić odstające rekordy (outliers)

    Dzięki grupowaniu można łatwo zidentyfikować odstające rekordy iwskazać przyczynę tego stanu rzeczy.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Różne wyniki grupowania

    Według przychodu

    6

    6źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Różne wyniki grupowania

    Według wieku i koloru oczu

    7

    7źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Problemy z grupowaniem

    Który rekord do którego klastra? Algorytm podziału na klastrypowinien mieć określone zasady, jaka cecha ma większypriorytet i jaki atrybut jest ważniejszy.Kompromis liczności klastrów i jednorodności. Chcąc uzyskaćnajbardziej jednorodne klastry będziemy mieli tendencję dozwiększania liczby klastrów (aż do liczby rekordów). Natomiastchcąc uzyskać generalizację trzeba dla danego problemupróbować budować jak najmniej klastrów.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Porównanie klasyfikacji i grupowania

    Klasyfikacja GrupowanieSłuży do prognozowania,jak również konsolidacji.

    Używana głównie do konsolidowania danych(widok z góry na przestrzeń wejść) i zapisudo grup.

    Przestrzeń jest zdefi-niowana przez problem(uczenie nadzorowane).

    Przestrzeń jest zdefiniowana jako domyślnaprzestrzeń n-wymiarowa lub zdefiniowanaprzez użytkownika, lub jest predefiniowanąprzestrzenią dostarczoną przez wcześniejszedoświadczenia (uczenie bez nadzoru).

    Używa metod metrycz-nych do określenia blisko-ści rekordów.

    Może używać inne niemetryczne miary.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Grupowanie hierarchiczne

    Metody hierarchiczne tworzą podziały na różne liczności klastrów.Istnieje możliwość decydowania o wygodnym doborze liczbyklastrów.

    8

    8źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Metody grupowania hierarchiczne

    Poprzez łączenie (aglomerative) — techniki grupowaniazaczynające od liczby klastrów równej liczbie rekordów.Klastry, które znajdują się najbliżej siebie są łączone ze sobątworząc drugi co do wielkości klaster. To połączenie jestkontynuowane aż do utworzenia jednego klastra zawierającychwszystkie rekordy, znajdującego się na szczycie hierarchii.Poprzez podziały (divisive) — techniki grupowania działającew odwrotnym kierunku niż powyższa technika. Zaczynają gdywszystkie rekordy są zgrupowane w jeden klaster, a następniedokonują podziału na mniej liczne grupy.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Grupowanie niehierarchiczne

    Metody są zdecydowanie szybsze od hierarchicznych, ale wymagająod użytkownika podania:

    pożądanej liczby klastrów lubminimalnej wymaganej bliskość dwóch rekordów w jednymklastrze.

    Często wykonują się iteracyjnie startując z inną początkowąkonfiguracją rekordów, która wpływa na ostateczny podział orazdokonują w pętli poprawek na granicach klastrów.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Drzewo decyzyjne

    Drzewo decyzyjne

    Jest to model predykcyjny w formie drzewa. Każda gałąź jestodpowiedzią na pytanie o klasyfikację, o której decyzja zawarta jest wliściu.

    9

    9źródło:http://gautam.lis.illinois.edu/monkmiddleware/public/analytics/decisiontree.html

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Cechy drzewa decyzyjnego

    Dzieli się dane w każdym punkcie podziału bez utraty danych(łączna liczba pozycji w węźle rodzicu jest równa sumiezapisów zawartych w jej potomkach).Łatwo jest zrozumieć jak powstaje model (w przeciwieństwiedo sieci neuronowych czy klasycznej statystyki).Model zgodny z intuicją.Drzewo decyzyjne może być postrzegane jako tworzeniesegmentów (klientów, produktów, regionów sprzedaży).Segmenty są tworzone poprzez podobieństwo rekordówwynikające z ich przynależności do zmiennej predykcyjnej.

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Zastosowania drzew decyzyjnych

    Algorytmy budują pełne drzewo dla hipotezy. Odtwarzająsposób analizy problemu przez specjalistę. Dla dużychrzeczywistych problemów, mogą być bardzo złożone.Służą do eksploracji danych. Dokonuje się ona przez patrzeniena zmienną decyzyjną i zmienną podziału w drzewie. Np. Jeśliklient ma umowę

  • Co to jest eksploracja danych?Jak działa eksploracja danych?

    Metody w eksploracji danych

    Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

    Algorytmy

    ID3 — rozdziela atrybuty na podstawie miar informacyjnych(entropii).C4.5 — udoskonalenie ID3: zmniejszenie liczby obliczeń,możliwość użycia zmiennych ciągłych, praca z atrybutami zbrakującymi wartościami.CART (Classification And Regression Tree) — udoskonalenieC4.5. Stosuje „node impurity” do wskazania atrybutu podziałuw drzewie.Szczegóły: http://courtdecisionsandrulings.com/an-integrated-study-on-decision-tree-induction-algorithms-in-data-mining.html

    Joanna Kołodziejczyk Podstawy sztucznej inteligencji

    http://courtdecisionsandrulings.com/an-integrated-study-on-decision-tree-induction-algorithms-in-data-mining.htmlhttp://courtdecisionsandrulings.com/an-integrated-study-on-decision-tree-induction-algorithms-in-data-mining.htmlhttp://courtdecisionsandrulings.com/an-integrated-study-on-decision-tree-induction-algorithms-in-data-mining.html

    Co to jest eksploracja danych?Jak działa eksploracja danych?Metody w eksploracji danychStatystyka w eksploracji danychNajblizsze sasiedztwoKlasteryzacjaDrzewa decyzyjne