wykład7 Eksploracjadanych...

Co to jest eksploracja danych?Jak działa eksploracja danych?

Metody w eksploracji danych

Podstawy sztucznej inteligencjiwykład 7

Eksploracja danych

Joanna Kołodziejczyk

09 stycznia 2013

Joanna Kołodziejczyk Podstawy sztucznej inteligencji



Plan wykładu

1 Co to jest eksploracja danych?

2 Jak działa eksploracja danych?

3 Metody w eksploracji danych




Definicja

Eksploracja danych ED (Data mining)

Metody wydobywania ukrytych informacji z dużych baz danych.

CelDo prognozowania przyszłych trendów i zachowań, które pozwoląprzedsiębiorstwom na podejmowanie opartych na wiedzy decyzji.

Zalety

Zautomatyzowana prospektywna analiza danych wykracza pozazwykłe narzędzia wspomagania decyzji.

ED udziela odpowiedzi na pytania, które nie znajdowały odpowiedzize względu na złożoność obliczeniową.

Poszukują w bazach danych ukrytych wzorców, informacji, któreekspert może pominąć, gdyż znajdują się poza jego oczekiwaniami.




Technologie pozwalające na rzeczywiste wykorzystanie ED

Zasoby zapewniające wykorzystanie ED:olbrzymie i prawie wszechobecne zbiory danychzwiększająca się moc obliczeniowa komputerówalgorytmy eksploracji danych.

Technologie eksploracji danych wywodzą się z obszarów badań:statystykasztuczna inteligencjamaszynowe uczenie się.




Zakres zastosowania eksploracji danych

Automatyczne przewidywanie trendów i zachowańAutomatyzuje się proces wyszukiwania informacji i można szybkoudzielać odpowiedzi na pytania dotyczące danych.Przykłady:

Ukierunkowany marketing: wykorzystanie np. danych zprzeszłych korespondencji promocyjnych do określenia klientówmaksymalizujących szansę ponownych inwestycji.Prognozowanie upadłości: identyfikacja segmentów biznesu,które mogą reagować podobnie na pewną sekwencję zdarzeń.




Zakres zastosowania eksploracji danych

Automatyczne wykrywanie nieznanych wcześniej wzorcówNarzędzia eksplorują bazy danych i identyfikują ukryte wzorce.Przykłady odkrywania wzorców

Analiza danych o sprzedaży detalicznej do identyfikacjipozornie niepowiązanych produktów, które często są nabywanerazem.Wykrywanie wzorca fałszywych transakcji z użyciem kartkredytowych.Identyfikacja anomalii w danych.




Plan wykładu



3 Metody w eksploracji danych




Zadania wykonywane w ramach eksploracji danych

KlasyfikacjaGrupowanieAsocjacjeWzory sekwencyjne




Klasyfikacja

Definicja

Dane układa się w ustalonych grupach (klasach). Dane składają sięz atrybutów obiektów i przypisanych im etykiet klas. Jeżeli pojawisię nowy obiekt o znanych atrybutach a nieznanej klasie zostaje ondopasowany do jednej z klas. Modelowanie zależnościwejście-wyjście nazywane jest uczeniem nadzorowanym.

Przykłady:Filtrowanie spamu (niechcianych wiadomości).Zwiększenie konkurencyjności restauracji poprzez ustalaniespecjalności dnia na podstawie zamówień klientów. Możliwejest określenie kiedy najczęściej klienci odwiedzają lokal i cozazwyczaj zamawiają.




Grupowanie

DefinicjaDane są grupowane według logicznych powiązań. Dane składają sięz atrybutów obiektów i nie posiadamy przypisanych im etykiet klas.Obiekty łączy się w grupy według pewnej przyjętej relacji. Nowyobiekt zostaje przypisany do pewnej grupy przez podobieństwo dogrupy. Modelowanie grup nazywa się uczeniem nienadzorowanym.

Przykłady:Bardzo często wykorzystywane przy pracy z danymiankietowymi i testach. Wykorzystuje się grupowane, by całąpopulację klientów podzielić na mniejsze grupy tak, byzidentyfikować działy rynku i lepiej zrozumieć zależnościpomiędzy różnymi grupami klientów, potrzebami rynku.Stosuje się do określenia polityki marketingowej.Grupowanie produktów w sklepach internetowych.




Asocjacje

DefinicjaDane służą do identyfikacji związków pomiędzy atrybutami. Wdużych bazach danych poszukuje się reguł, które określają silne(według przyjętego kryterium) powiązania pomiędzy cechamiobiektu.

Przykłady:Reguła asocjacyjna: piwo-> pieluchy, cebula, ziemniaki ->mięso. Wykorzystywane do rozmieszczanie produktów i akcjipromocyjnych.Wykrywanie włamań komputerowych. Wykrywanie reguł, którełączy się z atakiem. Wykonuje się to poprzez analizy tysięcylinii logów i poszukiwaniu anomalii.




Wzory sekwencyjne

DefinicjaDane wykorzystuje się do przewidywania zachowań i trendów. Danepojawiają się sekwencyjnie i przechowywane są w sposóbwskazujący na kolejność ich pojawiania się. Poszukuje się w nichstatystycznie istotnych wzorców.

Przykłady:Sprzedawcy sprzętu mogą przewidzieć prawdopodobieństwonabycia ubezpieczenia w pewnym czasie po zakupie komórkina podstawie zakupu konkretnego typu telefonu komórkowego.W pewnym sensie jest to wykrycie reguły, w której ważne jestnastępstwo czasowejWykrywanie brakującego fragmentu DNA lub ciągu znaków.




Techniki eksploracji danych

sztuczne sieci neuronowedrzewa decyzyjne: struktura drzewiasta, które zawierazestawy decyzji. Decyzje te generują zasad klasyfikacji zbiorudanych. Metody wykorzystujące drzewa decyzyjne to drzewaklasyfikacyjne i regresyjne.algorytmy genetyczne do wykrywania reguł w danychmetoda najbliższego sąsiedztwa: technika, która grupujerekordy w zbiorze danych łącząc ze sobą k rekordównajbliższych (podobnych do niego) dla pewnego wybranegorekordu.indukcja reguł: wydobycie reguł (jeśli-to) w oparciu oistotność statystyczną.




Modelowanie

Modelowaniejest to tworzenie modelu dopasowanego do pewnej sytuacji, wktórej znane jest zachowanie/odpowiedź i zastosowanie go do innejsytuacji, gdy odpowiedź nie jest znana.

Przykład firmy telekomunikacyjnejZ danych historycznych o usługobiorcach zostanie zbudowanymodel, który określi potencjalnych klientów rozmówmiędzynarodowych. Modelowanie odgaduje zależności istniejące wbazie danych i tak możliwy model to:98% klientów, którzy zarabiają więcej niż 60.000 rocznie wydajewięcej niż 80/miesiąc na rozmowy międzynarodowe.




Przykłady zastosowań

Firma transportowa może określać najlepsze perspektywy dla swojejdziałalności na podstawie eksploracji danych. Analizującdoświadczenia z klientami można wyznaczyć segmenty działalności(wyznaczyć atrybuty) o największym wpływie na przyszłądziałalność. Można takie wyniki uogólnić na cały region.

Firmy prowadzące sprzedaż mogą próbować zwiększać wskaźnikisprzedaży wykorzystując eksplorację danych. Dane z panelikonsumenckich, dostaw, aktywności konkurencji pozwalajązrozumieć trendy w zmianach marki i sklepów. Producent na tejpodstawie może planować kampanię reklamową i najlepsze sposobydotarcia do klienta.




Proces eksploracji danych

1

1źródło: http://www.crisp-dm.org/Process/index.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji



Statystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne

Plan wykładu



3 Metody w eksploracji danychStatystyka w eksploracji danychNajbliższe sąsiedztwoKlasteryzacjaDrzewa decyzyjne





Statystyka

Używając narzędzi ze statystyki można udzielać odpowiedzi napytania:

Jakie wzorce są ukryte w bazie danych?Jaka jest szansa, że nastąpi pewne zdarzenie?Jakie wzorce są istotne?Co wynika z „podsumowania” (np. średnia) danych? Zyskujesię pewne wyobrażenie o tym, co jest zawarte w bazie danych.





Histogramy

2

kolor oczu wiek

2źródło: http://www.crisp-dm.org/Process/index.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji




Użyteczne miary

Max - maksymalna wartość z danych.Min - minimalna wartość z danych.Średnia - średnia wartość w próbie.Mediana - wartość w bazie, powyżej i poniżej której znajdujesię jednakowa liczba rekordów (dzieli bazę na połówki o równejliczbie rekordów).Dominanta - wartość najczęściej występująca (o największymprawdopodobieństwie wystąpienia).Wariancja - miara zmienności, tego, jak rozkładają sięwartości od wartości średniej.





Rozkłady

Czasami zamiast histogramu chce się opisać rozkład danychrównaniem. W klasycznej statystyce zakłada się, że istnieje pewien„prawdziwy”, podstawowy kształt rozkładu, który powstaje wtedy,gdy zostaną zebrane wszystkie możliwe dane.

Zadaniem statystyka jest określenie prawdopodobnego rozkładu zograniczonej liczby danych .

Wiele rozkładów opisanych jest tylko przez średnią i wariancję.

3

jednostajny normalny3źródło: wikipedia





Regresja liniowa

Podstawowa zasada regresji jest taka, że z mapy wartości jesttworzony taki model, by uzyskać najniższy błąd (zazwyczajśredniokwadratowy).

Prediction = a + b · Predictor

4

4źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htmJoanna Kołodziejczyk Podstawy sztucznej inteligencji




Bardziej złożone modele niż liniowe

Złożoność modelu może wynikać z:zwiększenia liczby wejść (predictors) (zwiększeniewymiarowości)

Y = a + b1X1 + b2X2 + b3X3 + b4X4 + b5X5

regresja nieliniowa — zastosowania przekształcenie dla wejścia(podnoszenie do potęgi)

Y = a + b1X1 + b2X 21

wymnażania przez siebie wejśćmodyfikacji by odpowiedź modelu była binarna (regresjalogistyczna)





Grupowanie

Klasyfikacja metodą najbliższego sąsiadaZasada polega na tym, że jeżeli chcę wiedzieć jaka jest odpowiedź(prognozowane wyjście) na sygnał wejściowy, to patrzę nanajbliższe sąsiednie rekordy o podobnych wejściach z danychhistorycznych i używam taką samą klasę.

Przykład grupowaniaGrupowanie odzieży do prania, czyszczenia. Grupuje się je, gdyżmają podobną charakterystykę.

Grupowanie przez najbliższe sąsiedztwo

Przykład: prawdopodobnie większość Twoich sąsiadów (sąsiedztwogeograficzne) ma podobny przychód. Metoda ta jest intuitywna ajednocześnie łatwa do zautomatyzowania.





Metoda najbliższego sąsiada w predykcji

U podstaw koncepcji klastrów (grup) leży to, że dany obiekt (czy tosamochody, żywność lub klient) może być bliżej do innego obiektu,niż jakiś inny trzeci obiekt. Większość ludzi ma wrodzone poczucieporządkowania różnych przedmiotów i zgodzi się, że jabłku bliżej dopomarańczy niż do pomidora. To poczucie pozwala nam budowaćklastry - zarówno w bazach danych, jak również w codziennymżyciu. Definicja bliskości pozwala również dokonać prognozy.

Sąsiedztwo do predykcjiObiekty leżące blisko siebie powinny mieć taką samą wartośćpredykcyjną. Wystarczy zatem znać wartość wyjściową dla jednegoobiektu.





K-najbliższych sąsiadów do klasyfikacji

5

Zaufanie do predykcjiTym większa wiarygodność im bliższe sąsiedztwo lub jednorodnośćK-sąsiadów.





Grupowanie nienadzorowane (bez znanej odpowiedzi)

W danych nie ma predykcji. Grupowanie polega na obserwacjirozkładu danych w przestrzeni wejść i nadawanie tej samej etykietydla blisko sąsiadujących rekordów separowalnych od innych.





Grupowanie pozwala wychwycić odstające rekordy (outliers)

Dzięki grupowaniu można łatwo zidentyfikować odstające rekordy iwskazać przyczynę tego stanu rzeczy.





Różne wyniki grupowania

Według przychodu

6





Różne wyniki grupowania

Według wieku i koloru oczu

7





Problemy z grupowaniem

Który rekord do którego klastra? Algorytm podziału na klastrypowinien mieć określone zasady, jaka cecha ma większypriorytet i jaki atrybut jest ważniejszy.Kompromis liczności klastrów i jednorodności. Chcąc uzyskaćnajbardziej jednorodne klastry będziemy mieli tendencję dozwiększania liczby klastrów (aż do liczby rekordów). Natomiastchcąc uzyskać generalizację trzeba dla danego problemupróbować budować jak najmniej klastrów.





Porównanie klasyfikacji i grupowania

Klasyfikacja GrupowanieSłuży do prognozowania,jak również konsolidacji.

Używana głównie do konsolidowania danych(widok z góry na przestrzeń wejść) i zapisudo grup.

Przestrzeń jest zdefi-niowana przez problem(uczenie nadzorowane).

Przestrzeń jest zdefiniowana jako domyślnaprzestrzeń n-wymiarowa lub zdefiniowanaprzez użytkownika, lub jest predefiniowanąprzestrzenią dostarczoną przez wcześniejszedoświadczenia (uczenie bez nadzoru).

Używa metod metrycz-nych do określenia blisko-ści rekordów.

Może używać inne niemetryczne miary.





Grupowanie hierarchiczne

Metody hierarchiczne tworzą podziały na różne liczności klastrów.Istnieje możliwość decydowania o wygodnym doborze liczbyklastrów.

8





Metody grupowania hierarchiczne

Poprzez łączenie (aglomerative) — techniki grupowaniazaczynające od liczby klastrów równej liczbie rekordów.Klastry, które znajdują się najbliżej siebie są łączone ze sobątworząc drugi co do wielkości klaster. To połączenie jestkontynuowane aż do utworzenia jednego klastra zawierającychwszystkie rekordy, znajdującego się na szczycie hierarchii.Poprzez podziały (divisive) — techniki grupowania działającew odwrotnym kierunku niż powyższa technika. Zaczynają gdywszystkie rekordy są zgrupowane w jeden klaster, a następniedokonują podziału na mniej liczne grupy.





Grupowanie niehierarchiczne

Metody są zdecydowanie szybsze od hierarchicznych, ale wymagająod użytkownika podania:

pożądanej liczby klastrów lubminimalnej wymaganej bliskość dwóch rekordów w jednymklastrze.

Często wykonują się iteracyjnie startując z inną początkowąkonfiguracją rekordów, która wpływa na ostateczny podział orazdokonują w pętli poprawek na granicach klastrów.





Drzewo decyzyjne

Drzewo decyzyjne

Jest to model predykcyjny w formie drzewa. Każda gałąź jestodpowiedzią na pytanie o klasyfikację, o której decyzja zawarta jest wliściu.

9

9źródło:http://gautam.lis.illinois.edu/monkmiddleware/public/analytics/decisiontree.html





Cechy drzewa decyzyjnego

Dzieli się dane w każdym punkcie podziału bez utraty danych(łączna liczba pozycji w węźle rodzicu jest równa sumiezapisów zawartych w jej potomkach).Łatwo jest zrozumieć jak powstaje model (w przeciwieństwiedo sieci neuronowych czy klasycznej statystyki).Model zgodny z intuicją.Drzewo decyzyjne może być postrzegane jako tworzeniesegmentów (klientów, produktów, regionów sprzedaży).Segmenty są tworzone poprzez podobieństwo rekordówwynikające z ich przynależności do zmiennej predykcyjnej.





Zastosowania drzew decyzyjnych

Algorytmy budują pełne drzewo dla hipotezy. Odtwarzająsposób analizy problemu przez specjalistę. Dla dużychrzeczywistych problemów, mogą być bardzo złożone.Służą do eksploracji danych. Dokonuje się ona przez patrzeniena zmienną decyzyjną i zmienną podziału w drzewie. Np. Jeśliklient ma umowę




Algorytmy

ID3 — rozdziela atrybuty na podstawie miar informacyjnych(entropii).C4.5 — udoskonalenie ID3: zmniejszenie liczby obliczeń,możliwość użycia zmiennych ciągłych, praca z atrybutami zbrakującymi wartościami.CART (Classification And Regression Tree) — udoskonalenieC4.5. Stosuje „node impurity” do wskazania atrybutu podziałuw drzewie.Szczegóły: http://courtdecisionsandrulings.com/an-integrated-study-on-decision-tree-induction-algorithms-in-data-mining.html


http://courtdecisionsandrulings.com/an-integrated-study-on-decision-tree-induction-algorithms-in-data-mining.htmlhttp://courtdecisionsandrulings.com/an-integrated-study-on-decision-tree-induction-algorithms-in-data-mining.htmlhttp://courtdecisionsandrulings.com/an-integrated-study-on-decision-tree-induction-algorithms-in-data-mining.html

Co to jest eksploracja danych?Jak działa eksploracja danych?Metody w eksploracji danychStatystyka w eksploracji danychNajblizsze sasiedztwoKlasteryzacjaDrzewa decyzyjne

wykład7 Eksploracjadanych...

Documents

Transcript of wykład7 Eksploracjadanych...