Systemy Wspomagania Decyzji3 12.10.2010 1 nie samochód - 4 4 15.02.2011 5 tak fabryka 0 1200 5...

32
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie Systemy Wspomagania Decyzji Rodzaje danych oraz ich przetwarzanie Adam Krasuski Szkola Glówna Slużby Pożarniczej Zaklad Informatyki i Lączności January 29, 2014 Adam Krasuski Systemy Wspomagania Decyzji

Transcript of Systemy Wspomagania Decyzji3 12.10.2010 1 nie samochód - 4 4 15.02.2011 5 tak fabryka 0 1200 5...

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Systemy Wspomagania DecyzjiRodzaje danych oraz ich przetwarzanie

    Adam Krasuski

    Szkoła Główna Służby PożarniczejZakład Informatyki i Łączności

    January 29, 2014

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    1 Dane tabelaryczne

    2 Dane tekstowe

    3 Dane sensoryczne

    4 Dane multimedialne

    5 Podsumowanie

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Dane tabelaryczne

    ID data # GBA pożar obiekt piętro powierzchnia1 10.02.2012 3 tak blok IV 402 12.12.2012 1 tak dom I 1203 12.10.2010 1 nie samochód - 44 15.02.2011 5 tak fabryka 0 12005 13.12.2013 2 nie śmietnik - 0,46 12.11.2012 4 tak mieszkanie VII 387 17.12.2002 1 tak hala 0 12108 21.02.2001 5 tak garaż 0 1250

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Data i czas

    Różne formaty reprezentacji danych:

    14.12.2012

    14.12.12

    12.12.14

    14 grudnia 2012

    14 grudnia 2012 20:30

    Porównanie pomiędzy poszczególnymi składowymi:

    14.12.2012 – 01.12.1990 → grudzień14.10.2012 20:30 – 01.12.1990 20:12 → godzina 20-sta

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Data i czas

    Godzina zgłoszenia

    Czę

    stoś

    ć

    0 2 4 6 8 10 12 14 16 18 20 22 24

    0.00

    0.01

    0.02

    0.03

    0.04

    0.05

    0.06

    0.07 Prawdopodobieństwo przejścia

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Atrybuty numeryczne

    ID # GBA obiekt pow.1 5 fabryka 12002 1 hala 12103 5 garaż 1250

    d(1,2)

    d(1,3)

    d(2,3

    )

    d(1, 2) =√

    (x1 − x2)2 + (y1 − y2)2 = 10d(1, 3) =

    √(x1 − x3)2 + (y1 − y3)2 = 50

    d(2, 3) =√

    (x2 − x3)2 + (y2 − y3)2 = 40

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Normalizacja

    Wszystkie atrybuty opisujące obiekt mają taką samą wartość minimalnąjak i maksymalną – opisane są na tej samej skali.Przykład: dzielenie przez wartość maksymalną danego atrybutu.

    ID # GBA # GBA norm. obiekt pow. pow. norm.1 5 1 fabryka 1200 0,962 1 0,2 hala 1210 0,973 5 1 garaż 1250 1

    d norm(1, 2) = 0, 8d norm(1, 3) = 0, 04d norm(2, 3) = 0, 8

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Standaryzacja

    ●●●●●●

    ●●●

    ●●

    ●●

    1 2 3 4 5 6 7

    12

    34

    56

    7

    dane[,1]

    dane

    [,2]

    z = x−µσ

    ID # GBA # GBA stand. obiekt pow. pow. stand.1 5 0,58 fabryka 1200 -0,762 1 -1,15 hala 1210 -0,383 5 0,58 garaż 1250 1.13

    d stand(1, 2) = 1, 78d stand(1, 3) = 0, 89d stand(2, 3) = 2, 29

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Dyskretyzacja

    ID # GBA # GBA dyskr. obiekt pow. pow. dyskr.1 3 średnia blok 40 średnia2 1 mała dom 120 duża3 1 mała samochód 4 średnia4 5 duża fabryka 1200 b. duża5 2 małą śmietnik 0,4 mała6 4 średnia mieszkanie 38 średnia7 1 mała hala 1210 b. duża8 5 duża garaż 1250 b. duża

    # GBA: [1 , 2] → mała; [3, 4] → średnia; [5,∞) → duża;

    # powierzchnia: [0 , 2] → mała; [3, 40] → średnia; [41,150] → duża; [151,∞)→ bardzo duża;

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Dyskretyzacja

    0 5 10 15 20

    05

    1015

    I II III

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Atrybuty nominalne i porządkowe

    ID pożar obiekt piętro1 tak mieszkanie IV2 tak dom I3 nie samochód -4 tak fabryka 05 nie śmietnik -6 tak mieszkanie VII7 tak hala 08 tak garaż 0

    ID pożar o mieszkanie o dom o samochód o fabryka o śmietnik o hala o garaż piętro1 1 1 0 0 0 0 0 0 42 1 0 1 0 0 0 0 0 13 0 0 0 1 0 0 0 0 -4 1 0 0 0 1 0 0 0 05 0 0 0 0 0 1 0 0 -6 1 1 0 0 0 0 0 0 77 1 0 0 0 0 0 1 0 08 1 0 0 0 0 0 0 1 0

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Atrybuty nominalne i porządkowe

    pożar

    1

    1

    1

    2

    3

    4

    o_mieszkanie

    piętro

    (1,4,1)

    (1,1,0)

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Puste i błędne wartości

    ID pożar obiekt piętro1 tak mieszkanie IV2 tak dom I3 nie samochód4 tak fabryka 05 nie śmietnik brak6 nie wiem mieszkanie VII7 tak hala 08 tak garaż 0

    - zastąpienie średnią lub najczęściej występującą wartością- zbudowanie modelu wpisywania wartości- wartość losowa- usunięcie wiersza

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Dane tekstowe

    Przykład:Po dojechaniu na miejsce zdarzenia stwierdzono że w mieszkaniu na Ipiętrze doszło do wybuchu wskutek którego wypadło okno wraz zfutryną. Po dokładnym rozpoznaniu stwierdzono że w pomieszczeniułazienki doszło do pozaru pralki automatycznej z bliżej nieokreślonychprzyczyn.Pralkę ugaszono przy pomocy wody po uprzednim odłączeniunapięcia.W obrębie pralki znaleziono rozerwane opakowanie podezodorancie które mogło spowodować wybuch i powstanie faliuderzeniowej.Ze względu na niemożliwość jednoznacznego określeniaprzyczynu powstania eksplozji na miejsce zadysponowano ekipę policji zKP Białołęka której przekazano pomieszczenie wraz z pralką.Żadna zosób znajdujących się w lokalu nie odniosła obrażeń. Po zakończeniudziałan oddymiono klatkę schodową.Spaleniu uległa pralkaautomatyczna okopceniu ściany mieszkania.

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Reprezentacja dokument-słowo

    Term-document-matrix (TDM)

    słowo/raport Raport 1 Raport 2 Raport 3 Raport nafrykański 1 0 0 0agresywnie 1 0 0 0akademik 1 0 0 1akumulator 0 1 0 0albert 0 0 1 0alkoholowy 1 0 0 1alkomat 1 0 0 0altanka 0 0 1 0antywłamaniowy 0 0 1 0asfalt 0 1 0 0... 0 0 0 0

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Częstość słów

    Miary częstości słów:

    TF (term frequency) częstość słowa – liczba powtórzeń słowa wdokumencie do liczby wszystkich słów w dokumencie.

    IDF (inverse document frequency) odwrotna częstość dokumentu –liczba dokumentów w korpusie (zbiorze) do liczby dokumentów, wktórym dane słowo wystąpiło.

    TF-IDF = TF x IDF

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    TDM

    słowo/raport Raport 1 Raport 2 Raport 3 Raport nafrykański 0.01 0.00 0.04 0.00agresywnie 0.30 0.03 0.00 0.00akademik 0.20 0.40 0.00 0.30akumulator 0.00 0.00 0.00 0.00albert 0.07 0.00 0.00 0.70alkoholowy 0.20 0.50 0.00 0.00alkomat 0.10 0.00 0.00 0.00altanka 0.00 0.00 0.02 0.01antywłamaniowy 0.00 0.00 0.00 0.00asfalt 0.00 0.00 0.05 0.00

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Odmiana wyrazów oraz stop lista

    Po dojechaniu na miejsce zdarzenia stwierdzono że w mieszkaniu na Ipiętrze doszło do wybuchu wskutek którego wypadło okno wraz zfutryną. Po dokładnym rozpoznaniu stwierdzono że w pomieszczeniułazienki doszło do pożaru pralki automatycznej z bliżej nieokreślonychprzyczyn. Pralkę ugaszono przy pomocy wody po uprzednim odłączeniunapięcia.W obrębie pralki znaleziono rozerwane opakowanie podezodorancie które mogło spowodować wybuch i powstanie faliuderzeniowej. Ze względu na niemożliwość jednoznacznego określeniaprzyczyn powstania eksplozji na miejsce zadysponowano ekipę policji zKP Białołęka której przekazano pomieszczenie wraz z pralką. Żadna zosób znajdujących się w lokalu nie odniosła obrażeń. Po zakończeniudziałań oddymiono klatkę schodową.Spaleniu uległa pralka automatycznaokopceniu ściany mieszkania.

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Lematyzacja

    dojechać miejsce zdarzyć stwierdzić mieszkać piętro dojść wybuchwskutek wypaść okno futryna. dokładny rozpoznać stwierdzić łazienkadojść pożar pralka automatyczny blisko nieokreślony przyczyna. pralkaugasić pomoc woda uprzedni odłączyć napiąć. obrąb pralka znaleźćrozerwać opakować dezodorant móc spowodować wybuch powstać falauderzeniowy. wzgląd niemożliwość jednoznaczny określić powstaćeksplozja miejsce zadysponować ekipa policja kp przekazać pomieścićpralka. osoba znajdywać siebie lokal odnieść obrazić. zakończyć oddymićklatka schodowy. spalić ulec pralka automatyczny okopcieć ścianamieszkać.

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Lematyzacja cd.

    Lematyzacja - pojęcie to jest oznacza sprowadzenie grupy wyrazówstanowiących odmianę danego zwrotu do wspólnej postaci,umożliwiającej traktowanie ich wszystkich jako te samo słowo.

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Podobieństwo semantyczne

    dojechać miejsce zdarzyć stwierdzić mieszkać piętro dojść wybuchwskutek wypaść okno futryna. dokładny rozpoznać stwierdzić łazienkadojść pożar pralka automatyczny blisko nieokreślony przyczyna. pralkaugasić pomoc woda uprzedni odłączyć napiąć. obrąb pralka znaleźćrozerwać opakować dezodorant móc spowodować wybuch powstać falauderzeniowy. wzgląd niemożliwość jednoznaczny określić powstaćeksplozja miejsce zadysponować ekipa policja kp przekazać pomieścićpralka.

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Analiza ukrytych grup semantycznych

    słowo/raport Raport 1 Raport 2 Raport 3 Raport 4wybuch 1 0 0 1samochód 0 1 0 0eksplozja 1 0 0 0GBA 0 1 0 0wyrzut 0 0 1 1pożar 1 0 1 0gaśniczy 0 1 0 0

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Analiza ukrytych grup semantycznych

    Latent Semantic Analysis:

    słowo/raport pojęcie 1 pojęcie 2 pojęcie 3wybuch 0,25 -0,12 0,03samochód -0,11 0,19 -0,05eksplozja 0,13 -0,70 -0.02GBA -0,77 0,22 0,01wyrzut 0,02 -0,51 0,07pożar 0,00 0,01 -0.12gaśniczy -0,07 0,32 0.01

    7,11 0 00 2,31 00 0,00 0

    pojęcie/raport Raport 1 Raport 2 Raport 3 Raport 4pojęcie 1 0,31 -0,43 0,44 0,21pojęcie 2 -0,70 0,61 -0,24 -0,33pojęcie 3 -0,01 0,02 0,02 0,02

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Dane sensoryczne

    Film

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Dane sensoryczne

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Dane sensoryczne – analiza

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Dane sensoryczne – analiza cd.

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Dane multimedialne

    Multimedia (łac. multum + medium) – media, stanowiące połączeniekilku różnych form przekazu informacji np. tekstu, dźwięku, grafiki,animacji, wideo.

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Prosta metoda decyzyjna

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Analiza z użyciem ontologii

    Źródło: dzięki uprzejmości Hiranmay Gosh

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Analiza z użyciem ontologii cd.

    Źródło: dzięki uprzejmości Hiranmay Gosh

    Adam Krasuski Systemy Wspomagania Decyzji

  • Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne Podsumowanie

    Podsumowanie

    Różne typy danych mogą być użyte w procesie wspomagania decyzji.

    Dokonano przeglądu rodzaju danych oraz metod ich przetwarzaniado celów wspomagania decyzji.

    Aby dane mogły być wykorzystane przez modele wspomagającedecyzje muszą być przygotowane.

    Typ danych uzależnia metody jakie mogą być użyte do ichprzetworzenia.

    Adam Krasuski Systemy Wspomagania Decyzji