Politechnika Warszawska -...

Politechnika WarszawskaWydział Matematyki i Nauk Informacyjnych

PRACA DYPLOMOWA MAGISTERSKAMATEMATYKA

DRZEWA KLASYFIKACYJNEICH BUDOWA, PROBLEMY ZŁOŻONOŚCI

I SKALOWALNOŚCI

Autor:Mariusz Gromada

Promotor:Prof. dr hab. Jacek Koronacki

WARSZAWA, STYCZEŃ 2006

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Podpis promotora Podpis dyplomanta

Spis treści

Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1. Analiza dyskryminacyjna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2. Problem skal pomiarowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3. Model klasyfikacyjny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3.1. Zbiór przykładów i pojęcie atrybutu . . . . . . . . . . . . . . . . . . . 71.3.2. Rodzina obserwacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.3. Warstwa przykładu i przestrzeń obiektów . . . . . . . . . . . . . . . . 91.3.4. Warstwa klasy i pojęcie docelowe . . . . . . . . . . . . . . . . . . . . . 111.3.5. Rozkłady a priori i a posteriori . . . . . . . . . . . . . . . . . . . . . . 121.3.6. Przestrzeń ucząca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.7. Reguła dyskryminacyjna i przestrzeń hipotez . . . . . . . . . . . . . . 141.3.8. Odległość w przestrzeni hipotez . . . . . . . . . . . . . . . . . . . . . . 151.3.9. Problem dyskryminacyjny . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.4. Reguła Bayesa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.1. Klasyfikator bayesowski . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.2. Optymalność reguły bayesowskiej . . . . . . . . . . . . . . . . . . . . . 17

2. Drzewa klasyfikacyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2. Struktura drzewa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.3. Drzewo jako hipoteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4. Metody konstrukcji drzew . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.4.1. Konstrukcja testów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4.2. Kryteria jakości podziałów . . . . . . . . . . . . . . . . . . . . . . . . 262.4.3. Kryterium stopu i reguła decyzyjna . . . . . . . . . . . . . . . . . . . 292.4.4. Zstępująca konstrukcja drzewa . . . . . . . . . . . . . . . . . . . . . . 30

2.5. Problem nadmiernego dopasowania . . . . . . . . . . . . . . . . . . . . . . . . 302.5.1. Schemat przycinania . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.5.2. Przycinanie MDL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.6. Zalety i ograniczenia drzew klasyfikacyjnych . . . . . . . . . . . . . . . . . . . 34

3. Klasyfikator SLIQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2. Struktury danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.3. Sortowanie wstępne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4. Pozioma strategia wzrostu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3

SPIS TREŚCI SPIS TREŚCI

4. Klasyfikator SPRINT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2. Metoda podstawowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3. Metoda zrównoleglona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.4. Porównanie klasyfikatorów SPRINT i SLIQ . . . . . . . . . . . . . . . . . . . 44

5. Implementacja klasyfikatora SLIQ . . . . . . . . . . . . . . . . . . . . . . . . . 455.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.2. Środowisko uruchomieniowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.3. Analiza wyników . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.3.1. Skalowalność SLIQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

A. Topologia, prawdopodobieństwo i miara . . . . . . . . . . . . . . . . . . . . . 54A.1. Przestrzeń topologiczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54A.2. σ-ciało i σ-ciało zbiorów Borela . . . . . . . . . . . . . . . . . . . . . . . . . . 55A.3. Miara i miara probabilistyczna . . . . . . . . . . . . . . . . . . . . . . . . . . 56A.4. Funkcje mierzalne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

B. Teoria grafów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59B.1. Grafy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59B.2. Drzewa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4

Wstęp

Temat pracy dotyczy problemu dyskryminacji oraz budowy drzew klasyfikacyjnych w kon-tekście ich przydatności do rozwiązywania zadań o dużym wymiarze prób losowych i/lubdużym wymiarze wektora obserwacji, w których podstawowego znaczenia nabiera złożonośćobliczeniowa drzewa. Radzenie sobie z dużymi zbiorami danych wymaga konstrukcji specjal-nych technik sortowania danych w trakcie budowy drzewa, kodowania, organizacji wzrostui przycinania drzewa. Wymaga także zrównoleglenia obliczeń. Przedmiotem pracy jest sfor-mułowanie modelu analizy dyskryminacyjnej oraz analiza możliwych rozwiązań podanychzagadnień, wraz z implementacją jednego z nich. Autorskim wkładem do pracy są rozdziały1, 2 oraz 5.

W pierwszym rozdziale omawiam problem dyskryminacji pod nadzorem, nazywanej analiządyskryminacyjną. Autorskim wkładem jest wprowadzenie formalnego modelu klasyfikacyjne-go osadzonego w przestrzeni probabilistycznej wraz z twierdzeniami o numerach: 1.3.1, 1.3.2,1.4.1.

Rozdział drugi poświęcony jest budowie drzew klasyfikacyjnych. Szczególną uwagę zwracamna problem złożoności i skalowalności. Autorskim wkładem jest wprowadzenie formalnej defi-nicji drzewa klasyfikacyjnego w oparciu o podstawy teorii grafów oraz o model klasyfikacyjnyprzedstawiony w rozdziale pierwszym. Podaję oraz dowodzę twierdzenia: 2.4.1 i 2.3.1. Dodat-kowo omawiam nowatorską technikę przycinania drzew wykorzystującą zasadę minimalnejdługości kodu, MDL (M. Mehta, J. Rissanen, R. Agrawal, 1995).

W rozdziale trzecim i czwartym skupiam się na przedstawieniu indukcji drzew decyzyjnychmetodą SLLIQ (M. Mehta, R. Agrawal, J. Rissanen, 1996) oraz SPRINT (J.C. Shafer, R.Agrawal, M. Mehta, 1996).

Rozdział piąty prezentuje implementację klasyfikatora SLIQ wraz z implementacją przyci-nania drzew metodą MDL. Implementację przeprowadziłem we współpracy z InstytutemPodstaw Informatyki Polskiej Akademii Nauk w ramach rozwoju pakietu „dmLab”. Tekstrozdziału zawiera również analizę złożoności czasowej i skalowalności implementacji.

Pracę kończą dodatki A i B, w których zebrałem podstawowe pojęcia wykorzystane w tekściez topologii, teorii miary, probabilistyki oraz teorii grafów.

5

Rozdział 1

Analiza dyskryminacyjna

1.1. Wprowadzenie

Postęp informatyzacji życia codziennego umożliwił przechowywanie i przetwarzanie olbrzy-mich ilości danych1 oraz odkrywanie ukrytych w nich zależności2. Nowoczesnych metod anali-zy danych dostarcza współczesna statystyka matematyczna. Szczególnie praktycznie znacze-nie mają metody klasyfikacyjne. Klasyfikacja jest dziś bardzo szeroko wykorzystywana przezświat nauki, biznesu, przemysłu oraz medycyny. Klasyfikacja (w skrócie) polega na poszuki-waniu najlepszego możliwego rozdzielenia obserwacji z różnych populacji. Wyróżnia się dwiemetody klasyfikacji. Pierwsza z nich to klasyfikacja bez nadzoru, nazywana analizą skupień.Druga, wykorzystująca próby uczące, określana jest mianem klasyfikacji pod nadzorem lubteż analizą dyskryminacyjną. W poniższej pracy ograniczamy się do przypadku drugiego.

Próbę uczącą stanowić może każdy zbiór obserwacji ze znanym podziałem na populacje (kla-sy). Dyskryminacja poszukuje najlepszej reguły klasyfikacyjnej, która każdej nowej obserwa-cji (z nieznaną przynależnością do populacji) przypisze pewną klasę. W dalszej części pracykonstruujemy precyzyjny model klasyfikacyjny, wyróżniając w nim rodzinę reguł najefektyw-niejszych.

1.2. Problem skal pomiarowych

W teorii pomiaru rozróżnia się 4 podstawowe skale pomiaru, wprowadzone przez Stevensa(1959), uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa (rangowa),przedziałowa (interwałowa), ilorazowa (stosunkowa). Podstawowe własności skal pomiaruprzedstawia tabela 1.1.

Przyrządy, dokonujące pomiarów w praktyce, posiadają skończoną dokładność. Wykorzystu-jąc to spostrzeżenie, konstrukcję modelu klasyfikacyjnego ograniczyliśmy do rozpatrywaniaprzeliczalnych przestrzeni możliwych wartości pomiarów.

1Przechowywanie, dostarczenie i przetwarzanie danych opisuje tematyka hurtowni danych (ang. Data Wa-rehousing).2Odkrywaniem zależności w zbiorach danych zajmuje się tematyka eksploracji danych (ang. Data Mining).

6

Analiza dyskryminacyjna 1.3 Model klasyfikacyjny

Typ skali Dopuszczalne relacjeDopuszczalne operacje

arytmetyczne

Nominalna

równości, różności zliczanie zdarzeń (liczba relacji równości, różności)

Porządkowa

powyższe oraz większości i mniejszości

zliczanie zdarzeń (liczba relacji równości, różności, większości, mniejszości)

Przedziałowa

powyższe oraz równości różnic i przedziałów

powyższe oraz dodawanie i odejmowanie

Ilorazowa

powyższe oraz równości ilorazów

powyższe oraz mnożenie i dzielenie

Tabela 1.1: Podstawowe własności skal pomiarowych

1.3. Model klasyfikacyjny

Model, jako ogólne (teoretyczne) odzwierciedlenie różnych aspektów rzeczywistości, jest struk-turą opartą o pewien system założeń (aksjomatów), pojęć i relacji między nimi. Mianem wła-sności modelu określamy każdą logiczną (najczęściej sprawdzalną empirycznie) konsekwencjęsformułowanych wcześniej aksjomatów. Poniżej przedstawiamy konstrukcję modelu klasyfi-kacyjnego, który umieszcza klasyfikację z próbą uczącą w szeroko rozumianej probabilistyce.Wykorzystując przestrzenie topologiczne, mierzalne i probabilistyczne, wprowadzamy szeregnowych definicji, zwracając przy tym uwagę na kwestie szczególnie istotne. Często odnosimysię do dodatku „A”, który w sposób podstawowy omawia materiał zapożyczony z innychdziałów matematyki.

1.3.1. Zbiór przykładów i pojęcie atrybutu

Niech Xk, k = 1, . . . , p będzie dowolną rodziną niepustych zbiorów.

Definicja 1.3.1 Zbiór:X := X1 ×X2 × . . .×Xp (1.1)

nazywamy zbiorem przykładów. Każdy element zbioru X nazywamy krótko przykładem.

Z każdym zbiorem Xk wiążemy funkcję:

Ak : X → Xk gdzie X 3 x = (x1, x2, . . . , xp) 7→ xk ∈ Xk (1.2)

Innymi słowy ∀ x ∈ X, ∀ k ∈ 1, . . . , p mamy Ak(x) = xk, oraz Ak(X) = Xk

Definicja 1.3.2 Przekształcenie Ak nazywamy k− tym atrybutem w X. Zbiór Ak(X) = Xknazywamy zbiorem wartości atrybutu Ak.

Definicja 1.3.3 Jeżeli zbiór Xk jest skończony i nieuporządkowany, to atrybut Ak nazywamynominalnym. W przypadku przeliczalnego i uporządkowanego zbioru Xk mówimy o porządko-wym atrybucie Ak.

7

1.3 Model klasyfikacyjny Analiza dyskryminacyjna

Atrybut nominalny może być atrybutem porządkowym, podobnie pewnego rodzaju atrybutyporządkowe można traktować jako atrybuty nominalne. Zbliżone pojęcie atrybutu wprowa-dzone jest w [2].

Przykładem atrybutu nominalnego może być kolor (zielony, żółty,. . .). Atrybutem porządko-wym jest np. wzrost podany w centymetrach.

1.3.2. Rodzina obserwacji

Zbiór X określa wszystkie możliwe wartości ustalonego zestawu atrybutów. Każdy elementx = (x1, x2, . . . , xp) ∈ X, gdzie xk ∈ Xk jest wartością atrybutu Ak, nazwaliśmy przykładem.Przykład jest elementem unikalnym w X. Dalej wprowadzimy pewną rodzinę opartą na X,która pozwoli myśleć o przykładach w kategoriach rozkładów.

Definicja 1.3.4 Rodziną obserwacji nazywamy każdą niepustą rodzinę przykładów

X I :=xii∈I (1.3)

gdzie I jest zbiorem indeksów oraz xi ∈ X dla każdego i ∈ I.

X I jest rodziną elementów ze zbioru X indeksowaną zbiorem indeksów I. Pozwala to zamiastxi ∈ X I pisać krótko i ∈ I (myślimy o indeksie, a nie o konkretnym przykładzie z rodziny).Ponadto dla różnych i1, i2 ∈ I może zachodzić xi1 = xi2 . Przykład należący do rodzinyobserwacji nie musi być w niej unikalny (przypomnijmy, że zbiór przykładów taką własnośćposiada).

Definicja 1.3.5 Zbiór

X :=⋃i∈Ixi (1.4)

nazywamy zbiorem przykładów rodziny obserwacji X I .

Wniosek 1.3.1 X ⊆ X.

Przykład to inaczej pewien zestaw wartości atrybutów. Atrybuty w rzeczywistości służą doopisu obiektów. Różne obiekty, opisywane tym samym zestawem atrybutów, mogą być iden-tyczne w sensie wartości atrybutów, ale to nadal różne obiekty (takie obiekty opisuje ten samprzykład). Wyobraźmy sobie dwie osoby, w wieku 30 lat, z wykształceniem wyższym, któ-re pochodzą z Warszawy. Jeżeli przyjmiemy, że do opisu osób używamy zestawu atrybutów(wiek,wykształcenie,pochodzenie), to jeden przykład (30,wyższe,Warszawa) będzie odpowia-dał dwóm różnym osobom. Rodzina obserwacji umożliwia odzwierciedlenie takiej sytuacji (wprzeciwieństwie do zbioru przykładów).

Definicja 1.3.6 Obiektem (indeksem obserwacji) nazywamy każdy indeks i ∈ I należący dozbioru indeksów rodziny obserwacji X I . Zbiór I nazywamy zbiorem obiektów.

Podkreślmy, że każdy obiekt i ∈ I jest opisany przykładem xi ∈ X.

8


1.3.3. Warstwa przykładu i przestrzeń obiektów

Definicja 1.3.7 Warstwą przykładu x ∈ X w zbiorze obiektów I nazywamy zbiór:

Ix :=i ∈ I : xi = x

(1.5)

Warstwa przykładu x ∈ X jest podzbiorem zbioru obiektów I opisanych tym samym przy-kładem x.

Wniosek 1.3.2 Rodzina wszystkich warstw IX := Ixx∈X wyznacza podział I na niepusteparami rozłączne podzbiory.

Rozważmy przestrzeń topologiczną (I,T), gdzie T dowolna topologia (def. A.1.1) w I za-wierająca rodzinę IX (IX ⊆ T). Niech dalej B oznacza σ-ciało borelowskie (def. A.2.2) wprzestrzeni (I,T).

Definicja 1.3.8 Jeżeli P jest taką miarą probabilistyczną na (I,B), że:

∀ x ∈ X P (Ix) > 0

to przestrzeń probabilistycznąI :=

(I,B, P

)nazywamy przestrzenią obiektów.

Warstwa każdego przykładu jest zbiorem mierzalnym z niezerowym prawdopodobieństwem.Fakt ten oznacza niezerowe prawdopodobieństwo wystąpienia każdego zestawu atrybutów zezbioru X w przestrzeni obiektów (inaczej w I każdego przykładu x ∈ X ). Powyższe założeniapozwalają wyprowadzić pewne bardzo ważne twierdzenie.

Twierdzenie 1.3.1 Rodzina warstw IX w przestrzeni obiektów I jest co najwyżej przeliczal-na. Formalnie: ∣∣IX ∣∣ ¬ ℵ0Dowód: Twierdzenie udowodnimy nie wprost zakładając, że istnieje przestrzeń obiektów I,w której zachodzi

∣∣IX ∣∣ > ℵ0.Rodzina IX określa podział zbioru obiektów I na niepuste parami rozłączne podzbiory. Zdefinicji przestrzeni obiektów wiemy, że:

∀ x ∈ X P (Ix) > 0

Niech

Xn :=x ∈ X | P (Ix) >

1n

Oczywiście

∞⋃n=1

Xn = X

Zbór X jest równoliczny z rodziną IX , z założenia jest więc nieprzeliczalny. Musi zatemistnieć k ∈ N, że Xk jest nieskończony: |Xk| ℵ0. W szczególności można wybrać ciągróżnych przykładów: x1, x2, . . . ∈ Xk. Z definicji zbioru Xk wynika, że:

∀ n ∈ N P (Ixn) >1k

9


Zauważmy, że rodzinaIxn

n∈N jest przeliczalną rodziną zbiorów parami rozłącznych. Zatem:

1 = P (I) ∞∑n=1

P (Ixn) >∞∑n=1

1k=∞

Założenie okazało się nieprawdziwe, co kończy dowód.

Twierdzenie 1.3.1 daje pewien obraz struktury przestrzeni obiektów. Wykazaliśmy, że zbiórprzykładów rodziny X I , która wchodzi w skład przestrzeni obiektów I, może być co najwyżejprzeliczalny. Oczywiście sama rodzina X I (a zatem i zbiór obiektów I) może być nieprzeli-czalna.

Definicja 1.3.9 Warstwą atrybutu Ak, k ∈ 1, . . . , p dla wartości w ∈ Xk nazywamy zbiór

Awk :=i ∈ I : Ak(xi) = w

(1.6)

Warstwa Awk reprezentuje obiekty, dla których wartość atrybutu Ak wynosi w ∈ Xk. Pod-kreślmy, że warstwa atrybutu może być zbiorem pustym.

Zauważmy, żeAwk =

⋃x∈X , Ak(x)=w

Ix (1.7)

Wniosek 1.3.3 Korzystając z aksjomatu (T3) topologii o „otwartości unii dowolnej rodzinyzbiorów otwartych” (def. A.1.1) stwierdzamy, że warstwa Awk , k ∈ 1, . . . , p atrybutu Ak dlawartości w ∈ Xk jest zbiorem mierzalnym (Awk ∈ B) w przestrzeni obiektów I.

Dzięki powyższemu możliwe jest określenie prawdopodobieństwa przyjęcia wartości w ∈ Xkprzez atrybut Ak:

P(Ak = w

):= P

(Awk)

(1.8)

Definicja 1.3.10 Niech Y będzie dowolnym zbiorem. Funkcję f : I → Y , spełniającą waru-nek:

∀ x ∈ X ∀ i1, i2 ∈ Ix f(i1) = f(i2) (1.9)

nazywamy warstwami stałą.

Warstwami stała funkcja f przyporządkowuje obiektom z tej samej warstwy dokładnie jedenelement ze zbioru Y. Można powiedzieć, że f bezpośrednio działa na przykładach obiektów(jest uzależniona jedynie od zestawu atrybutów opisujących obiekt).

Twierdzenie 1.3.2 Dla dowolnej funkcji h : X → R mierzalna jest funkcja:

f : I → R gdzie I 3 i 7→ h(xi) ∈ R

Dowód: Należy pokazać (def. A.4.1), że:

∀ a ∈ R i ∈ I : f(i) < a ∈ B

Funkcja f jest warstwami stała, tzn. dla każdego x ∈ X zachodzi:

∀ i1, i2 ∈ Ix f(i1) = h(xi1) = h(xi2) = f(i2)

10


i ∈ Ix : f(i) < a = Ix ∨ i ∈ Ix : f(i) < a = ∅

Z definicji rodziny IX , wiemy, że⋃x∈XIx = I. Istnieje więc S ⊆ X , że:

i ∈ I : f(i) < a =⋃x∈Xi ∈ Ix : f(i) < a =

⋃x∈SIx

Przypomnijmy, że IX jest rodziną zbiorów otwartych w przestrzeni obiektów (formalnie IX ⊆T). Zatem ze zbiorów otwartych składać się musi rodzina:

Ixx∈S ⊆ IX

Unia dowolnej rodziny zbiorów otwartych jest zbiorem otwartym, zatem:

i ∈ I : f(i) < a =⋃x∈SIx ∈ T ⊆ B

Funkcja f jest więc mierzalna.

Wniosek 1.3.4 Każda funkcja warstwami stała w I, o wartościach ze zbioru R liczb rzeczy-wistych, jest mierzalna w przestrzeni obiektów I.

Powyższe twierdzenie jest prawdziwe dzięki specjalnej konstrukcji topologii T w I, którazakłada, że warstwa każdego przykładu jest zbiorem otwartym.

1.3.4. Warstwa klasy i pojęcie docelowe

Niech będzie dany zbiór C = 1, . . . , g, gdzie g ∈ N. Zbiór C nazywamy zbiorem klas(etykiet). W dalszej części każdemu obiektowi z I przypiszemy dokładnie jedną klasę z C(przydzielimy go więc do pewnej populacji).

Definicja 1.3.11 Funkcję mierzalną E : I → C spełniającą warunek:

E(I) = C

nazywamy etykietą docelową przestrzeni obiektów I.

Zwróćmy uwagę, że etykieta docelowa działa bezpośrednio na zbiorze obiektów I, klasyfikującobiekt i ∈ I do klasy E(i) ∈ C. Posiadamy jedynie „indeks” i ∈ I obiektu, oraz wartości jegoatrybutów (przykład) xi ∈ X . Zauważmy, że etykieta E pośrednio działa na przykładzie xiprzyporządkowanym do obiektu i (jej wartość może być uzależniona od przykładu). Ponadtomożliwa jest sytuacja, gdzie różne obiekty opisane tym samym przykładem, klasyfikowane sądo różnych klas lub nie.

Definicja 1.3.12 Warstwą klasy k ∈ C w przestrzeni obiektów I nazywamy zbiór:

Ik := i ∈ I : E(i) = k (1.10)

Warstwa klasy k ∈ C jest zbiorem obiektów pochodzących z tej samej klasy k.

11


Definicja 1.3.13 Warunkową warstwą klasy k ∈ C (pod warunkiem, że znamy przykładx ∈ X ) w przestrzeni obiektów I, nazywamy zbiór:

Ikx := Ik ∩ Ix = i ∈ Ix : E(i) = k (1.11)

Warunkowa warstwa klasy k ∈ C (pod warunkiem, że znamy przykład x ∈ X ) jest zbioremtych obiektów, pochodzących z tej samej klasy k, które opisuje wspólny przykład x.

Wniosek 1.3.5 Zbiory Ik i Ikx są mierzalne, formalnie Ik, Ikx ∈ B. Zachodzą ponadto rów-nośći: ⋃

x∈XIx = I (1.12)

⋃k∈CIk = I (1.13)

⋃x∈XIkx = Ik (1.14)

⋃k∈CIkx = Ix (1.15)

Warstwa klasy jest mierzalna ze względu na mierzalność etykiety docelowej E (def. A.4.1, tw.A.4.2, własność w3). Mierzalność warunkowej warstwy klasy wynika z mierzalności przecięciadwóch zbiorów mierzalnych (def. A.2.1, tw. A.2.1, własność w4).

Definicja 1.3.14 Każdą etykietę docelową E : I → C, dla której zachodzi:

∀ k ∈ C P (Ik) > 0

nazywamy pojęciem docelowym w przestrzeni obiektów I.

1.3.5. Rozkłady a priori i a posteriori

Zauważmy, że pojęcie docelowe wprowadza w zbiorze przykładów trzy rozkłady, zwane dalejprawdopodobieństwami a priori3 i a posteriori4:

Definicja 1.3.15 Rozkładami a priori wprowadzonymi przez pojęcie docelowe nazywamy:

1. πk := P (Ik) - prawdopodobieństwo klasy k,

2. p(x|k) := P (Ix|Ik) =P (Ix ∩ Ik)P (Ik)

=P (Ikx)P (Ik)

- prawdopodobieństwo że x pod warunkiem,

że klasa k.

Definicja 1.3.16 Rozkładem a posteriori wprowadzonym przez pojęcie docelowe nazywamyprawdopodobieństwo, że ustalony przykład x pochodzi z klasy k:

p(k|x) := P (Ik|Ix) =P (Ik ∩ Ix)P (Ix)

=P (Ikx)P (Ix)

3W języku łacińskim - z założenia.4W języku łacińskim - z następstwa.

12


Stwierdzenie 1.3.1 Zachodzą równości: ∑k∈Cπk = 1 (1.16)

∀ k ∈ C∑x∈Xp(x|k) = 1 (1.17)

∀ x ∈ X∑k∈Cp(k|x) = 1 (1.18)

Dowód: Wykorzystując podstawowe własności miary probabilistycznej:

(1.16) ∑k∈Cπk =

∑k∈CP(Ik)= P

( ⋃k∈CIk)= P (I) = 1

(1.17) ustalmy k ∈ C

∑x∈Xp(x|k) =

∑x∈X

P (Ikx)P (Ik)

=∑x∈X P (Ikx)P (Ik)

=P (⋃x∈X Ikx)P (Ik)

=P (Ik)P (Ik)

= 1

(1.18) analogicznie do (1.17).

Stwierdzenie 1.3.2 Z twierdzenia Bayesa (A.3.4) wynika, że:

p(k|x) = πkp(x|k)∑r∈Cπrp(x|r)

(1.19)

Rozkład a posteriori jest więc jednoznacznie wyznaczony przez rozkłady a priori. Jest to bar-dzo ważny wniosek, który w dalszej części pozwoli na konstrukcję pewnej specjalnej rodzinyklasyfikatorów5.

1.3.6. Przestrzeń ucząca

Przypomnijmy, że w przestrzeni obiektów I z pojęciem docelowym E każdy obiekt i ∈ I po-chodzi z klasy E(i) ∈ C. W praktyce nigdy nie znamy całej przestrzeni obiektów. Najczęściejposiadamy „skończoną” informację, która składa się z podrodziny przykładów opisującychpewne obiekty (ogólnie nieznane), wraz z listą klas, do których te obiekty przynależą. Możnapowiedzieć, że dane jest obcięcie pojęcia docelowego do pewnego podzbioru zbioru obiektów,co w praktycznym sensie odzwierciedla jedynie pośrednią zależność pojęcia docelowego odprzykładu. Dalej skoncentrujemy się na uogólnieniu przedstawionego powyżej, intuicyjnegopojęcia, określanego mianem zbioru uczącego.

Definicja 1.3.17 Niech będzie dana przestrzeń obiektów I = (I,B, P ) wraz z pojęciem do-celowym E : I → C. Każdą parę

(S, ES

)gdzie S ∈ B i P (S) > 0, a ES : S → C jest funkcją

daną wzorem ES := E|S (obcięcie E do S) nazywamy zbiorem uczącym w przestrzeni obiektówI. Funkcję ES nazywamy pojęciem indukowanym do zbioru S.5Rodzina klasyfikatorów bayesowskich przy znanych estymatorach prawdopodobieństw a priori.

13


Idea klasyfikacji opiera się na tym, aby na podstawie podanego zbioru uczącego, możliwebyło uogólnienie (rozszerzenie) pojęcia indukowanego do etykiety jak najbliższej tej, którareprezentuje pojęcie docelowe.

Definicja 1.3.18 Rodzinę zbiorów uczących:

L(I, E) =(S, ES

): S ∈ B, P (S) > 0

(1.20)

nazywamy przestrzenią uczącą w przestrzeni obiektów I z pojęciem docelowym E.

W dalszych rozważaniach przestrzeń uczącą będziemy oznaczamy tylko symbolem L.

1.3.7. Reguła dyskryminacyjna i przestrzeń hipotez

Wspomnieliśmy wcześniej o idei uogólnienia (rozszerzenia na podstawie zbioru uczącego) po-jęcia indukowanego do etykiety jak najbliższej pojęciu docelowemu. Poniżej podamy definicję,która w naturalny sposób wprowadza takie uogólnienie.

Definicja 1.3.19 Regułą dyskryminacyjną (klasyfikatorem) nazywamy każdą funkcję

d : X × L → C, gdzie X × L 3 (x,S) 7→ d(x,S) ∈ C (1.21)

Definicja 1.3.20 Funkcję

dI : I × L → C, gdzie I × L 3 (i,S) 7→ d(xi,S) ∈ C (1.22)

nazywamy przedłużeniem klasyfikatora d ze zbioru przykładów X na przestrzeń obiektów I.

Reguła dyskryminacyjna działa (pod warunkiem ustalenia zbioru uczącego) na zbiorze przy-kładów (nie obiektów). Czyli dla dowolnego S ∈ L mamy:

d( · ,S) : X → C

Można powiedzieć, że pod warunkiem podania zbioru uczącego S klasyfikator d klasyfikujeprzykład x ∈ X do klasy d(x,S) ∈ C (mówimy wtedy, że zbiór uczący S uczy klasyfikator d).Klasyfikator d potrafi klasyfikować obiekty (działać na obiektach) poprzez swoje przedłużeniedI na przestrzeń obiektów I.

Stwierdzenie 1.3.3 Dla dowolnego zbioru uczącego S ∈ L funkcja:

dI( · ,S) : I → C

jest funkcją mierzalną.

Uzasadniając powyższe stwierdzenie, wystarczy zauważyć, że przedłużenie dI klasyfikatorad jest funkcją warstwami stałą (def. 1.3.10, tw. 1.3.2) w I (pod warunkiem ustalenia zbioruuczącego S).

Definicja 1.3.21 Przestrzenią hipotez nazywamy zbiór

H(X , C) :=d( · ,S) : X → C : S ∈ L, d − klasyfikator

(1.23)

14


Oznaczenie H(X , C) sugeruje utratę bezpośredniego związku pomiędzy pojęciem hipotezy aprzestrzenią obiektów. W dalszej części zamiast H(X , C) pisać będziemy H

Stwierdzenie 1.3.4 Zachodzi równość: H(X , C) = XC

Dowód: Z definicji przestrzeni hipotez bezpośrednio wynika, żeH(X , C) ⊆ XC . Aby pokazać,że XC ⊆ H(X , C) weźmy dowolną funkcję h ∈ XC . Dla każdego x ∈ X , S ∈ L określamy:

d(x,S) := h(x)

Oczywiście d : X × L → C jest klasyfikatorem ⇒ h ∈ H(X , C).

Definicja 1.3.22 Przedłużeniem hipotezy h ∈ H na przestrzeń obiektów I nazywamy funk-cję:

hI : I → C, gdzie I 3 i 7→ h(xi) ∈ C (1.24)

Każda hipoteza klasyfikuje przykłady. Dla każdej hipotezy istnieje klasyfikator (wraz ze zbio-rem uczącym) ją generujący. Hipoteza poprzez swoje przedłużenie na przestrzeń obiektówklasyfikuje również obiekty.

Wniosek 1.3.6 Przedłużenie hI hipotezy h jest funkcją mierzalną.

Powyższy wniosek wynika z twierdzenia 1.3.2. Przedłużenie hipotezy klasyfikuje obiekty opi-sane tym samym przykładem do wspólnej klasy (jest funkcją warstwami stałą).

1.3.8. Odległość w przestrzeni hipotez

Mając zebrane wszystkie możliwe hipotezy w jednym miejscu chcielibyśmy móc ocenić ich„jakość” (inaczej miarę błędnych klasyfikacji). W tym celu wprowadzimy odległość w prze-strzeni hipotez, która pozwoli porównać dwie dowolne hipotezy. Podamy również definicjęodległości hipotezy od pojęcia docelowego.

Definicja 1.3.23 Niech g, h ∈ H oznacza dwie dowolne hipotezy. Różnicą hipotez g i hnazywamy zbiór:

g \ h :=i ∈ I : gI(i) 6= hI(i)

(1.25)

gdzie gI, hI są przedłużeniami hipotez g, h na przestrzeń obiektów I.

Stwierdzenie 1.3.5 g \ h ∈ B dla dowolnych hipotez g, h ∈ H.

Przedłużenie dowolnej hipotezy jest funkcją mierzalną w I. Uzasadnienie kończymy podająctwierdzenia A.4.2, własność (w4).

Definicja 1.3.24 Odległością hipotez g, h ∈ H nazywamy prawdopodobieństwo:

P(g \ h

)Tak zdefiniowana odległość ma kilka naturalnych własności:

1. P(h \ h

)= 0 dla każdej hipotezy h ∈ H

2. P(g \ h

)= P

(h \ g

)dla dowolnych g, h ∈ H

15


3. odległość nieprzecinających się hipotez wynosi 1.

Definicja 1.3.25 Różnicą dowolnej hipotezy h ∈ H i pojęcia docelowego E nazywamy zbiór:

E \ h :=i ∈ I : E(i) 6= hI(i)

(1.26)

Na podstawie mierzalności funkcji E i mierzalności przedłużenia hI hipotezy h stwierdzamy,że E \ h ∈ B. Niech będzie dany przykład x ∈ X . Ix jest zbiorem obiektów opisanychprzykładem x. Przedłużenie hI hipotezy h klasyfikuje wszystkie obiekty z warstwy Ix do tejsamej klasy h(x). Łatwo zatem o wniosek, że warunkowa warstwa Ih(x)x nie jest obarczonabłędem klasyfikacji, gdzie poza nią błąd jest z pewnością popełniany. Istotnie:

Ih(x)x =i ∈ Ix : E(i) = h(x)

Wniosek 1.3.7 Zachodzą równości:

E \ h = I \⋃x∈XIh(x)x =

⋃x∈XIx \ Ih(x)x

Otrzymaliśmy dość klarowny obraz struktury zbioru będącego różnicą pojęcia docelowego idowolnej hipotezy.

Definicja 1.3.26 Błędem rzeczywistym hipotezy h ∈ H nazywamy prawdopodobieństwo:

P(E \ h)

Można powiedzieć, że błąd rzeczywisty hipotezy h reprezentuje jej odległość od pojęcia do-celowego.

Definicja 1.3.27 Błędem indukowanym (błędem próby) hipotezy h ∈ H na zbiorze uczącym(S, ES) ∈ L nazywamy prawdopodobieństwo warunkowe:

P(E \ h

∣∣ S) = P(i ∈ S : ES(i) 6= hI(i))

1.3.9. Problem dyskryminacyjny

Wyznaczenie błędu rzeczywistego hipotezy najczęściej w praktyce nie jest możliwe (pojęciedocelowe jest na ogół nieznane). Posiadamy jedynie zbiór uczący będący podzbiorem zbioruobiektów wraz z pojęciem indukowanym do tego zbioru. Pozwala to na estymację błędurzeczywistego hipotezy i często na dokładne wyznaczenie jej błędu indukowanego.

Definicja 1.3.28 Zadanie wyboru klasyfikatora d nazywamy problemem dyskryminacyjnymw przestrzeni obiektów I ze zbiorem uczącym S.

Idea klasyfikacji sprowadza się do poszukiwania hipotezy jak najbardziej zbliżonej do poję-cia docelowego. Dalej skoncentrujemy się na podaniu hipotezy minimalizującej odległość odpojęcia docelowego.

P(E \ h

)−−→h∈H min (1.27)

16

Analiza dyskryminacyjna 1.4 Reguła Bayesa

1.4. Reguła Bayesa

W praktyce rozkłady a priori (wyznaczone przez pojęcie docelowe) nie są znane. Posiadamyjedynie informacje o pojęciu indukowanym do zbioru uczącego, co pozwala na estymację. Po-niżej przedstawiamy klasyfikator, którego konstrukcja umożliwia wykorzystanie estymatorówprawdopodobieństw a priori.

1.4.1. Klasyfikator bayesowski

Przy znanym rozkładzie a posteriori p(k|x) najbardziej naturalną jest hipoteza, która klasy-fikuje przykład x do klasy k z maksymalnym prawdopodobieństwem p(k|x) (def. 1.3.16).

Definicja 1.4.1 Funkcję Eb : X → C daną wzorem:

Eb(x) := argmaxkp(k|x) (1.28)

nazywamy etykietą bayesowską. W przypadku istnienia kilku klas z maksymalnym prawdopo-dobieństwem a posteriori, etykieta bayesowska wybiera jedną z nich (dowolną).

Etykieta bayesowska jest oczywiście hipotezą. Formalnie: Eb ∈ H.

Wniosek 1.4.1 Z maksymalizacji prawdopodobieństwa a posteriori p(k|x) wynika:

∀ x ∈ X ∀ k ∈ C P(IEb(x)x

) P (Ikx)

Wniosek 1.4.2 Wybór takiej klasy k, że maksymalne jest prawdopodobieństwo p(k|x), rów-noważny jest wyborowi takiego k, że maksymalna jest wartość wyrażenia πkp(x|k) (stw. 1.3.2).Ogólnie zachodzi:

Eb(x) := argmaxkπkp(x|k) (1.29)

Hipoteza to inaczej „nauczony klasyfikator”. W przypadku reguły bayesowskiej zbiór uczącywykorzystywany jest do estymacji rozkładów a priori (wspomnieliśmy wcześniej, że rozkładyte w praktyce nie są znane).

1.4.2. Optymalność reguły bayesowskiej

Poniżej formułujemy twierdzenie, które można nazwać fundamentalnym w analizie dyskry-minacyjnej.

Twierdzenie 1.4.1 Etykieta bayesowska minimalizuje odległość od pojęcia docelowego.

Dowód: Należy pokazać, że:

∀ h ∈ H P (E \ h) P (E \ Eb)

Ustalmy więc h ∈ H. Przywołując wniosek 1.3.7 zapisujemy:

E \ h =⋃x∈XIx \ Ih(x)x E \ Eb =

⋃x∈XIx \ IE

b(x)x

17

1.4 Reguła Bayesa Analiza dyskryminacyjna

Z przeliczalności zbioru X (tw. 1.3.1) i przeliczalnej addytywności miary (def. A.3.1, własnośćµ3) otrzymujemy:

P (E \ h) =∑x∈XP(Ix \ Ih(x)x

)=∑x∈X

(P (Ix)− P

(Ih(x)x

))

P (E \ Eb) =∑x∈XP(Ix \ IE

b(x)x

)=∑x∈X

(P (Ix)− P

(IEb(x)x

))Wniosek 1.4.1 stwierdza bezpośrednio:

P(Ih(x)x

)¬ P

(IEb(x)x

)Zatem:

P (Ix)− P(Ih(x)x

) P (Ix)− P

(IEb(x)x

)∑x∈X

(P (Ix)− P

(Ih(x)x

))∑x∈X

(P (Ix)− P

(IEb(x)x

))Otrzymujemy więc tezę:

P (E \ h) P (E \ Eb)

Pokazaliśmy istnienie jednoznacznie wyznaczonej „najlepszej” hipotezy (hipotezy z najmniej-szym prawdopodobieństwem błędu). Jest nią etykieta bayesowska Eb. Wskazaliśmy ponadto,że etykieta bayesowska może być przybliżana hipotezami bayesowskimi w zależności od jakościestymacji rozkładów a priori.

18

Rozdział 2

Drzewa klasyfikacyjne

2.1. Wprowadzenie

Drzewa klasyfikacyjne (decyzyjne) pojawiły się niezależnie w nauczaniu maszynowym i w sta-tystyce. Oparte na nich algorytmy są najczęściej wykorzystywane. Struktura drzew decyzyj-nych pozwala na konstrukcję najogólniejszych reguł klasyfikacyjnych, efektywnych w imple-mentacji i przejrzystych w logicznej konstrukcji. Na szczególną uwagę zasługuje przydatnośćstruktur do rozwiązywania zadań o dużym wymiarze prób losowych1 i/lub lub dużym wymia-rze wektora obserwacji2 (np.: klasyfikacja kredytobiorców, predykcja predyspozycji klientado odejścia).

Podstawową wielkością charakteryzującą „dobroć” algorytmu jest jego złożoność obliczenio-wa, która pokazuje zależność pomiędzy czasem3 działania algorytmu, a jego parametramiwejściowymi. Definiuje się również pojęcie złożoności pamięciowej, jednak istnienie nośnikówpotrafiących pomieścić TB4 danych zmniejsza wagę tej wielkości.

Skalowalność procesu to „zawieranie” się w nim harmonijnych zależności pomiędzy sposobemjego działania i zmianą warunków początkowych. Dla algorytmów jest to np. proporcjonalnośćczasu działania do wielkości danych wejściowych. W terminologii systemów informatycznychskalowalność definicjainiuje się jako możliwość harmonijnego rozrastania się systemu w miaręupływu czasu i zwiększania liczby jego użytkowników, bez konieczności rewolucyjnych zmianprojektowych.

Poniższy tekst wprowadza formalne definicje, zakładając istnienie przestrzeni obiektów I =(I,B, P

)z rodziną obserwacji X I =

xii∈I , zbiorem przykładów X rodziny X

I oraz poję-ciem docelowym E : I → C, gdzie C = 1, ..., g g ∈ N jest zbiorem etykiet klas (definicje:1.3.4, 1.3.5, 1.3.8, 1.3.14).

2.2. Struktura drzewa

W teorii grafów drzewem (def. B.2.1) nazywamy dowolny graf (def. B.1.1) spójny (def.B.1.10) i acykliczny (def. B.1.9) . Rozpatrzmy drzewo T =< V,E > o zbiorze wierzchołków

1Najczęściej liczba obserwacji w zbiorze uczącym / testowym.2Liczba atrybutów opisujących obserwacje.3W ogólności liczba iteracji.4Terabajt [TB] = 230 bajtów

19

2.2 Struktura drzewa Drzewa klasyfikacyjne

v3 V=v1,v2,v3,v4,v5,v6

E=e1,e2,e3,e4,e5,e6

v2

e3

e2 v5 e6 v7

e4

e1

v4 e5

v1

v6

Rysunek 2.1: Graf będący drzewem

V i krawędzi E. W zbiorze V wyróżniamy podzbiór wierzchołków LT ⊂ V będących liśćmi(def. B.2.2) drzewa T . Wykorzystując pojęcie stopnia wierzchołka (def. B.1.5) zapisujemy:

LT := v ∈ V : degT (v) = 1

Ustalmy wierzchołek r ∈ V drzewa T i nazwijmy go korzeniem drzewa T . Oznaczmy przezLTr zbiór:

LTr := LT \ r (2.1)

W szczególnym przypadku korzeń r może być liściem drzewa T . Zbiór LTr nie zawiera wtedykorzenia r.

Definicja 2.2.1 ZbiórNTr := V \ LTr (2.2)

nazywamy zbiorem węzłów drzewa T z ustalonym korzeniem r.

Do zbioru węzłów drzewa T zaliczają się wszystkie wierzchołki o stopniu wyższym niż 1 orazustalony korzeń r ∈ V .

Dla dowolnych wierzchołków u, v ∈ V drzewa T istnieje dokładnie jedna u − v droga (def.B.1.6) i jest to droga prosta (def. B.1.7, tw. B.2.1). W szczególności, dla dowolnego liścial ∈ LTr istnieje dokładnie jedna r − l droga prosta łącząca korzeń r z liściem l. Mówimy, żer − l droga prowadzi od korzenia r, przez węzły, do liścia l.

Definicja 2.2.2 Liczbę

splitTr(n) :=

degT (n)− 1 jeśli n 6= rdegT (n) jeśli n = r

(2.3)

nazywamy współczynnikiem rozgałęzienia w węźle n ∈ NTr drzewa T z ustalonym korzeniemr.

20

Drzewa klasyfikacyjne 2.2 Struktura drzewa

r - korzeń

- węzeł

1 - liść

2

3

r

Rysunek 2.2: Graf będący drzewem z wyróżnionym korzeniem

Każdy węzeł n ∈ NTr posiada dokładnie degT (n) wierzchołków sąsiadujących (def. B.1.4) .W przypadku n 6= r istnieje dokładnie jeden węzeł s sąsiadujący z n, który leży na r − ndrodze (od korzenia r do węzła n). Pozostałe wierzchołki sąsiadujące z n leżą na drogachod korzenia, do liścia, przechodzących przez węzeł n. Traktując rzecz obrazowo powiemy, żedroga od korzenia r, przez węzeł n, prowadząc do liścia, może w węźle n rozgałęzić się nasplitTr(n) sposobów (rysunek 2.2).

Definicja 2.2.3 Poprzednikiem (węzłem macierzystym) wierzchołka n ∈ V różnego od ko-rzenia r, nazywamy węzeł s sąsiadujący z n leżący na r − n drodze. Piszemy wtedy s n.Przyjmujemy, że korzeń r nie posiada poprzedników.

Każdy wierzchołek różny od korzenia posiada dokładnie jeden węzeł macierzysty.

Definicja 2.2.4 Następnikiem (potomkiem) węzła n ∈ NTr nazywamy każdy wierzchołek m(węzeł lub liść) sąsiadujący z n i nie będący jego poprzednikiem. Piszemy wtedy n m. Zbiór

n :=m ∈ V : n m

(2.4)

nazywamy zbiorem następników węzła n.

Wniosek 2.2.1 Zachodzi równość

|n| = splitTr(n)

Definicja 2.2.5 Testem w węźle n ∈ NTr nazywamy każdą funkcję:

tn : X → n gdzie X 3 x 7→ nx ∈ n (2.5)

Zauważmy, że test jest funkcją przyporządkowaną do węzła, która przeprowadza przykładyna następniki tego węzła.

Definicja 2.2.6 Mówimy, że test tn : X → n w węźle n ∈ NTr jest testem atrybutu Ak,k ∈ 1, . . . , p jeżeli istnieje taka funkcja tkn : Xk → n, że:

∀ x ∈ X tn(x) = tkn(Ak(x)

)(2.6)

21

2.2 Struktura drzewa Drzewa klasyfikacyjne

Definicja 2.2.7 Przekształcenie:

c : LTr → C gdzie LTr 3 l 7→ kl ∈ C (2.7)

nazywamy etykietą liści l ∈ LTr drzewa T .

Definicja 2.2.8 Drzewem klasyfikacyjnym (decyzyjnym) nazywamy każde drzewo Tr =<V,E > z korzeniem r ∈ V , rodziną testów tnn∈NTr oraz etykietą liści c : L

Tr → C. Zbiór

LTr nazywamy zbiorem liści drzewa klasyfikacyjnego Tr. Zbiór NTr nazywamy zbiorem węzłów

drzewa klasyfikacyjnego Tr.

Definicja 2.2.9 Mówimy, że drzewo klasyfikacyjne Tr =< V,E > jest drzewem binarnym,jeżeli:

∀ n ∈ NTr |n| = 2

Drzewo klasyfikacyjne jest drzewem, które posiada dodatkową interpretację dla węzłów, gałęzii liści:

• węzły odpowiadają testom przeprowadzanym na wartościach atrybutów przykładów,węzeł drzewa, który nie ma żadnych węzłów macierzystych jest korzeniem,

• gałęzie odpowiadają możliwym wynikom tych testów,

• liście odpowiadają etykietom klas danego problemu dyskryminacji (w konwencji drzewoklasyfikacyjne ma więcej niż 1 liść),

• drzewo „rośnie” od góry do dołu (od korzenia do liści).

1,2,3,4,5,6,7,8,9

wykształcenie

płeć

średnie

0

1,3,7

kobieta

1

2,4

mężczyzna

0

3,0

podstawowe wiek

wyższe

1

5

¬ 50

0

6,8,9

> 50

Rysunek 2.3: Przykład drzewa klasyfikacyjnego

Zaobserwowane elementy próby przesuwają się wzdłuż gałęzi przez węzły. W węzłach podej-mowane są decyzje o wyborze gałęzi, wzdłuż której trwa przesuwanie. W każdym węźle mamydo czynienia z podziałem elementów do niego docierających na podgrupy (względem zapisa-nego w nim kryterium podziału - testu). Przesuwanie trwa do momentu, gdy napotkamy liść,

22

Drzewa klasyfikacyjne 2.3 Drzewo jako hipoteza

który ma etykietę którejś z klas. Rysunek 2.3 przedstawia przykład drzewa klasyfikacyjnego.

Dla każdego liścia istnieje dokładnie jedna droga łącząca go z korzeniem. Zbiór wszystkichtakich dróg może być przekształcony do zbioru reguł (na ogół koniunkcji pewnych warun-ków elementarnych), klasyfikujących przykłady w sposób identyczny jak „robi” to drzewo.Możliwa jest więc konwersja drzewa decyzyjnego do zbioru reguł. Ze względu na czytelnośći pamięciową oszczędność reprezentacji nie zawsze jest to uzasadnione działanie. Konwersjawykorzystywana jest przy przycinaniu drzewa, czyli zapobieganiu nadmiernemu dopasowaniu(2.5). Przykładowa ścieżka (droga pomiędzy korzeniem i liściem) w drzewie klasyfikacyjnymzostała przedstawiona na rysunku 2.4 - od korzenia → przez węzły i gałęzie → do liścia.

t1

c1 c2 c3 c4

c5 c6

t2

t3

c7 c8 c9 c10

Rysunek 2.4: Ścieżka w drzewie klasyfikacyjnym

2.3. Drzewo jako hipoteza

Przedstawiliśmy obrazowo sposób klasyfikacji przykładów przez drzewo decyzyjne. Poniżejpodamy definicję formalną funkcji klasyfikującej stowarzyszonej z drzewem klasyfikacyjnym.

Niech będzie dane drzewo klasyfikacyjne Tr =< V,E > z korzeniem r, rodziną testówtnn∈NTr i etykietą liści c.

Definicja 2.3.1 Hipotezą hT reprezentowaną drzewem klasyfikacyjnym T nazywamy prze-kształcenie zdefiniowane regułą rekurencyjną:

1. ustalamy x ∈ X , n0 = r

2. ni+1 := tni(x) - wykonuj działanie dopóki wynik nie będzie liściem,

3. jeżeli w k-tym kroku nk ∈ LTr (jest liściem), to zwróć etykietę liścia c(nk) ∈ C.

Twierdzenie 2.3.1 Funkcja hT jest hipotezą (def. 1.3.21) .

Dowód: Z definicji 2.3.1 wynika, że hT ∈ XC , co kończy dowód na mocy stwierdzenia 1.3.4.

23

2.4 Metody konstrukcji drzew Drzewa klasyfikacyjne

Wniosek 2.3.1 W drzewie klasyfikacyjnym T istnieje dokładnie jeden liść lx związany zprzykładem x ∈ X określony rekursją w krokach 1 i 2 definicji 2.3.1.

Błąd rzeczywisty (indukowany / próby) hipotezy reprezentowanej przez drzewo nazywać bę-dziemy błędem rzeczywistym (indukowanym / próby) drzewa.

2.4. Metody konstrukcji drzew

Pokazaliśmy, że drzewa klasyfikacyjne reprezentują hipotezy. Przypomnijmy, że hipoteza jestwynikiem uczenia się klasyfikatora (def. 1.3.19) . W praktyce najczęściej zachodzi koniecz-ność utworzenia drzewa decyzyjnego dedykowanego do danego problemu dyskryminacyjne-go. Poniżej przedstawimy podstawowe metody konstrukcji drzew reprezentujących hipotezyprzybliżające pojęcia docelowe na podstawie dostępnych zbiorów uczących (def. 1.3.17) .Rozszerzymy tym samym pojęcie drzewa decyzyjnego do klasyfikatora.

Naszym celem jest zbudowanie drzewa klasyfikacyjnego z możliwie małym błędem rzeczywi-stym i małym błędem indukowanym. W praktyce stosuje się estymację błędu rzeczywistego(pojęcie docelowe jest nieznane). Minimalizacja obu błędów jednocześnie nie jest na ogółmożliwa. Często dochodzi do sytuacji, w której na rzecz mniejszego błędu rzeczywistego po-zwala się na większy błąd próby. W zadaniu budowy drzewa decyzyjnego wyróżnia się czterypodstawowe składowe:

1. Rodzinę tsn testów określających podział w każdym węźle.

2. Zdefiniowane kryterium ϕ(tsn) jakości podziału określone dla każdego testu tsn, w każdym

węźle n.

3. Kryterium stopu budowy drzewa.

4. Konstrukcja reguły decyzyjnej (etykiety liści drzewa).

2.4.1. Konstrukcja testów

Dobór odpowiedniego testu jest decyzją o kluczowym znaczeniu dla późniejszych właściwo-ści drzewa. Test powinien zapewniać możliwie dokładną klasyfikację dostępnych przykładów.Konstrukcja testów jest wysoce uzależniona od typu testowanego atrybutu. Przedstawimyjedynie testy binarne5 zależne od wartości pojedynczych atrybutów. Użycie większej liczbyatrybutów w jednym teście może prowadzić do uproszczenia drzewa. Należy zwrócić uwagę,iż proces doboru jest problemem znacznie trudniejszym i kosztowniejszym w realizacji. Zło-żoność obliczeniowa i skalowalność powstającego procesu klasyfikacji jest w tym przypadkupriorytetem.

W poniższym tekście testy będziemy traktować jako funkcje zależne jedynie od atrybutu ijego wartości. Zachodzi konieczność wprowadzenia dodatkowych oznaczeń:

A : X → SA - gdzie A atrybut:A(x) - wartość atrybutu A dla przykładu x ∈ X,SA - zbiór wartości atrybutu A,

5W praktyce najczęściej stosuje się drzewa binarne, w których każdy węzeł ma po dwóch potomków. Testybinarne to zatem testy o dwuelementowym zbiorze możliwych wyników.

24

Drzewa klasyfikacyjne 2.4 Metody konstrukcji drzew

t : X → St - gdzie t test:t(x) - wartość testu t dla przykładu x ∈ X,St - zbiór wartości testu t.

Testy dla atrybutów nominalnych

Definicja 2.4.1 Test t : X → St nazywamy testem tożsamościowym atrybutu A : X → SAjeżeli:

t(x) = A(x) ∀ x ∈ X (2.8)

Jest to rodzaj testu, polegający na utożsamieniu testu z atrybutem. Oczywiście St = SA. Takitest jest bardzo wygodny przy drzewach nie będących binarnymi. Pozwala na duży współ-czynnik rozgałęzienia, co zmniejsza głębokość drzewa i koszt klasyfikacji. Jego mankamentemjest niska stosowalność przy atrybutach o dużej liczbie możliwych wartości.

Definicja 2.4.2 Test t : X → St nazywamy testem równościowym atrybutu A : X → SAjeżeli:

t(x) =

0 jeśli A(x) = w1 jeśli A(x) 6= w (2.9)

gdzie w ∈ SA.

W tym przypadku St = 0, 1. Wybór najlepszego testu równościowego wymaga sprawdzeniaco najwyżej wszystkich wartości atrybutu A.

Definicja 2.4.3 Test t : X → St nazywamy testem przynależnościowym atrybutu A : X →SA jeżeli:

t(x) =

0 jeśli A(x) ∈W1 jeśli A(x) /∈W (2.10)

gdzie W ⊂ SA.

Ten rodzaj testów jest uogólnieniem testów równościowych. Zauważmy, że dobór najlepsze-go testu wymaga co najwyżej sprawdzenia wszystkich właściwych podzbiorów zbioru SA, coprzy n możliwych wartościach atrybutu A wymaga 2n−1 − 1 porównań. Jest to zależnośćwykładnicza (czyli bardzo kosztowna), sugerująca konieczność zaproponowania rozsądnegosposobu wyboru rozpatrywanych zbiorów W jako podzbiorów zbioru SA. Przy tego rodzajutestach 6 jest to kwestia mająca kluczowy wpływ na dalszą skalowalność procesu klasyfikacji.

Testy dla atrybutów ciągłych

Przy atrybutach ciągłych można stosować testy przynależnościowe. W tym przypadku jakopodzbiory W ⊂ SA bierze się pewne przedziały, gdzie dobór ich „końców” jest istotny. Man-kamentem testów przynależnościowych przy ciągłych atrybutach, jest brak uwzględnieniaistnienia relacji porządku w zbiorze możliwych wartości analizowanego atrybutu. Konstruujesię również testy uwzględniające istnienie owej relacji, nazywane testami nierównościowymi7.

6Testy przynależnościowe stosowane są przy konstrukcji klasyfikatora SLIQ i SPRINT7Testy nierównościowe są wykorzystywane przy konstrukcji klasyfikatora SLIQ i SPRINT

25


Definicja 2.4.4 Test t : X → St nazywamy testem nierównościowym atrybutu A : X → SAjeżeli:

t(x) =

0 jeśli A(x) ¬ w1 jeśli A(x) > w

(2.11)

gdzie w ∈ SA.

Zapisując SA = w1, w2, . . . , wn i przyjmując, że ciąg w1, w2, . . . , wn jest ciągiem upo-rządkowanym (posortowanym w kolejności rosnącej), możemy stwierdzić, że dowolna takawartość w, że wi < w < wi+1 dla ustalonego i = 1, . . . , n − 1, daje jednakowy wynik testunierównościowego (dzieli zbiór X zawsze w taki sam sposób). Zatem, aby wybrać najbardziejodpowiedni test, wystarczy przeprowadzić tylko n − 1 porównań. Zazwyczaj za punkt po-działu obiera się środek przedziału [wi, wi+1]. Przy rozważaniu kwestii skalowalności, należyzwrócić uwagę na koszt sortowania zbioru wartości testowanego atrybutu8.

2.4.2. Kryteria jakości podziałów

Podpróba docierająca do węzła dzielona jest na części. Oczywiście nie powinien to być procesprzypadkowy. Zależy nam na podziale, który daje jak najmniejszą różnorodność klas w otrzy-manych częściach, tak aby różnica pomiędzy różnorodnością klas w węźle i różnorodnościąklas w tych częściach, była możliwie duża.

Definicja 2.4.5 Każdą funkcję

φ : G ⊂ [0, 1]g → R gdzie (p1, p2, . . . , pg) ∈ G⇔g∑k=1

pk = 1 (2.12)

spełniającą następujące warunki:

1. φ przyjmuje wartość maksymalną w punkcie(1g ,1g , . . . ,

1g

)∈ G.

2. φ osiąga minimum jedynie w punktach

(1, 0, 0, . . . , 0), (0, 1, 0, . . . , 0), . . . , (0, 0, 0, . . . , 1) ∈ G

3. φ(p1, p2, . . . , pg) jest symetryczna ze względu na p1, p2, . . . , pg.

nazywamy funkcją różnorodności klas.

Definicja 2.4.6 Jeżeli wierzchołekm ∈ V jest następnikiem węzła n ∈ NTr to n m−następnikiemzbioru przykładów U ⊆ X i n m−następnikiem zbioru obiektów S ⊆ I nazywamy:

Unm :=x ∈ U : tn(x) = m

(2.13)

Snm :=i ∈ S : tn(xi) = m

(2.14)

n m−następniki reprezentują przykłady ze zbioru U i obiekty ze zbioru S klasyfikowanetestem tn do następnika m węzła n.

8Przy konstrukcji klasyfikatora SLIQ, stosuje się sortowanie wstępne (ang. pre-sorting)

26


Wniosek 2.4.1 Zachodzą równości:

Xnm = t−1n (m)

Inm =⋃

x∈XnmIx

Twierdzenie 2.4.1 n m−następnik mierzalnego zbioru obiektów S ⊆ I jest zbiorem mie-rzalnym.

Dowód: Należy pokazać, że zbiór Snm ∈ B dla dowolnych n,m ∈ V gdzie n m. Oznaczmy

XS :=x ∈ X : Ix ⊆ S

Pisząc Ix rozważamy warstwę przykładu x (def. 1.3.7) . Zbiór XS zawiera wszystkie przy-kłady, których warstwa jest podzbiorem zbioru S. Niech

Z := S \⋃x∈XS

Ix

Z założenia zbiór S ∈ B. Unia rodziny zbiorów mierzalnych jest zbiorem mierzalnym, zatem⋃x∈XS

Ix ∈ B

Na podstawie twierdzenia A.2.1 własność w5 (różnica zbiorów mierzalnych jest zbiorem mie-rzalnym) stwierdzamy, że Z ∈ B.

S = Z ∪⋃x∈XS

Ix

Możliwe są dwa przypadki:

1. Z = ∅ - rozważany zbiór S jest unią podrodziny rodziny warstw IX ,

2. istnieje dokładnie jeden przykład z ∈ X , że Z ⊂ Iz - zbiór Z jest mierzalnym podzbio-rem warstwy pewnego przykładu.

Z definicji następnika zbioru

Snm :=i ∈ S : tn(xi) = m

wynika bezpośrednio, że istnieje U ⊆ XS , że

Snm =⋃x∈UIx lub Snm = Z ∪

⋃x∈UIx

⇒ Snm ∈ B

Definicja 2.4.7 Jeżeli S ⊆ I jest takim mierzalnym zbiorem obiektów, że P (S) > 0, tomiarę różnorodności klas w zbiorze S określamy wzorem:

q(S) := φ(p(1|S), p(2|S), . . . , p(g|S)

)(2.15)

gdzie φ jest funkcją różnorodności klas, a p(k|S) prawdopodobieństwem klasy k pod warun-kiem, że zaszło zdarzenie S:

p(k|S) := P(Ik∣∣S) (2.16)

27


Główne miary różnorodności klas

W praktyce najczęściej stosuje się niżej wymienione miary różnorodności klas. Indeks Giniegoi entropie wykazują większą czułość na zmiany rozkładu klas w próbie.

1. Proporcja błędnych klasyfikacji:

q(S) ≡ p(S) := 1−maxkp(k|S) (2.17)

2. Indeks Giniego:

q(S) ≡ G(S) := 1−g∑k=1

(p(k|S)

)2(2.18)

3. Entropia:

q(S) ≡ E(S) := −g∑k=1

p(k|S) ln p(k|S) (2.19)

Rysunek 2.5 przedstawia zależność pomiędzy proporcją błędnych klasyfikacji, indeksem Gi-niego i entropią. Wartość funkcji entropii podzielona została przez 2 ln 2.

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0 0.2 0.4 0.6 0.8 1 1.2 1.4

phi(p

1,p 2

)

p1*sqrt(2), p2=1-p1

P(p1,p2)G(p1,p2)E(p1,p2)

Rysunek 2.5: Proporcja błędnych klasyfikacji, indeks Giniego i entropia

Różnorodność jest tym większa im większa jest wartość miary q(S). Po dokonaniu podziałuw węźle n ∈ NTr zbiór Snm reprezentuje obiekty, które przeszły z węzła n do jego następnikam ∈ n.

Definicja 2.4.8 Przez miarę zmiany różnorodności klas w węźle n ∈ NTr drzewa klasyfikacyj-nego Tr przy założeniu, że w węźle n znajdują się wszystkie obiekty z S, rozumie się kryteriumoceny podziału w węźle n:

∆q(S|n) := q(S)−∑

m∈n, P (Snm)>0P (Snm|S)q(Snm) (2.20)

28


Pisząc ∆q(S|n) zakładamy istnienie testu w węźle n. W sytuacji, gdy do węzła przyporząd-kowany jest zbiór testów, definicja 2.4.8 umożliwia wybór podziału z największą wartościąmiary zmiany różnorodności klas. W tym sensie jest to podstawowe kryterium oceny testu wwęźle drzewa klasyfikacyjnego.

Dla drzew binarnych Breiman [3] sformułował i udowodnił następujące twierdzenie.

Twierdzenie 2.4.2 (Breiman) Dla binarnego drzewa Tr i wklęsłej funkcji różnorodnościklas zachodzi:

(i) ∆q(S|n) 0 dla dowolnego węzła n ∈ NTr oraz S ∈ B, że P (S) > 0,

(ii) jeżeli n = nL, nR to równość w (i) zachodzi wtedy i tylko wtedy, gdy rozkłady klas wS, SnnL i SnnR są identyczne, tzn.:

∀ k ∈ 1, . . . , g p(k|S

)= p

(k|SnnL

)= p

(k|SnnR

)2.4.3. Kryterium stopu i reguła decyzyjna

Budowę drzewa klasyfikacyjnego rozpoczynamy od drzewa złożonego z jednego wierzchołka,do którego przyporządkowujemy zbiór uczący i zbiór dostępnych testów. W dalszych krokachkonstruujemy podziały, tworząc węzły i ich następniki. Wraz ze wzrostem drzewa maleje zbióruczący i zbiór testów docierający na kolejne jego poziomy. Poniżej przedstawiamy kilka oczy-wistych wytycznych, którymi należy się kierować podczas budowy drzewa. Należy zaniechaćkonstrukcji podziału w wierzchołku jeżeli:

1. Wystąpienie klasy k w podpróbie uczącej dostępnej w wierzchołku jest zdarzeniem zprawdopodobieństwem warunkowym 1.

2. Zastosowanie każdego dostępnego podziału daje zerową lub ujemną miarę zmiany róż-norodności klas.

3. Zbiór dostępnych testów jest pusty.

Gdy obiekty w wierzchołku należą do tej samej klasy, to zajdzie przypadek 1. Sytuacja 2 mamiejsce w wierzchołku, w którym zbiór dostępnych testów jest oparty o atrybuty z jednakowąwartością dla wszystkich dostępnych przykładów. Warunek 3 bezpośrednio wiąże się z brakiemuzasadnienia dla więcej niż jednokrotnego użycia danego podziału w obrębie jednej scieżki.Wystąpienie przypadków 2 lub 3 może świadczyć o zajściu jednej z poniższych sytuacji:

• zbiór trenujący nie jest poprawny i zawiera przekłamania,

• zestaw atrybutów nie opisuje obiektów w dostatecznym stopniu i w związku z tymprzestrzeń hipotez jest zbyt uboga do reprezentowania pojęcia docelowego,

• przyjęty zbiór dostępnych atrybutów jest niewystarczający.

Definicja 2.4.9 Jeżeli S jest podpróbą uczącą dostępną w wierzchołku n, a T zbiorem do-stępnych testów, to kryterium stopu wstrzymujące konstrukcję podziału w n określamy wyra-żeniem: (

∃k∈C p(k|S) = 1)∨(∀tn∈T ∆q(S|n) ¬ 0

)∨(T = ∅

)(2.21)

29

2.5 Problem nadmiernego dopasowania Drzewa klasyfikacyjne

Po wstrzymaniu konstrukcji podziału wierzchołek staje się liściem, do którego należy przy-porządkować etykietę klasy.

Definicja 2.4.10 Jeżeli S jest zbiorem uczącym, to etykietę daną wzorem

cS := argmaxkp(k|S) (2.22)

nazywamy etykietą większościowej kategorii w zbiorze uczącym S.

W sytuacji, gdy zbiór dostępnych obiektów jest zdarzeniem z niezerowym prawdopodobień-stwem etykietę wybieramy na podstawie etykiety większościowej kategorii.

Jeżeli nie istnieją wierzchołki, w których kryterium stopu uzna za zasadne utworzenie nowegopodziału, to drzewo uznajemy za zbudowane.

2.4.4. Zstępująca konstrukcja drzewa

Istnieje wiele algorytmów uczenia się pojęć wykorzystujących drzewa decyzyjne do reprezen-tacji hipotez. Każdy z nich dąży do uzyskania struktury o niewielkim rozmiarze z możliwieniewielkim błędem próbki zakładając, że błąd rzeczywisty będzie również nieznaczny. Poni-żej przedstawimy część wspólną większości tych algorytmów, określaną mianem zstępującejkonstrukcji drzewa. Schemat zakłada rozpoczęcie budowy drzewa od pojedynczego wierz-chołka (korzenia), któremu przyporządkowuje się wszystkie elementy ze zbioru trenującego.Kolejnym krokiem jest ustalenie zasadności utworzenia podziału w węźle. W przypadku de-cyzji pozytywnej kreujemy wierzchołki następniki. Nowoutworzone wierzchołki traktujemyjako korzenie „nowych” drzew z przypisanymi częściami próby uczącej. Procedurę powtarza-my do uzyskania liści (wierzchołków bez podziału), dla których określamy regułę decyzyjną.Tak rozumiany schemat najwygodniej jest opisać regułą rekurencyjną. Funkcja buduj-drzewo(alg.: 2.1) skonstruuje drzewo klasyfikacyjne Tr na podstawie zbioru uczącego S oraz zbiorudostępnych testów T.

2.5. Problem nadmiernego dopasowania

Nadmierne dopasowanie do danych trenujących przejawia się bardzo małym błędem kla-syfikacji (często nawet zerowym) na próbie uczącej, lecz zbyt dużym błędem rzeczywistym.Prawdopodobnie drzewo takie, poprzez bardzo złożoną strukturę, odzwierciedla przypadkowezależności występujące w zbiorze uczącym. Z powodu swej struktury, umożliwiającej repre-zentację dowolnej hipotezy, drzewa klasyfikacyjne są szczególnie narażone na ten problem.Błąd rzeczywisty nadmiernie dopasowanych drzew można zmniejszyć przez ich uproszczenienazywane przycięciem. Drzewo przycięte ma prostszą strukturę, co daje krótszy czas klasyfi-kacji. Oczywiście dokładność klasyfikacji zbioru uczącego się pogarsza.

2.5.1. Schemat przycinania

W uproszczeniu proces przycinania polega na zastąpieniu drzewa wyjściowego jego poddrze-wem. Formułując to bardziej obrazowo powiemy, że „ucina” się niektóre poddrzewa drzewawyjściowego, zastępując je liśćmi, którym przypisuje się etykietę większościowej kategoriiwśród obserwacji związanych z tym poddrzewem. Zamiast przycinać drzewo, możemy, po-przez modyfikację kryterium stopu, zapobiegać jego nadmiernemu wzrostowi. Takie postępo-wanie określa się przycinaniem w trakcie wzrostu. Znalezienie odpowiedniego kryterium stopu

30

Drzewa klasyfikacyjne 2.5 Problem nadmiernego dopasowania

Algorytm 2.1 Schemat zstępującego konstruowania drzewa

funkcja buduj-drzewo (n,S,c,T)argumenty wejściowe:

n - wierzchołek,

S - zbiór trenujący,

c - domyślna etykieta kategorii,

T - zbiór możliwych testów;zwraca: drzewo decyzyjne reprezentujące hipotezę;

1. jeśli kryterium-stopu (S,T) to2. cn :=kategoria (S,c);3. zwróć liść n;

4. koniec jeśli5. tn :=wybierz-test (S,T);6. utwórz następniki n;7. cn :=kategoria (S,c);8. dla wszystkich m ∈ n wykonaj9. buduj-drzewo (m,Snm,cn,T \ tn)10. koniec dla

wywołanie: buduj-drzewo (r,S,cS,T)

okazuje się jednak trudne i częściej przycina się drzewa uprzednio zbudowane.

Przycinanie odbywa się z pomocą zbioru etykietowanych przykładów, zwanego zbiorem przy-cinania. Pełni on ważną funkcję przy szacowaniu błędu rzeczywistego przyciętego drzewa.Wyróżnia się dwa typy zbiorów przycinania:

1. Zbiór przycinania pochodzi spoza próby uczącej - jeśli mamy dostatecznie duży zbióruczący.

2. Zbiór przycinania równy jest próbie uczącej - jeżeli nie dysponujemy dużym zbioremuczącym.

Obecnie znanych jest wiele metod przycinania drzew. Algorytm 2.2 przedstawia funkcję opi-sującą część wspólną większości z nich.

2.5.2. Przycinanie MDL

Ideą zasady MDL9 jest minimalizowanie sumy kosztu opisu danych przez model i kosztu opisumodelu. Jeżeli M jest modelem opisującym (kodującym) dane D, to całkowity koszt opisudefiniujemy jako sumę

cost(M,D) := cost(D|M) + cost(M) (2.23)

gdzie cost(D|M) jest kosztem opisu danych D przez model M , a cost(M) jest kosztem opisumodelu M . W kontekście drzew decyzyjnych modelami są drzewa otrzymane z przycinaniadrzewa wyjściowego. Opisywane (kodowane) dane to próba ucząca. Jako funkcję kosztu opisu

9MDL - Minimum Description Length.

31

2.5 Problem nadmiernego dopasowania Drzewa klasyfikacyjne

Algorytm 2.2 Schemat przycinania drzewa klasyfikacyjnego

funkcja przytnij-drzewo (Tr,Sp)

argumenty wejściowe:

Tr - drzewo klasyfikacyjne,

Sp - zbiór przycinania,

zwraca: przycięte drzewo;

1. dla wszystkich węzłów n ∈ NTr wykonaj2. zastąp węzeł n liściem z etykietą większościowej kategorii

jeśli nie powiększy to szacowanego na podstawie Spbłędu rzeczywistego drzewa Tr;

3. koniec dla

wywołanie: przytnij-drzewo (Tr,Sp)

przyjmuje się najczęściej liczbę bitów wykorzystanych do jego reprezentacji.

Wcześniejsze implementacje zasady MDL w przycinaniu drzew pokazały, że wynikowe drze-wa były nadmiernie przycięte (Quinlan i Rivest - 1989, Wallace i Patrick - 1993). Miało tooczywiście negatywne odbicie w jakości klasyfikacji opartej na takim drzewie. Jednak już w1995 roku Mehta, Rissanen i Agrawal zaproponowali inną implementację przycinania drzeww oparciu o zasadę MDL. Metoda umożliwiła konstrukcję małych drzew bez znacznej utratyjakości klasyfikacji. Zastosowany algorytm miał pewne ograniczenia. Ponadto w danym węźlemożliwe było jedynie „odcięcie” wszystkich potomków lub żadnego. Metoda przedstawionaponiżej jest wolna od tych ograniczeń.

Algorytm przycinania MDL dzieli się na dwie części: schemat kodowania, który wyznaczakoszt (rozmiar) opisu danych oraz modelu, i algorytm porównywania różnych drzew przycię-tych.

Koszt opisu danych przez model

Koszt opisu zbioru uczącego S przez drzewo T definiujemy jako sumę wszystkich błędnychklasyfikacji (klasa wyprodukowana przez drzewo jest inna od oryginalnej). Liczba błędnychklasyfikacji jest ustalana podczas fazy budowy drzewa. Nie jest więc to proces istotnie wpły-wający na złożoność algorytmów. Dalej liczbę błędnych klasyfikacji w węźle n oznaczamyprzez err(n).

Koszt opisu modelu

Modelem jest drzewo zawierające podziały. Należy zatem wyznaczyć koszt opisu drzewa ikoszty opisu testów zastosowanych w każdym węźle drzewa.

Węzeł drzewa może posiadać potomki w liczbie: jeden, dwa, lub zero (liść). Jako koszt opisudrzewa bierzemy sumaryczną liczbę bitów, która jest zależna od struktury drzewa. Wyróżniasię trzy podejścia do opisu struktury drzewa, gdzie przez L(n) oznacza się koszt strukturywęzła n. Dla węzła zezwala się na posiadanie:

32

Drzewa klasyfikacyjne 2.5 Problem nadmiernego dopasowania

• typ 1 : L(n) = 1 (0 lub 2 potomków), 2 możliwości ⇒ 1 bit niezbędny do opisu,

• typ 2 : L(n) = 2 (0 lub 2 potomków, potomka lewego, potomka prawego), 4 możliwości⇒ 2 bity niezbędne do opisu),

• typ 3 : L(n) = log 3 (lewy potomek, prawy potomek, lub oba), tylko dla węzłów we-wnętrznych, 3 możliwości ⇒ log 3 bitów niezbędnych do opisu.

Koszt opisu podziałów uzależniony jest od typu testowanego atrybutu i wyznaczany jestosobno dla atrybutów ciągłych i nominalnych.

Jeżeli mamy do czynienia z testem nierównościowym postaci A(x) ¬ w, gdzie A jest atrybu-tem numerycznym, a w liczbą rzeczywistą, to koszt testu definiujemy jako maksymalny kosztopisu liczby w. Koszt taki powinien być wyznaczony niezależnie dla każdego testu nierówno-ściowego wykorzystanego w drzewie.

Dla testów przynależnościowych postaci A(x) ∈W , gdzieW jest pewnym podzbiorem warto-ści nominalnego atrybutu A, koszt ustalamy w dwóch krokach. Najpierw wyznaczamy liczbętestów w drzewie opartych na danym atrybucie – powiedzmy nA (tę czynność wykonujemydla każdego atrybutu nominalnego). Koszt opisu testu definiujemy dalej jako

lnnA

Przez Ltest(n) oznaczamy koszt opisu testu w węźle n.

Algorytm przycinania MDL

Algorytm przycinania MDL wyznacza koszt (rozmiar, długość) opisu w każdym węźle drzewaklasyfikacyjnego. Wartość ta służy następnie do podjęcia decyzji czy mamy w danym węźle:

• utworzyć liść,

• przyciąć lewy, prawy potomek lub oba,

• pozostawić węzeł bez zmian.

Jeżeli C(n) oznacza koszt opisu w węźle n, to kryterium przycinania przyjmuje postać:

1. Cleaf (n) := L(n) + err(n) - jeżeli n ma być liściem.

2. Cboth(n) := L(n) + Ltest(n) + C(n1) + C(n2) - jeżeli n ma posiadać 2 potomki.

3. Cleft(n) := L(n) + Ltest(n) + C(n1) +←−C (n2) - jeżeli n ma posiadać tylko potomka

lewego.

4. Cright(n) := L(n) + Ltest(n) +←−C (n1) + C(n2) - jeżeli n ma posiadać jedynie potomka

prawego.←−C (n1),

←−C (n2) oznaczają koszt opisu wyznaczany w przypadku częściowego przycięcia (lewy

lub prawy potomek zostaje przycięty). W takim wypadku obserwacje przechodzące wcześniejprzez przyciętą gałąź, są teraz klasyfikowane na podstawie statystyk z węzła macierzytegon.←−C (n1),

←−C (n2) reprezentują koszt opisu obserwacji należących do węzłów potomków przy

użyciu tych wcześniejszych statystyk.

Wyróżnia się strategie przycinania drzewa:

33

2.6 Zalety i ograniczenia drzew klasyfikacyjnych Drzewa klasyfikacyjne

1. Strategia pełna - wykorzystująca typ 1, czyli 1 bit dla każdego węzła. Jeżeli Cleaf (n) <Cboth(n) (opcje 1 i 2) to węzeł zamieniamy na liść.

2. Strategia częściowa - wykorzystująca typ 2, czyli dwa bity dla każdego węzła. Węzełjest konwertowany według tej opcji (spośród 1, 2, 3, 4), która ma najmniejszy kosztopisu.

3. Strategia mieszana - przewidująca dwie fazy. Faza pierwsza to strategia pełna. Fazadruga używa jedynie opcji: 2, 3 oraz 4.

2.6. Zalety i ograniczenia drzew klasyfikacyjnych

Tak jak każda struktura reprezentacji, również drzewa klasyfikacyjne posiadają zalety i ogra-niczenia. W tym przypadku te pierwsze zdecydowanie przeważają nad drugimi.

Do zalet drzew klasyfikacyjnych zaliczamy:

1. Możliwość reprezentacji dowolnej hipotezy - konstrukcja drzewa klasyfikacyjnego umoż-liwia reprezentację dowolnego pojęcia, którego definicję można wyrazić w zależności odatrybutów użytych do opisu przykładów.

2. Efektywność procesu klasyfikacji - stosowanie hipotezy uzyskanej w wyniku uczenia sięjest bardzo efektywne. W typowych przypadkach czas jest liniowo ograniczony przezliczbę obserwacji i/lub liczbę atrybutów.

3. Efektywność dla dużych zbiorów uczących - aktualnie drzewa klasyfikacyjne wykorzy-stuje się najczęściej i najchętniej do rozwiązywania problemów z ogromnymi ilościamidanych.

4. Czytelność reprezentacji - o ile drzewa nie są zbyt duże i złożone.

Jako ograniczenia drzew klasyfikacyjnych wymienić można:

1. Ryzyko dużej złożoności drzewa - dla złożonych hipotez drzewa mogą być również bar-dzo złożone. Wiąże się to z tym, że zazwyczaj testy stosowane do budowy drzewa,wykorzystują tylko jeden atrybut, co implikuje utratę zależności pomiędzy atrybutami.

2. Reprezentacja alternatyw warunków - drzewo klasyfikacyjne, przez swą budowę, natu-ralnie narzuca stosowanie koniunkcji warunków.

3. Brak łatwej możliwości inkrementacyjnego aktualizowania - po dodaniu nowych przy-kładów trudno jest zaktualizować już istniejące drzewo. Istnieją oczywiście algorytmurealizujące to zadanie, jednak są dość kosztowne, a zaktualizowane drzewo ma zazwy-czaj mniejszą precyzję, niż drzewo zbudowane na nowo.

34

Rozdział 3

Klasyfikator SLIQ

3.1. Wprowadzenie

Większość algorytmów klasyfikujących powstała w dość odległej przeszłości, gdy jeszcze nieistniały ogromne zbiory danych trenujących. Proces uczenia projektowano bez szczególnegonacisku na czynniki wydajnościowe. Poniżej przedstawiamy metodę klasyfikacji SLIQ1 [4],wykorzystującą drzewa decyzyjne do reprezentacji hipotez. SLIQ umożliwia użycie danychopisanych atrybutami numerycznymi oraz nominalnymi. Zastosowana w nim nowatorska tech-nika sortowania wstępnego, w połączeniu z poziomą strategią wzrostu drzewa, czyni SLIQniezwykle efektywnym i skalowalnym narzędziem dla ogromnych prób trenujących, danychdyskowych, nie mieszczących się w pamięci operacyjnej, z dużą liczbą atrybutów i klas. SLIQponadto wykorzystuje przycinanie MDL. Autorami SLIQ są: Manish Mehta, Rakesh Agrawaloraz Jorma Rissanen (1996).

3.2. Struktury danych

Właściwości SLIQ w dużej mierze są konsekwencją specjalnej konstrukcji struktur danych.Listy wartości atrybutów umożliwiają ograniczenie się do jednokrotnego sortowania każdegoz nich. Lista klas pozwala w łatwy sposób dotrzeć do odpowiedniego węzła budowanego drze-wa. Histogramy efektywnie wyznaczające miary różnorodności klas. Wszystko to składa sięna dużą skalowalność całego procesu uczenia.

Lista klas

Lista klas jest to zbiór par <etykieta-klasy, referencja-do-liścia>. Elementów na liście klasjest dokładnie tyle ile jest obserwacji w próbie uczącej. Zakłada się, że i − ty element listyklas odpowiada i − tej obserwacji z próby uczącej (zachodzi zgodność w etykietach klas).Pole <referencja-do-liścia> zawiera odnośnik do jednego z liści, który klasyfikuje obserwacjedo tej klasy. Listę klas ustawiamy początkowo dla wszystkich pozycji tak, aby wskazywałana korzeń. Lista klas powinna pomieścić się w pamięci operacyjnej. Rysunek 3.1 przedstawiaprzykładową strukturę listy klas.

Lista wartości atrybutu

1SLIQ - Supervised Learning in Quest (Quest - projekt badawczy IBM).

35

3.3 Sortowanie wstępne Klasyfikator SLIQ

Num. obs.

Wartość atrybutu

Etykieta klasy

Num. obs.

Wartość atrybutu

Referencja do listy

klas

Num. obs.

Etykieta klasy

Referencja do liścia

1 1 1

2 2 2

... ... ...

n n n

(dla próby uczącej)

Lista klas

(dla atrybutu A)

Próba ucząca

(dla atrybutu A)

Lista wartości

Rysunek 3.1: Struktura danych

Lista wartości atrybutu jest to zbiór par <wartości-atrybutu, referencja-do-listy-klas>. Każdawartość atrybutu na liście wartości jest jednoznacznie powiązana z jedną obserwacją z próbyuczącej, w konsekwencji również z etykietą klasy. Dla danej wartości atrybutu odnajdujemyodpowiadającą jej etykietę klasy, co umożliwia przejście do listy klas. Listy wartości tworzonesą niezależnie dla każdego atrybutu numerycznego i mogą być zapisywane na dysku. Rysunek3.1 przedstawia przykładową strukturę listy wartości atrybutu.

Histogramy

Histogramy wykorzystywane są do określenia rozkładu częstości (proporcji) klas w węzłach.Histogram dla atrybutu numerycznego ma inną strukturę od histogramu dla atrybutu nomi-nalnego. Do określenia jakości podziału nierównościowego wystarczy informacja ile obserwacjiz danej klasy spełniło test, a ile nie. Przy wykorzystaniu testu przynależnościowego pojawiasię kwestia wyboru podzbioru. W tym celu histogram przechowuje rozkład częstości klasw węzłach potomkach w podziale na wartości atrybutu. Rysunek 3.2 prezentuje strukturęhistogramu dla atrybutu numerycznego i nominalnego.

Klasa 1 Klasa 2 ... Klasa n

L [częstość] [częstość] ... [częstość]

R [częstość] [częstość] ... [częstość]

Klasa 1 Klasa 2 ... Klasa n L [częstość] [częstość] ... [częstość]

L [częstość] [częstość] ... [częstość] R [częstość] [częstość] ... [częstość]

R [częstość] [częstość] ... [częstość] L [częstość] [częstość] ... [częstość]


L [częstość] [częstość] ... [częstość]


Histogram(atrybuty nominalne)

Wartość 1

Wartość 2

...

Wartość k

Histogram

(atrybuty ciągłe / numeryczne)

Rysunek 3.2: Struktura histogramów

Oznaczenia L i R określają statystyki dla obserwacji, które spełniają kryterium podziału orazdla tych, które kryterium tego nie spełniają. Niezależne histogramy przyporządkowane są dokażdego liścia aktualnie budowanego drzewa.

3.3. Sortowanie wstępne

Rozważmy drzewo decyzyjne przedstawione na rysunku 3.3 - dwa atrybuty (Waga, Wzrost),10 obserwacji w próbie uczącej oraz 2 klasy (O,S).

36

Klasyfikator SLIQ 3.4 Pozioma strategia wzrostu

Num. obs.

Waga Wzrost Klasa

1 78 182 S Waga<=80 Waga>80

2 92 170 O

3 68 175 S

4 105 177 O

5 55 165 S

6 80 160 O

7 95 188 S Wzrost<=160 Wzrost>160

8 120 185 O

9 48 163 S

10 83 186 S

O S O S

Wzrost>185Wzrost<=185

Zbiór uczący

Rysunek 3.3: Zbiór uczący i drzewo klasyfikacyjne

Do utworzenia drzewa decyzyjnego, potrzebujemy wyznaczenia wielu najlepszych podziałów(względem zadanych testów). Dla atrybutów ciągłych wiąże się to najczęściej z potrzebąsortowania danych, które dotarły do danego węzła. Takie podejście ma jednak bardzo nega-tywne konsekwencje ze względu na otrzymywaną skalowalność procesu klasyfikacji. Pierwszatechnika zastosowana w klasyfikacji metodą SLIQ, pozwala rozwiązać problem. Nazywamy jąsortowaniem wstępnym (ang. pre-sorting). Schemat sortowania wstępnego zakłada koniecz-ność sortowania danych tylko raz dla każdego atrybutu (sortowanie odbywa się na poziomiekorzenia).

Rysunek 3.4 przedstawia powstałe dwie wstępnie posortowane listy wartości oraz wspólnąlistę klas. Zwróćmy uwagę, że referencje do liścia są ustawione na N1 - czyli korzeń.

Num. obs.

Waga Wzrost Klasa WagaIndeks listy klas

WzrostIndeks listy klas

Indeks listy klas

Klasa Liść

1 78 182 S 48 9 160 6 1 S N1

2 92 170 O 55 5 163 9 2 O N1

3 68 175 S 68 3 165 5 3 S N1

4 105 177 O 78 1 170 2 4 O N1

5 55 165 S 80 6 175 3 5 S N1

6 80 160 O 83 10 177 4 6 O N1

7 95 188 S 92 2 182 1 7 S N1

8 120 185 O 95 7 185 8 8 O N1

9 48 163 S 105 4 186 10 9 S N1

10 83 186 S 120 8 188 7 10 S N1

Lista klas

Zbiór uczący Po sortowaniu wstępnym

Lista wartości atrybut


Rysunek 3.4: Dane przed i po sortowaniu wstępnym

3.4. Pozioma strategia wzrostu

Metoda SLIQ wykorzystuje poziomą strategią wzrostu drzewa (ang. breadth-first). Wcześniejomówiliśmy techniki zstępujące (ang. depth-first), rekurencyjnie budujące drzewo, kierującsię początkowo ku „dołowi”. SLIQ w pierwszej kolejności tworzy cały poziom, poruszając sięniejako w szerz, wyznaczając podziały dla wszystkich liści bieżącego drzewa.

Lista wartości każdego atrybutu przeszukiwana jest jednokrotnie. Dla atrybutów ciągłych in-

37

3.4 Pozioma strategia wzrostu Klasyfikator SLIQ

Algorytm 3.1 Wyznaczenie podziałów SLIQ

funkcja SLIQ-wyznacz-podziały

zwraca: najlepsze podziały na danym poziomie drzewa;

1. dla każdego atrybutu A wykonaj2. rozważ listę wartości atrybutu A;

3. dla każdej wartości v z listy wartości atrybutu A wykonaj

4. znajdź odpowiadającą pozycję na liście klas;

5. przejdź do odpowiadającej klasy i dalej do liścia (powiedzmy l);

6. zaktualizuj histogram w liściu l;

7. jeśli A jest atrybutem ciągłym to

8. wyznacz indeks Giniego dla testu (A ¬ v) w liściu l;9. koniec jeśli

10. jeśli A jest atrybutem nominalnym to

11. dla każdego liścia drzewa

12. znajdź podzbiór zbioru wartości A z najlepszym podziałem

12. (w oparciu o Indeks Giniego);

13. koniec dla

14. koniec jeśli

15. koniec dla

16. koniec dla

deks Giniego wyznacza się na bieżąco. Przy atrybutach nominalnych dopiero po zakończeniuskanowania listy jego wartości. Następnie wybierany jest podzbiór zbioru wartości atrybutu,dający najlepszy podział. Do wyznaczenia najlepszego podziału we wszystkich liściach wy-starczy przejść jednokrotnie każdą listę wartości atrybutu.

Do podziałów opartych na atrybutach nominalnych, SLIQ wykorzystuje testy przynależno-ściowe. Wiemy już, że wyznaczenie wszystkich podzbiorów zbioru wartości atrybutu nomi-nalnego, może być bardzo kosztowne. Do rozwiązania tego problemu użyto w SLIQ podejściamieszanego. Dla małych zbiorów wartości (o małej liczności, mniejszej niż ustalony próg)wyznacza się wszystkie niezbędne podzbiory. Za ograniczenie górne liczności takiego zbioruprzyjmuje się liczbę 10 (210 - podzbiorów można wyznaczyć w miarę szybko). W przypadkudużych zbiorów stosuje się algorytm zachłanny. Algorytm zachłanny rozpoczyna od puste-go podzbioru. W kolejnych krokach do tego podzbioru dodawane są elementy, które dająnajlepszy podział. Proces ten trwa aż do momentu, kiedy nie obserwujemy już poprawyotrzymanych podziałów.

Rysunek 3.5 przedstawia metodę przejścia z listy wartości, poprzez listę klas, do liścia. Istotnąkwestią jest aktualizacja statystyk w histogramach.

Utworzenie potomków i aktualizacja listy klas

Po wybraniu testu SLIQ tworzy potomki rozważanego węzła. Kolejnym krokiem jest aktu-alizacja listy klas tak, aby odzwierciedlała bieżącą status drzewa. Rysunek 3.6 prezentujeprzykład realizacji wyżej opisanego zadania. Podział oraz następująca po nim aktualizacjalisty klas, powtarzają się do momentu, gdy do każdego liścia w powstałym drzewie docierają

38

Klasyfikator SLIQ 3.4 Pozioma strategia wzrostu

N1

Waga<=80 Waga>80

N2 N3


Indeks listy klas

Klasa Liść

160 6 1 S N2 Krok 0:

163 9 1 2 O N3

165 5 3 S N2

170 2 4 O N3 O S O S

175 3 5 S N2 L 0 0 0 0

177 4 2 6 O N2 R 1 4 3 2

182 1 7 S N3

185 8 8 O N3 Krok 1:

186 10 9 S N2

188 7 10 S N3

O S O S

L 1 0 0 0

R 0 4 3 2

Krok 2:

O S O S

L 1 1 0 0

R 0 3 3 2

Zaktualizuj histogram

N2 N3

Wyznacz podział: Wzrost <=160

Zaktualizuj histogram

Wyznacz podział: Wzrost <=163

N2 N3


N2

Histogram początkowy

Lista klas

N3

Rysunek 3.5: Przebieg algorytmu SLIQ

obserwacje tylko z jednej klasy. Należy zwrócić uwagę na fakt, że niektóre liście mogą osią-gnąć ten stan wcześniej. W takim przypadku nie ma więc sensu stosowania dla nich kolejnychpodziałów.

39

3.4 Pozioma strategia wzrostu Klasyfikator SLIQ

Algorytm 3.2 Aktualizacja listy klas

funkcja SLIQ-zaktualizuj-listę-klas

zwraca: zaktualizowaną listę klas;

1. dla każdego atrybutu A użytego w podziale wykonaj2. rozważ listę wartości atrybutu A;

3. dla każdej wartości v z listy wartości atrybutu A wykonaj

4. znajdź odpowiadającą pozycję na liście klas (powiedzmy e);

5. znajdź nową klasę c dla v po zastosowaniu testu w węźle e;

6. zaktualizuj etykietę klasy z e na c;

7. zaktualizuj referencję do liścia w e na liść odpowiadający c;

8. koniec dla

9. koniec dla

N1

Waga<=80 Waga>80

N2 N3


Indeks listy klas

Klasa Liść

160 6 1 S N2

163 9 2 O N3

165 5 3 S N2 N4 N5 N6 N7

170 2 4 O N3

175 3 5 S N2

177 4 6 O N2->N4

182 1 7 S N3

185 8 8 O N3

186 10 9 S N2->N5

188 7 10 S N3

Wzrost<=160 Wzrost<=185

Wzrost>160 Wzrost>185


Lista klas

Rysunek 3.6: Aktualizacja listy klas

40

Rozdział 4

Klasyfikator SPRINT

4.1. Wprowadzenie

Przedstawiony w rozdziale 3 algorytm SLIQ zachowuje własność skalowalności przy założe-niu, że lista klas rozważanego zbioru trenującego mieści się w pamięci operacyjnej komputera.Przypomnijmy, że rozmiar listy klas zależy jedynie od liczby przykładów w zbiorze uczącym.Tak skonstruowany element globalny, posiadający ograniczenie na rozmiar, jest zarazem naj-większym mankamentem algorytmu. Poniżej omówimy klasyfikator o nazwie SPRINT[5]1

(J.C. Shafer, R. Agrawal, M. Mehta, 1996), uwolniony od tego ograniczenia, w dużej mierzepodobny do metody SLIQ. SPRINT wykorzystuje bardzo podobne struktury danych do tychzaprojektowanych dla SLIQ. SPRINT nie definiuje listy klas. W konsekwencji otrzymanobrak elementów globalnych, umożliwiając łatwe i efektywne zrównoleglenie implementacji.Przez pojęcie równoległej implementacji rozumiemy jednoczesne działanie algorytmu na wie-lu procesorach (CPU). Każdy procesor pracuje nad częścią danych w niezależny od resztysposób. Celem jest uzyskanie jednego spójnego modelu.

4.2. Metoda podstawowa

Algorytm SPRINT działa w dwóch fazach: wzrostu drzewa binarnego oraz jego przycinania.Faza wzrostu jest tym, co różni SPRINT od metody SLIQ. Drzewo SPRINT przycinane jestmetodą opartą o zasadę MDL, która została omówiona w sekcji 2.5.2 niniejszej pracy.

SPRINT wykorzystuje technikę depth-first zstępującej konstrukcji drzewa (2.4.4). Przypo-mnijmy, że drzewo SLIQ budowane jest w oparciu o poziomą strategię wzrostu (breath-first).Jako, że schemat zstępującej konstrukcji drzewa został bardzo szczegółowo opisany algoryt-mem 2.4.4, skoncentrujemy się jedynie na strukturach danych, pozwalających w łatwy sposóbwybrać najlepszy podział.

Lista wartości atrybutu

SPRINT, podobnie jak SLIQ, dla każdego atrybutu tworzy listę jego wartości. Jest to zbiórtrójek postaci: <wartość-atrybutu, etykieta-klasy, referencja-do-przykładu>. Początkowa każ-da lista wartości atrybutu, powiązana z korzeniem drzewa, zawiera dokładnie taką sama liczbęelementów co zbiór trenujący. Kolejnym krokiem jest sortowanie wstępne list atrybutów nu-merycznych, analogiczne do użytego w SLIQ (nie ma konieczności ponownego sortowania list1Scalable Parallelizable Induction of Decision Trees

41

4.2 Metoda podstawowa Klasyfikator SPRINT

w trakcie fazy wzrostu drzewa). Listy atrybutów, w przypadku znacznych rozmiarów, mogąbyć przetrzymywane na dysku komputera. W SLIQ lista wartości atrybutu jest elementemglobalnym algorytmu. SPRINT do każdego wierzchołka przyporządkowuje nową listę warto-ści atrybutu, otrzymywaną z podziału już istniejącej w węźle macierzystym. Proces podziałudokonuje się w trakcie zstępującego wzrostu poczynając od korzenia. Przykładowe listy war-tości atrybutów po sortowaniu wstępnym zaprezentowane sa na rysunku 4.1. Rysunek 4.2przedstawia podział list wraz z dokonaniem podziału przykładów węźle.

Num. obs.

Waga Wzrost Klasa Waga KlasaNum. obs.

Wzrost KlasaNum. obs.

1 78 182 S 48 S 9 160 O 6

2 92 170 O 55 S 5 163 S 9

3 68 175 S 68 S 3 165 S 5

4 105 177 O 78 S 1 170 O 2

5 55 165 S 80 O 6 175 S 3

6 80 160 O 83 S 10 177 O 4

7 95 188 S 92 O 2 182 S 1

8 120 185 O 95 S 7 185 O 8

9 48 163 S 105 O 4 186 S 10

10 83 186 S 120 O 8 188 S 7

Po sortowaniu wstępnym

Lista wartości atrybutu Lista wartości atrybutu

Zbiór uczący

Rysunek 4.1: Listy wartości atrybutów po sortowaniu wstępnym w algorytmie SPRINT

Histogramy

Kryterium oceny jakości podziałów wykorzystane w SPRINT oparte jest na indeksie Giniego(2.18). Jest to kolejne podobieństwo do metody SLIQ. Również struktury danych umożliwia-jące efektywne określenie wartości miary Giniego nie uległy zmianie w stosunku do SLIQ.SPRINT używa identycznych histogramów jak te opisane w sekcji 3.2.

Wybór najlepszego podziału

SPRINT, w odróżnieniu od SLIQ, dokonuje aktualizacji histogramów dla każdego węzła zosobna (w SLIQ, podczas jednokrotnego przejścia przez listy atrybutów, dochodzi do aktu-alizacji histogramów w każdym węźle aktualnie procesowanego poziomu drzewa). W przypad-ku testowania atrybutu numerycznego, do określenia najlepszego punktu podziału, wystarczyjednokrotnie rozważyć dostępną listę jego wartości. Dla atrybutów nominalnych SPRINT sto-suje procedurę hybrydową (mieszaną). Przypomnijmy, że obie metody konstrukcję podziałówopierają na: testach nierównościowych (def. 2.4.4) w przypadku atrybutów numerycznychoraz testach przynależnościowych (def. 2.4.3) gdy rozważane są atrybuty nominalne.

Zastosowanie najlepszego z możliwych testów polega na utworzeniu potomków, oraz odpo-wiednim podziale dostępnych przykładów i list wartości atrybutów. Do efektywnego podziałulist wykorzystuje się tablicę haszującą utworzoną na podstawie <referencji-do-przykładu> li-sty testowanego atrybutu. Rysunek 4.3 prezentuje tablicę haszująca utworzoną na podstawiepodziału Waga ¬ 80. W przypadku, gdy tablica haszująca nie mieści się w pamięci opera-cyjnej komputera, podział dokonywany jest w więcej niż jednym kroku.

42

Klasyfikator SPRINT 4.3 Metoda zrównoleglona

Waga KlasaNum. obs.


48 S 9 160 O 6

55 S 5 163 S 9

68 S 3 165 S 5

78 S 1 170 O 2

80 O 6 175 S 3

83 S 10 177 O 4

92 O 2 182 S 1

95 S 7 185 O 8

105 O 4 186 S 10

120 O 8 188 S 7

N1

Waga KlasaNum. obs.

Waga<=80 Waga>80 Waga KlasaNum. obs.

48 S 9 83 S 10

55 S 5 92 O 2

68 S 3 95 S 7

78 S 1 105 O 4

80 O 6 N2 N3 120 O 8



160 O 6 170 O 2

163 S 9 177 O 4

165 S 5 185 O 8

175 S 3 186 S 10

182 S 1 188 S 7

Listy atrybutów w węźle N1



Rysunek 4.2: Podział list wartości atrybutów podczas fazy wzrostu drzewa SPRINT

4.3. Metoda zrównoleglona

Klasyfikator SPRINT w wersji zrównoleglonej jest zaprojektowany tak, aby proces uczeniamógł przebiegać efektywnie przy jednoczesnym wykorzystaniu wielu jednostek obliczenio-wych. Skupimy się jedynie na fazie wzrostu drzewa, gdyż przycinanie drzewa metodą MDLjest zadaniem obliczeniowo mało kosztownym i może być wykonane z użyciem jednego pro-cesora.

Głównym założeniem jakiejkolwiek równoległej implementacji jest posiadanie środowiska,gdzie każdy z N procesorów posiada prywatną pamięć operacyjną oraz prywatną pamięćzaalokowaną na dyskach. Procesory połączone są w sieć komunikacyjną i mogą komunikowaćsię jedynie przez wysyłanie komunikatów.

Analogicznie do podstawowej metody w zrównoleglonej fazie budowy drzewa podstawowymproblemem jest konstrukcja i przeprowadzenie najlepszego podziału. Równie istotną kwestiąjest rozmieszczenie (podział) danych oraz obliczeń.

Podział danych oraz obliczeń

Główne struktury danych w klasyfikatorze SPRINT to: lista wartości atrybutu i histogramytworzone na podstawie próby uczącej. Efektywny podział danych oraz obliczeń osiągany jestprzez podział próby uczącej na N możliwie równolicznych części. W kolejnym kroku każdy zN procesorów otrzymuje porcję danych, na podstawie której wyznacza własne listy wartości

43

4.4 Porównanie klasyfikatorów SPRINT i SLIQ Klasyfikator SPRINT

L

R

Waga KlasaNum. obs.


Num. obs.

Potomek

48 S 9 160 O 6 1 L

55 S 5 163 S 9 2 R

68 S 3 165 S 5 3 L

78 S 1 170 O 2 4 R

80 O 6 175 S 3 5 L

83 S 10 177 O 4 6 L

92 O 2 182 S 1 7 R

95 S 7 185 O 8 8 R

105 O 4 186 S 10 9 L

120 O 8 188 S 7 10 R

Test atrybutu: Waga <=80

(listy atrybutów w węźle N1)Potomek: Tablica haszująca

Rysunek 4.3: Przykład tablicy haszującej

atrybutu. Następnie listy wartości dla atrybutów numerycznych są sortowane i dzielone nanowo tak, aby każdy z procesorów pracował nad „przylegającymi” do siebie wartościami.Taka procedura ma na celu uniknięcie sytuacji, gdzie jeden z procesów pracuje przykładowonad wartościami 1, 5, 10, a drugi przeprowadza obliczenia dla 3, 7, 12. Po prawidłowymprzeprowadzeniu sortowania wraz z podziałem w wyniku powinniśmy otrzymać: 1, 3, 5 oraz7, 10, 12.

Wybór najlepszego podziału

Wybór najlepszego podziału w zrównoleglonej wersji SPRINT jest przeprowadzony w sposóbbardzo podobny do metody podstawowej. Każdy z procesorów pracuję nad własną porcjądanych prowadząc niezależne od innych obliczenia na przypisanych do niego strukturachdanych. Dokonanie podziału wymaga dodatkowej komunikacji (wymiany danych) pomiędzywszystkimi procesorami.

Nie ma konieczności wykonania żadnych dodatkowych zadań. SPRINT w swych założeniachzostał projektowany do przeprowadzania zrónoleglonych obliczeń.

4.4. Porównanie klasyfikatorów SPRINT i SLIQ

Algorytmy SPRINT i SLIQ budują identyczne drzewa decyzyjne, prowadząc do jednakowychhipotez. Jest to konsekwencją zastosowania tego samego kryterium oceny jakości podzia-łu oraz identycznej metody przycinania drzewa binarnego. Na uwagę zasługuje różnica wstrategii wzrostu drzewa, SLIQ wykorzystuje poziomą, SPRINT stosuje technikę zstępującą.SPRINT nie posiada elementów globalnych, stając się odpornym na rozmiar zbioru trenu-jącego oraz umożliwiając łatwe zrównoleglenie działania. Tym samym SPRINT rozwiązujedwa największe mankamenty metody SLIQ, tworząc szybkie, skalowalne i bardzo dokładnenarzędzie służące eksploracji danych.

44

Rozdział 5

Implementacja klasyfikatora SLIQ

5.1. Wprowadzenie

Implementacja klasyfikatora SLIQ została przeprowadzona we współpracy z Instytutem Pod-staw Informatyki Polskiej Akademii Nauk1 w ramach rozwoju pakietu „dmLab”. Jest to im-plementacja wykonana przez autora niniejszej pracy w oparciu o zawarty we wspomnianympakiecie schemat reprezentacji danych trenujących / testowych. Celem implementacji by-ło wykazanie użyteczności klasyfikatora SLIQ w rozwiązywaniu problemów, gdzie złożonośćobliczeniowa i skalowalność procesu uczenia jest szczególnie istotna.

5.2. Środowisko uruchomieniowe

Algorytm SLIQ (analogicznie do całości pakietu dmLab) został zaimplementowany w językuJAVA2. Do pakietu dmLab dodano ponad 2000 linii kodu, który zawiera:

1. dmLab.classifier - abstrakcyjną implementację klasyfikatora,

2. dmLab.classifier.tree - abstrakcyjną implementację reprezentacji drzewa,

3. dmLab.classifier.tree.treePruning - abstrakcyjną implementację metody przyci-nania drzewa,

4. dmLab.classifier.tree.sliqClassifier - implementację algorytmu SLIQ,

5. dmLab.classifier.tree.treePruning.mdlTreePruning - implementację przycinaniadrzewa metodą MDL.

Uruchomienie pakietu wymaga zainstalowania środowiska Java Runtime Environment. Wy-korzystanie języka JAVA zapewnia niezależność implementacji od architektury oraz platformy/ systemu operacyjnego.

5.3. Analiza wyników

Dane źródłowe wykorzystane w testach niemal w całości utworzono sztucznie, wykorzystującprosty generator. Jedynie w przykładzie 5.3.1 dane zawierają prawdziwe relacje, względemponiższej definicji z atrybutem „play” jako zmienną grupującą:1http://www.ipipan.waw.pl2http://www.java.sun.com

45

5.3 Analiza wyników Implementacja klasyfikatora SLIQ

#@relation weatherattributesoutlook nominaltemperature numerichumidity numericwindy nominalplay nominal decision(all)events...

Przykład 5.3.1 prezentuje wynik działania klasyfikatora SLIQ z pakietu dmLab. W pierwszejczęści widzimy macierz błędu wraz z precyzją nieprzyciętego drzewa SLIQ. Następnie (sekcja„Tree info”) odnajdujemy informacje o liczbie węzłów i liści w drzewie, jego wysokości, orazczasach budowy i/lub przycinania. W kolejnym kroku system informuje o przeprowadzonymprzycinaniu. Sekcja „Tree structure” prezentuje strukturę przyciętego drzewa SLIQ. Sekcja„Tree info” aktualizuje liczbowe wskaźniki dla przyciętego drzewa. Na końcu odnajdujemyjakość ostatecznej klasyfikacji.

Przykład 5.3.1 Drzewo SLIQ zbudowane na próbie uczącej o liczności 2029.

attributes: 5 events: 2029

Confusion MatrixSystem Answer

no yes otherno 723 0 0yes 1 1305 0other 0 0 0

Accuracy : 0.9995071------------- Tree info -------------Nodes number .............. : 48Leafs number .............. : 49Tree height ............... : 10Tree built ................ : trueTree pruned ............... : falseTree building time [s] .... : 0.071Tree pruning time [s] ..... : 0.0Total training time [s] ... : 0.071==================================================MDL Pruning... Done!================= Tree structure =================Root:outlook \in overcast| L: [leaf] -> play = yes| R: humidity <= 84.0| | L: temperature <= 65.0| | | L: [leaf] -> play = no| | | R: [leaf] -> play = yes| | R: temperature <= 70.0| | | L: [leaf] -> play = yes| | | R: [leaf] -> play = no------------- Tree info -------------Nodes number .............. : 4Leafs number .............. : 5Tree height ............... : 3Tree built ................ : trueTree pruned ............... : trueTree building time [s] .... : 0.071Tree pruning time [s] ..... : 0.0Total training time [s] ... : 0.071

46

Implementacja klasyfikatora SLIQ 5.3 Analiza wyników

==================================================Testing... Done!Confusion Matrix

System Answerno yes other

no 1412 34 0yes 10 2602 0other 0 0 0

Accuracy : 0.9891572

Podsumowując przykład 5.3.1 powiemy, że przycinając drzewo drastycznie zmniejszyliśmyjego złożoność (liczba węzłów i liści) nie tracąc jakości klasyfikacji (spadek o 1%). Wynik tenbardzo dobrze obrazuje istotę przycinania drzew.

5.3.1. Skalowalność SLIQ

Skalowalność klasyfikacji metodą SLIQ zbadaliśmy poprzez analizę wpływu wzrostu licznościpróby uczącej i wzrostu liczby atrybutów na czas uczenia. Tabela 5.1 prezentuje podsumowa-nie eksperymentu dla wzrostu liczności próby. Tabela 5.1 w analogiczny sposób przedstawiaanalizę dla wzrostu liczby atrybutów w próbie uczące. Wykresy 5.1, 5.2 utworzono na pod-stawie danych z tabel 5.1 i 5.2. Szczegóły eksperymentu prezentują przykłady 5.3.2 i 5.3.3.

Wniosek 5.3.1 Analiza wykresów 5.1 i 5.2 wskazuje na liniowy charakter zależności czasuuczenia od liczności próby oraz liczby atrybutów ją opisujących.

Liczność 1 000 2 000 5 000 10 000 20 000 50 000 100 000

Liczba węzłów 537 1 088 2 558 5 557 9 798 24 421 55 532Liczba liści 538 1 089 2 559 5 558 9 799 24 422 55 533Głębokość drzewa 16 18 22 27 41 41 52Precyzja 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%Czas budowy 0,16 0,44 0,94 2,08 7,66 25,05 47,68

Liczba węzłów 231 344 584 92 874 590 541Liczba liści 232 345 585 93 875 591 542Głębokość drzewa 14 18 21 16 33 36 28Precyzja 82,8% 79,4% 76,1% 63,0% 69,0% 63,9% 61,6%Czas przycinania 0,01 0,01 0,02 0,02 0,06 0,15 0,23

57,0% 68,4% 77,2% 98,3% 91,1% 97,6% 99,0%0,17 0,45 0,96 2,10 7,72 25,20 47,91

Faza budowy

Faza przycinania

Uproszczenie drzewaŁączny czas

Tabela 5.1: Skalowalność SLIQ względem liczność próby uczącej

Przykład 5.3.2 Szczegóły analizy wpływu wzrostu liczność próby uczącej na czas uczenia.

attributes: 11 events: 1000 attributes: 11 events: 2000

Confusion Matrix Confusion MatrixSystem Answer System Answer

C3 C5 C4 C1 C2 other C5 C1 C3 C4 C2 otherC3 202 0 0 0 0 0 C5 396 0 0 0 0 0C5 0 193 0 0 0 0 C1 0 392 0 0 0 0C4 0 0 202 0 0 0 C3 0 0 397 0 0 0C1 0 0 0 196 0 0 C4 0 0 0 402 0 0C2 0 0 0 0 207 0 C2 0 0 0 0 413 0other 0 0 0 0 0 0 other 0 0 0 0 0 0

47


0

5

10

15

20

25

30

35

40

45

50

0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

t [s]

n [obs]

Rysunek 5.1: Skalowalność SLIQ względem liczność próby uczącej

Accuracy : 1.0 Accuracy : 1.0------------- Tree info ------------- ------------- Tree info -------------Nodes number .............. : 537 Nodes number .............. : 1088Leafs number .............. : 538 Leafs number .............. : 1089Tree height ............... : 16 Tree height ............... : 18Tree built ................ : true Tree built ................ : trueTree pruned ............... : false Tree pruned ............... : falseTree building time [s] .... : 0.161 Tree building time [s] .... : 0.441Tree pruning time [s] ..... : 0.0 Tree pruning time [s] ..... : 0.0Total training time [s] ... : 0.161 Total training time [s] ... : 0.441================================================== ==================================================MDL Pruning... Done! MDL Pruning... Done!------------- Tree info ------------- ------------- Tree info -------------Nodes number .............. : 231 Nodes number .............. : 344Leafs number .............. : 232 Leafs number .............. : 345Tree height ............... : 14 Tree height ............... : 18Tree built ................ : true Tree built ................ : trueTree pruned ............... : true Tree pruned ............... : trueTree building time [s] .... : 0.161 Tree building time [s] .... : 0.441Tree pruning time [s] ..... : 0.01 Tree pruning time [s] ..... : 0.01Total training time [s] ... : 0.171 Total training time [s] ... : 0.451================================================== ==================================================Testing... Done! Testing... Done!Confusion Matrix Confusion Matrix

System Answer System AnswerC3 C5 C4 C1 C2 other C5 C1 C3 C4 C2 other

C3 348 24 11 12 9 0 C5 656 32 27 32 45 0C5 22 341 9 11 3 0 C1 48 614 25 46 51 0C4 29 30 321 15 9 0 C3 41 42 601 51 59 0C1 26 34 6 322 4 0 C4 56 42 22 640 44 0C2 27 37 7 19 324 0 C2 44 41 43 32 666 0other 0 0 0 0 0 0 other 0 0 0 0 0 0

Accuracy : 0.828 Accuracy : 0.79425================================================== ==================================================attributes: 11 events: 5000 attributes: 11 events: 10000

48


Liczba atrybutów 10 20 50 100 200

Liczba węzłów 2 801 1 949 1 651 1 459 1 384Liczba liści 2 801 1 950 1 652 1 460 1 385Głębokość drzewa 23 22 20 19 20Precyzja 100,0% 100,0% 100,0% 100,0% 100,0%Czas budowy 0,95 2,81 5,55 13,88 22,06

Liczba węzłów 296 341 303 397 319Liczba liści 297 342 304 398 320Głębokość drzewa 19 18 20 19 18Precyzja 69,2% 74,1% 73,7% 78,2% 75,8%Czas przycinania 0,01 0,01 0,00 0,01 0,01

89,4% 82,5% 81,6% 72,8% 77,0%0,96 2,82 5,55 13,89 22,07

Uproszczenie drzewaŁączny czas

Faza budowy

Faza przycinania

Tabela 5.2: Skalowalność SLIQ względem liczby w próbie uczącej






Accuracy : 0.761 Accuracy : 0.6298================================================== ==================================================

49


0

5

10

15

20

25

0 20 40 60 80 100 120 140 160 180 200

t [s]

n [attr]

Rysunek 5.2: Skalowalność SLIQ względem liczby atrybutów w próbie uczącej





System Answer System Answer

50









Accuracy : 0.61639 Accuracy : 0.61903

Przykład 5.3.3 Szczegóły analizy wpływu wzrostu liczby atrybutów próbie uczącej na czasuczenia.



C1 C3 C2 C4 C5 other C4 C3 C2 C5 C1 otherC1 991 0 0 0 0 0 C4 951 0 0 0 0 0C3 0 979 0 0 0 0 C3 0 1063 0 0 0 0C2 0 0 1043 0 0 0 C2 0 0 1012 0 0 0C4 0 0 0 937 0 0 C5 0 0 0 968 0 0C5 0 0 0 0 1050 0 C1 0 0 0 0 1006 0

51


other 0 0 0 0 0 0 other 0 0 0 0 0 0







Accuracy : 1.0 Accuracy : 1.0------------- Tree info ------------- ------------- Tree info -------------Nodes number .............. : 1651 Nodes number .............. : 1459Leafs number .............. : 1652 Leafs number .............. : 1460Tree height ............... : 20 Tree height ............... : 19Tree built ................ : true Tree built ................ : trueTree pruned ............... : false Tree pruned ............... : falseTree building time [s] .... : 5.548 Tree building time [s] .... : 13.88Tree pruning time [s] ..... : 0.0 Tree pruning time [s] ..... : 0.0Total training time [s] ... : 5.548 Total training time [s] ... : 13.88================================================== ==================================================MDL Pruning... Done! MDL Pruning... Done!------------- Tree info ------------- ------------- Tree info -------------Nodes number .............. : 303 Nodes number .............. : 397Leafs number .............. : 304 Leafs number .............. : 398Tree height ............... : 20 Tree height ............... : 19Tree built ................ : true Tree built ................ : trueTree pruned ............... : true Tree pruned ............... : trueTree building time [s] .... : 5.548 Tree building time [s] .... : 13.88Tree pruning time [s] ..... : 0.0 Tree pruning time [s] ..... : 0.01

52


Total training time [s] ... : 5.548 Total training time [s] ... : 13.89================================================== ==================================================Testing... Done! Testing... Done!Confusion Matrix Confusion Matrix









Accuracy : 0.7579 Accuracy : 0.7042

53

Dodatek A

Topologia, prawdopodobieństwo imiara

A.1. Przestrzeń topologiczna

Niech Ω będzie dowolnym niepustym zbiorem.

Definicja A.1.1 Rodzinę T podzbiorów zbioru Ω nazywamy topologią w zbiorze Ω jeżeli speł-nione są następujące warunki:

(T1) ∅ ∈ T, Ω ∈ T.

(T2)(U ∈ T

)∧(V ∈ T

)⇒(U ∩ V ∈ T

),

(T3)(∀ s ∈ S Us ∈ T

)⇒( ⋃s∈SUs ∈ T

)dla dowolnego zbioru S.

Topologia jest uogólnieniem1 pojęcia zbioru otwartego. Elementy rodziny T nazywamy zbiora-mi otwartymi w Ω, a parę (Ω,T) nazywamy przestrzenią topologiczną. Zauważmy, że topologiajest rodziną zamkniętą na skończony iloczyn, oraz dowolną sumę zbiorów.

Przykład A.1.1 W zbiorze Ω wyróżnia się dwie skrajne topologie:

• ∅,Ω - topologia minimalna,

• 2Ω - topologia dyskretna.

Przykład A.1.2 Zakładając, że Ω 6= ∅ i ω ∈ Ω można podać dwa kolejne przykłady topologiiw Ω:

• ∅ ∪ U ⊆ Ω : ω ∈ U

• ∅ ∪ U ⊆ Ω : ω /∈ U

Twierdzenie A.1.1 Niech (Ω,T) będzie przestrzenią topologiczną, a S ustalonym podzbio-rem zbioru Ω. Rodzina TS podzbiorów zbioru S określona następująco:

TS :=S ∩G : G ∈ T

jest topologią w S.

Wniosek A.1.1 W każdym podzbiorze przestrzeni topologicznej można wprowadzić topologię.

Topologię TS w S nazywamy topologią indukowaną przez topologię T w Ω.1wykracza znacznie poza pojęcie otwartości zbioru w przestrzeniach metrycznych

54

Topologia, prawdopodobieństwo i miara A.2 σ-ciało i σ-ciało zbiorów Borela

A.2. σ-ciało i σ-ciało zbiorów Borela

Definicja A.2.1 Rodzinę F podzbiorów zbioru Ω nazywamy σ-ciałem podzbiorów zbioru Ω(σ-ciałem w Ω) jeżeli:

(σ1) ∅ ∈ F,

(σ2)(A ∈ F

)⇒(Ω \A ∈ F

),

(σ3)(Ai ∈ F dla i = 1, 2, . . .

)⇒( ∞⋃i=1

Ai ∈ F

).

Wniosek A.2.1 Przeliczalnie addytywne ciało zbiorów jest σ-ciałem.

Przykład A.2.1 Rodziny ∅,Ω, 2Ω są σ-ciałami podzbiorów zbioru Ω.

Każde σ-ciało zbiorów jest zamknięte ze względu na dopełnienie zbioru i przeliczalną sumęzbiorów. Dalej przekonamy się, że σ-ciała posiadają znacznie więcej własności.

Twierdzenie A.2.1 Jeżeli F jest σ-ciałem podzbiorów zbioru Ω, to:

(w1) Ω ∈ F,

(w2)(Ai ∈ F dla i = 1, 2, . . . , n

)⇒( n⋃i=1

Ai ∈ F

),

(w3)(Ai ∈ F dla i = 1, 2, . . .

)⇒( ∞⋂i=1

Ai ∈ F

),

(w4)(Ai ∈ F dla i = 1, 2, . . . , n

)⇒( n⋂i=1

Ai ∈ F

),

(w5)(A ∈ F

)∧(B ∈ F

)⇒(A \B ∈ F

),

(w6) jeżeli Fαα∈I jest rodziną σ-ciał w zbiorze Ω, to przecięcie⋂α∈I

Fα jest σ-ciałem w Ω.

Twierdzenie A.2.2 Dla każdej rodziny R podzbiorów zbioru Ω istnieje dokładnie jedno σ-ciało F0 w Ω takie, że:

1. R ⊆ F0,

2. F0 ⊆ F dla każdego σ-ciała F w Ω.

F0 jest najmniejszym σ-ciałem w Ω zawierającym rodzinę R, nazywamy je σ-ciałem genero-wanym przez rodzinę R.

Definicja A.2.2 Jeżeli (Ω,T) jest przestrzenią topologiczną z topologią T, to σ-ciałem bore-lowskim w przestrzeni (Ω,T) nazywamy σ-ciało generowane przez topologię T.

Definicja A.2.3 Przestrzenią mierzalną nazywamy parę (Ω,F), gdzie Ω dowolny zbiór, a F

σ-ciało w Ω.

55

A.3 Miara i miara probabilistyczna Topologia, prawdopodobieństwo i miara

A.3. Miara i miara probabilistyczna

(Ω,F) - przestrzeń mierzalna.

Definicja A.3.1 Funkcję µ : F → R nazywamy miarą, jeżeli spełnione są następujące wa-runki:

(µ1) ∀ A ∈ Ω, µ(A)0

(µ2) µ(∅) = 0

(µ3) µ jest przeliczalnie addytywną funkcją zbioru, tj. dla każdego ciągu zbiorów Ai ∈ F

(i = 1, 2, . . .)

(Ai ∩Aj = ∅ dla i 6=

)⇒(µ

( ∞⋃i=1

Ai

)=∞∑i=1

µ(Ai)

)

Mówimy, że zbiory należące do σ-ciała F są µ-mierzalne (lub krótko - mierzalne). Miara jestuogólnieniem pojęć takich jak długość, pole powierzchni, objętość zbioru2. Trzy aksjomatypodane w definicji A.3.1 implikują kilka kolejnych bardzo ważnych własności miary.

Twierdzenie A.3.1 Niech (Ω,F) będzie przestrzenią mierzalną, a µ miarą określoną na σ-ciele F. Wtedy dla dowolnych Ai ∈ F (i = 1, 2, . . . , n) i A,B ∈ F zachodzi:

(w1)(Ai ∩Aj = ∅ dla i 6=

)⇒(µ

( n⋃i=1

Ai

)=n∑i=1

µ(Ai)

)

(w2)(A ⊆ B

)⇒(µ(A) ¬ µ(B)

)(w3)

(A ⊆ B

)∧(µ(B) < +∞

)⇒(µ(B \A) = µ(B)− µ(A)

)(w4) µ

( ∞⋃i=1

Ai

)¬∞∑i=1

µ(Ai)

(w5) µ( n⋃i=1

Ai

)¬n∑i=1

µ(Ai)

(w6)(Ai ⊆ Ai+1

)⇒(µ

( ∞⋃i=1

Ai

)= limi→∞µ(Ai)

)

(w7)(µ(A1) < +∞

)∧(Ai ⊆ Ai+1

)⇒(µ

( ∞⋂i=1

Ai

)= limi→∞µ(Ai)

)

Dowody twierdzeń A.2.1, A.2.2, A.3.1 można znaleźć w [8] (rozdział IV, §42, 2).

Definicja A.3.2 Każdą miarę P w przestrzeni mierzalnej (Ω,F) spełniającą warunek:

P (Ω) = 1

nazywamy miarą probabilistyczną (prawdopodobieństwem).

2W przestrzeniach Rn definiuje się najczęściej miarę Lebesgue’a

56

Topologia, prawdopodobieństwo i miara A.4 Funkcje mierzalne

Definicja A.3.3 Przestrzenią probabilistyczną nazywamy dowolną trójkę (Ω,F, P ), gdzie (Ω,F)jest przestrzenią mierzalną, a P miarą probabilistyczną w (Ω,F).

Zbiór Ω nazywamy zbiorem zdarzeń elementarnych. Miara probabilistyczna posiada wszystkiewłasności miary wymienione w twierdzeniu A.3.1. Dalej przedstawimy cechy miary probabi-listycznej, które nie zachodzą w ogólnej sytuacji.

Twierdzenie A.3.2 Jeżeli (Ω, F, P ) jest przestrzenią probabilistyczną i A,B ∈ F, to:

(P1) P (A) ¬ 1

(P2) P (A) = 1− P (Ω \A)

(P3)(A ⊆ B

)⇒(P (B \A) = P (B)− P (A)

)(P4) P (A ∪B) = P (A) + P (B)− P (A ∩B)

Dowód twierdzenia A.3.2 można znaleźć w [10] (rozdział I, §1.1).

Definicja A.3.4 Prawdopodobieństwo zdarzenia A ∈ F pod warunkiem zdarzenia B ∈ F oile P (B) > 0 definiujemy jako:

P (A|B) = P (A ∩B)P (B)

Twierdzenie A.3.3 (Bayesa) Dla takich zdarzeń A,B ∈ F, że P (A) > 0 i P (B) > 0zachodzi:

P (A|B) = P (B|A)P (A)P (B)

Twierdzenie A.3.4 (Bayesa) Dla takich parami rozłącznych zdarzeń A1, A2, . . ., że P (An) >0, n = 1, 2, . . . i

⋃n

An = Ω, oraz dla każdego takiego zdarzenia B ∈ F, że P (B) > 0 zachodzi:

P (Ak|B) =P (Ak)P (B|Ak)∑n

P (An)P (B|An)

A.4. Funkcje mierzalne

Zakładamy, że (Ω,F) jest przestrzenią mierzalną. Dodatkowo niech A będzie dowolnym pod-zbiorem zbioru Ω.

Definicja A.4.1 Funkcję f : A → R nazywamy funkcją mierzalną (względem σ-ciała F)jeżeli A ∈ F oraz:

∀ a ∈ R x : f(x) < a ∈ F

Przykładem funkcji mierzalnej jest funkcja stała na zbiorze mierzalnym. Istnieją cztery rów-noważne definicje mierzalności funkcji.

Twierdzenie A.4.1 Niech f : A→ R, gdzie A ∈ F. Następujące warunki są równoważne:

(m1) f jest funkcją mierzalną,

(m2) ∀ a ∈ R x : f(x) ¬ a ∈ F

57

A.4 Funkcje mierzalne Topologia, prawdopodobieństwo i miara

(m3) ∀ a ∈ R x : f(x) > a ∈ F

(m4) ∀ a ∈ R x : f(x) a ∈ F

Funkcje mierzalne generują bardzo ważną klasę zbiorów mierzalnych3. Zamieszczamy poniżejcharakterystykę zbiorów mierzalnych generowanych przez funkcje mierzalne.

Twierdzenie A.4.2 Dla dowolnych mierzalnych funkcji f, g : A→ R, oraz dowolnych a, b ∈R zachodzą następujące własności:

(w1) x : f(x) < +∞ ∈ F,x : f(x) > −∞ ∈ F,

(w2) x : a < f(x) < b ∈ F,x : a ¬ f(x) < b ∈ F,x : a < f(x) ¬ b ∈ F,x : a ¬ f(x) ¬ b ∈ F,

(w3) x : f(x) = a ∈ F,x : f(x) 6= a ∈ F,

(w4) x : f(x) < g(x) ∈ F,x : f(x) ¬ g(x) ∈ F,x : f(x) = g(x) ∈ F,x : f(x) 6= g(x) ∈ F.

Twierdzenie A.4.3 Obcięcie funkcji mierzalnej do niepustego zbioru mierzalnego jest funk-cją mierzalną.

Dowody twierdzeń A.4.1, A.4.2, A.4.3 można znaleźć w [8] (rozdział VI, §44).

3W dalszych rozważaniach najczęściej wykorzystywać będziemy własność przechodzenia mierzalności funk-cji na mierzalność jej przeciwobrazów (ich pewnej klasy).

58

Dodatek B

Teoria grafów

B.1. Grafy

Definicja B.1.1 Parę G =< V,E > nazywamy grafem jeżeli V jest dowolnym niepustymzbiorem skończonym oraz E ⊆ P2(V ) := A ⊆ V : |A| = 2. Zbiór V nazywamy zbioremwierzchołków, zbiór E nazywamy zbiorem krawędzi grafu G.

Definicja B.1.2 Parę G =< V,E > nazywamy grafem zorientowanym jeżeli V jest dowol-nym niepustym zbiorem skończonym oraz E ⊆ V × V .

Każdy element v ∈ V nazywamy wierzchołkiem grafu G. Krawędzią grafu G łączącą wierz-chołki v1, v2 ∈ V nazywamy parę e = v1, v2 ∈ E.

Definicja B.1.3 Podgrafem grafu G =< V,E > nazywamy dowolny graf H =< W,F > taki,że W ⊆ V oraz F ⊆ E.

Definicja B.1.4 Mówimy, że w grafie G =< V,E > wierzchołek u ∈ V sąsiaduje z wierz-chołkiem v jeżeli v, u ∈ E. Zbiór VG(v) :=

u ∈ V : v, e ∈ E

nazywamy zbiorem

wierzchołków sąsiadujących z wierzchołkiem v, zbiór EG(v) :=e ∈ E : v ∈ e

nazywamy

zbiorem krawędzi wierzchołka v.

Wniosek B.1.1 Dla dowolnego v ∈ V zachodzi:∣∣VG(v)∣∣ = ∣∣EG(v)∣∣.

Definicja B.1.5 Stopniem wierzchołka v ∈ V grafu G =< V,E > nazywamy liczbę:

degG(v) :=∣∣EG(v)∣∣ (B.1)

Definicja B.1.6 Drogą o długości k − 1 (k 2) w grafie G =< V,E > nazywamy dowolnyciąg wierzchołków (v1, . . . , vk) taki, że:

1. vi, vi+1 ∈ E dla i = 1, . . . , k − 1

2.(i 6= j dla i, j = 1, . . . , k − 1

)⇒(vi, vi+1 6= vj , vj+1

)Drogę (v1, . . . , vk) oznaczamy v1 − vk drogą (v1 − vk droga łączy wierzchołki v1, vk ∈ V ).

Definicja B.1.7 Drogę (v1, . . . , vk) w grafie G =< V,E > nazywamy drogą prostą jeżeli:(i 6= j dla i, j = 1, . . . , k − 1

)⇒ (vi 6= vj)

59

B.2 Drzewa Teoria grafów

Definicja B.1.8 Cyklem w grafie G =< V,E > nazywamy każdą drogę (v1, . . . , vk) o długo-ści większej niż 2 taką, że v1 = vk.

Definicja B.1.9 Graf G =< V,E > nazywamy grafem acyklicznym jeżeli nie posiada cykli.

Definicja B.1.10 Graf G =< V,E > nazywamy spójnym wtedy i tylko wtedy, gdy dla każ-dych u, v ∈ V istnieje u−v droga w grafie G. Składową grafu G nazywamy każdy maksymalnypodgraf spójny grafu G.

Definicja B.1.11 Odległością(distG(u, v)

)w grafie G =< V,E > pomiędzy wierzchołkami

u, v ∈ V nazywamy długość najkrótszej u− v drogi w grafie G. W przypadku, gdy wierzchołkiu, v leżą w różnych składowych przyjmuje się distG(u, v) = +∞.

Funkcja odległość w grafie jest metryką.

B.2. Drzewa

Definicja B.2.1 Graf T =< V,E > nazywamy drzewem jeżeli:

1. T jest grafem spójnym

2. T jest grafem acyklicznym (nie ma cykli).

Graf, które spełnia tylko warunek 2 nazywamy lasem.

Definicja B.2.2 Każdy wierzchołek v ∈ V drzewa T =< V,E > o stopniu degT (v) = 1nazywamy liściem.

Twierdzenie B.2.1 Jeżeli G =< V,E > jest grafem to następujące warunki są równoważne:

1. graf G jest drzewem

2. dla każdych wierzchołków u, v ∈ V istnieje dokładnie jedna u − v droga w G i jest todroga prosta

3. Graf G jest spójny i |V | = |E|+ 1

4. Graf G jest acykliczny i |V | = |E|+ 1

5. Graf G jest acykliczny i dodanie do G nowej krawędzi powoduje powstanie dokładniejednego cyklu.

60

Bibliografia

[1] Jacek Koronacki, Jan Ćwik: Statystyczne systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2005

[2] Paweł Cichosz: Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000

[3] Leo Breiman, Jerome H. Friedman, Richard A. Olshen, Charles J. Stone: Classificationand Regression Trees, Chapman & Hall, New York, NY, 1984

[4] Manish Mehta, Rakesh Agrawal, Jorma Rissanen: SLIQ: A Fast Scalable Classifier forData Mining, Proc. of the Fifth Int’l Conference on Extending Database Technology,Avignon, France, March 1996

[5] John C. Shafer, Rakesh Agrawal, Manish Mehta: SPRINT: A Scalable Parallel Classifierfor Data Mining, Proc. of the 22th Int’l Conference on Very Large Databases, Mumbai(Bombay), India, Sept. 1996

[6] Manish Mehta, Jorma Rissanen, Rakesh Agrawal: MDL-based Decision Tree Pruning,Proc. of the 1st Int’l Conference on Knowledge Discovery in Databases and Data Mining,Montreal, Canada, August, 1995

[7] Kenneth Ross, Charles R. B. Wright : Matematyka dyskretna, Państwowe WydawnictwoNaukowe, Styczeń 2005

[8] Witold Kołodziej: Analiza matematyczna, Państwowe Wydawnictwo Naukowe, Warsza-wa 1978

[9] Kazimierz Kuratowski: Wstęp do teorii mnogości i topologii, wydanie piąte, PaństwoweWydawnictwo Naukowe, Warszawa 1972

[10] Jacek Jakubowski, Rafał Sztencel: Wstęp do teorii prawdopodobieństwa, Wydanie II,SCRIPT, Warszawa 2001

[11] Patrick Billingsley: Prawdopodobieństwo i miara, Państwowe Wydawnictwo Naukowe,Warszawa 1987

61

Mariusz Gromada Warszawa, 31 stycznia 2006Nr albumu 174094

Oświadczenie

Oświadczam, że pracę magisterską pod tytułem „Drzewa Klasyfikacyjne - ich budowa, pro-blemy złożoności i skalowalności”, której promotorem jest Prof. dr hab. Jacek Koronackiwykonałam samodzielnie, co poświadczam własnoręcznym podpisem.

...........................................

Mariusz Gromada

Politechnika Warszawska -...

Documents

Transcript of Politechnika Warszawska -...