Generowanie ciągów uczących w oparciu o metryczne własności przestrzeni  wzorców w sieciach...

Post on 09-Jan-2016

42 views 2 download

description

Generowanie ciągów uczących w oparciu o metryczne własności przestrzeni  wzorców w sieciach MLP. Cezary Dendek prof. nzw. dr hab. Jacek Mańdziuk. Agenda. Intuicje dotyczące uporządkowania wzorców uczących. Agenda. Intuicje dotyczące uporządkowania wzorców uczących - PowerPoint PPT Presentation

Transcript of Generowanie ciągów uczących w oparciu o metryczne własności przestrzeni  wzorców w sieciach...

Generowanie ciągów uczących w oparciu o metryczne własności przestrzeni

 wzorców w sieciach MLP

Cezary Dendek

prof. nzw. dr hab. Jacek Mańdziuk

Agenda

Intuicje dotyczące uporządkowania wzorców uczących

Agenda

Intuicje dotyczące uporządkowania wzorców uczących

Reguła tworzenia ciągów uczących

Agenda

Intuicje dotyczące uporządkowania wzorców uczących

Reguła tworzenia ciągów uczących Przykłady uporządkowań

Agenda

Intuicje dotyczące uporządkowania wzorców uczących

Reguła tworzenia ciągów uczących Przykłady uporządkowań Wyniki

Agenda

Intuicje dotyczące uporządkowania wzorców uczących

Reguła tworzenia ciągów uczących Przykłady uporządkowań Wyniki Dalsze prace

Intuicje

Uporządkowanie losowe

Bardzo łatwe do osiągnięcia,pokazało swoją skuteczność

Związek z metodami Monte Carlo(jednostajny rozkład próbek w przestrzeni)

Nie przekazuje dodatkowej (często znanej) informacji o przestrzeni wzorców

Intuicje

Propozycja: uporządkowanie Distant-First

Hipoteza:Uwzględnienie w uczeniu odległych od siebie wzorców (w sensie metryki specyficznej dla przestrzeni) może poprawić generalizację

Uporządkowanie takie przenosi informację o topologii przestrzeni

Reguła tworzenia ciągów uczących n elementowa sekwencja ucząca {S}

indeksowana {1, … n} spełniająca (w przybliżeniu) własność

Dla każdego indeksu n>k>1

Średnia odległość w zbiorze {S1...Sk}≥ Średnia odległość w zbiorze {Sk+1...Sn }

Przybliżone spełnianie własności – nierówność spełniana z dużym p-stwem(problem w domenie statystycznej)

Metryka przestrzeni wzorców

Metryki (zależne od problemu) zdefiniowane na przestrzeni wejściowej wzorca (dX)

przestrzeni wyjściowej (dY)

są normalizowane poprzez E(dX) oraz E(dY)

Metryka zdefiniowana na przestrzeni wzorców łączy metryki obu podprzestrzeni

22

)(

),(

)(

),(])|[],|([

Y

YYY

X

XXXYXYX dE

bad

dE

badbbaad

Algorytmy porządkowania zbioru

Sortowanie odległości (DS)

1. dla każdego wzorca oblicz sumę odległości od innych elementów

2. posortuj elementy zgodnie z obliczoną wartością

Algorytmy porządkowania zbioru

Sortowanie odległości z usuwaniem wzorców (DSR)

1. dla każdego pozostałego do uporządkowania wzorca oblicz sumę odległości od pozostałych elementów

2. wybierz element o największej wartości sumy i przenieś go na początek sekwencji

3. jeśli pozostały jakieś elementy 1

Przykłady uporządkowania Tendencja

koncentracji jednego z końców na geometrycznym centrum przestrzeni

Przykłady uporządkowania Tendencja

koncentracji na ekstremach gęstości p-stwa

Przykłady uporządkowania

Przykład wieloklastrowy

Przykłady uporządkowania

Porządek sekwencji w problemie aproksymacji funkcji

Jednostajny rozkład wzorców w X

Przykłady uporządkowania Porządek

sekwencji w problemie aproksymacji funkcji

Niejednostajny rozkład wzorców w X

Przeplatanie sekwencji uczących

Bezpośrednie zastosowanie uporządkowanej sekwencji uczącej może być nieefektywne ze względu na złamanie ciągłości reguły w chwili łączenia sekwencji (po ostatnim elemencie)

Propozycja: losowe przeplatanie sekwencji uporządkowanej sekwencją losową, zgodnie z wybranym modelem p-stwa

Przeplatanie sekwencji uczących

Zaproponowany model p-stwa

p – p-stwo początkowe η – współczynnik redukcji p-stwa t – numer epoki

)exp().( tpseqordPt

Wyniki

Problem testowy: rozpoznawanie izolowanych odręcznie pisanych cyfr

Architektura sieci i parametry procesu:MLPWarstwa ukryta zawierająca 30 neuronów600 epok uczących alg. propagacji wstecznej

Wyniki

Testowane sekwencje DS oraz jego odwrotność DSR oraz jego odwrotność Hipoteza zerowa

Parametry procesu p = 1.0 η wybrane tak, aby P600 = 0.03

Każda populacja o liczności 100 (wagi inicjowane losowo)

Wyniki.

Hipoteza zerowa„przedstawiony algorytm nie poprawia

skuteczności uczenia”reprezentowana przez procesy:

z jedną losową sekwencją uczącą z dwiema różnymi sekwencjami z przeplotem

Wyniki Istotna różnica w rozkładzie RMSE w populacjach

otrzymywanych w procesach z przeplotem 2 sekwencji losowych z przeplotem sekwencji uporządkowanej sekwencją losową z 1 sekwencją losową

średnie RMSE wyższe w procesach z sekwencjami losowymi

średnie RMSE najwyższe w procesach z 1 sekwencją losową

Najefektywniejsze klasyfikatory uzyskane w wyniku uczenia sekwencjami uporządkowanymi z przeplotem

Wyniki

Względna różnica RMSE dla procesu z sekwencją losową i sekwencją uporządkowaną przeplataną losową

Strona dodatnia wykresu: proces z sekwencją uporządkowaną

Dalsze prace

Wyjaśnienie zaobserwowanego zjawiskaHipotezy:Większa zdolność do opuszczania lokalnych

minimów (ograniczenie efektu znoszenia się zmian)

W czasie pełnej prezentacji ciągu uczącego sieć „przeszukuje” większy fragment przestrzeni wag

Dalsze prace

Problemy do rozwiązania: usunięcie nieciągłości reguły przy sklejaniu sekwencji

droga: ekstrakcja najważniejszych własności z bieżącego modelu

zmniejszenie kosztu porządkowania sekwencjidroga: lokalizacja (w sensie elementów sekwencji) procesu porządkowania. Porządkowanie w trakcie uczenia

Dalsze prace

Generalna własność:średnia odległość kolejnych 2 elementów ciągu uporządkowanego wyższa od średniej odległości w zbiorze wzorców

Jej lokalne spełnienie w trakcie uczeniaAdaptacja do bieżącego elementuAdaptacja do bieżącego stanu sieci

Dziękuję za uwagę

Pytania? Wnioski? Pomysły?