Sieci Neuronowe – Wprowadzenie do teorii i praktykison/sysdec/W6-ANN.pdfobliczeniowych, a w...

Sieci Neuronowe –Wprowadzenie do teorii i praktyki

Nguyen Hung Son, Uniwersytet Warszawski

• Podstawy modelu sieci neuronowychCzęść I

• Uczenie sieci neuronychCzęść II

• Projektowanie sieci neuronowychCzęść III

• Różne paradygmaty sieci neuronowych

Część IV

• Zastosowania sieci neuronowychCzęść V

Sieci neuronowe 14/04/2011 1 / 65

Outline

1 Podstawy sieci neuronowych

2 Problem klasyfikacji i sieci wielowarstwowe

3 Projektowanie sieci neuronowych

4 Zastosowania

5 Inne paradymaty sieci neuronowych

Sieci rekurencyjne

Modele samoorganizacji

6 Dodatki

Historia

Mozliwosci sieci wielowarstwowych


Inspiracje biologiczno-neurologiczne

Wiedza o mechanizmach myslenia zaczerpnieta z fizjologii,neurologii i badan nad procesem poznawania (cognitivescience).

Inteligencja ludzka?

Czym charakteryzuje sie inteligencja?

Zdolnosc dostosowywania sie do zmian srodowiska lub donowych srodowisk;Pojemnosc wiedzy, rozumu, abstrakcje;Zdolnosc do oryginalnego, samodzielnego myslenia.

Które gatunki to posiada?

Jakie sa biologiczne uwarunkowania na inteligencje?

Jaki jest rozwój inteligencji u człowieka, ...


Mózg ludzki

Masa mózgu ludzkiego stanowi2% masy ciała:

u mezczyzny – ok. 1375 g;u kobiety – ok. 1225 g;u niemowlecia – ok. 350 g.

Objetosc ok. 1400 cm3,powierzchnia ok. 2000 cm2 czyliniemal trzykrotnie wiecej nizkula o tej samej objetosci.

Kora - grubosc 2-4 mm:ok. 10

10 komórek nerwowych;ok. 10

12 komórek glejowych;ok. 10

15 połaczen (srednio 7000na neuron).


Mózg – super-komputerem?

Pojemnosc rzedu 50⇥ 1012 = 50 Tbitów (kazda synapsa = 1 bit).

Oszacowanie przepływu informacji (swiadomego):

Wzrok ok. 5000 bitów/sek;Pozostałe zmysły 100 bitów/sek,

Napiecie: 20V!

W ciagu 60 lat zycia człowiek zuzywa około 10 Terabitów.

Moc obliczeniowa: 5x1013 połaczen, zmiana rzedu 100 Hz, 5x1015operacji/sek = 5 Petaflopów

Mózg na VLSI: 10x10x32 metry, 10 TB RAM, 1-10 Pflopów

IBM Blue Gene w 2005 roku - porównywalna moc obliczeniowa


Współczynnik inteligencji

=)


Jak działa mózg?

1 Potencjały odebrane z innych komórek za pomocadendrytów sa zbierane na błonie ciała komórki.

2 Gdy zebrane potencjały przekrocza wartosc progowa neuronstaje sie aktywny i wysyła sygnały elektryczne(elektrochemiczne) przez akson.

3 Inne neurony odbieraja sygnał zaleznie od przepustowoscisynaps.


Badanie nad sztucznymi sieciami neuronami (ANN):

W układach nerwowych zywych organizmów stosunkowo prosteelementy – neurony – współdziałajac sa w stanie realizowacwysokopoziomowe, złozone funkcje.

U podstaw ANN lezy idea wykorzystania prostych elementówobliczeniowych – sztucznych neuronów – do tworzeniaukładów zdolnych rozwiazywac skomplikowane zadania.Siła rozwiazania lezy nie w samych elementachobliczeniowych, a w sposobie ich łaczenia.Celem jest otrzymanie systemu, który przejawia cechypodobne do układu nerwowego.




U podstaw ANN lezy idea wykorzystania prostych elementówobliczeniowych – sztucznych neuronów – do tworzeniaukładów zdolnych rozwiazywac skomplikowane zadania.

Siła rozwiazania lezy nie w samych elementachobliczeniowych, a w sposobie ich łaczenia.Celem jest otrzymanie systemu, który przejawia cechypodobne do układu nerwowego.




U podstaw ANN lezy idea wykorzystania prostych elementówobliczeniowych – sztucznych neuronów – do tworzeniaukładów zdolnych rozwiazywac skomplikowane zadania.Siła rozwiazania lezy nie w samych elementachobliczeniowych, a w sposobie ich łaczenia.

Celem jest otrzymanie systemu, który przejawia cechypodobne do układu nerwowego.





Poznamy:

Model sztucznego neuronu;

Rózne typy sieci neuronowych, które rozwiazuja rózne problemy, np.predykcja, rozpoznawanie, klasyfikacja, skojarzenie, grupowanie,optymalizacja ...


Perceptron – model sztucznego neuronu

w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0

wixi o = sign(net)net



w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0


Przy ustalonych wartosciach parametrów w0

, ...,wn:

o(x0

, x1

, ..., xn) = sign

nX

i=0

wixi

!= sign(~w · ~x)



w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0



, ...,wn:

o(x0

, x1

, ..., xn) = sign

nX

i=0

wixi

!= sign(~w · ~x)

Biologiczna siec Sztuczna siecSoma SumatorDendrydy Wejscia

Axon WyjscieSynapsa WagaMała predkosc Duza predkoscDuzo neuronów (10

9) Mało (od kilku do kilkudziesieciu tysiecy )



w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0



, ...,wn:

o(x0

, x1

, ..., xn) = sign

nX

i=0

wixi

!= sign(~w · ~x)

Biologiczna siec Sztuczna siecSoma SumatorDendrydy WejsciaAxon Wyjscie

Synapsa WagaMała predkosc Duza predkoscDuzo neuronów (10




w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0



, ...,wn:

o(x0

, x1

, ..., xn) = sign

nX

i=0

wixi

!= sign(~w · ~x)

Biologiczna siec Sztuczna siecSoma SumatorDendrydy WejsciaAxon WyjscieSynapsa Waga

Mała predkosc Duza predkoscDuzo neuronów (10




w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0



, ...,wn:

o(x0

, x1

, ..., xn) = sign

nX

i=0

wixi

!= sign(~w · ~x)

Biologiczna siec Sztuczna siecSoma SumatorDendrydy WejsciaAxon WyjscieSynapsa WagaMała predkosc Duza predkosc

Duzo neuronów (10




w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0



, ...,wn:

o(x0

, x1

, ..., xn) = sign

nX

i=0

wixi

!= sign(~w · ~x)

Biologiczna siec Sztuczna siecSoma SumatorDendrydy WejsciaAxon WyjscieSynapsa WagaMała predkosc Duza predkoscDuzo neuronów (10



Outline




4 Zastosowania


Sieci rekurencyjne


6 Dodatki

Historia



Problem klasyfikacji

Klasyfikacja i rozpoznawanie: Zadanie polega naprzewidywaniu identyfikatora klasy, do której dany obiektnalezy na podstawie wczesniej zaobserwowanych(nauczonych) przykładów..Predykacja: Sieci neuronowe sa czesto wykorzystywane, abyna podstawie pewnych danych wejsciowych przewidywaładane wyjsciowe. Wazna zaleta jest to, ze siec moze nauczycsie przewidywania sygnałów wyjsciowych bez jawnegozdefiniowania zwiazku miedzy danymi wejsciowymi awyjsciowymi. Tego typu układy sa tez czesto przydatne wzadaniach zwiazanych ze sterowaniem.Kojarzenie danych: Sieci neuronowe, dzieki zdolnosci uczeniasie i uogólniania doswiadczen, pozwalaja zautomatyzowacprocesy wnioskowania i pomagaja wykrywac istotnepowiazania pomiedzy danymi.


Uczenie klasyfikacji przez perceptron:

Problem:Dany jezt zbiór treningowy D = {d

1

, ...dm}, gdziedi = ((xdi

1

, ..., xdin ), tdi). Znalezc w

0

, ...,wn, dla których funkcja błedu

E(w0

,w1

, ...,wn) ⌘1

2

X

d2D

(td � od)2

osiagneła minimum, gdzie od = o(1, xd1

, ..., xdn).

D x1

x2

x3

t o o⇤

d1

0 0 0 0 0.72 0.23

d2

1 1 0 1 0.89 0.67

d3

0 0 1 1 0.13 0.99

d4

0 1 1 1 0.55 0.82

. . .d

7

1 1 1 ? 0.95

d8

0 1 0 ? 0.35


Reguła Hebba

A BwAB

(Hebb, 1949)Jezeli komórka A bierze systematycznie udział w pobudzaniukomórki B powodujacym jej aktywacje, to wywołuje to zmianemetaboliczna w jednej lub w obu komórkach, prowadzaca dowzrostu (lub osłabienia) skutecznosci pobudzania B przez A.

wt+1

AB = wtAB +�AB

�AB = "VAVB


Metoda gradientowa

E(w0

,w1

, ...,wn) ⌘1

2

X

d2D

(td � od)2

Algorytm gradientu1 Inicjalizujemy wagi neuronu

(sieci) np. losowo.2 Powtarzamy

�~w = ~0;

Podajemy kolejny przykład(xi,di) do sieci i obliczamywartosc o(xi);Poprawiamy wagi wedługreguły:

~wnowy ~wstary +�~w

gdzie �~w = �⌘rE[~w]


Metoda gradientowa



�~w = ~0;





Metoda gradientowa



�~w = ~0;




rE[~w] ⌘@E@w

0

,@E@w

1

, · · · @E@wn

�


✏�

��

@E@wi

=@

@wi

1

2

X

d

(td � od)2 =

X

d

(td � od)@

@wi(td � od) = �

X

d

(td � od)@od@wi


✏�

��

@E@wi

=@

@wi

1

2

X

d

(td � od)2 =

X

d

(td � od)@

@wi(td � od) = �

X

d

(td � od)@od@wi

Dla perceptronu liniowego:

w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0

wixi o = w0

+ w1

x1

+ · · ·+ wnxnnet

@E@wi

= �X

d

(td � od)@

@wi~w · ~xd = �

X

d

(td � od)xi,d


✏�

��

@E@wi

=@

@wi

1

2

X

d

(td � od)2 =

X

d

(td � od)@

@wi(td � od) = �

X

d

(td � od)@od@wi

Dla perceptronu liniowego:

w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0

wixi o = w0

+ w1

x1

+ · · ·+ wnxnnet

@E@wi

= �X

d

(td � od)@

@wi~w · ~xd = �

X

d

(td � od)xi,d

Reguły uczenia perceptronu liniowego (por. reguły Hebba)

~wnowy ~wstary + ⌘X

d

(td � od)~xd


Nieliniowe perceptronyAby naprawic niedoskonałosci perceptronu, wprowadzononieliniowe, ciagłe i rózniczkowalne funkcje aktywacji dlaneuronów. Standardowo, stosuje sie:

Logistyczna funkcje sigmoidalna (unipolarna):

�(x) =1

1 + e��x =) d�(x)dx

= �(x)(1� �(x))

w1

x1

w2

x2

. . .. . .

wnxn

w0

x0

= 1

nPi=0

wixi o = �(net)net

Tangens hiperboliczny (bipolarny):

�(x) = tanh(�x) =e�x � e��x

e�x + e��x =) d�(x)dx

= �(1� �2(x))


@E@wi

= �X

d

(td � od)@

@wiod = �

X

d

(td � od)@od@netd

@netd@wi

Wiemy, ze od = �(net), oraz net = w0

+ w1

x1

+ ...+ wnxn, zatem

@od@netd

=@�(netd)

@netd= od(1� od) oraz

@netd@wi

=@(~w ·~xd)

@wi= xi,d

Wiec

✏�

��

@E@wi

= �X

d2D

(td � od)od(1� od)xi,d

Reguły uczenia perceptronu sigmoidalnego

~wnowy ~wstary + ⌘X

d2D

(td � od)od(1� od)~xd


Ograniczenia perceptronu

Pojedynczy perceptron potrafi niewiele! (por. pracaMinsky’ego i Paperta, 1969);Jesli dane wejsciowe sa w przestrzeni n-wymiarowej, to liniowaseparowalnosc jest gwarantowana dla zbiorów zawierajacychniewiecej niz n + 1 obiektów!Jak uczyc sie złozonych problemów klasyfikacji?(np. problemu wielu klas decyzyjnych lub wielu funkcjidecyzyjnych)


Sieci jednokierunkowe wielowarstwoweWedług J. Werbos oraz E. Rumelhart i J.L. McCelland

od warstwy wejsciowej do warstwy wyjsciowej;istnienie warstw posrednich (tzw. warstw ukrytych neuronów);pełne połaczenia miedzy warstwaminieliniowa funkcja aktywacji typu sigmoidalnego lub tangenshiperpoliczny.

x1

x2

x3

x4

o2

o3

o4

Warstwaukryta

Warstwawejsciowa

Warstwawyjsciowa


Przykład sieci dla XOR

Przykład sieci wielowarstwowej (z jedna warstwa ukryta)realizujacej XOR z wykorzystaniem bias i bez bias.


Przykład: ocena ryzyka bankructwa -

Metoda Altmana (1968):

x1

=kapital obrotowyaktywa ogółem

x2

=zysk netto

aktywa ogółem

x3

=zysk brutto

aktywa ogółem

x4

=wartosc rynkowa kap. wlasnego

dług ogółem

x5

=przychody operacyjne

aktywa ogółem

Z = 1.2X1

+ 1.4X2

+ 3.3X3

+ 0.6X4

+ 0.999X5

.

.


Przykład: ocena ryzyka bankructwa -

Metoda Altmana (1968):

x1

=kapital obrotowyaktywa ogółem

x2

=zysk netto

aktywa ogółem

x3

=zysk brutto

aktywa ogółem

x4

=wartosc rynkowa kap. wlasnego

dług ogółem

x5

=przychody operacyjne

aktywa ogółem

X1

X2

X3

X4

X5

o Bankrupt 1

o Nonbankrupt 1

Z = 1.2X1

+ 1.4X2

+ 3.3X3

+ 0.6X4

+ 0.999X5

.

.


Projekt ALVINN - (Autonomous Land Vehicle In a Neural Network)

Temat pracy doktorkiej Prof.Pomerleau (1992);(Carnegie Mellon University)

Najpowazniejsze zastosowaniesieci neuronowych w pratyce;

Metod uczenia z propagacjawsteczna;

32x30 = 960 wejsc;

3994 wag;


Algorytm propagacji wstecznej błedu

wejscie wyjscie... ...d (x(d)

1

..., x(d)N )! (t(d)1

..., t(d)K )... ...

x(d)1

. . .

. . .

x(d)N

o(d)1

. . .

o(d)K

Bład globalny danego układu wag ~W

E( ~W) ⌘KX

k=1

Ek gdzie Ek ⌘1

2

X

d2D

(t(d)k � o(d)k )2

Minimalizacja błedu globalnego metoda gradientu:

~Wnowy ~Wstary +� ~W


Algorytm propagacji wstecznej błeduDopóki nie spełniony jest warunek stopu

Dla kazdego wzorca uczacego d = ((x(d)1

..., x(d)N ), (t(d)1

..., t(d)K ))wykonaj:

Podaj wektor uczacy (x1

, ..., xn) na wejscie sieci i wyznaczwartosci neuronów (o

1

, ..., oK) warstwy wyjsciowej.

x1

. . .

. . .

xN

o1

. . .

oK

Dla kazdego neuronu k warstwywyjsciowej:

�k ok(1� ok)(tk � ok)

Dla kazdego neuronu ukrytego h

�h oh(1� oh)X

k2outputs

wh,k�k

Dla kazdej wagi wi,j popraw

wi,j wi,j + ⌘�jxi


Algorytm propagacji wstecznej błeduDopóki nie spełniony jest warunek stopu

Dla kazdego wzorca uczacego d = ((x(d)1

..., x(d)N ), (t(d)1

..., t(d)K ))wykonaj:

Podaj wektor uczacy (x1

, ..., xn) na wejscie sieci i wyznaczwartosci neuronów (o

1

, ..., oK) warstwy wyjsciowej.

x1

. . .

xi

. . .

. . .

�k. . .

whk

�h

ij

wij

Dla kazdego neuronu k warstwywyjsciowej:

�k ok(1� ok)(tk � ok)

Dla kazdego neuronu ukrytego h

�h oh(1� oh)X

k2outputs

wh,k�k

Dla kazdej wagi wi,j popraw

wi,j wi,j + ⌘�jxi


Outline




4 Zastosowania


Sieci rekurencyjne


6 Dodatki

Historia



Problem przeuczenia i warunek stopu

PrzeuczenieNadmierne dopasowanie podczas uczenia z nauczycielem;Objawa: gdy bład na zbiorze testowym rosnie, podczas gdybład na zbiorze uczacym maleje!Optymalny warunek stopu: tuz przed zajsciem zjawiskaprzeuczenia


Architektura sieci

Liczba warstw ukrytych;Liczba neuronów w kazdej warstwie;Funkcja aktywacji;Współczynnik uczenia sie;Kodowanie danych wejsciowych i wyjsciowychWarunek stopu i problem przeuczenia sie


Przygotowywanie danych

Dane w praktycznych zastosowaniach sa “brudne”Sa niepełne: brak wartosci lub waznych atrybutówZawieraja szumy, błedy lub wyjatki;Sa sprzeczne.

Nie ma wartosciowych wyników analizy bez danych dobrejjakosci!Metadane = informacja o danych:

Informacje ilosciowe: liczba wzorców (obiektów), liczbaatrybutów (zmiennych), liczba klas decyzyjnych, ...Rola atrybutu: wejsciowy, wyjsciowy, ID, ...Opisy atrybutów;Typy danych: Binarny, symboliczny, numeryczny, porzadkowy,...Formaty: np. formaty dat i czasu, formaty liczb rzeczywistych, ...




Nie ma wartosciowych wyników analizy bez danych dobrejjakosci!

Metadane = informacja o danych:Informacje ilosciowe: liczba wzorców (obiektów), liczbaatrybutów (zmiennych), liczba klas decyzyjnych, ...Rola atrybutu: wejsciowy, wyjsciowy, ID, ...Opisy atrybutów;Typy danych: Binarny, symboliczny, numeryczny, porzadkowy,...Formaty: np. formaty dat i czasu, formaty liczb rzeczywistych, ...




Nie ma wartosciowych wyników analizy bez danych dobrejjakosci!Metadane = informacja o danych:

Informacje ilosciowe: liczba wzorców (obiektów), liczbaatrybutów (zmiennych), liczba klas decyzyjnych, ...Rola atrybutu: wejsciowy, wyjsciowy, ID, ...Opisy atrybutów;Typy danych: Binarny, symboliczny, numeryczny, porzadkowy,...Formaty: np. formaty dat i czasu, formaty liczb rzeczywistych, ...


Konwersja danych

Z daty i czasu na wartosci liczbowe:Formaty daty i czasu:Sep 24, 2003 , 9/24/03, 24.09.03Konwersja na liczby rzeczywiste:

Z porzadkowych na wartosci liczbowe:Z symbolicznych na wartosci liczbowe:


Konwersja danych


YYYYMMDD: Np. 20110414nie zachowuje odległosc miedzy datami, np.

20040201 � 20040131

6= 20040131 � 20040130



Konwersja danych


32-bitowa liczba sekund od północy 1 stycznia 1970 GMT (Unix)liczba dni od 1 stycznia 1960 (SAS).wartosci nie sa intuicyjne i trudne do interpretacji



Konwersja danych


Format KPS:YYYY +

L.dni od 1 Sty.� 0.5365 + LF

Np. data “24 Wrzesnia 2003” jest konwertowana na

2003 + (267�0.5)365

= 2003.7301



Konwersja danych

Z daty i czasu na wartosci liczbowe:Z porzadkowych na wartosci liczbowe:

Z symbolicznych na wartosci liczbowe:


Konwersja danych

Z daty i czasu na wartosci liczbowe:Z porzadkowych na wartosci liczbowe: Jak konwertowacocene z systemu brytyjskiego na polski?

GB�!PLA �!5.0A–�!4.7B+ �!4.3B �!4.0... �!...

Skala ocen powinna zachowac porzadek i proporcje miedzyoryginalnymi wartosciami

Z symbolicznych na wartosci liczbowe:


Konwersja danych

Z daty i czasu na wartosci liczbowe:Z porzadkowych na wartosci liczbowe:Z symbolicznych na wartosci liczbowe:


Kodowanie wektorów wyjsciowych

Kod “one of N”

Kod “one of N” + poprawki:Kod binarny:



Kod “one of N”Kod “one of N” + poprawki:

Kod binarny:



Kod “one of N”Kod “one of N” + poprawki:Kod binarny:


Outline




4 Zastosowania


Sieci rekurencyjne


6 Dodatki

Historia



Przykład: ocena ryzyka bankructwa (2)

Wilson and Sharda (1994):

20.070 firmSieci neuronowe: 95,6%Regresja logistyczna:92,2%


Rynki finansowe

Model (oparty na ANN) dla obrotu towarowego prowadzi dowiekszego zysku niz inne strategie handlowe (Collard (1990))

Analiza szerogów czasowych:Np. NETPROPHET (Neural Applications Corporation) -predykcja kursu akcjiWykrywanie oszustw bankowych

Np. Program Falcon (firmy HNC – załozonej przez RobertHecht-Nielsen i Todd Gutschow w 1986)Walidacja podpisów bankowych: sieci neuronowe działajalepiej niz ludzki ekspert!


Rynki finansowe

Model (oparty na ANN) dla obrotu towarowego prowadzi dowiekszego zysku niz inne strategie handlowe (Collard (1990))Analiza szerogów czasowych:Np. NETPROPHET (Neural Applications Corporation) -predykcja kursu akcji

Wykrywanie oszustw bankowych



Rynki finansowe

Model (oparty na ANN) dla obrotu towarowego prowadzi dowiekszego zysku niz inne strategie handlowe (Collard (1990))Analiza szerogów czasowych:Np. NETPROPHET (Neural Applications Corporation) -predykcja kursu akcjiWykrywanie oszustw bankowych



Rynki finansowe


Np. Program Falcon (firmy HNC – załozonej przez RobertHecht-Nielsen i Todd Gutschow w 1986)

Walidacja podpisów bankowych: sieci neuronowe działajalepiej niz ludzki ekspert!


Rynki finansowe




Le-Net5: system OCR


Podsumowanie:

Sieci neuronowe oferuja zestaw metod, które nasladujasposób działania ludzkiego mózgu. Podstawowa jednostkaprzetwarzajaca jest neuron. Neurony sa podzielone nawarstwy i połaczone ze soba.W sieciach neuronowych, wiedza jest przechowywana wwagach połaczenia miedzy neuronami.Algorytm wstecznej propagacji błedów jest najbardziejpopularny (zwłaszcza w zastosowaniach biznesowych) wsródmetod uczenia sieci neuronowych.uczenia sieci neuronowych moze byc zarówno znauczycielem lub bez nauczyciela.


Podsumowanie:

Sieci neuronowe oferuja zestaw metod, które nasladujasposób działania ludzkiego mózgu. Podstawowa jednostkaprzetwarzajaca jest neuron. Neurony sa podzielone nawarstwy i połaczone ze soba.W sieciach neuronowych, wiedza jest przechowywana wwagach połaczenia miedzy neuronami.Algorytm wstecznej propagacji błedów jest najbardziejpopularny (zwłaszcza w zastosowaniach biznesowych) wsródmetod uczenia sieci neuronowych.uczenia sieci neuronowych moze byc zarówno znauczycielem lub bez nauczyciela.

Wady?


Uczenie z nauczycielem i bez nauczyciela


Outline




4 Zastosowania


Sieci rekurencyjne


6 Dodatki

Historia



Sieci Hopfielda

Zbadane przez Hopfielda;Zwane równiez sieciami auto-asocjacyjnymi;Sa to jedno-warstwowe sieci z pełnym połaczeniem typu“kazdy z kazdym”;Kazdy neuron ma bipolarne wartosc wejsc i wyjsc;


Operacje w sieciach Hopfielda:

Zainicjuj wartosci poczatkowe do sieci;Czekaj az siec sie ustabilizuje;

To działa w czasie dyskretnym: t1

, t2

, ..., tN ;wartosci neuronów w chwili tn zalezy od wartosci neuronów wchwili tn�1

:ui(tn) =

X

j

wijyj(tn�1

)

yi(tn) =

8<

:

1 jesli ui(tn) > Tiyi(tn�1

) gdy ui(tn) = Ti�1 jesli ui(tn) < Ti

Odczytaj wartosci neuronów jako wynik obliczen;Istnieja modele synchroniczne i asynchroniczne;


Dlaczego to działa?

Stanem sieci nazywamy wektor wartosci neuronów w danymmomencie

y(t) =

0

BB@

y1

(t)y

2

(t)...

yn(t)

1

CCA = (y1

(t), y2

(t), ..., yn(t))T

Charakterystyczna własnoscia dla biezacego stanuy = (y

1

, ..., yn)T sieci Hopfielda jest funkcja energii:

E(y) = �1

2

y

TWy + T

Ty = �1

2

nX

i=1

nX

j=1

wijyiyj +nX

i=1

Tiyi

Hopfield pokazał, ze funkcja energii jest nierosnaca:

�E = E(y(t + 1))� E(y(t)) 0


Istnieja wiec stany o minimalnej energii(lokalnie);

Takie stany mozemy traktowac jakoatraktory, których zbiegaja inne stany:

Siec Hopfielda jest pewnym rodzajempamieci asocjacyjnej;

Problem: jak zaprojektowac siec, która pamieta zadane wzorce?


Ustalenie wartosci wag:UWAGA: wagi sie nie zmieniaja w procesie uczenia sie;

Maciecz wag musi spełniac warunki:

symetrycznosc:wij = wji

zerowa przekatna:wii = 0

Zwykle chcemy, aby siec ustabilizowała w jednym z wektorów:~v1

, ..., ~vm, gdzievp = (xp

1

, ...xpn)

Aby to zapewnic mozemy stosowac reguły Hebba:

wij =PX

p=1

xpi xp

j

lub

W =PX

p=1

vpvTp �mI


Przykład Niech

v1

=

0

@1

1

1

1

A v2

=

0

@�1

�1

�1

1

A

Wówczas

W = v1

vT1

+ v2

vT2

� 2I =

0

@0 2 2

2 0 2

2 2 0

1

A

Łatwo mozna sprawdzic, ze jesli y(tn�1

) = vi to

Wv1

=

0

@4

4

4

1

A

czyli y(tn) = vi


Hopfield pokazał, ze pojemnosc sieci wynosi

mmax

= 0.15n

Przy pewnych załozeniach

mmax

= n/2 log n


Siec Hopfielda w rozwiazywaniu problemukombinatorycznego


SOM (Self-Organized Maps) - samorganizujaca sie mapa.Mapy topograficzne powstaje przez połaczenia lokalne:neuron silnie pobudzany przez pobliskie połaczenie, słaboprzez odległe, hamowany przez neurony posrednie.Historia: von der Malsburg i Willshaw (1976), uczeniekonkurencyjne, mechanizm Hebbowski, wzbudzenie typu„Meksykanskiego kapelusza”, model układu wzrokowego.Amari (1980) - model ciagłej tkanki neuronowej. Kohonen(1981) - uproszczenie, bez hamowania; dwie fazy -konkurencja i kooperacja.


Algorytm SOM

Struktura: Neurony sa umieszczone (ale nie połaczone ze soba)na siatce 1,2 lub 3-wymiarowa. Kazdy neuron ma Nwag. Neuron i-ty ma wagi ~Wi(t) = (wi1, ...,wiN), awektor wejsciowy ma współrzedne: (x

1

, ..., xN) (t - czasdyskretny)


Algorytm:

1 Inicjalizacja: przypadkowe Wi(0) dla wszystkich i = 1..K. Definiujwokół neuronu połozonego w miejscu rc siatki obszar sasiedztwaOs(rc,�(t)) o promieniu �(t).

2 Oblicz odległosci

d(X,Wi) = ||X �Wi|| =sX

j

(xj �wij)2

3 znajdz neuronc = argmini||X �Wi||

z wagami Wc najbardziej podobnymi do X (neuron-zwyciezce).

4 Zmien wagi wszystkich neuronów ri w sasiedztwie Os(rc,�(t))

Wi(t + 1) = Wi(t) + h(ri, rc)(X �Wi(t))

whereh(ri, rc) = h

0

(t) · e�||r�rc||2/�2

c (t)

5 Powoli zmniejszaj siłe h0

(t) i promien �(t).

6 Iteruj az ustana zmiany.


Własnosci SOM

Brak dowodu o zbieznosci lub punktach stacjonarnych dlaSOM:Wyniki analityczne tylko w 1D dla ciagłego czasu, procesMarkova: wartosci wag wzdłuz prostej porzadkuja sie.Powolna zbieznosc: 10

4 � 10

6 iteracji.Sasiednie neurony koduja sasiednie obszary, ale niekoniecznieodwrotnie Skrecone konfiguracje przy zbyt szybkiej redukcjisasiedztwa. Złozonosc O(KNn) dla K neuronów i n danychN-wymiarowych: konieczne porównanie wszystkichodległosci; niezbyt duze mapy.Na komputerach wieloprocesorowych szukanie min z K bedziepowolne.SOM działa jak metoda klasteryzacji k-srednich jesli � = 0.


Modyfikacje SOM

Próba wprowadzenia funkcji błedu (Luttrell; Heskes i Kappen).Bład lokalny neuronu i jest suma po wszystkich neuronach:

Ei(X; t) =1

2

X

j

h(|ri � rj|, t) · ||X �Wi(t)||2

gdzie

h(|ri � rj|, t) = exp�|ri � rj|2

2�2(t); �(t) = �

0

e�2�0

t/tmax

Neuron-zwyciezca ma najmniejszy bład lokalny:

c = argminiEi(X; t)


Uczenie sieci 2D


Uczenie kwadratu w sieci 2D


Uczenie trojkata w sieci 1D

Tworzy sie fraktalne krzywe Peano.


Zniekształcenie

Poczatkowe zniekształcenia moga zniknac lub pozostac.


WEBSOM websom.hut.fi/websom/


Outline




4 Zastosowania


Sieci rekurencyjne


6 Dodatki

Historia



Ogólny model uczenia indukcyjnego

NiechX – (skonczony lub nieskonczony) zbiór obiektów;Pojecie t : X ! {0, 1} zwane “funkcja celu”.

Dane:skonczona próbka treningowych wzorców:

D = {hx1

, c(x1

)i, ..., hxm, c(xm)i} 2 S(m, c)

gdzie x1

, ..., xm 2 X .przestrzen hipotez H = {h : X ! {0, 1}};

Szukanealgorytm uczacy sie L

Wymaganehipoteza h = L(D) 2 H jest dobra aproksymacja pojecia t.


Krótka historia ANN - czasy pionierskie

Dawno, dawno temu – powstały neurony i układ nerwowy.1868 – J.C. Maxwell opisał mechanizm sprzezenia zwrotnego.1942 – N. Wiener formułuje podstawy współczesnejcybernetyki.1943 – W.S. McCulloch i W.H. Pitts przedstawiaja idee działaniasztucznego neuronu.1949 – D.O. Hebb w dziele “The Organization of Behavior”opisuje zasade (regułe Hebba) w oparciu o która nastepujeadaptacja w sieciach neuronowych.1957-1962 – Badania F. Rosenblatta nad pierwszymi fizycznymimodelami sieci neuronowych - perceptronami.1960 – G. Widrow i M. Hoff przedstawiaja pierwsze modelesieci jednowarstwowych – ADALINE/MADALINE.1969 – M. Minsky i S. Pappert w ksiazce “Perceptrons” poddajamiazdzacej krytyce dotychczasowe osiagnieciaperceptroniki. Wykazuja słabosci i ograniczonosc modelujednowarstwowego. Rezultatem jest zawieszenie na niemaldekade ok. 70% badan nad ANN.


Krótka historia ANN - renesans

Od 1972 – S. Amari, D. Grossberg, J. Anderson i inni – pierwszebadania nad samoorganizacja w sieciach neuronowych.Wykorzystanie sprzezenia zwrotnego do tworzenia układównasladujacych pamiec asocjacyjna u człowieka.1974 – P. Werbos w swojej pracy doktorskiej podał ideepropagacji wstecznej (backpropagation), dzieki którejmozliwe stało sie opracowanie efektywnego mechanizmuadaptacji (uczenia sie) w sieciach wielowarstwowych.1982 – J. Hopfield przedstawia model sieci rekurencyjnejrealizujacej zadania rozpoznawania wzorców i optymalizacji.1986 – D.E. Rumelhart i J.L. McClelland w ksiazce “ParallelDistributed Processing” opisali propagacje wsteczna isformułowali algorytm zmiany wag (regułe delty). Ich pracaspowodowała rozpowszechnienie tych idei i w rezultacielawinowy rozwój badan nad teoria i zastosowaniami ANN.


Krótka historia ANN - współczesnosc

1990 – C. Mead przedstawia pierwsze analogowo-cyfroweukłady elektroniczne wykorzystujace architekture ANN.Pojawiaja sie powazne zastosowania w przemysle iobronnosci.1992 – T. Kohonen przedstawia idee sieci z samoorganizacja(Self Organising Map – SOM) nazwanej potem jego imieniem.Opisuje takze mechanizm uczenia sie kwantyzacji wektorów(Learning Vector Quantisation).Od 1988 prowadzone sa intensywne badania podstawowe istosowane majace na celu podanie lepszych metodkonstruowania, uczenia i oceny działania sieci neuronowych.Prowadzone sa takze badania nad podstawamiteoretycznymi działania modelu ANN.Dzien dzisiejszy – sztuczne sieci neuronowe sa uznanym ipowszechnie stosowanym narzedziem w wielu działach nauki itechniki.



Okazuje sie, ze sieci wielowarstwowe o nieliniowych(sigmoidalnych) funkcjach aktywacji neuronów maja,przynajmniej teoretycznie, bardzo duze mozliwosci. Mozna za ichpomoca aproksymowac w zasadzie wszelkie “rozsadne” funkcje zRs w Rm.

Niestety, twierdzenia okreslajace mozliwosci sieci neuronowych saegzystencjalne. Ich konstruktywnosc pozostawia wiele dozyczenia. Dlatego w praktyce parametry takie jak liczba i układneuronów (architektura sieci), stałe i strategia uczenia, funkcjaaktywacji itp., musza byc wyznaczone heurystycznie napodstawie znajomosci problemu. Istnieja pewne wskazówkiwspomagajace wybór architektury i parametrów sieci, ale majaone charakter niescisły.

W terminach klasycznej teorii złozonosci konstruowanie siecineuronowej nie jest typowym zadaniem optymalizacji. Jednakzemozna pokazac, ze nawet dla bardzo prostej, ustalonejarchitektury sieci i ustalonej konfiguracji parametrów uczenia,znalezienie optymalnego układu wag jest co najmniej NP-trudne.


Istnienie sieci o ustalonej architekturze

Niech I = [0, 1], S = Is bedzie s-wymiarowa kostka (domknieta),0 xp 1, p = 1, .., s.

Twierdzenie Kołmogorowa-Arnolda-SprecheraIstnieje s stałych 0 < �p 1,p = 1, ..., s, i 2s + 1 funkcji�q(x), q = 0, ..., 2s okreslonych na I, scisle rosnacych i nalezacychdo klasy Lip↵, dla ↵ > 0 takich, ze dla kazdej funkcji ciagłej fokreslonej na S istnieje funkcja ciagła g(u), dla której:

f (x1

, ..., xs) =2sX

q=0

g(�1

�q(x1

) + ...+ �s�q(xs)) =2sX

q=0

g

0

@sX

p=1

�p�q(xp)

1

A

Wniosek – Hecht-NielsenDla dowolnej funkcji ciagłej h : [a, b]s �! Rm istniejeczterowarstwowa siec neuronowa zupełna o s wejsciach,odpowiednio m(2s + 1) i s(2s + 1) neuronach w warstwachukrytych i m wyjsciach, która oblicza h.


Istnienie sieci o ustalonej aktywacji

Przez funkcje sigmoidalna (ang. sigmoid, squashing) bedziemyrozumiec kazda funkcje ' : R! [0, 1] taka ze:

' jest niemalejaca w R.limx!1 '(x) = 1

limx!�1 '(x) = 0

Termin funkcja sigmoidalna jest czesto utozsamiany z logistycznafunkcja sigmoidalna '(x) = 1

1+e��x ze wzgledu na powszechnewystepowanie tej ostatniej w zastosowaniach.

Poprzednio wprowadzilismy oznaczenie S = Is. Przez C(Is)oznaczymy przestrzen funkcji ciagłych nad Is o wartosciach w R,przez Af s zbiór funkcji afinicznych z Rs w R, to jest funkcji postaciA(�!x ) = �!w ·�!x + b , gdzie �!x, �!w 2 Rs, b 2 R. Przez Bs oznaczmyrodzine zbiorów borelowskich w Rs. C(Rs,Rm) oznacza rodzinefunkcji ciagłych z Rs w Rm.



Dla dowolnej funkcji mierzalnej ' : R! R i liczby naturalnej s

Xs(') = {f : Rs ! R : f (�!x ) =

qX

j=1

�j'�Aj(�!x )�,

dla pewnych �j 2 R,Aj 2 Af s, q 2 {1, 2, ...}}

, w której neurony warstwy ukrytej maja funkcje pobudzenia ', aneuron wyjsciowy realizuje liniowa funkcje pobudzenia (x) = xdla argumentu bedacego iloczynem skalarnym

�!� ·�!' , gdzie�!

� = (�1

, ...,�q),�!' = ('(A

1

(�!x )), ...,'(Aq(�!x ))).

Dla dowolnej funkcji mierzalnej ' : R! R i liczby naturalnej s

XYs(') = {f : Rs ! R : f (�!x ) =

qX

j=1

�j

ljY

k=1

'�Aj,k(�!x )�

dla pewnych �j 2 R,Aj,k 2 Af s, lj 2 N, q 2 {1, 2, ...}}



Twierdzenie Hornick-Stinchcombe-WhiteDla dowolnej funkcji sigmoidalnej ', dowolnego naturalnego s idowolnej miary probabilistycznej µ na (Rs,Bs) rodzina

Ps(') jestjednostajnie gesta na zbiorach zwartych w C(Rs,R).

Poniewaz, jak wczesniej zaznaczylismy, klasaPs(') moze byc

utozsamiona z klasa funkcji z Rs w R obliczalna przez siecneuronowa o jednej warstwie ukrytej, na mocy powyzszegotwierdzenia otrzymujemy uniwersalnosc aproksymacji taka sieciadla funkcji z C(Rs,R).

Analogiczny wynik dla przypadku aproksymacji funkcji idacych zRs w Rm uzyskujemy przez zdefiniowanie analogów rodzin funkcjiPs i

PQs.


Sieci Neuronowe – Wprowadzenie do teorii i praktykison/sysdec/W6-ANN.pdfobliczeniowych, a w...

Documents

Transcript of Sieci Neuronowe – Wprowadzenie do teorii i praktykison/sysdec/W6-ANN.pdfobliczeniowych, a w...