Algorytmy uczenia sieci MLP - Pracowniczy serwer www...

Algorytmyuczeniasieci MLP

WYKŁAD © Piotr Ciskowski

uczenie

o uczenie – minimalizacja - generalizacja

uczenie

o uczenie – minimalizacja – generalizacja↑

metodygradientowe

metody gradientowe - idea

o chcemy znaleźć - kierunek

- krok

o chcemy osiągnąć - minimum

- globalne

- generalizację

metody gradientowe - krok

stały

o współczynnik uczenia stały zależny

adaptacyjny

metody gradientowe - kierunek

o minimalizacja lokalna funkcji celu

o wektor wag:

o rozwinięcie funkcji celu:


o uczenie - optymalizacja – znajdowanie minimum

o w każdym kroku:

• kierunek pn

• odległość ηηηηn

o aby: E ( wn + ηηηηn pn ) < E ( wn )

o aż:

• gradient

• czas


1. algorytm najszybszego spadku

– rozwinięcie liniowe:

– kierunek:

– metoda wolnozbieżna


2. algorytm najszybszego spadku z momentum

– poprawka wag:

– gdy płaski odcinek:

– gdy minimum lokalne:

– wzrost 4%


• algorytm najszybszego spadku (z momentum)

– pseudokod:


3. algorytm gradientów sprzężonych

– rozwinięcie liniowe

– kierunek – ortogonalny do wszystkich poprzednich

– współczynnik sprzężenia:

– restart:


4. algorytm zmiennej metryki

– kwadratowe przybliżenie funkcji celu

– kierunek (teoria):



– kierunek (praktyka) – algorytm BFGS:Broydena-Fletchera-Goldfarba-Shanno



– kierunek (praktyka) – algorytm DFP:Davidona-Fletchera-Powella


5. algorytm Levenberga-Marquardta

– kierunek:

– przybliżenie hesjanu



– funkcja celu:

– wektor błędów:

– macierz J:

– gradient:

– hesjan:



– aproksymacja:

– przybliżony hesjan:

– redukcja νn:



– oryginalny algorytm zmian νn:

- współczynnik wierności odwzorowania:

metody gradientowe – kierunek + długość kroku

6. minimalizacja kierunkowa

– najefektywniejszy

– najtrudniejszy

– wybrać kierunek:

– dobrać wsp. uczenia:

porównanie wydajności metod

• Osowski

• testy – standardy światowe

• predykcja chaotycznego szeregu czasowego – równanie Mackey’a-Glassa

• liczba cykli uczących (epok)

• liczba obliczeń funkcji celu

• liczba mnożeń

• czas obliczeń

• wrażliwość a minima lokalne

• itd.

ilustracja metod

• MATLABowe dema:

• nnd12vl – variable learning rate

• nnd12gd – gradient descent

• nnd12mo – momentum

• nnd12cg – conjugate gradient

metody optymalizacji globalnej

o wielokrotne uczenie

o zaburzanie wag – jog of weights

o symulowane wyżarzanie – simulated annealing

o algorytmy genetyczne

Algorytmy uczenia sieci MLP - Pracowniczy serwer www...

Documents

Transcript of Algorytmy uczenia sieci MLP - Pracowniczy serwer www...