Algorytmy uczenia sieci MLP - Pracowniczy serwer www...
Transcript of Algorytmy uczenia sieci MLP - Pracowniczy serwer www...
metody gradientowe - idea
o chcemy znaleźć - kierunek
- krok
o chcemy osiągnąć - minimum
- globalne
- generalizację
metody gradientowe - kierunek
o minimalizacja lokalna funkcji celu
o wektor wag:
o rozwinięcie funkcji celu:
metody gradientowe - kierunek
o uczenie - optymalizacja – znajdowanie minimum
o w każdym kroku:
• kierunek pn
• odległość ηηηηn
o aby: E ( wn + ηηηηn pn ) < E ( wn )
o aż:
• gradient
• czas
metody gradientowe - kierunek
1. algorytm najszybszego spadku
– rozwinięcie liniowe:
– kierunek:
– metoda wolnozbieżna
metody gradientowe - kierunek
2. algorytm najszybszego spadku z momentum
– poprawka wag:
– gdy płaski odcinek:
– gdy minimum lokalne:
– wzrost 4%
metody gradientowe - kierunek
3. algorytm gradientów sprzężonych
– rozwinięcie liniowe
– kierunek – ortogonalny do wszystkich poprzednich
– współczynnik sprzężenia:
– restart:
metody gradientowe - kierunek
4. algorytm zmiennej metryki
– kwadratowe przybliżenie funkcji celu
– kierunek (teoria):
metody gradientowe - kierunek
4. algorytm zmiennej metryki
– kierunek (praktyka) – algorytm BFGS:Broydena-Fletchera-Goldfarba-Shanno
metody gradientowe - kierunek
4. algorytm zmiennej metryki
– kierunek (praktyka) – algorytm DFP:Davidona-Fletchera-Powella
metody gradientowe - kierunek
5. algorytm Levenberga-Marquardta
– funkcja celu:
– wektor błędów:
– macierz J:
– gradient:
– hesjan:
metody gradientowe - kierunek
5. algorytm Levenberga-Marquardta
– aproksymacja:
– przybliżony hesjan:
– redukcja νn:
metody gradientowe - kierunek
5. algorytm Levenberga-Marquardta
– oryginalny algorytm zmian νn:
- współczynnik wierności odwzorowania:
metody gradientowe – kierunek + długość kroku
6. minimalizacja kierunkowa
– najefektywniejszy
– najtrudniejszy
– wybrać kierunek:
– dobrać wsp. uczenia:
porównanie wydajności metod
• Osowski
• testy – standardy światowe
• predykcja chaotycznego szeregu czasowego – równanie Mackey’a-Glassa
• liczba cykli uczących (epok)
• liczba obliczeń funkcji celu
• liczba mnożeń
• czas obliczeń
• wrażliwość a minima lokalne
• itd.
ilustracja metod
• MATLABowe dema:
• nnd12vl – variable learning rate
• nnd12gd – gradient descent
• nnd12mo – momentum
• nnd12cg – conjugate gradient