Uczenie ze wzmocnieniem
-
Upload
bruce-ellis -
Category
Documents
-
view
56 -
download
0
description
Transcript of Uczenie ze wzmocnieniem
1
Uczenie ze wzmocnieniem
Literatura:
• Paweł Cichosz, Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000, str. 712-792.
• Richard Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998.
http://www.cs.ualberta.ca/~sutton/book/the-book.html
• Stuart J.Russel, Peter Norvig, Artificial Intelligence, Prentice-Hall, London, 2003, str. 598-645.
2
Plan wykładu• Wieloetapowe procesy decyzyjne - typy procesów i
środowisk• Programowanie dynamiczne a metoda Monte Carlo• Uczenie ze wzmocnieniem – podstawowy algorytm• Eksploatacja a eksploracja • Metody przyśpieszania zbieżności - ślady aktywności• Aproksymacja funkcji wartości stanów• Metody kodowania stanów• Agregacja stanów• Przykłady zastosowań
3
Środowisko
Cechy środowiska w sztucznych systemach uczących się:• przydziela nagrody i wyznacza bieżący stan• jest niezależne od ucznia, czyli oznacza wszystko to, na co uczeń
nie ma wpływu
Typy środowisk:• stacjonarne / niestacjonarne (zmienne w czasie) • deterministyczne / niedeterministyczne - taka sama akcja może
spowodować przejście do różnych stanów, a przy przejściu do takiego samego stanu można uzyskać różne nagrody z tym, że wartości oczekiwane nagród i prawdopodobieństwa przejść są stałe
• niedeterministyczne o znanym / nieznanym modelu• o parametrach ciągłych / dyskretnych• o pełnej informacji o stanie (własność Markowa) / o niepełnej
informacji o stanie
4
Wieloetapowe procesy decyzyjne
• Procesy polegające na wielokrotnej interakcji ucznia (agenta) ze środowiskiem. W wyniku podjęcia jednej z możliwych akcji at w danym stanie st, środowisko przechodzi do nowego stanu st+1 i zwraca nagrodę rt+1
• Celem uczenia jest maksymalizacja nagród uzyskanych w ciągu całego procesu, niezależnie od stanu początkowego
• Wniosek: należy szukać optymalnej strategii (policy) zachowania ucznia (wyboru odpowiedniej akcji w każdym ze stanów)
st st+1 st+2 st+k...at, rt+1
at+1, rt+2 at+k-1, rt+k
5
Ogólny schemat uczenia się w interakcji ze środowiskiem
UCZEŃ
ŚRODOWISKO
akcja at
st
rt+1
rt
st+1
6
Typy procesów
• Ze względu na środowisko: deterministyczne / niedeterministyczne, stacjonarne / niestacjonarne
• Ze względu na informacje o stanie: spełniające własność Markowa / niespełniające własności Markowa
• Ze względu na ogólną liczbę stanów środowiska: o skończonej liczbie stanów / o nieskończonej liczbie stanów
• Ze względu na typ przestrzeni stanów: ciągłe (nieprzeliczalne)/ dyskretne
• Ze względu na umiejscowienie nagród: tylko w stanach końcowych (terminalnych) / tylko w stanach pośrednich / w stanach końcowych oraz pośrednich
• Ze względu na liczbę etapów procesu: nieskończone / epizodyczne (kończące się po pewnej liczbie kroków)
7
Zadanie optymalizacji w procesach epizodycznych
]...[ 132
210
1
ntn
ttt
n
kkt
k rrrrErE
Cel maksymalizacji:
gdzie rt - nagroda w kroku t, - współczynnik dyskontowania,0 1, reguluje ważność krótko i długoterminowych nagród.
Zastosowanie współczynnika dyskontowania wynika z pewnych praktycznych spostrzeżeń: nagrody warto zdobywać jak najszybciej (zadania do-sukcesu), kary jak najdłużej odwlekać (zadania do-porażki)
8
Dobór współczynnika dyskontowania w zależności od wartości nagród
,21
1
011
02
11
1
021
rrr
rrrr
nn
t
nt
n
t
ntn
t
nt
Niech r2 oznacza wartość nagrody za dojście do stanu końcowego, r1 - wartość nagrody dla pozostałych stanów
Zadania do-sukcesu: 12 rr
2
11r
r
stąd:
r1
r1
r1
r1
r1
r2
r2
r1r1
r1
r1
r1
r1
r1
r1r2
*
9
Przykład GRID-6
0.5
1
hpozostalyc dla 0
)5,5(' dla 5.0
)5,0(' dla 1
eniedostepn pole wprowadzi nie akcjagdy 1
)}5,5(),...,1,0(),0,0{(
},,,,{
s
s
R
P
S
A
ij
10
Przykład GRID-6 – przykładowe strategie
1
3 4
2
11
Funkcje wartości
n
ktkt
k ssrEsV0
1 |)(
Funkcja wartości stanu st przy strategii :
n
kttkt
k aassrEasQ0
1 ,|),(
Funkcja wartości pary [stan,akcja]: (st , at) przy strategii :
))(,()( ssQsV
Przy danej strategii dla każdego stanu s zachodzi równanie:
12
Proces decyzyjny Markowa
Proces decyzyjny Markowa można zdefiniować jako czwórkę (S, A, , ):
• S - skończony zbiór stanów• A - skończony zbiór akcji (s,a) - funkcja wzmocnienia - zmienna losowa o
wartościach rzeczywistych oznaczająca nagrodę po wykonaniu akcji a w stanie s
(s,a) - funkcja przejść stanów - zmienna losowa o wartościach ze zbioru S oznaczająca następny stan po wykonaniu akcji a w stanie s
W ogólności w każdym kroku t nagroda rt+1 jest realizacją zmiennej losowej (st,at) a stan st+1 jest realizacją zmiennej losowej (st,at)
*
13
Przykład GRAF-5
S = {1,2,3,4,5}, A={0,1}
5 lub 1 dla 0
1,51 dla 1.0
0,51 dla 4.0
)(
5 dla 1
1,1 dla 2.0
0,1 dla 8.0
1,51 dla 1.0
0,51 dla 4.0
)(
5 dla 0
1,5 dla 8.0
0,5 dla 2.0
)(
1,
,
1,
ss
as
as
aP
s
as
as
as
as
aP
s
as
as
aP
ss
ss
ss
hpozostalyc dla 0
1,4 dla 8.0
0,4 dla 2.0
),( as
as
asR
1 2 3 4 5
Nagroda za akcję a w stanie s:
*
14
Przykład GRAF-5
Optymalne wartości stanów dla = 0.9
1 2 3 4 5
V(1) V(2) V(3) V(4) V(5)0.299 0.527 0.768 0.945 0
*
15
Funkcja wartości a strategia
Strategia ’ jest lepsza od strategii jeśli dla każdego s:
oraz istnieje takie s, że zachodzi:
Każdej strategii odpowiada tablica wartości stanów – V lub akcji – Q, natomiast dla danej tablicy wartości można przypisać najlepszą znaną strategię metodą zachłannego wyboru akcji w każdym ze stanów. Zachłanny wybór strategii na podstawie przybliżonych wartości V lub Q:
)()(' sVsV
)()(' sVsV
),(maxarg)(
))'((maxarg)('
''
asQs
sVRPs
a
s
ass
ass
a
assP ' - prawdopodobieństwo przejścia od stanu s do s’
przy wykonaniu akcji a- średnia nagroda przy przejściu od s do s’ dzięki a
assR '
16
Porównanie funkcji V oraz Q
• Użycie funkcji wartości stanu V(s) wymaga każdorazowej symulacji wykonania jednego kroku naprzód w celu znalezienia akcji optymalnej
• Użycie funkcji Q(s,a) wymaga stosowania większych tablic lub bardziej złożonych aproksymatorów funkcji
*
17
Strategia optymalnaStrategia * jest optymalna jeśli dla każdej strategii oraz dla każdego stanu s:
lub dla każdej akcji w każdym stanie:
Zachłanna metoda wyboru akcji:
Zachłanna metoda wyboru akcji względem optymalnej funkcji wartości lub funkcji wartości akcji jest realizacją strategii optymalnej
)()(* sVsV
),(maxarg)(*
))'((maxarg)(*
*
'
*''
asQs
sVRPs
a
s
ass
ass
a
assP ' - prawdopodobieństwo przejścia od stanu s do s’
przy wykonaniu akcji a- średnia nagroda przy przejściu od s do s’ dzięki a
assR '
))(,())(*,( ssQssQ
18
Metody szukania optymalnej strategii
• Programowanie dynamiczne
• Metoda Monte Carlo
• Metoda różnic czasowych (TD)
19
Prawdopodobieństwo przejścia ze stanu s do s’ po wykonaniu akcji a, oraz średnia wartość nagrody związanej z tym zdarzeniem:
}',,|{
},|'Pr{
11'
1'
ssaassrER
aassssP
ttttass
ttta
ss
)]'([)( )('
'
)(' sVRPsV s
sss
sss
Równania równowagi Bellmana dla reprezentacji [stan] oraz [stan,akcja] i strategii , ( (s) - akcja w stanie s zgodna ze strategią ):
))]'(,'([),( ''
' ssQRPasQ ass
s
ass
Programowanie dynamiczne
Model środowiska
20
Przykładowy graf przejść ze stanu s=s1 do s’ {s1 , s2 , s3 }, po wykonaniu akcji a:
)]'([)( )('
'
)(' sVRPsV s
sss
sss
Programowanie dynamiczne
s2
s1
s3
1,2.0 RP
1,7.0 RP
5.0,1.0 RP
))(5.0(1.0))(1(7.0))(1(2.0)( 1321 sVsVsVsV
1.01
)(7.0)(2.095.0)( 32
1
sVsV
sV
stąd:
21
Wyprowadzenie równania równowagi dla funkcji wartości stanu s:
Programowanie dynamiczne
)]'([
]'|[
|
|)(
)('
'
)('
012
)('
'
)('
021
01
sVRP
ssrERP
ssrrE
ssrEsV
sss
s
sss
ktkt
ksss
s
sss
ktkt
kt
ktkt
k
*
22
)]'([max)( *'
''
* sVRPsV ass
s
ass
a
Równania optymalności Bellmana dla reprezentacji [stan] oraz [stan,akcja]:
)]','(max[),( *
''
''
* asQRPasQa
ass
s
ass
Programowanie dynamiczne
),(),( ** asQsV - wartości odpowiadające strategii optymalnej
23
Metody wyznaczania wartości V lub Q dla danej strategii:• Rozwiązanie układu równań o |S| (lub |SA| w przypadku
reprezentacji [stan,akcja]) niewiadomych• Iteracyjne na podstawie równań równowagi Bellmana (o
udowodnionej zbieżności)
Metody wyznaczania optymalnej strategii:• Iteracja strategii - naprzemienne obliczanie przybliżonych
wartości V (s) dla wszystkich stanów przy danej (początkowo losowej) strategii oraz wyznaczanie lepszej strategii ’ dla V (s) do momentu, gdy w kolejnych dwóch iteracjach strategia pozostanie niezmienna
• Iteracja wartości - obliczanie V(s) stosując zachłanną metodę wyboru akcji do momentu, gdy wartości V(s) przestaną się zmieniać
Programowanie dynamiczne
24
Iteracyjne obliczanie wartości stanów
)]'(~
[)(~ )(
''
)('1 sVRPsV i
sss
s
sssi
powtarzaj dla wszystkich s:
mając dane: , P, R
aż nastąpi w kroku i )(
~)(
~max 1 sVsV ii
Ss
obliczanie wartości stanów dla strategii :
25
Iteracja strategii dla reprezentacji [stan]
'
'' ))'(~
(maxarg)('s
ass
ass
asVRPs
iteracyjne obliczanie wartości stanów dla strategii lub
metodą rozwiązywania układu równań
dla wszystkich s:
wyznaczanie nowej strategii ’:
*21
~~~21 VVV k
naprzemienne wyznaczanie strategii (początkowo losowej) oraz wartości stanów dotąd aż strategie w 2 kolejnych cyklach iteracji przestaną się różnić: k-1= k
obliczanie wartości stanów dla strategii :
26
Iteracja wartości dla reprezentacji [stan]
)]'(~
[max)(~
''
'1 sVRPsV kass
s
ass
ak
powtarzaj dla wszystkich s:
mając dane: P, R
aż nastąpi w kroku k )(
~)(
~max 1 sVsV kk
Ss
27
Programowanie dynamiczne - wady i zalety
Wady:• konieczność znajomości modelu środowiska
(prawdopodobieństw przejść pomiędzy stanami dla wszystkich możliwych akcji i oczekiwanych wartości nagród)
Zalety:• pewność znalezienia rozwiązania w przypadku metody
dokładnej oraz zbieżność metod iteracyjnych • mała złożoność obliczeniowa
28
Metody Monte Carlo
Obliczanie funkcji wartości stanów lub par [stan, akcja] dla pewnej strategii metodą uśredniania nagród z wielu epizodów.
,)(~ 1 0
1,
L
rsV
L
e
n
iite
ie
gdzie L - liczba epizodów, ne – liczba kroków e-tego epizodu
Wyznaczanie strategii optymalnej: np. metodą iteracji strategii
lub metodą iteracji wartości
*21
~~~21 VVV k
29
Metody Monte Carlo - wady i zalety
V = ? V = -0.8
-1
1
p = 0.9
p = 0.1nowy stan
Wady:• Wymóg epizodyczności zadań• Wymagana duża eksploracja• Powolna zbieżność - obliczenie funkcji wartości
nowego stanu bez uwzględnienia wartości stanów następujących po danym (bootstraping)
Zalety:• Pewna zbieżność do funkcji wartości V(s) dla
ustalonej strategii przy odpowiedniej eksploracji • Nie jest wymagana znajomość modelu środowiska
30
Uczenie ze wzmocnieniem – cechy charakterystyczne
• Uczenie z krytykiem (bez informacji o właściwych decyzjach)
• Nie są znane optymalna strategia, metoda dojścia do optymalnej strategii ani model środowiska
• Uczenie się na zasadzie ,,prób i błędów’’ – potrzebna jest eksploracja, co może wiązać się z kosztami
• Uczenie się oraz wykonywanie zadań (działanie systemu) odbywa się jednocześnie
31
Uczenie ze wzmocnieniem - ogólny algorytm
Zainicjuj Q(s,a) lub V(s)Repeat (dla kolejnych epizodów): Zainicjuj s Repeat (dla kolejnych kroków epizodu): obserwuj aktualny stan st;
wybierz akcję at do wykonania w stanie st; wykonaj akcję at; obserwuj wzmocnienie rt+1 i następny stan st+1; ucz się na podstawie doświadczenia (st,at,rt+1,st+1,at+1); until s jest stanem końcowymuntil spełniony warunek końca
32
Średni dochód przy wyjściu ze stanu st i przy strategii :
Rzeczywisty:
Aproksymowany:
Częściowo aproksymowany:
Metoda różnic czasowych – TD(0)
)( 1,1, tkktkt sVrI
]...[ 132
210
1
ntn
ttt
n
iit
i rrrrErE
)( tk sV
33
Metoda różnic czasowych – TD(0)
)]()([)()( 11 ttttt sVsVrsVsV
Aktualizacja wartości stanu - ogólna postać:
)]([)()( tttt sVIsVsV
)( 11 ttt sVrI
Częściowo aproksymowany dochód uzyskany po wyjściu ze stanu st:
)],(),([),(),( 111 ttttttttt asQasQrasQasQ
Reprezentacja [stan,akcja]:
),( 111 tttt asQrI
34
Metoda różnic czasowych – TD(0)
Metody uczenia:
• Q-learning (off-policy) • SARSA (on-policy)• Actor-Critic (on-policy) (dodatkowy system
wartościowania strategii przyjętej do uczenia (strategia aproksymowana + eksploracja (strategia losowa))
Zalety metod TD:• nie jest wymagany model środowiska• możliwość uczenia w czasie rzeczywistym (online-learning)
• zastosowanie w przypadku niestacjonarnego środowiska• duża uniwersalność zastosowań np. w środowiskach
niestacjonarnych (gry planszowe)• dobra zbieżność
35
Algorytm Q-learning
Algorytm Q-learning z aktualizacją wartości par [stan,akcja]
niezależną od aktualnej strategii wyboru akcji (off-policy)
Zainicjuj Q(s,a)Repeat (dla kolejnych epizodów): Zainicjuj s Repeat (dla kolejnych kroków epizodu): 1.) Z prawdop. 1-ε wykonaj akcję a w stanie s o najwyższej wartości Q lub akcję losową z prawdop. ε przechodząc do stanu s' 2.) Zmodyfikuj wartość akcji a w stanie s:
until s jest stanem końcowymuntil spełniony warunek końca
]),()','(max[),(),('
asQasQrasQasQa
36
Algorytm SARSA
Algorytm SARSA z aktualizacją wartości par [stan,akcja] zgodnie z aktualną strategią np. -zachłanną (on-policy)
Zainicjuj Q(s,a)Repeat (dla kolejnych epizodów): Zainicjuj s Wykonaj akcję a w stanie s zgodnie ze strategią opartą na Q (np. ε-zachłanną) Repeat (dla kolejnych kroków epizodu): Wykonaj akcję a’ w stanie s’ zgodnie ze strategią wyboru akcji (np. -zachłanną względem Q(s’,a’))
until s jest stanem końcowymuntil spełniony warunek końca
]),()','([),(),( asQasQrasQasQ ;';' aass
*
37
• poszukiwana strategia optymalizująca zyski (eksploatacja)
• strategia uczenia (eksploatacja + eksploracja):
• bieżące zyski nie mają znaczenia w trakcie uczenia lub mają (np. w problemie k-rękiego bandyty)
• optymalizacja zysków przy nieznanej początkowo strategii optymalnej pozwala na ukierunkowanie poszukiwań
• optymalizacja procesu uczenia dzięki sprawdzeniu wielu potencjalnie dobrych akcji w wielu potencjalnie dobrych stanach
Typy strategii
38
Przykłady strategii wyboru akcji w trakcie uczenia:
• maksimum
• losowa
• -zachłanna
• softmax
Eksploatacja i eksploracja
Strategia -zachłanna :• z prawdopodobieństwem wybierz akcję losowo• z prawdopodobieństwem 1- wybierz akcję:
Strategia softmax - wybór akcji zgodnie z rozkładem Bolzmanna (prawdopodobieństwo wylosowania akcji proporcjonalne do jej funkcji wartości):
),(maxarg asQaa
)(
),(exp
),(exp
)(
sAb TbsQ
TasQ
aP
39
Przybliżenie TD(0)
)]()([)()( 11 ttttt sVsVrsVsV
)( 11 ttt sVrI
Wartość stanu w danym epizodzie jest modyfikowana tylko na podstawie wartości następnego stanu i nagrody:
st
st+1
r > 0
*
40
Inne przybliżenia
)(
)(
)(
21)(
22
21)2(
11)1(
ntn
ttn
t
tttt
ttt
sVrrI
sVrrI
sVrI
Można wyznaczyć sumę ważoną przybliżeń przyjmując, że im przybliżenie dalsze, tym mniej istotne:
)(
1
1)1( it
n
i
it II
*
41
Ślady aktywności TD() - wyprowadzenie
)]([)1(
)]([)1(
)]([)1()()(
)],([)()(
11
32
21
22
211
110
ntn
tttn
ttt
ttttt
tttt
sVrrr
sVrr
sVrsVsVI
sVIsVsV
)]()([)(
)]()([)(
)]()([)()()(
111
2221
1110
ntntntn
ttt
tttttt
sVsVr
sVsVr
sVsVrsVsVI
Sumując elementy w kolumnach i uwzględniając:otrzymujemy:
,1)1(1
1
n
n
i
i
*
42
Ślady aktywności TD() - wyprowadzenie
1
11
11
1221
110
111
2221
1110
)(
)()()]()([)(
)]()([)(
)]()([)(
)]()([)(
)]()([)(
)]()([)()()(
T
tkk
tk
ntn
ntntntn
ttt
ttt
ntntntn
ttt
tttttt
sVsVsVr
sVsVr
sVsVr
sVsVr
sVsVr
sVsVrsVsVI
)()( 11 tttt sVsVr gdzie
Przesuwamy ostatnią kolumnę w dół. Wstawiamy -V(st) do pierwszego wiersza
*
44
Ślady aktywności - algorytm
Zainicjuj V(s) Repeat (dla kolejnych epizodów): Zainicjuj s, e(s)=0 dla wszystkich s Repeat (dla kolejnych kroków epizodu): Wykonaj akcję a w stanie s zgodnie z , obserwuj nagrodę r i następny stan s’
for wszystkie odwiedzone stany sx:
end for
until s jest stanem końcowymuntil spełniony warunek końca
)()'( sVsVr 1)()( sese
'ss
)()(
)()()(
xx
xxx
sese
sesVsV
*
45
Ślady aktywności TD()
Zalety:• Przyspieszenie uczenia dzięki równoległemu
przypisywaniu zasług wszystkim stanom lub akcjom, które poprzedzają otrzymanie nagrody
• Połączenie zalet metod Monte Carlo i TD(0) przez odpowiedni wybór współczynnika świeżości
• Znaczne przyspieszenie uczenia w przypadku nagród znacznie oddalonych
Wady:• Duża złożoność w przypadku tabelarycznej
(wyliczeniowej) reprezentacji stanów lub akcji
*
46
Aproksymacja i kodowanie
Kodowanie stanów – transformacja stanów do nowej przestrzeni cech
Aproksymacja funkcji wartości – przedstawienie funkcji wartości stanów lub par [stan,akcja] w postaci modelu parametrycznego funkcji (struktury) o odpowiednio dobranych (nauczonych) wartościach parametrów
))(),...,2(),1(( ntttt
ss
47
Wydobywanie cech - kodowanie
Przekształcenie wektorów z pierwotnej przestrzeni stanów s = [s1, s2,..., sN] (np. układu figur na szachownicy) do przestrzeni cech istotnych dla określenia wartości stanu:
z wykorzystaniem wiedzy o problemie
)](),...,2(),1([)( Ms ssss
Cele:
• Uzyskanie cech istotnych dla określenia wartości stanów• Zwiększenie uogólniania poprzez agregację stanów o podobnej
wartości
48
Aproksymatory funkcji
Przykłady:
• Aproksymator liniowy
• Sieci o podstawie radialnej (Radial Basis Functions – RBF)
• Wielomiany stopnia > 1
• Sztuczne sieci neuronowe (SNN)
• Systemy rozmyte
Zalety:
• Oszczędność miejsca przy dużych zbiorach stanów lub par [stan,akcja]
• Możliwość uogólniania wiedzy dla stanów pośrednich
• Brak dyskretyzacji w przypadku rzeczywistoliczbowej reprezentacji stanów lub akcji
n
iss
T iisV1
)()()(
49
• Wektorowi parametrów modelu odpowiada wektor wag sieci:
• Poprawa wartości oceny odbywa się poprzez zmianę wektora wag w kierunku największego spadku funkcji błędu – gradientu. Gradient funkcji błędu względem wag oblicza się metodą propagacji wstecznej błędu.
Aproksymator SSN
...
...
Q(s,a)
s1 s2 s3 sN a
...
...
...
s1 s2 s3 sN
V(s)
...
wθ
50
Aproksymatory funkcji - definicje
))(),...,2(),1(( ntttt
Wektor parametrów:
Kryterium optymalizacji:
,)()()(2
Ss
tt sVsVMSE
V(s) – poszukiwana wartość stanu s dla strategii Vt(s) – aktualna wartość stanu s
),(),( asFasQ
)()( sFsV
Wartości stanów lub par [stan,akcja] reprezentowane są za pomocą funkcji zależnej od wektora parametrów :
51
Gradientowa metoda aproksymacji funkcji wartości stanów
)()()(
)()(2
1 2
1
tttttt
ttttt
sVsVsV
sVsV
t
t
Przyjmując przybliżenie:
)()( 11 tttt sVrsV
Otrzymujemy algorytm aktualizacji wartości stanu:(następny slajd)
)(
)(,,
)2(
)(,
)1(
)()(gradient gdzie
n
ffff
t
t
t
t
t
tt
t
parametry funkcji wartości modyfikowane są w kierunku maksymalnego spadku funkcji błędu MSE
*
52
Gradientowa metoda aproksymacji funkcji wartości stanów - TD()
Zainicjuj Repeat (dla kolejnych epizodów): Zainicjuj s, Repeat (dla kolejnych kroków epizodu): Wybierz i wykonaj akcję a w stanie s zgodnie ze strategią określoną przez
until s jest stanem końcowymuntil spełniony warunek końca
)()'( sVsVr )(sVee
'sse
]0,...,0,0[e
)(),()( sFsFsV
)()( sFsV
53
Metody wyznaczania kierunku modyfikacji wektora parametrów funkcji wartości
• Metoda spadku gradientu funkcji błędu (propagacja wsteczna w SSN)
• Metoda gradientów sprzężonych
• Metoda Newtona
• Metody quasi-Newtonowskie
• Metoda Levenberga-Marquardta
))(()(
2
1)()()()( tt
Ttt
Ttt EEE H
,)()()()(2
Ss
ttt sVsVMSEE
)()(/:)( 2 jiEHhesjan ttijt H
)()( 1tt E
H - poprawka wektora wag
*
54
Metody kodowania stanów o parametrach ciągłych
Metody kodowania (obliczania cech):• Kodowanie metodą pokryć (CMAC, tile coding)• Kodowanie przybliżone (coarse coding)• Kodowanie przybliżone rozproszone - np. metodą Kanervy
55
Kodowanie metodą pokryć
n
iss
T iisV1
)()()(
s
- wektor cech stanu
gradient funkcji wartości: )](),...,2(),1([)( nsV ssss
aproksymacja liniowa funkcji wartości stanu:
56
Kodowanie metodą pokryć
Adaptacyjne zagęszczanie stanów:
Kryteria zagęszczania stanów:• duża częstość odwiedzin• niestabilność wartości stanu podczas uczenia
Realizacja:• drzewa czwórkowe w przypadku 2 parametrów stanu
57
Kodowanie przybliżone
Przykładowe zastosowanie: aproksymator liniowy z wykorzystaniem zbioru cech:
n
iss
T iisV1
)()()(
s
- wektor cech stanu
Kodowanie przybliżone dla 2-wymiarowej przestrzeni stanów - każde pole jest związane z jedną cechą binarną, równą 1 jeśli stan znajduje się wewnątrz pola:
x
y Licząc po kolejnych wierszach od lewej do prawej wektor cech:
]0,0,0,0,0,0,0,1,0,0,0,1,0[s
gradient funkcji wartości: )](),...,2(),1([)( nsV ssss
58
Kodowanie przybliżone, rozproszone (kodowanie Kanervy)
Kodowanie przybliżone dla przykładowej 2-wymiarowej przestrzeni stanów - każdy prototyp stanu jest związany z jedną cechą binarną, równą 1 jeśli spełnione jest kryterium odległości (w przypadku kodowania Kanervy jest to odległość Hamminga):
x
yLicząc po kolejnych wierszach od lewej do prawej, nowy wektor cech:
]0,0,0,0,0,1,0,1,0,0,0,1,0,0[s
Prototypowe stany lub pary [stan, akcja] są początkowo wybierane losowo. Dodatkowo, w bardziej zaawansowanych metodach mogą być przemieszczane w celu większego ich skupienia w ważniejszych obszarach przestrzeni stanów