Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN
description
Transcript of Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN
Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową
w CERN
Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii
Warszawa 05.10.2007
Plan seminarium:• Eksperymenty SMC i COMPASS
• Detekcja procesów fuzji fotonowo-gluonowej• Wyniki analiz SMC/COMPASS, w których użyto sieci neuronowych
• Sieci neuronowe• Budowa sieci• Trening sieci
• Przykład klasyfikacji w doświadczeniach SMC i COMPASS• Przykład aproksymacji w doświadczeniu COMPASS
05.10.2007 B. Pawlukiewicz 2
slajdy z prezentacji G. Brony, 08.06.07
05.10.2007 B. Pawlukiewicz 3
z Monte-Carlo
05.10.2007 B. Pawlukiewicz 4
slajdy z prezentacji G. Brony, 08.06.07
G/G w kanale mezonów powabnych
z Monte-Carlo
05.10.2007 B. Pawlukiewicz 5
.)(10.0.)(28.020.0 syststatGG
SMC, high pT (Q2>1 GeV2), 1993-1996
Wyniki otrzymane przy użyciu sieci neuronowych
COMPASS w kanale mezonów powabnych, 2000-2004
Phys.Rev.D70:012002,2004
praca doktorska G. Brona
05.10.2007 B. Pawlukiewicz 6
Sieci neuronowe – co to jest?
05.10.2007 B. Pawlukiewicz 7
• Uproszczony model mózgu - zespół powiązanych ze sobą komórek równolegle przetwarzających informacje
• Neuron:• oblicza sumę ważoną sygnałów wejściowych• zwraca odpowiedź w postaci pojedynczego sygnału • przesyła odpowiedź do kolejnych elementów
• Neurony tworzą warstwy
Sztuczne sieci neuronowe
http://www.mindcreators.com/NeuronBasics.htm
w1
w2
w3
NEURON
05.10.2007 B. Pawlukiewicz 8
Pojedynczy neuron liniowynieliniowy
w1
w2
x1
x2
xn
w0
y f()wn
odpowiedź neuronupobudzenie neuronu
wektor wejściowy
funkcja aktywacjiwektor wag
1
i
ii xw
EQ2
y
liczby
)(i
iixwfy
05.10.2007 B. Pawlukiewicz 9
Nieliniowe funkcje aktywacji
• dyskretne (signum, skok jednostkowy...)• ciągłe: każda funkcja ograniczona, monotoniczna, niewielomianowa
– sigmoidalna (prosta postać pochodnej!)
1)1()( ef
f()
05.10.2007 B. Pawlukiewicz 10
w1w2
x1
x2
xn
w0
ywn
i
ii xw
• odpowiedź sieci y =0 00 1
• (n-1)-wymiarowa hiperpłaszczyzna dzieli przestrzeń na dwie podprzestrzenie
00
n
iii xw
f()
Neuron dyskretny
• pobudzenie neuronu
05.10.2007 B. Pawlukiewicz 11
22110 wxwx
Znaczenie dodatkowej wagineuron dyskretny
x1
yx2
c=0
c=1.5
.. .
.
. ..
. ..
.. ..
.
x2
w2
w1
1
W0
0
221100 wxwxw
x1
. ..
05.10.2007 B. Pawlukiewicz 12
Wielowarstwowa sieć neuronów nieliniowych MLP (multi-layer perceptron)
f
f
f
f
f
f y
x1
xn
1
1 1
warstwa wejściowa warstwy ukryte
warstwa wyjściowa
w11
w1n
w10
wji
05.10.2007 B. Pawlukiewicz 13
Dowolny podział przestrzeni przy użyciu neuronów dyskretnych
http
://nc
25.tr
oja.
mff.
cuni
.cz/
~sou
stru
znik
/talk
s.htm
l
05.10.2007 B. Pawlukiewicz 14
Trening sieci neuronowej
• z nauczycielem – znamy pożądaną odpowiedź sieci dla danych wejściowych (np. z symulacji Monte Carlo)
• cel uczenia: otrzymanie prawidłowych odpowiedzi dla zbioru, który nie był wykorzystywany w procesie uczenia (GENERALIZACJA) • metoda: minimalizacja różnicy pomiędzy oczekiwanymi a otrzymanymi odpowiedziami sieci za pomocą iteracyjnego procesu adaptacji wag
05.10.2007 B. Pawlukiewicz 15
Trening sieci z nauczycielem.Pierwsze kroki.
• przygotowanie danych wejściowych
• ustalona architektura sieci
• losowanie początkowych wag w
05.10.2007 B. Pawlukiewicz 16
• podział wektorów wejściowych i pożądanych odpowiedzi na podzbiory: uczący i testowy
Przygotowanie danych wejściowych
• przygotowanie danych:–przeskalowanie do takiego zakresu, żeby wypadkowe pobudzenie neuronu pokrywało się z zakresem, w którym pochodna funkcji aktywacji jest istotnie różna od zera–eliminacja zbędnych zmiennych–wygładzenie rozkładów szybkozmiennych
f’()
05.10.2007 B. Pawlukiewicz 17
Trening sieci z nauczycielem
miara błędu sieci:
k
k
kQ 2k )x(1)w(
)(xz ,x kkk
w),(xy kk
w),(xy– )(xz kkkkk
Q spełnia„STOP”?
KONIEC
poprawa wag
tak
nie
tak
nie
algorytmrozbudowy
poprawaarchitektury
05.10.2007 B. Pawlukiewicz 18
• wagi stają się stabilne• błąd sieci dla zbioru uczącego przestaje maleć• błąd sieci dla zbioru testowego zaczyna rosnąć• w dobrych warunkach statystycznych => oba
błędy przestają maleć
Warunek zatrzymania uczenia
zbiór uczącyzbiór testowy
liczba iteracji
błąd
siec
i
en.wikipedia.org
05.10.2007 B. Pawlukiewicz 19
Minimalizacja funkcji błędu• szukamy takiego wektora w, dla którego Q(w)
osiąga globalne minimum• używamy metod gradientowych• zmiana j-tej wagi w kroku (i+1) proporcjonalna do
składowej gradientu:
))()((Σfakt kkj
xyxz
jwQ
(i)
jj
(i)
j
1)(i
jwww
błąd j-tego neuronu z warstwy wyjściowej:
a błąd neuronu z warstwy ukrytej?
05.10.2007 B. Pawlukiewicz 20
Algorytm wstecznej propagacji błędu
m
jmjnw Σf
akt
błąd m-tego neuronu warstwy ukrytej:
suma po wszystkich wyjściach neuronu ukrytego
idea: błąd propaguje się od warstwy ostatniej do pierwszejwystarczy wiedza o gradiencie dla warstwy późniejszej
f
f
f
f
f
f y
x1
xn
1 1 1
05.10.2007 B. Pawlukiewicz 21
Przykładowa powierzchnia błędu
prezentacja R. Suleja, seminarium IPJ, 2005
05.10.2007 B. Pawlukiewicz 22
Szukanie minimum globalnego funkcji błędu – rożne algorytmy gradientowe
prezentacja R. Suleja, seminarium IPJ, 2005
05.10.2007 B. Pawlukiewicz 23
Wady i zalety sieci neuronowejZalety:• pozwala rozwiązywać problemy bez znajomości analitycznej zależności
między danymi wejściowymi a oczekiwanymi wyjściami• skuteczna w rozwiązywaniu problemów nieseparowalnych • zdolność generalizacji • różnorodność zastosowań:
– rozpoznawanie pisma, mowy, analizy finansowe rynku... Wady:• brak dowodów zbiegania do globalnego minimum metodami
gradientowymi • kłopotliwe dla niedoświadczonego użytkownika, jeśli sam ustala
algorytm, parametry algorytmu oraz architekturę sieci• niebezpieczeństwo przetrenowania lub niedouczenia sieci
05.10.2007 B. Pawlukiewicz 24
sieci nielinioweze względu na architekturę
jednokierunkowe
jednowarstwowe
rekurencyjne
wielowarstwowe
ze względu na funkcję aktywacji
siecinieliniowe
ciągłe
liniowe
dyskretne
uczenieze względu na rodzaj uczenia
z nauczycielemz krytykiem
bez nauczyciela
Sieci użyte w analizie problemów fizycznych
http://www.ire.pw.edu.pl/~rsulej/NetMaker/
05.10.2007 B. Pawlukiewicz 25
Zadanie klasyfikacji
typowe zadanie klasyfikacji: odseparowanie sygnału od tła
zadanie realizuje sieć:• dwie warstwy ukryte + wyjściowa• sigmoidalna fakt neuronu wyjściowego
jakość nauki określają dwa współczynniki:trafność (purity ) i sprawność (efficiency )
sygnał jako zident. tloN N
sygnał jako zident. sygnał N)(
21
1
sygnał N
sygnał jako zident. sygnał N)(
3
1
05.10.2007 B. Pawlukiewicz 26
Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC
praca doktorska K. Kowalik, IPJ
krzywa ciągła – sygnałkrzywe przerywane - tło
05.10.2007 B. Pawlukiewicz 27
Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC
Phys.Rev.D70:012002,2004
05.10.2007 B. Pawlukiewicz 28
Selekcja przypadków PGFpara hadronów z dużym pT, dane COMPASS-owe
Meas. Sci. Technol., Vol. 18 (2007)
05.10.2007 B. Pawlukiewicz 29
Zadanie aproksymacji
k
ykzkyz
yzk
R
1
jakość aproksymacji określa współczynnik korelacji:
aproksymacja nieznanej zależności między zmiennymi wejściowymi a pożądanymi odpowiedziami
zadanie realizuje sieć:• dwie warstwy ukryte + wyjściowa• liniowa fakt neuronu wyjściowego
05.10.2007 B. Pawlukiewicz 30
Zadanie aproksymacji all
kanał mezonów powabnych, COMPASS
RNN = 0.82
DIS 2006, COMPASS, G. Mallot
05.10.2007 B. Pawlukiewicz 31
Podsumowanie
• sieci zostały użyte do zadań detekcji sygnału i estymacji nieznanej funkcji
• użyto sieci typu MLP trenowanych z nauczycielem
• w obu zastosowaniach wyniki sieci okazały się nieznacznie lepsze od wyników otrzymanych metodami tradycyjnymi
• analiza danych COMPASS-a z użyciem sieci (m.in. separacja PGF w kanale D0 od tła) w toku.
05.10.2007 B. Pawlukiewicz 32
Serdecznie dziękuję R. Sulejowi i prof. B. Badełek za pomoc
w przygotowaniu tego seminarium