Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową

w CERN

Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii

Warszawa 05.10.2007

Plan seminarium:• Eksperymenty SMC i COMPASS

• Detekcja procesów fuzji fotonowo-gluonowej• Wyniki analiz SMC/COMPASS, w których użyto sieci neuronowych

• Sieci neuronowe• Budowa sieci• Trening sieci

• Przykład klasyfikacji w doświadczeniach SMC i COMPASS• Przykład aproksymacji w doświadczeniu COMPASS

05.10.2007 B. Pawlukiewicz 2

slajdy z prezentacji G. Brony, 08.06.07


z Monte-Carlo


slajdy z prezentacji G. Brony, 08.06.07

G/G w kanale mezonów powabnych

z Monte-Carlo


.)(10.0.)(28.020.0 syststatGG

SMC, high pT (Q2>1 GeV2), 1993-1996

Wyniki otrzymane przy użyciu sieci neuronowych

COMPASS w kanale mezonów powabnych, 2000-2004

Phys.Rev.D70:012002,2004

praca doktorska G. Brona


Sieci neuronowe – co to jest?


• Uproszczony model mózgu - zespół powiązanych ze sobą komórek równolegle przetwarzających informacje

• Neuron:• oblicza sumę ważoną sygnałów wejściowych• zwraca odpowiedź w postaci pojedynczego sygnału • przesyła odpowiedź do kolejnych elementów

• Neurony tworzą warstwy

Sztuczne sieci neuronowe

http://www.mindcreators.com/NeuronBasics.htm

w1

w2

w3

NEURON


Pojedynczy neuron liniowynieliniowy

w1

w2

x1

x2

xn

w0

y f()wn

odpowiedź neuronupobudzenie neuronu

wektor wejściowy

funkcja aktywacjiwektor wag

1

i

ii xw

EQ2

y

liczby

)(i

iixwfy


Nieliniowe funkcje aktywacji

• dyskretne (signum, skok jednostkowy...)• ciągłe: każda funkcja ograniczona, monotoniczna, niewielomianowa

– sigmoidalna (prosta postać pochodnej!)

1)1()( ef

f()


w1w2

x1

x2

xn

w0

ywn

i

ii xw

• odpowiedź sieci y =0 00 1

• (n-1)-wymiarowa hiperpłaszczyzna dzieli przestrzeń na dwie podprzestrzenie

00

n

iii xw

f()

Neuron dyskretny

• pobudzenie neuronu


22110 wxwx

Znaczenie dodatkowej wagineuron dyskretny

x1

yx2

c=0

c=1.5

.. .

.

. ..

. ..

.. ..

.

x2

w2

w1

1

W0

0

221100 wxwxw

x1

. ..


Wielowarstwowa sieć neuronów nieliniowych MLP (multi-layer perceptron)

f

f

f

f

f

f y

x1

xn

1

1 1

warstwa wejściowa warstwy ukryte

warstwa wyjściowa

w11

w1n

w10

wji


Dowolny podział przestrzeni przy użyciu neuronów dyskretnych

http

://nc

25.tr

oja.

mff.

cuni

.cz/

~sou

stru

znik

/talk

s.htm

l


Trening sieci neuronowej

• z nauczycielem – znamy pożądaną odpowiedź sieci dla danych wejściowych (np. z symulacji Monte Carlo)

• cel uczenia: otrzymanie prawidłowych odpowiedzi dla zbioru, który nie był wykorzystywany w procesie uczenia (GENERALIZACJA) • metoda: minimalizacja różnicy pomiędzy oczekiwanymi a otrzymanymi odpowiedziami sieci za pomocą iteracyjnego procesu adaptacji wag


Trening sieci z nauczycielem.Pierwsze kroki.

• przygotowanie danych wejściowych

• ustalona architektura sieci

• losowanie początkowych wag w


• podział wektorów wejściowych i pożądanych odpowiedzi na podzbiory: uczący i testowy

Przygotowanie danych wejściowych

• przygotowanie danych:–przeskalowanie do takiego zakresu, żeby wypadkowe pobudzenie neuronu pokrywało się z zakresem, w którym pochodna funkcji aktywacji jest istotnie różna od zera–eliminacja zbędnych zmiennych–wygładzenie rozkładów szybkozmiennych

f’()


Trening sieci z nauczycielem

miara błędu sieci:

k

k

kQ 2k )x(1)w(

)(xz ,x kkk

w),(xy kk

w),(xy– )(xz kkkkk

Q spełnia„STOP”?

KONIEC

poprawa wag

tak

nie

tak

nie

algorytmrozbudowy

poprawaarchitektury


• wagi stają się stabilne• błąd sieci dla zbioru uczącego przestaje maleć• błąd sieci dla zbioru testowego zaczyna rosnąć• w dobrych warunkach statystycznych => oba

błędy przestają maleć

Warunek zatrzymania uczenia

zbiór uczącyzbiór testowy

liczba iteracji

błąd

siec

i

en.wikipedia.org


Minimalizacja funkcji błędu• szukamy takiego wektora w, dla którego Q(w)

osiąga globalne minimum• używamy metod gradientowych• zmiana j-tej wagi w kroku (i+1) proporcjonalna do

składowej gradientu:

))()((Σfakt kkj

xyxz

jwQ

(i)

jj

(i)

j

1)(i

jwww

błąd j-tego neuronu z warstwy wyjściowej:

a błąd neuronu z warstwy ukrytej?


Algorytm wstecznej propagacji błędu

m

jmjnw Σf

akt

błąd m-tego neuronu warstwy ukrytej:

suma po wszystkich wyjściach neuronu ukrytego

idea: błąd propaguje się od warstwy ostatniej do pierwszejwystarczy wiedza o gradiencie dla warstwy późniejszej

f

f

f

f

f

f y

x1

xn

1 1 1


Przykładowa powierzchnia błędu

prezentacja R. Suleja, seminarium IPJ, 2005


Szukanie minimum globalnego funkcji błędu – rożne algorytmy gradientowe

prezentacja R. Suleja, seminarium IPJ, 2005


Wady i zalety sieci neuronowejZalety:• pozwala rozwiązywać problemy bez znajomości analitycznej zależności

między danymi wejściowymi a oczekiwanymi wyjściami• skuteczna w rozwiązywaniu problemów nieseparowalnych • zdolność generalizacji • różnorodność zastosowań:

– rozpoznawanie pisma, mowy, analizy finansowe rynku... Wady:• brak dowodów zbiegania do globalnego minimum metodami

gradientowymi • kłopotliwe dla niedoświadczonego użytkownika, jeśli sam ustala

algorytm, parametry algorytmu oraz architekturę sieci• niebezpieczeństwo przetrenowania lub niedouczenia sieci


sieci nielinioweze względu na architekturę

jednokierunkowe

jednowarstwowe

rekurencyjne

wielowarstwowe

ze względu na funkcję aktywacji

siecinieliniowe

ciągłe

liniowe

dyskretne

uczenieze względu na rodzaj uczenia

z nauczycielemz krytykiem

bez nauczyciela

Sieci użyte w analizie problemów fizycznych

http://www.ire.pw.edu.pl/~rsulej/NetMaker/


Zadanie klasyfikacji

typowe zadanie klasyfikacji: odseparowanie sygnału od tła

zadanie realizuje sieć:• dwie warstwy ukryte + wyjściowa• sigmoidalna fakt neuronu wyjściowego

jakość nauki określają dwa współczynniki:trafność (purity ) i sprawność (efficiency )

sygnał jako zident. tloN N

sygnał jako zident. sygnał N)(

21

1

sygnał N

sygnał jako zident. sygnał N)(

3

1


Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC

praca doktorska K. Kowalik, IPJ

krzywa ciągła – sygnałkrzywe przerywane - tło


Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC

Phys.Rev.D70:012002,2004


Selekcja przypadków PGFpara hadronów z dużym pT, dane COMPASS-owe

Meas. Sci. Technol., Vol. 18 (2007)


Zadanie aproksymacji

k

ykzkyz

yzk

R

1

jakość aproksymacji określa współczynnik korelacji:

aproksymacja nieznanej zależności między zmiennymi wejściowymi a pożądanymi odpowiedziami

zadanie realizuje sieć:• dwie warstwy ukryte + wyjściowa• liniowa fakt neuronu wyjściowego


Zadanie aproksymacji all

kanał mezonów powabnych, COMPASS

RNN = 0.82

DIS 2006, COMPASS, G. Mallot


Podsumowanie

• sieci zostały użyte do zadań detekcji sygnału i estymacji nieznanej funkcji

• użyto sieci typu MLP trenowanych z nauczycielem

• w obu zastosowaniach wyniki sieci okazały się nieznacznie lepsze od wyników otrzymanych metodami tradycyjnymi

• analiza danych COMPASS-a z użyciem sieci (m.in. separacja PGF w kanale D0 od tła) w toku.


Serdecznie dziękuję R. Sulejowi i prof. B. Badełek za pomoc

w przygotowaniu tego seminarium

Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

Documents

Transcript of Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN