Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

Post on 15-Mar-2016

56 views 4 download

description

Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN. Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii Warszawa 05.10.2007. Plan seminarium: Eksperymenty SMC i COMPASS Detekcja procesów fuzji fotonowo-gluonowej - PowerPoint PPT Presentation

Transcript of Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową

w CERN

Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii

Warszawa 05.10.2007

Plan seminarium:• Eksperymenty SMC i COMPASS

• Detekcja procesów fuzji fotonowo-gluonowej• Wyniki analiz SMC/COMPASS, w których użyto sieci neuronowych

• Sieci neuronowe• Budowa sieci• Trening sieci

• Przykład klasyfikacji w doświadczeniach SMC i COMPASS• Przykład aproksymacji w doświadczeniu COMPASS

05.10.2007 B. Pawlukiewicz 2

slajdy z prezentacji G. Brony, 08.06.07

05.10.2007 B. Pawlukiewicz 3

z Monte-Carlo

05.10.2007 B. Pawlukiewicz 4

slajdy z prezentacji G. Brony, 08.06.07

G/G w kanale mezonów powabnych

z Monte-Carlo

05.10.2007 B. Pawlukiewicz 5

.)(10.0.)(28.020.0 syststatGG

SMC, high pT (Q2>1 GeV2), 1993-1996

Wyniki otrzymane przy użyciu sieci neuronowych

COMPASS w kanale mezonów powabnych, 2000-2004

Phys.Rev.D70:012002,2004

praca doktorska G. Brona

05.10.2007 B. Pawlukiewicz 6

Sieci neuronowe – co to jest?

05.10.2007 B. Pawlukiewicz 7

• Uproszczony model mózgu - zespół powiązanych ze sobą komórek równolegle przetwarzających informacje

• Neuron:• oblicza sumę ważoną sygnałów wejściowych• zwraca odpowiedź w postaci pojedynczego sygnału • przesyła odpowiedź do kolejnych elementów

• Neurony tworzą warstwy

Sztuczne sieci neuronowe

http://www.mindcreators.com/NeuronBasics.htm

w1

w2

w3

NEURON

05.10.2007 B. Pawlukiewicz 8

Pojedynczy neuron liniowynieliniowy

w1

w2

x1

x2

xn

w0

y f()wn

odpowiedź neuronupobudzenie neuronu

wektor wejściowy

funkcja aktywacjiwektor wag

1

i

ii xw

EQ2

y

liczby

)(i

iixwfy

05.10.2007 B. Pawlukiewicz 9

Nieliniowe funkcje aktywacji

• dyskretne (signum, skok jednostkowy...)• ciągłe: każda funkcja ograniczona, monotoniczna, niewielomianowa

– sigmoidalna (prosta postać pochodnej!)

1)1()( ef

f()

05.10.2007 B. Pawlukiewicz 10

w1w2

x1

x2

xn

w0

ywn

i

ii xw

• odpowiedź sieci y =0 00 1

• (n-1)-wymiarowa hiperpłaszczyzna dzieli przestrzeń na dwie podprzestrzenie

00

n

iii xw

f()

Neuron dyskretny

• pobudzenie neuronu

05.10.2007 B. Pawlukiewicz 11

22110 wxwx

Znaczenie dodatkowej wagineuron dyskretny

x1

yx2

c=0

c=1.5

.. .

.

. ..

. ..

.. ..

.

x2

w2

w1

1

W0

0

221100 wxwxw

x1

. ..

05.10.2007 B. Pawlukiewicz 12

Wielowarstwowa sieć neuronów nieliniowych MLP (multi-layer perceptron)

f

f

f

f

f

f y

x1

xn

1

1 1

warstwa wejściowa warstwy ukryte

warstwa wyjściowa

w11

w1n

w10

wji

05.10.2007 B. Pawlukiewicz 13

Dowolny podział przestrzeni przy użyciu neuronów dyskretnych

http

://nc

25.tr

oja.

mff.

cuni

.cz/

~sou

stru

znik

/talk

s.htm

l

05.10.2007 B. Pawlukiewicz 14

Trening sieci neuronowej

• z nauczycielem – znamy pożądaną odpowiedź sieci dla danych wejściowych (np. z symulacji Monte Carlo)

• cel uczenia: otrzymanie prawidłowych odpowiedzi dla zbioru, który nie był wykorzystywany w procesie uczenia (GENERALIZACJA) • metoda: minimalizacja różnicy pomiędzy oczekiwanymi a otrzymanymi odpowiedziami sieci za pomocą iteracyjnego procesu adaptacji wag

05.10.2007 B. Pawlukiewicz 15

Trening sieci z nauczycielem.Pierwsze kroki.

• przygotowanie danych wejściowych

• ustalona architektura sieci

• losowanie początkowych wag w

05.10.2007 B. Pawlukiewicz 16

• podział wektorów wejściowych i pożądanych odpowiedzi na podzbiory: uczący i testowy

Przygotowanie danych wejściowych

• przygotowanie danych:–przeskalowanie do takiego zakresu, żeby wypadkowe pobudzenie neuronu pokrywało się z zakresem, w którym pochodna funkcji aktywacji jest istotnie różna od zera–eliminacja zbędnych zmiennych–wygładzenie rozkładów szybkozmiennych

f’()

05.10.2007 B. Pawlukiewicz 17

Trening sieci z nauczycielem

miara błędu sieci:

k

k

kQ 2k )x(1)w(

)(xz ,x kkk

w),(xy kk

w),(xy– )(xz kkkkk

Q spełnia„STOP”?

KONIEC

poprawa wag

tak

nie

tak

nie

algorytmrozbudowy

poprawaarchitektury

05.10.2007 B. Pawlukiewicz 18

• wagi stają się stabilne• błąd sieci dla zbioru uczącego przestaje maleć• błąd sieci dla zbioru testowego zaczyna rosnąć• w dobrych warunkach statystycznych => oba

błędy przestają maleć

Warunek zatrzymania uczenia

zbiór uczącyzbiór testowy

liczba iteracji

błąd

siec

i

en.wikipedia.org

05.10.2007 B. Pawlukiewicz 19

Minimalizacja funkcji błędu• szukamy takiego wektora w, dla którego Q(w)

osiąga globalne minimum• używamy metod gradientowych• zmiana j-tej wagi w kroku (i+1) proporcjonalna do

składowej gradientu:

))()((Σfakt kkj

xyxz

jwQ

(i)

jj

(i)

j

1)(i

jwww

błąd j-tego neuronu z warstwy wyjściowej:

a błąd neuronu z warstwy ukrytej?

05.10.2007 B. Pawlukiewicz 20

Algorytm wstecznej propagacji błędu

m

jmjnw Σf

akt

błąd m-tego neuronu warstwy ukrytej:

suma po wszystkich wyjściach neuronu ukrytego

idea: błąd propaguje się od warstwy ostatniej do pierwszejwystarczy wiedza o gradiencie dla warstwy późniejszej

f

f

f

f

f

f y

x1

xn

1 1 1

05.10.2007 B. Pawlukiewicz 21

Przykładowa powierzchnia błędu

prezentacja R. Suleja, seminarium IPJ, 2005

05.10.2007 B. Pawlukiewicz 22

Szukanie minimum globalnego funkcji błędu – rożne algorytmy gradientowe

prezentacja R. Suleja, seminarium IPJ, 2005

05.10.2007 B. Pawlukiewicz 23

Wady i zalety sieci neuronowejZalety:• pozwala rozwiązywać problemy bez znajomości analitycznej zależności

między danymi wejściowymi a oczekiwanymi wyjściami• skuteczna w rozwiązywaniu problemów nieseparowalnych • zdolność generalizacji • różnorodność zastosowań:

– rozpoznawanie pisma, mowy, analizy finansowe rynku... Wady:• brak dowodów zbiegania do globalnego minimum metodami

gradientowymi • kłopotliwe dla niedoświadczonego użytkownika, jeśli sam ustala

algorytm, parametry algorytmu oraz architekturę sieci• niebezpieczeństwo przetrenowania lub niedouczenia sieci

05.10.2007 B. Pawlukiewicz 24

sieci nielinioweze względu na architekturę

jednokierunkowe

jednowarstwowe

rekurencyjne

wielowarstwowe

ze względu na funkcję aktywacji

siecinieliniowe

ciągłe

liniowe

dyskretne

uczenieze względu na rodzaj uczenia

z nauczycielemz krytykiem

bez nauczyciela

Sieci użyte w analizie problemów fizycznych

http://www.ire.pw.edu.pl/~rsulej/NetMaker/

05.10.2007 B. Pawlukiewicz 25

Zadanie klasyfikacji

typowe zadanie klasyfikacji: odseparowanie sygnału od tła

zadanie realizuje sieć:• dwie warstwy ukryte + wyjściowa• sigmoidalna fakt neuronu wyjściowego

jakość nauki określają dwa współczynniki:trafność (purity ) i sprawność (efficiency )

sygnał jako zident. tloN N

sygnał jako zident. sygnał N)(

21

1

sygnał N

sygnał jako zident. sygnał N)(

3

1

05.10.2007 B. Pawlukiewicz 26

Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC

praca doktorska K. Kowalik, IPJ

krzywa ciągła – sygnałkrzywe przerywane - tło

05.10.2007 B. Pawlukiewicz 27

Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC

Phys.Rev.D70:012002,2004

05.10.2007 B. Pawlukiewicz 28

Selekcja przypadków PGFpara hadronów z dużym pT, dane COMPASS-owe

Meas. Sci. Technol., Vol. 18 (2007)

05.10.2007 B. Pawlukiewicz 29

Zadanie aproksymacji

k

ykzkyz

yzk

R

1

jakość aproksymacji określa współczynnik korelacji:

aproksymacja nieznanej zależności między zmiennymi wejściowymi a pożądanymi odpowiedziami

zadanie realizuje sieć:• dwie warstwy ukryte + wyjściowa• liniowa fakt neuronu wyjściowego

05.10.2007 B. Pawlukiewicz 30

Zadanie aproksymacji all

kanał mezonów powabnych, COMPASS

RNN = 0.82

DIS 2006, COMPASS, G. Mallot

05.10.2007 B. Pawlukiewicz 31

Podsumowanie

• sieci zostały użyte do zadań detekcji sygnału i estymacji nieznanej funkcji

• użyto sieci typu MLP trenowanych z nauczycielem

• w obu zastosowaniach wyniki sieci okazały się nieznacznie lepsze od wyników otrzymanych metodami tradycyjnymi

• analiza danych COMPASS-a z użyciem sieci (m.in. separacja PGF w kanale D0 od tła) w toku.

05.10.2007 B. Pawlukiewicz 32

Serdecznie dziękuję R. Sulejowi i prof. B. Badełek za pomoc

w przygotowaniu tego seminarium