Maszyny matematyczne i myslenie --- podstawowe problemy i...

Post on 16-Oct-2020

0 views 0 download

Transcript of Maszyny matematyczne i myslenie --- podstawowe problemy i...

Maszyny matematyczne i myślenie —podstawowe problemy i definicje sztucznej

inteligencji

Przemysław Klęskpklesk@wi.ps.pl

1/ 57

Literatura

1 Maszyny matematyczne i myślenie,E.A. Feigenbaum, J. Feldman, 1963. (zawieraprace Turinga i Minsky’ego)

2 Metody i techniki sztucznej inteligencji,L. Rutkowski, 2005.

3 Sieci neuronowe w ujęciu algorytmicznym,S. Osowski, 1996.

4 Modelowanie i sterowanie rozmyte, A. Piegat,1999.

5 Sieci neuronowe, algorytmy genetyczne i systemyrozmyte, D. Rutkowska, M. Piliński,L. Rutkowski, 1997.

2/ 57

Plan wykładu

1 Przykłady problemów stawianych irozwiązywanych w ramach sztucznej inteligencji

2 Gra w naśladownictwo Alana Turinga (testTuringa)

3 Sprzeciwy do poglądów Turinga (i ich obalenie)4 Uwagi Marvina Minsky’ego o myślących

maszynach i inteligencji5 Współczesne główne gałęzie i techniki sztucznej

inteligencji6 Formalne matematyczne postawienie zadania

uczenia się — Statystyczna Teoria UczeniaVladimira Vapnika

3/ 57

Gry (przeszukiwanie drzew gier)

Zwykle rozpatrywane są gry dwuosobowe takie jak: szachy,warcaby, GO (batuk), . . . , gdzie gracze mają sprzeczne interesy, igdzie mamy jasno zdefiniowane reguły gry.

Problem przeszukiwania drzewa gry

Mając daną pewną pozycję gry (w szczególności początkową),należy wystawić oceny liczbowe wszystkim możliwym ruchom dlagracza, którego teraz kolej ruchu. Ocena ma reprezentowaćdokładną lub prawdopodobną wypłatę gracza, jeżeli wybierze onten ruch, zwykle przy założeniu optymalnego postępowaniadrugiego gracza.4/ 57

Gry (przeszukiwanie drzew gier)

5/ 57

Łamigłówki, grafy, labirynty (przeszukiwanie)

Sudoku1*5 *37 **8*7* *** *****8 1** *****3 *7* **174* *1* *632** *4* 9***** **5 1***** *** *8*4** 62* 5*7

−→

195 237 648674 859 312328 164 759853 976 421749 512 863216 348 975962 785 134537 491 286481 623 597

Sudoku minimalne12 3434 1223 4141 23

→** **** 12** **4* *3

,

** **** 12** **41 **

,

** **** 12** *14* **

, . . .

6/ 57

Łamigłówki, grafy, labirynty (przeszukiwanie)

Problem n-hetmanówNa szachownicy n × n należy ustawić n hetmanów, tak aby nieszachowały się wzajemnie.

Rysunek: Przykładowe rozwiązanie dla n = 8.

7/ 57

Łamigłówki, grafy, labirynty (przeszukiwanie)

Puzzle n2 − 1

Labirynty, poruszanie się postaci w grach komputerowych

8/ 57

Łamigłówki, grafy, labirynty (przeszukiwanie)

Problem (w ogólności)Mając dany pewien węzeł początkowy w grafie (lub wdrzewie stanów), należy znaleźć ścieżkę przejść (o iletaka istnieje) do węzła docelowego. Jeżeli dodatkowookreślono w zadaniu, znaleźć najkrótszą ścieżkę.

9/ 57

Problemy optymalizacji

Dyskretny problem plecakowy (złodziejski)

Mając dany zbiór przedmiotów A = (v1, c1), (v2, c2), . . . (vn, cn)opisanych dwiema wielkościami: wartością vi i objętością ci , należyznaleźć podzbiór A∗ zbioru A, taki że:

∑i

(vi ,ci )∈A∗

vi −→ max oraz∑

i(vi ,ci )∈A∗

ci C ,

gdzie C jest dopuszczalną objętością plecaka (ograniczenie).10/ 57

Problemy optymalizacji

Problem komiwojażera (obwoźnego sprzedawcy)

Na mapie dany jest zbiór n miast. Rozpoczynając od zadanegomiasta początkowego należy wybrać najkrótszą ścieżkęprzechodzącą przez wszystkie miasta (każde miasto może byćodwiedzone jednokrotnie) i wracającą do miastapoczątkowego.

11/ 57

Problemy optymalizacji

Problem jeepa

Jeep na pustyni ma do dyspozycji pewną ilość paliwa, niech będzie to nkontenerów, każdy z 1 jednostką paliwa. Zużycie paliwa jest 1 : 1 tzn. 1jednostka paliwa na 1 jednostkę odległości. Celem jeepa jestzmaksymalizowanie odległości Dn, którą jeep chce pokonać wgłąbpustyni, przy zachowaniu następujących reguł. Jeep może zatankowaćbak co najwyżej 1 jednostką paliwa i nie może wziąć żadnegododatkowego paliwa ze sobą. Jeep może wyruszyć z bazy, pozostawićczęść paliwa na drodze i wrócić do bazy używając pozostałego mu paliwa.W bazie jeep może ponownie zatankować się i znów wyruszyć. Gdynatrafi na paliwo pozostawione na drodze, jeep może uzupełnić nim swójbak.12/ 57

Problemy wyboru strategii

Dylemat więźnia

Policja aresztowała dwóch podejrzanych o popełnienie przestępstwa.Każdy z nich przebywa w odrębnej celi. Policja nie ma wystarczającychdowodów, ale próbuje każdego z nich namówić na przyznanie się iwydanie współpodejrzanego w zamian za łagodniejszą karę. Oto tabelkakar (wyroków) w pojedynczej grze:

A milczy A zdradza

B milczy A i B odsiadują po 1 rokuA wychodzi na wolność

B odsiaduje 5 lat

B zdradzaA odsiaduje 5 lat

B wychodzi na wolność A i B odsiadują po 4 lata13/ 57

Problemy wyboru strategii

Iterowany dylemat więźniaJaką strategię powinien stosować każdy z graczy wsekwencji n pojedynczych gier, aby zminimalizowaćsumaryczną karę? Po każdej grze gracze dowiadująsię jej wyniku.

Zauważmy, że po rozegraniu n − 1 gier, ostatnia n-ta gra redukuje namsię do zwykłego dylematu więźnia. Przez indukcję, to samo dzieje się zgrą n − 1, n − 2, . . . . Niestety to rozumowanie i stosowanie dominującejstrategii ze zwykłego dylematu więźnia nie prowadzi nas do minimalizacjisumy kar.

14/ 57

Problemy klasyfikacji (rozpoznawania) —ang. classification lub pattern recognition

Problem (ogólnie)

Dany jest zbiór obserwacji (przykładów z przeszłości), gdziekażdy przykład jest opisany pewną liczbą zmiennych. Jedna zezmiennych jest wyróżniona jako decyzyjna i ma dyskretnyskończony zbiór wartości 1, 2, . . . , K (numery klas). Należyzbudować klasyfikator, tj. znaleźć funkcję, która możliwienajlepiej przyporządkowuje przykłady do zbioru klas.Klasyfikator powinien dobrze przybliżać dane uczące ijednocześnie dobrze uogólniać tzn. dawać dobre odpowiedzidla nowych przykładów spoza poznanego zbioru.

15/ 57

Problemy klasyfikacji (rozpoznawania)

Przykład: sodowrażliwość warunkowana genetycznieDany jest zbiór 106 pacjentów (przykładów/obserwacji), każdy opisany przez 27zmiennych. Jedna zmienna ’dSS’ jest wyróżniona jako decyzyjna(objaśniana/wyjściowa):dSS = pacjent wrażliwy na sód, pacjent niewrażliwy na sód.

...Należy zbudować klasyfikator, który dla nowych pacjentów (o nieznanym ’dSS’)będzie potrafił skutecznie diagnozować ich wrażliwość/niewrażliwość na sód napodstawie DNA.

16/ 57

Problemy klasyfikacji (rozpoznawania)

Przykładyautomatyczne diagnozowanie (chory/zdrowy, z ryzykiemnowotworu/bez ryzyka, itp.),określanie wiarygodności kredytowej (klientwiarygodny/niewiarygodny),rozpoznawanie znaków odręcznych (zniekształconych) napodstawie wzorcowych,

−→ A

−→ Brozpoznawanie obrazów na podstawie zdjęć: twarzy,tęczówki oka, samochodów, obiektów wojskowych, itp....

17/ 57

Problemy klasyfikacji (rozpoznawania) wzorcówprzebiegających w czasie — ang. temporal patternrecognition

Przykładyrozpoznawanie pisma odręcznego (ciągi znaków, a niepojedyncze znaki),rozpoznawanie mowy,rozpoznawanie gestów języka migowego,śledzenie partytury muzycznej,rozpoznawanie/modelowanie sekwencji DNA,...

18/ 57

Problemy aproksymacji (estymacji funkcji regresji)— ang. approximation lub regression estimation

Zmienna wyjściowa to oś rzeczywista, a nie dyskretnyskończony zbiór wartości jak w klasyfikacji.

Problem (ogólnie)

Na podstawie zbioru obserwacji (przykładów z przeszłości)należy zbudować aproksymator (maszynę regresji), tj. znaleźćfunkcję, która możliwie najlepiej przybliża pewną wyróżnionązmienną w tym zbiorze na podstawie pozostałych zmiennych.Aproksymator powinien dobrze przybliżać dane uczące ijednocześnie dobrze uogólniać tzn. dawać odpowiedzi o małymbłędzie dla nowych przykładów spoza poznanego zbioru.

Często używa się też nazwy modelowanie matematyczne(chociaż ma ona dużo szerszy sens niż sama aproksymacja).19/ 57

Problemy aproksymacji

Przykład: problem metalurgiczny

Dany jest zbiór 4997 przykładów dotyczących procesu wytopu stali.Każdy przykład opisany jest poprzez 71 zmiennych wejściowych(dodawanie różnych pierwiastków do procesu, temperatury, itp.) i11 zmiennych wyjściowych (opis zawartości chemicznej powstałejstali).

...Należy zbudować aproksymator (maszynę regresji) dla każdej z 11zmiennych wyjściowych, który będzie z małym błędem przybliżałzawartość stali dla nowych przykładów spoza poznanego zbioru.

20/ 57

Poszukiwanie reguł decyzyjnych (indukcja reguł)

Przykładowe reguły dla problemu sodowrażliwości1: jeżeli (płeć = M) i (NT = 1) to (dSS = >9). (47/106) (0.76596) KL=0.125752: jeżeli (płeć = M) i (ACE = DD) to (dSS = >9). (19/106) (0.94737) KL=0.543733: jeżeli (płeć = M) i (HPA = WW) to (dSS = >9). (64/106) (0.67188) KL=0.033814: jeżeli (wiek = <39.5) i (KAL3 = GG) to (dSS = >9). (81/106) (0.53086) KL=0.00361345: jeżeli (NT = 0) i (ACE = ID) to (dSS = <=9). (23/106) (0.78261) KL=0.365656: jeżeli (NT = 0) i (SCA = WW) to (dSS = <=9). (23/106) (0.78261) KL=0.365657: jeżeli (NT = 0) i (eNOS = GT) to (dSS = <=9). (10/106) (1) KL=1.20448: jeżeli (PROK = AB) i (ACE = ID) to (dSS = <=9). (14/106) (0.85714) KL=0.557929: jeżeli (BE1 = CC) i (ACE = ID) to (dSS = <=9). (38/106) (0.71053) KL=0.2253510: jeżeli (BE1 = CC) i (SCA = WW) to (dSS = <=9). (48/106) (0.58333) KL=0.064769

Podproblemy: miary oceny reguł (zaufanie, entropia warunkowa,liczba Kullbacka-Leiblera, . . . ), ranking istotności zmiennych (wprzydatności dla objaśnianej decyzji), istotne kombinacje zmiennych(dwójki, trójki, itp.).

21/ 57

Poszukiwanie reguł decyzyjnych (indukcja reguł)

Reguły Pareto-optymalne

0 10 20 30 40 50 60 70 80 900

0.2

0.4

0.6

0.8

1

1.2

1.4

support

KL(

P(Y

| X

= x

) ||

P(Y

))

Rysunek: Każdy punkt wykresu to reguła. Kolorami zaznaczono reguły z trzech

pierwszych brzegów Pareto.22/ 57

Problemy sterowania/regulacji

PrzykładyOdwrócone wahadło (film z symulacją),Regułowy sterownik temperatury w mieszkaniu,Automatyczna suwnica dźwigu przy rozładunku statków,Automatyczny dozownik leku,Stabilizator obrazu w kamerze cyfrowej,...

23/ 57

Problemy z zakresu sztucznego życia

Przykłady

Automaty komórkowe (ang. cellular automata)a,

„Gra w życie” Conwaya (ang. The Game of Life),

Symulacje światów z osobnikami ze zdefiniowanymi zmysłami,motoryką, głodem, agresją, itp.b.

aNa YouTube można znaleźć ciekawy wykład Stephena Wolframa.bPraca magisterska na WI: M. Suchorzewski, 2005.

24/ 57

Sztuczne życie — automaty komórkowe

25/ 57

Sztuczne życie — Gra w życie

1 Jeżeli pełna komórka ma 0, 1 sąsiadów to umiera (samotność).

2 Jeżeli pełna komórka 4 lub więcej sąsiadów to umiera (tłok).

3 Jeżeli pełna komórka ma 2 lub 3 sąsiadów to trwa.

4 Jeżeli pusta komórka ma dokładnie 3 sąsiadów to staje siępełną.

26/ 57

Czy maszyny mogą myśleć?

1 Nie, jeśli zdefiniować myślenie jako działalnośćwyłącznie ludzką. Wtedy każde tego typuzachowanie się maszyn trzeba by nazywaćpodobnym do myślenia.

2 Nie, jeśli założyć, że w samej istocie myśleniajest coś niezgłębionego, tajemnego, mistycznego.

3 Tak, jeśli przyjąć, że zagadnienie to należyrozstrzygnąć na drodze eksperymentu iobserwacji, porównując zachowanie maszyny zzachowaniem ludzi dla czynności, do którychtermin myślenie ma zastosowanie.

27/ 57

Artykuł „Maszyny liczące a inteligencja”(A.M. Turing, 1950)

Turing proponuje rozważyć problem: „Czy maszyny mogąmyśleć?” .Trzeba zdefiniować: maszyna i myśleć. Definicje powinnybyć na tyle dobre, żeby oddawać potoczne rozumienietych słów. Trudności: definicje nieścisłe, wieloznaczne,statystyczne (jeżeli zbudowane na bazie ankiet1).Turing, zastępuje więc oryginalny problem mniejdwuznacznym — grą w naśladownictwo.

1Niebezpieczeństwo: odpowiedź na postawiony problem też byłaby statystyczna.28/ 57

Gra w naśladownictwo (ang. imitation game)

Mężczyzna A i kobieta B są w odrębnym pokoju niż pytającyC .

C uzyskuje odpowiedzi od graczy jako od X i Y , i stara sięrozstrzygnąć czy X = A i Y = B , czy też X = B i Y = A.

Zadaniem A jest oszukanie C , tak aby C źle go zidentyfikował.

Pytania zadawane są poprzez terminal wykluczającymożliwości identyfikacji poprzez głos, zapach, itp.

29/ 57

Gra w naśladownictwo

Pytający może np. zapytać: „Proszę X , aby powiedziałjak długie ma włosy” . Jeżeli X faktycznie jest A topowinien starać się oszukiwać odpowiadając np. „Mojewłosy są ostrzyżone, a najdłuższe kosmyki mają około 9cali długości” .Zadaniem gracza B jest pomóc pytającemu.Prawdopodobnie najlepszą strategią dla niego jest poprostu mówienie prawdy. Może ona dodawać „Jestemkobietą, nie słuchaj go.” , ale przecież A może robić tosamo.

30/ 57

Gra w naśladownictwo — test Turinga

Co się stanie, gdy A zastąpi maszyna w tej grze? Czypytający będzie decydował błędnie tak samo często jakwtedy, gdy w grze bierze udział kobieta i mężczyzna?

Niech powyższe pytania zastąpią oryginalne: „Czymaszyny mogą myśleć?”

31/ 57

Gra w naśladownictwo — przykładowa rozmowawedług Turinga

P: Napisz mi sonet na temat Forth Bridge?O: Nie licz na mnie. Nigdy nie umiałem pisać wierszy.P: Ile jest 34957 dodać 70764?O: (Po 30s namyśle) 105621.P: Czy grasz w szachy?O: Tak.P: Mam K na K1 i innych figur nie mam. Ty masz K na K6 i

R na R1. Jest twój ruch. Jakie zrobisz posunięcie?O: (Po 15s namyśle) R-R8 mat.

32/ 57

Gra w naśladownictwo — krytyczne uwagi samegoTuringa

Plus: Ostre oddzielenie fizyczności i intelektu. Sztuczna skóra(nawet gdyby istniała) nie czyni maszyny w nią ubranąbardziej ludzką.

Minus: Maszynie daje się dużo mniejsze szanse niż człowiekowi.Można to uzmysłowić sobie myśląc o grze odwrotnej —człowiek naśladuje maszynę i szybko kompromituje sięnp. powolnością i niedokładnością w arytmetyce.

Minus: Czy maszyny mogłyby robić coś, co jest myśleniem, aleinnym od ludzkiego. Oczywiście tak. To silny zarzut.

Plus: Jeżeli tylko maszyna będzie mogła zadawalająco grać wnaśladownictwo, to rozstrzyga problem oryginalny2.

2Turing przewidywał za 50 lat maszyny z pamięcią ≈ 109 bitów,oszukujące około 30% ekspertów.33/ 57

Sprzeciwy do poglądów Turinga

Sprzeciw teologicznyMyślenie jest funkcją nieśmiertelnej duszy człowieka.Wszechmogący Bóg dał nieśmiertelną duszę każdemumężczyźnie i każdej kobiecie, ale nie dał jej żadnemuinnemu stworzeniu ani maszynie. Stąd, żadne zwierzęani żadna maszyna nie może myśleć.

W sensie naukowym w ogóle nie należy się tym sprzeciwem przejmować! Odpowiadając wterminach teologicznych, można mieć poniższe uwagi.

Lepiej byłoby podać zwierzęta w jednej grupie z ludźmi. Większa różnica pomiędzy człowiekiema czymkolwiek nieożywionym, niż człowiekiem a np. słoniem.

Dowolny pogląd ortodoksyjny warto weryfikować z inną reglią. Dlaczego chrześcijanie odrzucilimuzułmański pogląd, że kobiety nie mają dusz? Dlaczego chrześcijanie przyjęli w końcu teorięKopernika?

Sprzeciw pociąga za sobą ograniczenia wszechmocy Boga. Istnieją rzeczy, których On niemoże(?) zrobić: obdarzyć duszą słonia. Ale czy nie powinniśmy wierzyć, że może On obdarzyćduszą słonia, jeżeli uzna, że słoń jest tego godny. Wszystko to dogmatyczne spekulacje . . .

34/ 57

Sprzeciwy do poglądów Turinga

Sprzeciw „głów w piasku”Konsekwencje myślenia maszyn byłyby zbyt okropne.Miejmy nadzieję i wierzmy, że one nie mogą myśleć.

Także niepoważny naukowo.

Powiązany ze s. teologicznym. Chcemy wierzyć, że człowiek jest wyższy ponad resztęstworzenia. Najlepiej byłoby dowieść bazwarunkowej wyższości — można by wypoczywać, niebyłoby niebezpieczeństwa utraty dominującej pozycji.

Popularny wśród ludzi intelektu, ceniących potęgę myślenia i lubiących opierać ich wiarę na tejpotędze.

35/ 57

Sprzeciwy do poglądów Turinga

Sprzeciw matematycznyOpierając się na pewnych wynikach logiki matematycznejmożna wykazać, że istnieją granice możliwości maszyn ostanach dyskretnych. Jednym z nich jest twierdzenie Godela(1931): W każdym systemie logicznym można zbudowaćstwierdzenia, których prawdziwości lub fałszu nie można w tymsystemie rozstrzygnąća.

aNp.: Zdanie, które w tej chwili mówię, jest fałszywe.

To czego jedna maszyna nie mogłaby zrobić, być może mogłaby inna pracująca w innymsystemie formalnym.

Chociaż ustalono, że istnieją granice możliwości każdej maszyny, to bez dowodu twierdzi się, żeżadne takie ograniczenia nie stosują się do człowieka.

Za każdym razem, gdy zadać maszynie jedno z pytań w stylu Godela, to udzielona odpowiedźmusi być błędna. To daje nam złudne uczucie wyższości. Ludzie sami zbyt często mylą sięodpowiadając na trywialniejsze pytania.

Obstający przy sprzeciwie matematycznym na ogół przyjęliby grę w naśladownictwo za podstawędyskusji. Wierzących w dwa poprzednie prawdopodobnie nie interesują żadne kryteria.

36/ 57

Sprzeciwy do poglądów Turinga

Sprzeciw świadomościProf. Jefferson (1949): „(. . . )Dotąd nie będziemy mogli zgodzić sięz poglądem, że maszyna jest równa mózgowi, dopóki maszyna niepotrafi napisać sonetu lub skomponować koncertu dziękiodczuwanym myślom emocjom, a nie dzięki szansie natrafienia naodpowiednie symbole, to znaczy potrafi nie tylko napisać je, ale iwiedzieć, że je napisała. Żaden mechanizm nie może odczuwać (anie jedynie sztucznie sygnalizować — łatwy fortel) przyjemności zeswojego sukcesu, zmartwienia, gdy jego lampy się topią, nie możepodniecać się pochlebstwem, itp.(. . . )”

Wg skrajnej postaci tego rozumowania jedynym sposobem upewnienia się, że maszyna myśli jestbyć maszyną i odczuwać, że się myśli. Można by to wtedy ogłosić to światu, ale nikt przecież (wświetle tego rozumowania) nie musi nas wziąć poważnie.

Podobnie, jedynym sposobem przekonania się, że inny człowiek myśli, jest być nim. W sensielogicznym jest to pogląd słuszny, ale utrudnia komunikację na zasadzie: A jest przekonany, że Amyśli, ale B nie myśli, B jest przekonany, że B myśli, ale A nie myśli. Zamiast spierania się,przyjmuje się grzeczną konwencję, że każdy myśli.

Prof. Jefferson prawdopodobnie byłby skłonny przyjąć grę w naśladownictwo niż w/w skrajność.37/ 57

Sprzeciwy do poglądów Turinga

Sprzeciwy różnych niemożnościPostać: „Zgadzam się, że można zrobić maszyny, wykonująceto wszystko, o czym do tej pory mówiono, ale nie możnazrobić maszyny, która zrobiłaby X”. I w miejsce X wstawianesą różne czynności/cechy np.: być uprzejmym, pomysłowym,mieć poczucie humoru, odróżniać dobro od zła, robić błędy,lubić truskawki ze śmietaną, być przedmiotem własnej myśli.

Większość tych twierdzeń jest niczym nie poparta i bierze się z błędnej indukcji. Człowiekwidział wiele poszczególnych maszyn (brzydkie, szare, do ograniczonego celu, itd.) i wyciągabłędne ogólne wnioski.

Jedynym ograniczeniem na większość z wymienianych czynności jest pamięć maszyny.

Inna część to zakamuflowany sprzeciw świadomości.

Zarzut niemożności popełniania błędów jest nieprawdziwy. Maszyna grająca w naśladownictwowręcz musi popełniać zaprogramowane i losowe pomyłki, żeby nie zostać zdemaskowaną.

38/ 57

Sprzeciwy do poglądów Turinga

Sprzeciw lady LovelaceHrabina Lovelace (1842): „(. . . )Maszyna nie rości sobiepretensji do oryginalności. Może wykonać dokładnie tylko to,co wiemy, w jaki sposób zlecić jej do wykonania(. . . )” .Dodatkowy sens zarzutu jest taki, że projektant inteligentnegosystemu jest w stanie przewidzieć wszystkie konsekwencje tegosystemu. Maszyna nie może nas zaskoczyć.

Twierdzenie, że maszyny mogą robić tylko to, do czego są zaprogramowane jest bez wątpieniaoczywiste i prawdziwe. Ale nie jest podstawą ani dowodem wyciąganych z niego błędnychwniosków.

Człowiek może tworzyć, komponować, uczyć się dlatego że biologiczny program, w który jestwyposażony, ma funkcje: adaptacji, możliwości zmieniania samego siebie (programu), itp. wwyniku obserwacyjnej interakcji z otoczeniem.

Jest oczywistą nieprawdą, że projektant jest w stanie przewidzieć wszystkie konsekwencjeprogramu, dowolnie odległe np. po milionach operacji, za pomocą urządzenia, które ma podswoją czaszką. Przykłady: sztuczne życie, gra Conwaya, programy z teorii chaosu, programyszachowe zaskakujące projektujących je arcymistrzów.

39/ 57

Sprzeciwy do poglądów Turinga

Sprzeciw wypływający z pozazmysłowej percepcjiJeżeli uznać (potwierdzone statystycznie) istnienie telepatii, tomożna by powiedzieć: zagrajmy w naśladownictwo biorąc jakograczy maszynę i człowieka, który jest dobrym odbiornikiemtelepatycznym. Pytający mógłby wtedy pytać np. „ jakiegokoloru jest karta, którą trzymam w ręce?”. I człowiekodpowiadałby częściej poprawnie niż maszyna.

Jest to wg Turinga silny argument. Ogólnie telepatia utrudnia wiele podejść naukowych.

Jedno rozwiązanie, to umocnić grę w naśladownictwo obostrzeniem o pokojach „szczelnychtelepatycznie” (w podobnym rozumieniu jak pokoje dźwiękoszczelne). Co wypełnia postulatTuringa o ostrym oddzieleniu fizyczności i intelektu w tym eksperymencie.

W terminach telepatii/lawitacji, można by spekulować, że generator liczb losowych używany wmaszynie do zgadywania kolorów, mógłby lawitacyjnie oddziaływać na pytającego i takżezwiększać sobie prawdopodobieństwo udzielenia dobrej odpowiedzi. Ale to oczywiścienienaukowy i słaby argument.

40/ 57

Szachowy test Turinga

W wersji pierwszejCzłowiek rozgrywa partię szachową z nieznanym przeciwnikiemi ma rozstrzygnąć, czy jest to też człowiek czy maszyna.

W wersji drugiejCzłowiek rozpatruje rozegraną partię szachową pomiędzynieznanymi przeciwnikami i ma rozstrzygnąć co do każdego znich: człowiek czy maszyna.

Garri Kasparov zdaje szachowy test Turinga w wersji drugiej zeskutecznością ponad 80%.

41/ 57

Uwagi Minsky’ego o myślących maszynach iinteligencji

Artykuł „Na drodze do stworzenia sztucznejinteligencji” (Minsky, 1961).Zgadza się z poglądami Turinga.Nie istnieje jedna ogólnie przyjęta teoriainteligencji.Należy wyróżnić 5 głównych działów:poszukiwanie, rozpoznawanie obrazów, uczeniesię, planowanie i indukcja.

42/ 57

Uwagi Minsky’ego o myślących maszynach iinteligencji

O problemie poszukiwania

Jeżeli dla jakiegoś problemu znamy sposób sprawdzeniapoprawności proponowanego rozwiązania, to zawsze możemypróbować przeglądać różne rozwiązania.

Z pewnego punktu widzenia problemy przeszukiwania mogąwydawać się trywialne. Można np. pomyśleć o drzewie gry wszachy. Jest ono na pewno skończone! Każdy węzeł końcowy(liść) jest wygraną białych, czarnych lub remisem. Propagującto minimaksową procedurą w górę drzewa, węzeł początkowytakże otrzymuje jedną z tych wartości. W tym sensie drzewoszachów może wydawać się nieciekawe tak jak drzewo gry„kółko i krzyżyk”.

43/ 57

Uwagi Minsky’ego o myślących maszynach iinteligencji

O problemie poszukiwania

Zwykle też nietrudno algorytm przeszukujący wyczerpującozaprogramować, ale dla każdego złożonego problemu jest to zbytnieefektywne, aby móc je praktycznie stosować. Co z tego, żemamy program, który nie zdąży się wykonać w czasie trwanianaszego życia lub nawet cywilizacji?

Samuel (1959) szacuje: warcaby na około 1040 stanów, szachy naokoło 10120 stanów. Przyporządkujmy hojnie 1µs na rozpatrzeniejednego węzła w drzewie przez komputer i oszacujmy liczbępotrzebnych stuleci dla warcab:

1040

106 · 60 · 60 · 24 · 365.25 · 100︸ ︷︷ ︸liczba µs w 1 stuleciu

1040

106 · 102 · 102 · 102 · 103 · 102 =1040

1017 = 1023.

44/ 57

Uwagi Minsky’ego o myślących maszynach iinteligencji

O problemie poszukiwaniaZatem, konstrukcyjne udoskonalanie maszyn nie prowadzido rozwiązania wszystkich problemów.Potrzebne są mądre algorytmy prowadzące ukierunkowaneposzukiwania, śledzące w pierwszej kolejności stanydające nadzieję na szybsze osiągnięcie rozwiązania iodrzucające możliwości „ jałowe”.Każda technika, heurystyka mogąca skutecznie zmniejszyćposzukiwania jest wartościowa.

45/ 57

Uwagi Minsky’ego o myślących maszynach iinteligencji

Należy być przekonanym, że wcześniej lub później będziemykonstruowali programy zdolne do rozwiązywania skomplikowanychproblemów, wyposażone w kombinacje heurystyk, rekurencji, metodprzetwarzania obrazów, itd. Nie należy w żadnym z nich dopatrywaćsię miejsca na inteligencję. To raczej kwestia estetyki niż nauki.

Każda maszyna zdolna do 100% introspekcji będzie musiała dojśćdo przeświadczenia, że jest tylko maszyną.

Wprowadzanie dualizmu ciało/umysł na zasadzie aspektówpsychologicznych, społecznych, itp. wynika tylko z tego, żeniezadawalający jest znany model mechaniczny mózgu czy innejmaszyny.

Na niskim poziomie np. mechanicznym lub programistycznym,mamy tylko reguły: „ jeżeli to . . . to . . . ” — trudno tu o zachwyt.Podobnie w matematyce, gdy tylko dowód twierdzenia stanie sięzrozumiały, to treść twierdzenia wydaje się trywialna.

46/ 57

Współczesne główne gałęzie i techniki sztucznejinteligencji

Algorytmy przeszukiwania drzew i grafów gierSztuczne sieci neuronoweAlgorytmy genetyczne i ewolucyjneLogika rozmyta i sterowanie rozmyteSystemy ekspertoweData miningAlgorytmy mrówkoweUczenie ze wzmocnieniemSztuczne życieStatystyczna Teoria Uczenia

47/ 57

Statystyczna Teoria Uczenia (ang. StatisticalLearning Theory)

Opracowana głównie przez Vladimira Vapnika i po części przezA. Chervonenkisa w latach 1968–1998.

Cztery główne problemy maszynowego uczenia się na podstawiezbioru obserwacji (tj. klasyfikacja, aproksymacja, klasteryzacja iestymacja rozkładu prawdopodobieństwa) są ściśle matematyczniepostawione w ramach tej teorii.

Teoria ta przywiązuje szczególną wagę do zdolności douogólniania maszyny uczącej się.

SLT podaje ważne twierdzenia i ich dowody dotyczące ograniczeńna zdolność do uogólniania maszyny uczącej się w terminach:rozmiaru zbioru obserwacji i pojemności zbioru funkcji, w którywyposażony jest maszyna3.

Opracowano praktyczne techniki na podstawie tej teoriim.in. reguły indukcyjne Empirical Risk Minimization i StructuralRisk Minimization, klasyfikatory Support Vector Machines.

3Dokładnie mówiąc obserwuje się iloraz tych dwóch wielkości.48/ 57

Zadanie maszynowego uczenia się

Generator punktów wejściowych Maszyna ucząca się

System

x

y

y

gdzie (w ogólności): x = (x1, . . . , xn) ∈ Rn, y , y ∈ R.

Obserwowany jest skończony zbiór par:(x1, y1), (x2, y2), . . . , (xI , yI )

.

49/ 57

Zadanie maszynowego uczenia się

Generator:generuje punkty losowe x ∈ R

n, x = (x1, . . . , xn), wybieraneniezależnie z rozkładu o pewnej stałej funkcji gęstości p(x)(i.i.d a), która jest nieznana dla modelującego (sytuacjaobserwacyjna).

aang. independent, identically distributed

50/ 57

Zadanie maszynowego uczenia się

System:dostarcza wartość wyjściową y (w ogólności y ∈ R) dlakażdego punktu x zgodnie ze stałą funkcją gęstościprawdopodobieństwa warunkowego p(y |x), która również jestnieznana.

Taki opis zawiera:1 szczególny przypadek systemu deterministycznego, gdzie y = r(x) (wówczas nie

mówimy o rozkładzie p(y |x), jest on jednopunktowy),2 a także ogólniejszy przypadek problemu regresji, gdy y = r(x) + ε, gdzie ε jest

błędem losowym (szumem) o średniej zero.

Funkcja regresji:

r(x) =

∫y∈Y

yp(y |x)dy . (1)

Wartość oczekiwana błędu (szumu):

E(ε) = 0, ∀x ∈ X. (2)

51/ 57

Zadanie maszynowego uczenia sięZbiór punktów i gęstość rozkładu warunkowego p(y |x):

0.5 1 1.5 2

-0.5

0.5

1

1.5

00.5

11.5

2 -1

0

1

2

00.250.5

0.751

00.5

11.5

2xxx y

y

p(y |x)

Funkcja regresji r(x) =∫y∈Y yp(y |x)dy :

0.5 1 1.5 2 2.5 3

-1

-0.5

0.5

1

1.5

2

x

y

52/ 57

Zadanie maszynowego uczenia się

Maszyna ucząca się:jest obiektem zawierającym w sobie pewien zbiór (klasę)funkcji:

f (x, ω)ω∈Ω, (3)

gdzie Ω reprezentuje przestrzeń wartości parametrów danegozbioru funkcji, a ω należy rozumieć jak indeks konkretnejfunkcji w tym zbiorze.

53/ 57

Zadanie maszynowego uczenia się

Maszyna ucząca się:Maszyna jest zdolna do uczenia się (jest wyposażona wpewien algorytm) — do wybierania ze swojego zbiorufunkcji jednej funkcji, takiej która najlepiejnaśladuje/przybliża wyjście systemu.Maszyna ucząca się przy dokonywaniu tego wyboru, jestograniczona do poznania skończonego zbioru przykładów(xi , yi)

i=1,...,I . Natomiast należy pamiętać, że przykłady

te pochodzą z pewnego ciągłego rozkładu o nieznanejłącznej funkcji gęstości, tj. odnoszącej się do par (x, y),którą wyraża się jako:

p(x, y) = p(x)p(y |x). (4)

54/ 57

Funkcjonał ryzyka (ang. risk functional)

R :f (x, ω)

ω∈Ω

→ R. (5)

Dziedziną jest zbiór funkcji aproksymujących (w sensie każdego z zadań: klasyfikacji,estymacji funkcji regresji, itd.).

R(ω) =

∫x∈X

∫y∈Y

L(f (x, ω), y) p(x, y)︸ ︷︷ ︸p(y |x)p(x)

dydx (6)

Ryzyko to wartość oczekiwana błędu (błędu uogólniania). Funkcja L (ang. lossfunction) wyraża błąd/odległość pomiędzy wyjściem funkcji f o wyjściem systemu y .

Poszukujemy w zbiorze funkcji jednej funkcji, takiej dla którejwartość ryzyka jest bliska optymalnemu:

infω∈Ω

R(ω) = R(ω0). (7)

55/ 57

Ryzyko empiryczne

W związku z tym, że do dyspozycji jest tylko skończony zbiór obserwacjinie możemy liczyć, że uda się znaleźć optymalną funkcję f (x, ω0).

Tak naprawdę poszukiwane jest więc pewne f (x, ωI ), będące ze względuna dany skończony zbiór obserwacji estymatą optymalnego rozwiązania.Odbywa się to poprzez regułę indukcyjną ERM (ang. Empirical RiskMinimization).

Remp(ω) =1I

I∑i=1

L(yi , f (xi , ω)). (8)

infω∈Ω

Remp(ω) = R(ωI ). (9)

56/ 57

Zbieżność reguły indukcyjnej ERM

Można dowieść, że:∫

x∈X

∫y∈Y

L(f (x, ωI ), y)p(x, y)dydx

P−→I→∞ inf

ω∈Ω

∫x∈X

∫y∈Y

L(f (x, ω), y)p(x, y)dydx (10)

i jednocześnie:f (x, ωI )

P−→I→∞f (x, ω0). (11)

Sens: przy podnoszeniu rozmiaru próby I = 1, 2, . . . rozwiązania f (x, ωI ) otrzymywanepoprzez regułę indukcyjną ERM tworzą ciąg funkcji zbieżny do optymalnej funkcjif (x, ω0), a odpowiadający im ciąg wartości oczekiwanych błędu uogólniania R(ωl )zbiega do optymalnej wartości tego błędu infω∈Ω R(ω) (dla danego zbioru funkcji).

57/ 57