Post on 19-Jun-2015
description
Wiedza w grach, gry z celem tworzenia wiedzydr inż. Agnieszka Ławrynowicz
Instytut Informatyki Politechniki Poznańskiej
ZTG 2013
Kim jestem?
• Adiunkt w Instytucie Informatyki Politechniki Poznańskiej
• Zainteresowania: sztuczna inteligencja, głównie reprezentacja i inżynieria wiedzy (ontologie), odkrywanie wiedzy i technologie semantyczne (Semantic Web)
http://www.cs.put.poznan.pl/alawrynowicz/
LeoLOD
• LeoLOD - Learning and Evolving Ontologies from Linked Open Data (2013-2015)
• Projekt realizowany w ramach programu POMOST Fundacji na Rzecz Nauki Polskiej
• Tworzenie wiedzy: metody automatyczne (uczenie maszynowe) • Walidacja wyników: crowd-sourcing (mikro-zadania)• Strona projektu:
http://www.cs.put.poznan.pl/alawrynowicz/leolod/
WIEDZA W GRACH
Jeopardy!• Jeopardy! to amerykański quiz show (odpowiednik polskiego Va
Banque!)• 1964 – do dzisiaj• format odpowiedź-i-pytanie
• Przykład:– Kategoria: Nauka ogólnie– Wskazówka: W zderzeniu z elektronami, fosfor wydziela energię
elektromagnetyczną w tej formie – Odpowiedź: Czym jest światło?
dla ludzi, wyzwaniem jest znajomość odpowiedzi dla maszyn, wyzwaniem jest zrozumienie pytania
IBM Watson
• Watson – system komputerowy stworzony przez IBM do odpowiadania na pytania zadawane w języku naturalnym
• Watson wystąpił w Jeopardy! w trzydniowej rozgrywce (2011) …
IBM Watson
…• przeciwnikami IBM Watsona byli:
– Brad Rutter – do tej pory wygrał najwięcej pieniędzy,
– Ken Jennings – był najdłużej niepokonanym mistrzem
• IBM Watson zajął pierwsze miejsce
IBM Watson
• DeepQA (Watson) – generuje i ocenia wiele hipotez wykorzystując kolekcję metod z
dziedziny przetwarzania języka naturalnego, uczenia maszynowego, reprezentacji wiedzy i wnioskowania;
– gromadzą one i ważą dowody pochodzące ze źródeł danych niestrukturalnych i strukturalnych (np. otwartych powiązanych danych) aby ustalić odpowiedź o najwyższej pewności na podstawie odpowiedzi wielu (setek) metod
JĘZYK NATURALNY ZADANIEparsowanie
NERwyszukiwanie informacji
technologie semantyczne
uczenie maszynowe
crowd
IBM Watson
• DeepQA (Watson) – generuje i ocenia wiele hipotez wykorzystując kolekcję metod z
dziedziny przetwarzania języka naturalnego, uczenia maszynowego, reprezentacji wiedzy i wnioskowania;
– gromadzą one i ważą dowody pochodzące ze źródeł danych niestrukturalnych i strukturalnych (np. otwartych powiązanych danych) aby ustalić odpowiedź o najwyższej pewności na podstawie odpowiedzi wielu (setek) metod
JĘZYK NATURALNY ZADANIEparsowanie
NERwyszukiwanie informacji
technologie semantyczne
uczenie maszynowe
crowd
GRY Z CELEM TWORZENIA WIEDZY
Tworzenie wiedzy
• wykwalifikowany zespół ludzi• metody (pół)-automatyczne• społecznościowe (crowd-sourcing)
Tworzenie wiedzy
• wykwalifikowany zespół ludzi• metody (pół)-automatyczne• społecznościowe (crowd-sourcing):
– Gry z celem tworzenia wiedzy
Motywacje w tworzeniu treści przez społeczność
• Obopólna korzyść (tagowanie)• Reputacja, sława (Wikipedia)• Rywalizacja• Przystosowanie się do grupy• Altruizm• Poczucie własnej wartości i nauka• Zabawa i osobista przyjemność• Domniemana obietnica przyszłych nagród • Nagrody (Amazon Mechanical Turk)
Gry z celem
• Games with a purpose (GWAP):• Technika oparta na obliczeniach wykonywanych przez ludzi
(human-based computation)
• Proces obliczeniowy wykonywany jest poprzez zlecanie niektórych czynności ludziom do wykonania w zabawny, zajmujący sposób
• GWAP wykorzystuje różnice w umiejętnościach i kosztach pracy ludzi i metod informatycznych w celu osiągnięcia symbiotycznej interakcji człowiek-komputer
Gry z celem
• Luis Von Ahn (2006)
• Główna motywacja: nie leży w rozwiązaniu instancji problemu obliczeniowego, jest to ludzkie pragnienie zabawy
• W GWAP ludzie wykonują pożyteczne obliczenia jako efekt uboczny przyjemnej rozrywki
• Miarą użyteczności GWAP jest kombinacja wygenerowanych wyników i przyjemności rozgrywki
Kluczowe elementy GWAP
Gry z celem tworzenia treści, wiedzy
• Adnotacja tekstu/audio/obrazów/video• Konstrukcja ontologii• Mapowanie ontologii• Tworzenie linków między zasobami• „Wyścigi Wiki”
Adnotacja obrazów: Google Image Labeler
• Dwuosobowa gra internetowa (online: 2006 – 2011, wcześniej ESP Game)
• Cel: przypisanie etykiet do obrazka; dane wprowadzone przez graczy wspomagały wyszukiwarkę grafik Google
• Zasady: punkty za podanie zgodnych etykiet obiektów na obrazku. Często podawane etykiety umieszczane na czarnej liście, niepunktowane.
• Dane wyjściowe : adnotacje opisujące obiekty na obrazkach
• Walidacja: konsensus, większość
ESP Game
Źródło: http://www.idolhands.com/contact/
• Wieloosobowa gra• Cel: adnotacja audio • Zasady: kilka mini-gier dotyczących części utworu
muzycznego; wszyscy gracze słuchają tego samego fragmentu audio i odpowiadają na pytania. Punkty przyznawane za podobieństwo odpowiedzi do tych udzielonych przez innych graczy.
• Dane wyjściowe: adnotacja plików audio• Walidacja: konsensus, większość
Adnotacja audio: HerdIt
Ontologia w „pigułce”
• “An ontology is a• formal specification maszynowa interpretacja• of a shared grupa osób,
konsensus• conceptualization abstrakcyjny model zjawisk,
pojęcia• of a domain of interest“ wiedza dziedzinowa
• (Gruber 93)
ontologia = formalna specyfikacja pojęć z danej dziedziny
Konstrukcja ontologii: OntoPronto (Ontogame)
• Dwuosobowa gra quizowa • Cel: budowa ontologii dziedzinowej będącej
rozszerzeniem ontologii Proton• Zasady: Gracze czytają streszczenie losowo
wybranego artykułu z Wikipedii i odpowiadają na zapytania o relacji tego artykułu w stosunku do ontologii Proton.
• Dane wyjściowe: Ontologia dziedzinowa ufundowana na ontologii Proton
• Walidacja: konsensus, większość
OntoPronto (Ontogame)
Mapowanie ontologii:SpotTheLink
• Dwuosobowa gra quizowa• Cel: uzgadnianie ontologii, np. Dbpedia i Proton• Zasady: Graczom prezentowane jest pojęcie z jednej
ontologii. Pierwszy krok: zgadzają się co do odpowiadającego mu pojęcia w drugiej ontologii. Krok drugi: zgadzają się co do relacji wiążącej te dwa pojęcia.
• Dane wyjściowe: Odwzorowanie (w języku SKOS)pomiędzy pojęciami w ontologiach
• Walidacja: konsensus, większość
SpotTheLink
Otwarte powiązane dane w „pigułce”
• Projekt społecznościowy ze wsparciem W3C
• Publikowanie zbiorów danych jako otwarte i powiązane ze sobą dane grafowe (sieci semantyczne)
• Główna idea: wziąć istniejące (otwarte) zbiory danych i uczynić je dostępnymi w sieci WWW w formacie RDF (sieci semantyczne)
• Raz opublikowane w RDF, połączyć je linkami z innymi zbiorami danych
• Przykładowy link RDF: http://dbpedia.org/resource/Berlin [Identyfikator Berlina w DBPedia] owl:sameAs http://sws.geonames.org/2950159 [Identyfikator Berlina w Geonames].
Tworzenie linków między zasobami:VeriLinks
• Cel: walidacja linków w arbitralnym zbiorze danych
• Zasady: Zgoda graczy co do poprawności linku jest nagradzana monetami, które są następnie wykorzystywane do zwalczania najeźdźców w grze polegającej na obronie wieży.
• Dane wyjściowe: zwalidowane linki
VeriLinks
„Wyścigi Wiki”:Wikispeedia
• Podążanie za linkami w Wikipedii• Cel: obliczanie semantycznej odległości
pomiędzy dwoma artykułami Wikipedii.• Zasady: Gracze muszą znaleźć jak najkrótszą
ścieżkę między dwoma hasłami.• Dane wyjściowe: semantyczna odległość
pomiędzy dwoma artykułamiWalidacja: Większość
Wikispeedia
Spróbuj: Game -> Astronomy, Game->Potato
Dalsze uwagi
• Nie każde zadanie da się łatwo przerobić na GWAP (wymóg dekompozycji na mikro-zadania)
• Tworzenie niektórych ontologii wymaga bardzo specjalistycznej wiedzy
• To co powstaje w wyniku GWAP jest raczej „płytkim” modelem
• GWAP wymaga strategii zapobiegania oszustwom
Więcej informacji • LeoLOD: http://www.cs.put.poznan.pl/alawrynowicz/leolod• IBM Watson (The DeepQA Project): http://researcher.ibm.com/researcher/view_project.php?id=2099• GWAP:1. Luis von Ahn (2006). "Games With A Purpose" (PDF).
IEEE Computer Magazine: 96–98.2. Luis von Ahn, Laura Dabbish (2008).
"Designing Games With A Purpose" (PDF). Communications of the ACM 51 (08/08).
• Semantic Games:1. Elena Simperl, Roberta Cuel, Martin Stein, Incentive-Centric Semantic Web
Application Engineering, Morgan & Claypool Publishers (2013)2. http://semanticgames.org/