Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie:...

61
Wydział Informatyki i Zarządzania kierunek studiów: Informatyka specjalność: Projektowanie Systemów Informatycznych Praca dyplomowa - magisterska METODY WIZUALIZACJI LINKED DATA Piotr Rusiniak słowa kluczowe: Linked Data wizualizacja Semantic Web krótkie streszczenie: W pracy porównano metodę wizualizacji Linked Data opartą na przedstawieniu w formie grafu sieci nieopracowanych danych z podejściem skupiającym się na zobra- zowaniu wstępnie przetworzonych informacji na określony temat. Przeprowadzono ba- dania z udziałem osób w różnym stopniu związanych z nowymi technologiami, w któ- rych rezultacie określono najważniejsze oczekiwania użytkowników i oceniono obie metody. opiekun pracy dyplomowej dr inż. Marek Kopel ....................... ....................... Tytuł/stopień naukowy/imię i nazwisko ocena podpis Do celów archiwalnych pracę dyplomową zakwalifikowano do:* a) kategorii A (akta wieczyste) b) kategorii BE 50 (po 50 latach podlegające ekspertyzie) * niepotrzebne skreślić pieczątka wydziałowa Wrocław 2016

Transcript of Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie:...

Page 1: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

Wydział Informatyki i Zarządzania

kierunek studiów: Informatyka

specjalność: Projektowanie Systemów Informatycznych

Praca dyplomowa - magisterska

METODY WIZUALIZACJI LINKED DATA

Piotr Rusiniak

słowa kluczowe:

Linked Data

wizualizacja

Semantic Web

krótkie streszczenie:

W pracy porównano metodę wizualizacji Linked Data opartą na przedstawieniu

w formie grafu sieci nieopracowanych danych z podejściem skupiającym się na zobra-

zowaniu wstępnie przetworzonych informacji na określony temat. Przeprowadzono ba-

dania z udziałem osób w różnym stopniu związanych z nowymi technologiami, w któ-

rych rezultacie określono najważniejsze oczekiwania użytkowników i oceniono obie

metody.

opiekun pracy

dyplomowej dr inż. Marek Kopel ....................... .......................

Tytuł/stopień naukowy/imię i nazwisko ocena podpis

Do celów archiwalnych pracę dyplomową zakwalifikowano do:* a) kategorii A (akta wieczyste)

b) kategorii BE 50 (po 50 latach podlegające ekspertyzie) * niepotrzebne skreślić

pieczątka wydziałowa

Wrocław 2016

Page 2: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

2

Spis treści

Spis treści ............................................................................................................................................... 2

Streszczenie ............................................................................................................................................ 3

1.Wstęp ................................................................................................................................................... 4

2.Generacje sieci WWW ....................................................................................................................... 5

3.Linked Data ........................................................................................................................................ 6

3.1. Linked Open Data ...................................................................................................................... 6

3.2. System oceny udostępnianych w Internecie danych ................................................................ 8

3.3. Model reprezentacji Linked Data ............................................................................................. 9

3.4. Język zapytań SPARQL........................................................................................................... 11

4.Podstawowe sposoby prezentacji Linked Data .............................................................................. 13

4.1. Prezentacja zasobu w formie dokumentu HTML ................................................................. 13

4.2. Przeglądarki tekstowe .............................................................................................................. 14

5. Wizualizacja danych ....................................................................................................................... 15

5.1. Sposoby wizualizacji danych ................................................................................................... 15

5.2. Wizualizacja Linked Data – przegląd rozwiązań .................................................................. 18

6. Nowa metoda wizualizacji danych ................................................................................................. 25

6.1. Wymagania wobec nowego rozwiązania ................................................................................ 26

6.2. Przedstawienie nowoutworzonego narzędzia do wizualizacji danych ................................. 27

6.3. Wykorzystane technologie ....................................................................................................... 35

6.4. Źródła danych ........................................................................................................................... 36

7.Badanie metod wizualizacji Linked Data ....................................................................................... 40

7.1. Porównanie sposobów wizualizacji danych z wybranej dziedziny....................................... 41

7.2. Badanie użyteczności narzędzi i analiza oczekiwań użytkowników .................................... 46

8.Podsumowanie .................................................................................................................................. 56

Literatura ............................................................................................................................................. 58

Załączniki ............................................................................................................................................. 61

Page 3: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

3

Streszczenie

W pracy przeanalizowano metody wizualizacji Linked Data stosowane w istniejących

rozwiązaniach. Następnie porównano podejście zakładające scenariusz eksploracyjny i swo-

bodne przeglądanie danych pod dowolnym kątem z metodą opartą na prezentacji wstępnie

przetworzonych danych z wybranej dziedziny. Utworzono przykładową aplikację opartą na

drugim podejściu spełniającą zdefiniowane wcześniej założenia. Przeprowadzono badania

z udziałem potencjalnych użytkowników aplikacji do wizualizacji danych w różnym stopniu

zainteresowanych nowymi technologiami mające na celu określenie najważniejszych wyma-

gań poszczególnych grup odbiorców oraz umożliwienie obiektywnej oceny porównywanych

metod.

Abstract

In this paper, methods for Linked Data visualization used in existing solutions were analy-

zed. Approach based on exploratory scenario which gives possibility to freely browse any

aspect of data was compared to method based on presentation of pre-processed data from se-

lected domain. Sample application based on second approach that matches previously defined

criteria was created. Research with participation of potential visualisation application users

with different level of interest in new technologies was conducted in order to define the most

important requirements in each recipient group and to allow objective evaluation of compared

methods.

Page 4: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

4

1. Wstęp

Celem pracy jest analiza sposobów wizualizacji Linked Data stosowanych w istnieją-

cych rozwiązaniach, ukazanie obszarów wymagających poprawy oraz zaproponowanie

usprawnień.

Wizualizacja danych opisywanych przy użyciu standardów sieci semantycznych ma

kluczowe znaczenie dla rozwoju zarówno chmury Linked Open Data, jak i samej idei Linked

Data. Dynamiczny rozwój standardów Semantic Web nie będzie możliwy bez narzędzi po-

zwalających na ich wykorzystanie przez szerokie grono odbiorców.

Oczekiwanym rezultatem pracy jest przedstawienie możliwych usprawnień lub zmian

metod wizualizacji Linked Data stosowanych w obecnie rozwijanych narzędziach, uzasadnie-

nie sugestii oraz poparcie ich badaniami. Proponowane zmiany mają na celu przede wszyst-

kim rozpowszechnienie idei Linked Data poprzez zwiększenie zadowolenia użytkowników

aplikacji.

W pracy omówione zostały podstawowe zagadnienia związane z sieciami semantycz-

nymi i Linked Data. W rozdziałach drugim i trzecim przedstawione zostały najważniejsze de-

finicje, idea sieci trzeciej generacji oraz podstawowe rozwiązania techniczne umożliwiające

jej wdrożenie.

W rozdziale czwartym przedstawiono najprostsze sposoby prezentacji Linked Data,

oparte na reprezentacji tekstowej lub tabelarycznej. W kolejnej części pracy, skupiono się na

zagadnieniu wizualizacji danych. Zaprezentowane zostały możliwości aplikacji wykorzystują-

cych obraz do ułatwienia analizy danych. Następnie dokonano przeglądu znanych metod wi-

zualizacji modelu danych powiązanych w Semantic Web.

Rozdział szósty zawiera informacje dotyczące aplikacji do wizualizacji Linked Data

utworzonej w ramach pracy, aby umożliwić przeprowadzenie badań. Określono w nim wyma-

gania wobec nowego narzędzia, a następnie opisano funkcjonalność nowej aplikacji oraz wy-

korzystane do jej utworzenia technologie. Przedstawiono także wszystkie źródła danych wraz

z dokładnymi informacjami o kierowanych do nich zapytaniach.

W rozdziale siódmym dokonano analizy porównawczej możliwości wizualizacji Lin-

ked Data przez narzędzia reprezentujące różne podejścia do tego problemu. Przedstawiono

także wyniki badań przeprowadzonych z udziałem potencjalnych użytkowników porównywa-

nych narzędzi w celu oceny prezentowanych przez nie metod wizualizacji danych oraz okre-

ślenia oczekiwań użytkowników.

Ostatni rozdział zawiera podsumowanie wyników przeprowadzonych badań. Przedsta-

wiono w nim najważniejsze wnioski oraz określono kierunek dalszych badań metod wizuali-

zacji Linked Data.

Page 5: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

5

2. Generacje sieci WWW

Rozwój Internetu jest opisywany z wykorzystaniem podziału na następujące po sobie

modele. Jest to jednak jedynie umowny podział, który ma na celu uwidocznienie tendencji

i kluczowych różnic. Modele te nie posiadają ścisłych ram czasowych i wzajemnie się przeni-

kają.

Web 1.0

Do pierwszej generacji sieci zalicza się strony statyczne bez elementów interakcji

z użytkownikiem. Odwiedzający stronę mają tylko możliwość zapoznania się z jej treścią. Nie

mogą wpływać na jej zawartość, dodawać komentarzy ani opinii. Warstwa graficzna jest nie-

zwykle prosta – charakterystyczne jest jednokolorowe tło i baner w górnej części strony.

Web 2.0

W drugiej generacji sieci strony opierają się na interakcji i treściach tworzonych przez

użytkowników. Mogą oni publikować własną zawartość (np. zdjęcia, filmy) i kontaktować się

z innymi członkami społeczności utworzonej wokół serwisu. Odwiedzający zyskują możliwo-

ści wcześniej osiągalne tylko z wykorzystaniem lokalnie instalowanych aplikacji. Większe zna-

czenie ma wygląd stron. W przeciwieństwie do w pierwszej generacji sieci, użytkownicy ciągle

powracają na strony. Pojedyncza wizyta i zapoznanie się z treścią dokumentu nie wyczerpuje

dostępnych możliwości. Typowymi przykładami stron drugiej generacji sieci są blogi oraz ser-

wisy społecznościowe.

Web 3.0

Sieć trzeciej generacji określana również jako „Semantic Web” to projekt mający na

celu opisywanie informacji w Internecie w sposób, który umożliwi komputerom lepsze wnio-

skowanie i wyszukiwanie. Poprzez dobre zdefiniowanie obiektów i łączących je relacji z wy-

korzystaniem standardowego formatu (np. języka RDF), tworzona jest sieć reprezentująca in-

formacje w formie umożliwiającej ich lepszą komputerową analizę.

Page 6: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

6

3. Linked Data

Linked Data to kolekcja wzajemnie powiązanych zbiorów danych dostępnych w stan-

dardowym formacie pozwalającym na zarządzanie nimi przez narzędzia Semantic Web.

Podstawowe zasady reprezentacji obiektu w Linked Data [2] to:

wykorzystanie URI (Uniform Resource Identifier) do nazywania obiektów

wykorzystanie nazw opartych o protokół http i URI do sprawdzenia informacji

o obiekcie

zapewnienie użytecznych informacji na temat obiektu z wykorzystaniem odpo-

wiednich standardów (np. języka RDF)

odwoływanie do powiązanych obiektów reprezentowanych w ten sam sposób

3.1. Linked Open Data

Utworzenie globalnego Linked Data pozwalającego na wprowadzenie w życie idei sieci

trzeciej generacji wiąże się nie tylko z koniecznością odpowiedniego ustrukturyzowania zbio-

rów danych, ale także ich udostępnienia na otwartej licencji. Dane spełniające wymienione

wcześniej podstawowe zasady Linked Data i dodatkowo udostępnione na otwartej licencji na-

zywa się Linked Open Data.

W 2007 roku udostępniono 28 takich zbiorów danych. W 2014 roku chmura Linked

Open Data (rys. 3.1.1.) rozrosła się do 570 zbiorów. Poszczególne zbiory zawierają zwykle

szczegółowe dane z jednej dziedziny. Istnieją też zbiory wielodomenowe, takie jak DBpedia

będąca próbą opisania przy pomocy standardów sieci semantycznych danych pochodzących z

Wikipedii. Połączenie zbiorów wielodomenowych ze zbiorami specjalistycznymi skutkuje uzy-

skaniem ogromnych ilości ustrukturyzowanych danych.

Page 7: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

7

Rys. 3.1.1. Diagram przedstawiający chmurę Linked Open Data [6] w sierpniu 2014 roku.

Page 8: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

8

3.2. System oceny udostępnianych w Internecie danych

W celu rozpowszechnienia Linked Open Data utworzono specjalny system oceny udo-

stępnianych w Internecie danych [2]:

pierwszy poziom to udostępnienie w Internecie danych w dowolnym formacie

na otwartej licencji,

drugi poziom wymaga przedstawienia danych w formie umożliwiającej kompu-

terową analizę danych (np. dokument Excel zamiast zdjęcia),

trzeci poziom wymaga udostępnienia danych w otwartym formacie,

czwarty poziom wymaga identyfikacji obiektów z wykorzystaniem standardów

World Wide Web Consortium (W3C),

najwyższy poziom wymaga dodatkowo określenia powiązań z innymi danymi.

Rys. 3.2.1 Diagram przedstawiający kolejne poziomy utworzonego przez Tima Berners-Lee

systemu oceny danych udostępnianych w Internecie [10].

Page 9: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

9

3.3. Model reprezentacji Linked Data

RDF (Resource Description Framework) to model reprezentacji informacji w sieci.

Pozwala na reprezentację informacji o obiekcie i jego powiązaniach w formie umożliwiającej

dalsze wnioskowanie. W modelu tym, powiązania pomiędzy obiektami są przedstawiane w

postaci specjalnych wyrażeń, tzw. „trójek RDF” (RDF triple [5]).

W skład trójki RDF wchodzą:

podmiot, czyli opisywany zasób,

właściwość określająca rodzaj relacji,

obiekt powiązany określoną relacją z podmiotem.

Rys. 3.3.1. Diagram przedstawiający budowę trójki RDF i dopuszczalne wartości.

W konkretnych implementacjach modelu RDF dopuszczalne jest również użycie

pustego węzła w miejscu identyfikatora podmiotu lub obiektu.

W RDF 1.1 identyfikatory URI zastąpiono przez IRI (Internationalized Resource

Identifier) w celu zezwolenia na wykorzystanie dodatkowych znaków Unicode. Wszystkie

identyfikatory URI są również identyfikatorami IRI, ale nie wszystkie IRI są też

identyfikatorami URI.

Istnieje wiele formatów danych opartych na modelu RDF. W dalszej części tego

rozdziału przedstawione zostaną najważniejsze z nich.

RDF/XML to podstawowy format, który opiera się na regułach języka XML

(Extensible Markup Language). Nie jest on jednak wystarczająco czytelny, aby umożliwić

wygodne zapoznanie się z jego zawartością poprzez bezpośrednią analizę kodu.

Przykład opisu zasobu w RDF/XML [4]:

<?xml version="1.0" encoding="UTF-8"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:foaf="http://xmlns.com/foaf/0.1/">

<rdf:Description rdf:about="http://biglynx.co.uk/people/dave-smith"> <rdf:type rdf:resource="http://xmlns.com/foaf/0.1/Person"/> <foaf:name>Dave Smith</foaf:name> </rdf:Description> </rdf:RDF>

Podmiot

• URI

Właściwość

• URI

Obiekt

• URI

• literał

Page 10: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

10

W powyższym fragmencie kodu zdefiniowano zasób typu Person – określono adres oraz imię

(Dave Smith) opisywanej osoby.

Turtle jest formatem wyrażania danych w modelu RDF znacznie bardziej czytelnym

dla użytkowników i umożliwiającym łatwą, manualną edycję plików.

Fragment kodu [4] zawierający te same informacje, co wcześniej zaprezentowany przykład

w formacie RDF/XML:

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix foaf: <http://xmlns.com/foaf/0.1/> .

<http://biglynx.co.uk/people/dave-smith> rdf:type foaf:Person ; foaf:name "Dave Smith" .

RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

(działające także z m.in. HTML4, XML i SVG) pozwalające na oznaczenie kluczowych

danych, takich jak np. osoby, miejsca, wydarzenia. Dzięki niemu można uniknąć duplikowania

danych, np. w dokumentach HTML i XML.

Przykład zagnieżdżania zasobów w RDFa:

<div xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Person"> Nazywam się <span property="v:name">Piotr Rusiniak</span>, a to moja <a href="http://www.adres.pl" rel="v:url">strona internetowa</a>. </div>

Podstawowe atrybuty wykorzystywane w RDFa:

vocab – określa słownik zawierający typowe dla obiektów własności,

np. imię i numer telefonu dla osób

typeof – określa typ obiektu, np. Osoba (Person)

property – określa własność, np. imię (name) dla klasy Osoba

resource – określa identyfikator obiektu

JSON-LD (Java Script Object Notation for Linked Data) został stworzony, aby

umożliwić istniejącym systemom wykorzystującym do wymiany danych format JSON

wprowadzenie Linked Data po dodaniu jedynie niewielkich zmian. Format ten jest w pełni

kompatybilny z JSON, co pozwala na ponowne wykorzystanie istniejących bibliotek.

Przykład opisu zasobu w JSON-LD [14]:

{ "@context": "http://json-ld.org/contexts/person.jsonld", "name": "Manu Sporny", "homepage": "http://manu.sporny.org/", "image": "http://manu.sporny.org/images/manu.png" }

Page 11: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

11

Słowo kluczowe @context pozwala na odwołanie się do słownika zawierającego listę pojęć

oraz powiązanych z nimi identyfikatorów. Dzięki jego wykorzystaniu, pozostała część opisu

jest krótsza i łatwiejsza do zrozumienia.

Podstawowe słowa kluczowe wykorzystywane w JSON-LD i ich znaczenie:

@context – dokument określający jak interpretować dane

@id – identyfikator IRI obiektu

@type – wartość określająca typ obiektu (np. Osoba, wyrażany przez IRI) lub mniej

złożony typ danych (np. data)

@value – wartość powiązana z określoną własnością

@language – pozwala określić język w jakim podana jest wartość oraz ustawić

domyślny język całego dokumentu

3.4. Język zapytań SPARQL

SPARQL (SPARQL Protocol And RDF Query Language) to język zapytań do baz

danych pozwalający na pobieranie semantycznych danych w formacie RDF.

Zapytanie SPARQL [8] składa się z następujących elementów:

deklaracje prefiksowe – pozwalające na przypisanie skrótów do identyfikatorów

URI,

definicja zbiorów danych – określenie grafów, które będą odpytywane,

klauzula wynikowa – określa informacje, które ma zwrócić zapytanie,

treść zapytania – określa czego szukać w zbiorze danych,

modyfikatory zapytania – pozwalają na zorganizowanie wyników zapytania (np.

sortowanie).

Schemat zapytania SPARQL:

# deklaracje prefiksowe

PREFIX foo: <http://example.com/resources/>

...

# definicja zbiorów danych

FROM ...

# klauzula wynikowa

SELECT...

# treść zapytania

WHERE {

...

}

# modyfikatory zapytania

ORDER BY ...

Page 12: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

12

Warunek zdefiniowany w sekcji WHERE zapytania można dodatkowo rozszerzyć za

pomocą słowa kluczowego FILTER pozwalającego wykorzystać szereg wbudowanych funkcji

filtrujących, aby odrzucić niechciane wyniki.

Przykładowe zapytanie SPARQL [9]:

dane

@prefix foaf: <http://xmlns.com/foaf/0.1/> .

_:a foaf:name "Johnny Lee Outlaw" .

_:a foaf:mbox <mailto:[email protected]> .

_:b foaf:name "Peter Goodguy" .

_:b foaf:mbox <mailto:[email protected]> .

_:c foaf:mbox <mailto:[email protected]> .

zapytanie

PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT ?name ?mbox WHERE { ?x foaf:name ?name . ?x foaf:mbox ?mbox }

wynik

name mbox

"Johnny Lee Outlaw" <mailto:[email protected]>

"Peter Goodguy" <mailto:[email protected]>

Każdy wynik tego zapytania musi zawierać wszystkie zdefiniowane własności (name

oraz mbox), dlatego obiekt c nie został zawarty w wynikowej kolekcji.

Page 13: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

13

4. Podstawowe sposoby prezentacji Linked Data

4.1. Prezentacja zasobu w formie dokumentu HTML

Pobranie opisu zasobu w formie kodu RDF nie jest wygodne dla większości użytkow-

ników, dlatego zasoby są dodatkowo opisywane, np. przy pomocy dokumentu HTML. Dzięki

temu wpisując http URI zasobu w przeglądarce stron WWW, możemy otrzymać proste i czy-

telne podsumowanie jednoznacznie identyfikujące obiekt.

Nie ma jednak żadnego standardu określającego jak dokładnie powinna wyglądać ta

forma reprezentacji danych. W przypadku zbioru DBpedia jest ona wystarczająco rozbudo-

wana, aby umożliwić wygodne przeglądanie zasobów (rys. 4.1.1.). Większość nazw własności

i powiązanych zasobów jest przedstawiona w zrozumiały dla użytkownika sposób.

Rys. 4.1.1. Przykładowa reprezentacja zasobu w formie dokumentu HTML – DBpedia.

Jednak w wielu udostępnionych w chmurze Linked Open Data zbiorach, ten sposób pre-

zentacji jest bardzo uproszczony. Pozwala jedynie szybko zidentyfikować zasób. Przykładem

może być zbiór Linked MDB gromadzący informacje na temat filmów (rys. 4.1.2.). Większość

powiązanych z obiektem zasobów jest prezentowana z wykorzystaniem identyfikatorów, które

do chwili przejścia na kolejną stronę nie dostarczają żadnych dodatkowych informacji.

Page 14: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

14

Rys. 4.1.2. Przykładowa reprezentacja zasobu w formie dokumentu HTML – Linked MDB.

4.2. Przeglądarki tekstowe

Nie wszystkie zasoby są udostępniane z dodatkowym opisem ułatwiającym przegląda-

nie i identyfikację obiektów. W odpowiedzi na potrzebę wyświetlania podstawowych informa-

cji w formie krótkiego opisu tekstowego lub prostej tabeli, utworzono specjalne przeglądarki

zasobów sieci semantycznych. Prezentują one dane zawarte w plikach RDF w szablonowy i

mało atrakcyjny, ale bardziej przystępny sposób.

Niestety większość projektów przeglądarek tekstowych nie jest obecnie rozwijana,

a udostępnione wcześniej wersje nie zawsze działają poprawnie.

Page 15: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

15

5. Wizualizacja danych

Podstawowe sposoby prezentacji danych opierają się głównie na wykorzystaniu tekstu

i prostych tabel. Aby lepiej przedstawić informacje zawarte w zbiorze danych i umożliwić ich

dokładniejszą analizę, wykorzystywane są bardziej zaawansowane techniki. Wizualizacja

danych polega na przedstawieniu ich w formie obrazu. Zazwyczaj wykorzystywane są do tego

wykresy i grafy, ale można również spotkać się z nietypowymi, nowatorskimi sposobami

wizualizacji.

5.1. Sposoby wizualizacji danych

Przed przystąpieniem do przeglądu istniejących narzędzi do wizualizacji Linked Data,

przeanalizowane zostaną wyróżniające się rozwiązania oparte na danych, które nie są opisane

w formie pozwalającej na przetwarzanie przez narzędzia Semantic Web.

Fundacja Gapminder

Jednym z najbardziej interesujących sposobów wizualizacji danych jest rozwiązanie

utworzone dla potrzeb fundacji Gapminder zajmującej się promowaniem osiągnięć ONZ

dotyczących globalnego rozwoju poprzez prezentację danych statystycznych. Do utworzenia

interaktywnego wykresu wykorzystano technologię Adobe Flash.

Sposób prezentacji danych został bardzo dobrze dostosowany do ich specyfiki (rys.

5.1.1.). Wczesne zdefiniowanie celu prezentacji danych pozwoliło na osiągnięcie

interesującego rezultatu. Analiza zmian społeczno-gospodarczych na przestrzeni ostatnich 200

lat stała się łatwo osiągalna dla każdego zainteresowanego, a sposób prezentacji jest atrakcyjny

i przyciąga uwagę odbiorcy.

Rys. 5.1.1. Wykres fundacji Gapminder przedstawiający bogactwo i zdrowie narodów -

porównanie średniego przychodu na osobę oraz oczekiwanej długości życia w

poszczególnych państwach w 2013 roku.

Page 16: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

16

Dane prezentowane są z wykorzystaniem wielu nietypowych rozwiązań:

Czas nie jest prezentowany na osi wykresu. Zamiast tego wykorzystano miejsce w tle.

Użytkownik może określić interesujący go rok za pomocą suwaka. Dzięki braku

typowej osi czasu, można zaprezentować na niej dodatkowe dane i lepiej przedstawić

zależności.

Możliwe jest uruchomienie animacji, pokazującej zmiany następujące na przestrzeni lat.

Użytkownik może wybrać skalę (liniowa lub logarytmiczna) na każdej osi wykresu.

Oprócz położenia punktu, do prezentacji danych wykorzystywana jest jego wielkość

oraz kolor.

Użytkownik ma duże możliwości dostosowania wykresu, m.in. może wybrać dane

prezentowane na osiach, a także określić informacje przekazywane za pomocą koloru

oraz wielkości punktu.

Prezentacja historii zmian danego punktu po kliknięciu na element wykresu.

Prezentacja danych dotyczących poszczególnych państw z wykorzystaniem mapy

świata (rys. 5.1.2.).

Rys. 5.1.2. Dane na temat bogactwa i zdrowia narodów zaprezentowane na mapie świata.

Page 17: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

17

Thematic Mapping

Jednym z wyróżniających się rozwiązań jest biblioteka JavaScript Thematic Mapping

pozwalająca na przedstawienie danych na modelu 3D kuli ziemskiej (rys. 5.1.3.).

Prezentacja danych na interaktywnym globusie pozwala na przykucie uwagi

użytkownika. Jednak nawigacja z wykorzystaniem kursora myszy może sprawiać trudności, a

dane nie są tak czytelne jak w bardziej tradycyjnych formach prezentacji danych.

Wykorzystany do utworzenia modelu zbiór danych dużo łatwiej przeanalizować

korzystając z narzędzia zaproponowanego przez fundację Gapminder. Thematic Mapping

przedstawia ciekawy punkt widzenia i świetnie nadaje się do zainteresowania daną tematyką,

np. uczniów szkół podstawowych. Jednak ciekawa forma przysłania w tym rozwiązaniu treść i

utrudnia wyciąganie wniosków.

Rys. 5.1.3. Thematic Mapping – oczekiwana długość życia w 2015 roku.

Przedstawione przykłady nietypowych rozwiązań pozwalają zauważyć jak duże

możliwości daje dobrze przemyślany i dostosowany do rodzaju prezentowanych danych sposób

wizualizacji. Początkowo niezrozumiałe dane stają się przystępne dla szerokiego grona

odbiorców.

Page 18: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

18

5.2. Wizualizacja Linked Data – przegląd rozwiązań

W rozdziale zostaną przedstawione narzędzia do wizualizacji Linked Data prezentujące

różne podejścia do tego problemu. Następnie funkcjonalność aplikacji zostanie

przeanalizowana w celu ukazania obszarów wymagających poprawy.

Popularnym podejściem do wizualizacji Linked Data jest założenie scenariusza

eksploracyjnego, w którym użytkownik może na początku nie wiedzieć jakich informacji

szuka. Rozpoczyna przeglądanie sieci połączeń od jednego z zasobów, a każda kolejna akcja

jest uzależniona od poprzedniej. Przykładami aplikacji opartych na tym podejściu są Lod Live

oraz LODmilla.

Lod Live

Lod Live jest projektem stworzonym w celu rozpowszechnienia idei Linked Data dzięki

umożliwieniu przeglądania zasobów RDF z wykorzystaniem przyjaznego interfejsu

użytkownika.

Przeglądanie standardowo rozpoczyna się od wyszukania zasobu w zbiorze dbpedia.org.

Można również podać identyfikator URI obiektu, a od niedawna istnieje także możliwość

przejścia do Lod Live bezpośrednio ze strony zasobu w serwisie DBpedia.

Rys. 5.2.1. Sposób prezentacji danych w Lod Live.

Lod Live wykorzystuje bardzo typowy dla Semantic Web sposób prezentacji danych.

Poszczególne obiekty i klasy są przedstawiane w postaci kół, a relacje między nimi

przedstawiane są za pomocą strzałek (rys. 5.2.1.). Uważam, że sposób ten bardzo dobrze

przedstawia ideę sieci semantycznych i Linked Data. Jednak wraz z dodawaniem większej

ilości danych, prezentowane w ten sposób informacje bardzo szybko stają się nieczytelne.

Oprócz rozszerzania grafu przez dodawanie kolejnych powiązanych obiektów, użytkownik ma

możliwość podglądu szczegółowych informacji o zasobie. Dodatkowo wszystkie zdjęcia

powiązane z otwartymi obiektami są zbierane w oddzielnej sekcji, a lokalizacja zasobów

posiadających odpowiednie własności jest przedstawiana na mapie świata.

Page 19: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

19

Zalety sposobu prezentacji Linked Data w aplikacji Lod Live:

dobrze przedstawiona idea – widoczna sieć powiązań między danymi,

wizualna atrakcyjność rozwiązania,

możliwość zapoznania się ze szczegółowym opisem obiektu w dodatkowej sekcji

wyświetlanej po prawej stronie,

dodatkowe funkcje umożliwiające podgląd zdjęć powiązanych z widocznymi obiektami

oraz prezentację ich rozkładu na mapie.

Wady sposobu prezentacji Linked Data w aplikacji Lod Live:

niewygodny sposób przeglądania zasobów:

o zasoby nie są uporządkowane alfabetycznie,

o opis zasobu jest widoczny w dolnej części strony po najechaniu kursorem myszy

na jeden z niewielkich obszarów otaczających koło – trudno jest odnaleźć

konkretny zasób.

wraz ze wzrostem liczby prezentowanych zasobów, graf szybko staje się nieczytelny,

całkowita liczba prezentowanych powiązań jest ograniczona (część danych może nie

zostać zaprezentowana).

LODmilla

Kolejnym narzędziem służącym do wizualizacji Linked Data jest LODmilla - aplikacja

webowa, w której zdecydowano się na podobny sposób prezentacji danych jak w przedstawio-

nym wcześniej Lod Live. Przeglądanie danych rozpoczyna się od wyszukania zasobu w jednym

z dostępnych zbiorów danych (m.in. DBpedia) lub wprowadzenia identyfikatora URI zasobu.

Obiekty są przedstawiane w formie kart zawierających podstawowe informacje oraz

przyciski umożliwiające, m.in. wyświetlenie szczegółowych informacji i ukrycie zasobu. Re-

lacje pomiędzy zasobami są przedstawione w formie odpowiednio opisanych strzałek (rys.

5.2.2.).

Page 20: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

20

Rys. 5.2.2. Narzędzie LODmilla – sposób prezentacji danych.

Chociaż sposób przedstawienia sieci połączeń nie wyróżnia tego narzędzia na tle kon-

kurencyjnych aplikacji, to na uwagę zasługuje znakomite rozwiązanie problemu przeglądania

dostępnych powiązań i dodawania ich do grafu.

Powiązane obiekty podzielono na trzy kategorie:

własności (Properties) – podstawowe własności obiektu np. data urodzenia (Birth date)

dla osób (klasa Person),

powiązania wychodzące z obiektu (Links out) – powiązania, w których zasób pełni rolę

podmiotu,

powiązania do obiektu (Links in) – powiązania, w których inny obiekt pełni rolę pod-

miotu.

W ramach każdej z trzech głównych kategorii, pomiędzy którymi można przechodzić za

pomocą zakładek w oknie zasobów, powiązane obiekty zostały pogrupowane w podkategorie

według łączącej je relacji. Każda z nich jest przedstawiona jako domyślnie zwinięta lista roz-

wijana. Dzięki temu dobrze przemyślanemu rozwiązaniu, wyszukiwanie konkretnej własności

czy powiązanego obiektu nie stanowi problemu, tak jak w przypadku Lod Live. Jedyną wadą

sposobu prezentacji listy podkategorii i zasobów jest brak uporządkowania alfabetycznego,

które mogłoby dodatkowo usprawnić proces przeglądania powiązań.

Aplikacja umożliwia także wyróżnienie wybranych elementów grafu. Wystarczy kliknąć

na interesujące nas elementy z wciśniętym klawiszem CTRL, aby uwidocznić kluczowe powią-

zania. LODmilla oferuje również bardziej złożone funkcje, takie jak tworzenie ścieżek powią-

zań pomiędzy obiektami, a także wyszukiwanie własności w widocznych zasobach oraz ich

sąsiedztwie.

Page 21: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

21

Istnieją także narzędzia skupiające się na wizualizacji zależności pomiędzy obiektami.

Większość rozwiązań przedstawia dane w formie grafu i udostępnia dodatkowe funkcje umoż-

liwiające analizę powiązań pomiędzy zasobami. Przykładami takich aplikacji są gFacet oraz

RelFinder.

gFacet

Narzędzie gFacet pozwala na przeglądanie danych RDF z wykorzystaniem

tradycyjnego grafu rozszerzonego o możliwość filtrowania danych (rys. 5.2.3.).

Rys. 5.2.3. Narzędzie gFacet – graf przedstawiający informacje o piłkarzach grających

w Bundeslidze i reprezentacji Niemiec.

Aplikacja dobrze sprawdza się, gdy chcemy znaleźć grupę obiektów o pewnych cechach

wspólnych. Nie jest ona jednak przydatna, gdy chcemy znaleźć informacje o konkretnym

obiekcie. Stworzenie odpowiedniego zapytania przez połączenie wielu filtrów wymaga dużej

wiedzy na temat analizowanej dziedziny.

Page 22: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

22

RelFinder

RelFinder tworzy interaktywny graf przedstawiający powiązania pomiędzy wybranymi

przez użytkownika obiektami (rys. 5.2.4.).

Chociaż generowanie odpowiedzi na zapytanie jest czasochłonne, to w jego trakcie

wyświetlane są częściowe wyniki – graf jest dynamicznie rozbudowywany. Pozwala to uniknąć

poważnego problemu jakim w narzędziach do wizualizacji jest długi czas oczekiwania na

rezultat interakcji.

Rys. 5.2.4. Narzędzie RelFinder - graf przedstawiający powiązania pomiędzy filmami „Pulp

Fiction” i „Django Unchained”.

Po kliknięciu na zasób, w oddzielnej sekcji pojawia się jego opis, a na grafie wyróżnione

zostają powiązane z nim elementy. Oznaczone zostają także wszystkie inne zasoby tego samego

typu. Dla zwiększenia czytelności wykorzystano kontrastujące ze sobą kolory. Istnieje również

możliwość określenia klas oraz relacji, które mają zostać ukryte.

Narzędzie to jest bardzo dobrze dopracowane. Nie ma jednak wielu zastosowań i wymaga od

użytkownika podstawowej wiedzy na temat analizowanej dziedziny.

Page 23: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

23

Ostatnie prezentowane podejście skupia się na wyodrębnieniu danych z chmury Linked

Open Data i ich wizualizację przy wykorzystaniu tradycyjnych metod. Przykładem takiego na-

rzędzia jest Open Data Mashup.

Open Data Mashup

Narzędzie Open Data Mashup udostępnia kontrolki pozwalające na dostęp do zasobów

Linked Data i ich wizualizację z wykorzystaniem rozwiązań, które nie zostały stworzone z

myślą o modelu danych typowym dla sieci semantycznych. Dzięki temu, można tworzyć proste

aplikacje przedstawiające wyniki złożonych zapytań, np. na wykresie (rys. 5.2.5.) lub mapie.

Rys. 5.2.5. Narzędzie Open Data Mashup – dane na temat wyników wyborów zaprezento-

wane na wykresach Google.

Analizowanie danych na wcześniej przygotowanym w Open Data Mashup zestawie

elementów jest dobrym i wygodnym sposobem eksploracji Linked Data. Jednak budowanie

nowych zapytań i połączenie ich z odpowiednią kontrolką odpowiadającą za wizualizację

danych może stanowić duże wyzwanie, dlatego narzędzie to nie jest atrakcyjne dla

użytkowników bez wystarczającej wiedzy technicznej.

Page 24: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

24

Podsumowanie przeglądu istniejących rozwiązań

Przedstawione w tym rozdziale narzędzia do wizualizacji Linked Data można podzielić

na trzy oddzielne kategorie.

Lod Live oraz LODmilla to narzędzia umożliwiające swobodną eksplorację całej sieci

danych poprzez analizę powiązań i przechodzenie do kolejnych obiektów. Chociaż w Lod Live

można zauważyć wiele obszarów wymagających poprawy, to LODmilla okazuje się być

aplikacją niemal doskonałą. Jej twórcy rozwiązali najważniejsze problemy, na które napotykają

użytkownicy Lod Live.

Aplikacje gFacet oraz RelFinder w inny sposób podchodzą do wizualizacji danych

skupiając się na węższym zakresie zastosowań. Nie wymagają one poprawek ani modyfikacji,

ponieważ są bardzo dobrze dopracowane.

Open Data Mashup przedstawia dane w przystępny i czytelny sposób. Jest to narzędzie

bardzo uniwersalne. Jednak lepsze efekty tego typu wizualizacji można uzyskać skupiając się

na konkretnej dziedzinie i dodatkowo dostosowując do niej interfejs aplikacji.

Wszystkie przedstawione podejścia charakteryzują się dążeniem do prezentowania

danych nieopracowanych. Zadaniem użytkownika aplikacji jest wstępne wyszukanie

i przygotowanie danych, które następnie można analizować. Brak wstępnie opracowanych

danych lub gotowych do wykonania zapytań może być dla wielu użytkowników

nieposiadających odpowiednich umiejętności barierą nie do pokonania.

Page 25: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

25

6. Nowa metoda wizualizacji danych

Większość obecnie rozwijanych podejść do wizualizacji Linked Data skupia się na dążeniu

do utworzenia narzędzia umożliwiającego swobodną eksplorację ogromnych zbiorów

danych [3]. Ograniczenia narzędzi skupiających się na przedstawieniu mniejszej ilości

wstępnie przetworzonych danych są często jednoznacznie uznawane za wadę [12] bez

uwzględnienia potrzeb i oczekiwań poszczególnych grup użytkowników.

Na obecnym poziomie rozwoju Linked Open Data nie ma potrzeby tworzenia bardziej

zaawansowanych narzędzi służących do wizualizacji danych wielodziedzinowych. Narzędzia

takie jak LODmilla i Lod Live pozwalają na swobodną eksplorację sieci Linked Data. Obsługa

tych aplikacji i sposób wyszukiwania danych może jednak sprawiać użytkownikom trudność.

Inaczej przedstawia się sytuacja narzędzi do wizualizacji Linked Data skupiających się na

bardziej szczegółowym przedstawieniu danych, wydobyciu z nich dodatkowych informacji

i ukazaniu w formie ułatwiającej analizę. Programy tego typu pozwalają lepiej wykorzystać

potencjał Linked Data. Jednak obecnie tworzenie niewielkich aplikacji tego typu nie jest

wystarczająco popularne.

Na rozpowszechnienie idei Linked Data może wpłynąć tworzenie na szeroką skalę prostych

aplikacji przedstawiających dane z określonej dziedziny z wykorzystaniem nowych możliwości

i prezentacja ich w sposób przystępny dla wszystkich użytkowników, również tych

nieposiadających umiejętności technicznych. W ramach pracy zostanie utworzona

przykładowa aplikacja tego typu, która następnie zostanie wykorzystana w badaniach metod

wizualizacji Linked Data.

Celem badań jest ustalenie czy użytkownicy, o różnym poziomie zaznajomienia z nowymi

technologiami, potrafią wykorzystać złożone narzędzia do wizualizacji wymagające wstępnego

przygotowania i samodzielnego wyszukania danych. Rozpatrzone zostaną także oczekiwania

użytkowników względem aplikacji służących do wizualizacji danych, aby ustalić w jakim

stopniu poszczególne grupy osób są zainteresowane dostępem do większej ilości

nieopracowanych danych.

Page 26: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

26

6.1. Wymagania wobec nowego rozwiązania

Aby możliwe było późniejsze porównanie różnych podejść do wizualizacji Linked Data,

konieczne jest utworzenie narzędzia spełniającego kilka podstawowych założeń.

Pierwszym z nich jest odpowiedni dobór danych, które będą w narzędziu prezentowane.

Powinna być to dziedzina, z której dane można łatwo przedstawić przy użyciu generycznych

narzędzi pozwalających na swobodną eksplorację danych. Wybrane dane muszą być dostępne

w chmurze Linked Open Data. Ze względu na udział w badaniu osób o różnych

zainteresowaniach i oczekiwaniach, prezentowana tematyka nie powinna wymagać

zaawansowanej wiedzy dziedzinowej. Wybrany do prezentacji obszar danych powinien być

zrozumiały dla jak największego grona odbiorców.

Kolejnym założeniem jest zadbanie o prostotę obsługi nowotworzonego narzędzia. Jest to

jedna z największych zalet aplikacji, które skupiają się na wizualizacji wstępnie

przetworzonych danych na określony temat. Na pierwszy plan powinny wysunąć się

prezentowane informacje. Aplikacja powinna zawierać tylko funkcje niezbędne do realizacji

podstawowego zadania wizualizacji danych.

Konieczne jest także, aby interfejs nowej aplikacji był dostępny tylko w języku angielskim.

Pozwala to wyeliminować wpływ poziomu znajomości języka na rezultat badania.

Ostatnim założeniem jest przedstawienie ograniczonego punktu widzenia. Przy tworzeniu

aplikacji należy skupić się jedynie na wybranym aspekcie prezentowanych danych, a nie na

wyczerpaniu tematu. Jest to sytuacja najbardziej prawdopodobna przy rzeczywistym tworzeniu

prostych aplikacji tego typu. Dodatkowo pozwala ona na przeciwstawienie łatwości obsługi

aplikacji z możliwością eksploracji danych pod dowolnym kątem charakterystycznym dla

narzędzi generycznych.

Page 27: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

27

6.2. Przedstawienie nowoutworzonego narzędzia do wizualizacji danych

W ramach pracy została utworzona aplikacja Academy Award winners przedstawiająca

podstawowe dane dotyczące aktorów, którzy zdobyli Oscara w kategorii Najlepszy aktor

pierwszoplanowy lub Najlepsza aktorka pierwszoplanowa. Skupia się ona przede wszystkim

na wizualizacji danych o miejscach urodzenia poszczególnych laureatów nagrody

i przedstawieniu zależności pomiędzy czynnikami takimi jak, m.in. czas, płeć i miejsce

urodzenia. Narzędzie spełnia wszystkie przyjęte wcześniej założenia.

Ekran aplikacji składa się z trzech sekcji:

filtry,

mapa,

kafelki.

Aby wykonać przygotowane zapytania SPARQL, wykorzystano możliwości

frameworka Sesame do połączenia z punktami dostępowymi SPARQL serwisu DBpedia oraz

firmy OpenLink Software.

Fragment kodu programu zawierający adresy punktów dostępowych SPARQL:

Repository repo = new SPARQLRepository("http://dbpedia.org/sparql"); Repository repo2 = new SPARQLRepository("http://lod.openlinksw.com/sparql"); RepositoryConnection conn;

Po nawiązaniu połączenia z wybranym serwisem, przesyłane jest do niego zapytanie

SPARQL. Na podstawie uzyskanych odpowiedzi, tworzone są z wykorzystaniem języka Java

obiekty reprezentujące wybrany wycinek rzeczywistości. Pierwsze polecenie pobrania danych

z chmury Linked Open Data polega na wydobyciu identyfikatorów obiektów znajdujących się

na liście zwycięzców Nagrody Akademii Filmowej w kategorii Najlepszy Aktor, które są

następnie wykorzystywane do utworzenia obiektów klasy Actor.

Fragment kodu programu odpowiadający za połączenie z punktem dostępowym serwisu

DBpedia, pobranie identyfikatorów aktorów, wywołanie metody tworzącej obiekt klasy Actor

i dodanie nowego obiektu do kolekcji:

ArrayList<Actor> actors = new ArrayList<Actor>(); try { repo.initialize(); conn = repo.getConnection(); StringBuilder qb = new StringBuilder(); qb.append("SELECT ?actors \n"); qb.append("WHERE {?actors dct:subject dbc:Best_Actor_Academy_Award_winners.}\n");

TupleQueryResult result = conn.prepareTupleQuery(QueryLanguage.SPARQL, qb.toString()).evaluate();

while(result.hasNext()) {

BindingSet bs = result.next(); Value actor = bs.getValue("actors"); Actor a = createActorFromUri(actor.stringValue()); if (a!=null) actors.add(a);

}

Page 28: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

28

Metoda createActorFromUri przyjmuje jako argument identyfikator obiektu, który

podstawiany do kolejnego zapytania SPARQL (zaprezentowanego w podrozdziale „Źródła

danych”). Podstawowe dane spełniających kryteria zapytania obiektów są przekazywane do

konstruktora obiektu klasy Actor.

Fragment metody createActorFromUri odpowiedzialny za parsowanie wyniku zapytania

i przekazanie go do konstruktora obiektu klasy Actor:

TupleQueryResult result = conn.prepareTupleQuery(QueryLanguage.SPARQL, qb.toString()).evaluate();

if(result.hasNext()) { BindingSet bs = result.next(); Value actorName = bs.getValue("name"); Value actorBirthDate = bs.getValue("birthDate"); Value freebaseUri = bs.getValue("fbUri"); Value wikiUrl = bs.getValue("wikiUrl"); if((actorName.stringValue()).equals("")) return null; Actor a = new Actor(uri, actorName.stringValue(), actorBirthDate.stringValue(), wikiUrl.stringValue()); String fbUri = ""; fbUri = freebaseUri.stringValue(); a.freebaseUri = fbUri; return a; } else return null;

Pobieranie pozostałych danych niezbędnych do działania aplikacji przebiega w sposób

analogiczny do przedstawionego przykładu.

Pierwszy element strony aplikacji to rozwijana sekcja Filters pozwalająca na

ograniczenie wyświetlanych wyników do spełniających określone kryteria.

Filtry pozwalają na określenie następujących cech:

o płeć,

o liczba mieszkańców miejscowości, w której urodził się laureat nagrody,

o przedział czasowy, w którym została przyznana nagroda,

o liczba wygranych nagród.

Page 29: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

29

Rys. 6.2.1. Sekcja Filters aplikacji Academy Award winners.

Wybrane filtry (rys. 6.2.1.) zostają zastosowane do wyników prezentowanych na mapie oraz

w postaci kafelków po wciśnięciu przycisku Apply.

Informacje o cechach zwycięzców nagrody, które użytkownik może filtrować są

przechowywane wewnątrz obiektu klasy Actor. Identyfikatory aktorów są wczytywane

z innego obiektu niż dane aktorek, co pozwala na określenie płci laureatów nagrody, która jest

reprezentowana za pomocą zmiennej logicznej male. Określenie przedziałów niezbędnych do

kategoryzacji wielkości miejsca urodzenia oraz okresu zdobycia pierwszej nagrody również nie

stanowiło problemu - rok, w którym miały miejsce te wydarzenia, był dostępny

w wykorzystanych zbiorach danych. Natomiast obliczenie liczby nagród zdobytych przez

laureata nagrody wymagało rozpatrzenia wyjątkowych sytuacji.

Metody klasy Actor pozwalające na obliczenie i zwrócenie informacji o liczbie zdobytych

nagród:

private int calculateNumberOfAwards(){ Set<Integer> years = new HashSet<Integer>(); for(Movie m:movies) years.add(Integer.parseInt(m.year)); if (years.isEmpty()) return 1; return years.size(); } public int getNumberOfAwards(){ if (numberOfAwards!=0) return numberOfAwards; numberOfAwards = calculateNumberOfAwards(); return numberOfAwards; }

Aby obliczyć ile nagród zdobyła dana osoba, wykorzystano pobrane wcześniej

informacje o filmach, za rolę w których je przyznano. Chociaż zazwyczaj Nagroda Akademii

Filmowej jest przyznawana za jedną kreację, to na pierwszej gali miała miejsce wyjątkowa

sytuacja, w której Janet Gaynor została nagrodzona za rolę w trzech filmach. Aby poprawnie

obsłużyć takie niecodzienne wydarzenia, powtarzające się kilkukrotnie lata przyznania nagrody

dla tej samej osoby zostają policzone tylko raz. Dodatkowo, w przypadku gdy nie udało się

odnaleźć informacji o żadnym powiązanym filmie, liczba zdobytych nagród zostaje ustalona

na jeden. Poprawność tego założenia można wywnioskować z obecności osoby na liście

laureatów nagrody. Kompletność danych jest konieczna do poprawnego działania filtrów

i umożliwienia graficznego przedstawienia liczby zdobytych statuetek.

Page 30: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

30

Mechanizm ukrywania wyników niespełniających wybranych kryteriów wyszukiwania

zaimplementowano wykorzystując zmienną logiczną hide obiektu reprezentującego aktora,

której negatywna wartość jest warunkiem dodania obiektu do mapy oraz utworzenia

powiązanego kafelka. Preferencje użytkownika są zbierane z pomocą formularza, a ich

zapamiętanie po odświeżeniu strony zostało osiągnięte dzięki połączeniu kodu HTML i Java.

Fragment kodu generującego sekcję formularza – definicja pól pozwalających określić płeć

laureata nagrody:

<form action="ActorsMap.jsp" id='filtersForm' style="display: block;"> <table> <tr>Gender</tr><tr> <td> <% if (showActors) {%> <input type="checkbox" id='men1' name="men" checked="checked"/>Men<%} %> <% if (!showActors) {%> <input type="checkbox" id='men1' name="men" />Men<%} %> </td> <td> <% if (showActresses) {%> <input type="checkbox" id='women1' name="women" checked="checked"/>Women<%}%> <% if (!showActresses) {%> <input type="checkbox" id='women1' name="women"/>Women<%} %> </td> </tr>

Kolejny element widoczny na stronie aplikacji to rozwijana sekcja Map - birthplaces of

Academy Award winners (rys. 6.2.2.). Na mapie zaznaczone zostały miejscowości, w których

urodzili się późniejsi laureaci Oscara.

Rys. 6.2.2. Aplikacja Academy Award winners - informacje dotyczące laureatów nagrody

przedstawione na mapie.

Page 31: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

31

Kolor i jasność punktu na mapie przedstawia dodatkowe informacje. Miejsca narodzin

aktorów zaznaczone są kolorem niebieskim, a aktorek różowym. Im ciemniejszy odcień koloru,

tym dawniej została przyznana nagroda (w przypadku wielokrotnych zwycięzców, odcień

reprezentuje rok zdobycia pierwszej nagrody).

Użytkownik aplikacji ma możliwość oddalania i przybliżania mapy oraz

przemieszczania się po niej. Po najechaniu kursorem myszy na zaznaczony punkt, na ekranie

wyświetla się imię i nazwisko laureata nagrody. Po kliknięciu na punkt (rys. 6.2.3.),

wyświetlana jest dodatkowo nazwa miejscowości oraz chronologicznie uporządkowana lista

nagrodzonych filmów wraz z informacjami o latach, w których przyznano poszczególne

nagrody.

Rys. 6.2.3. Aplikacja Academy Award winners - szczegółowe informacje widoczne po klik-

nięciu na punkt widoczny na mapie.

Interfejs programistyczny udostępniany przez firmę Microsoft pozwala na dodanie do

mapy kontrolek o określonych współrzędnych. Niezbędne było utworzenie metody generującej

odpowiedni kod dla każdego obiektu reprezentującego aktora spełniającego aktualne kryteria

wyszukiwania.

Fragment kodu programu Academy Award winners odpowiadający za dodawanie do mapy

ikon reprezentujących aktorów oraz formatowanie powiązanych opisów:

for(Actor a:actorList){ if(!a.isHidden()){ float x = a.getPlace().getLat(); float y = a.getPlace().getLong(); String p = a.getPlace().getPopulation(); String movies = "<p/>Academy Award for:<br/>"; if(!a.getMovies().isEmpty()){ for (int m=0; m<a.getMovies().size(); m++){ movies += a.getMovies().get(m).toString()+"<br/>"; }} movies = movies.replace("'", "\\'");

Page 32: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

32

if(!(x==0 && y==0)){ String place = a.getPlace().toString(); place = place.replace("'", ""); out.println("var pin"+i+" = new Microsoft.Maps.Pushpin(

new Microsoft.Maps.Location("+x+", "+y+"), {icon:\""+a.getPushpinImage()+ "\", height:13, width:13, draggable: false}); \n"+

"map.entities.push(pin"+i+"); \n"+ "map.entities.push(new Microsoft.Maps.Infobox(new Microsoft.Maps.Location(" +x+", "+y+"), {title: '"+a.getName()+"', description: 'Birthplace: " +a.getPlace().toString().replace("'","\\'") +""+movies+"', pushpin: pin"+i+"})); \n");

i++; }

}}

Pod rozwijanymi sekcjami z filtrami oraz mapą, znajduje się informacja o liczbie

aktorów i aktorek spełniających aktualnie wybrane kryteria filtrowania.

Poniżej widoczna jest ostatnia sekcja. Jest to lista aktorów (rys. 6.2.4.) w postaci kafelków

zawierających podstawowe informacje o laureatach nagrody.

Rys. 6.2.4. Academy Award winners – ekran aplikacji ze zwiniętymi sekcjami filtrów i mapy.

Page 33: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

33

W ostatniej sekcji, informacje na temat każdego aktora są przedstawione w następującej formie

(rys. 6.2.5.):

główną część kafelka zajmuje zdjęcie

pod zdjęciem znajduje się graficzna reprezentacja

statuetek odpowiadająca liczbie zdobytych przez aktora nagród

imię i nazwisko jest linkiem do strony w serwisie

Wikipedia (strona otwierana w nowej zakładce)

data urodzenia

miejsce urodzenia

chronologicznie uporządkowana lista filmów, za rolę w

których aktor dostał nagrodę wraz z latami przyznania

poszczególnych nagród

Rys. 6.2.5. Academy Award winners – kafelek z informacjami

o laureacie Oscara.

Kafelki są przedstawiane w dynamicznie generowanej tabeli. Ze względu na znaczne

ograniczenie czytelności prezentowanych danych przy zmianie rozmiaru mapy, wymiary

elementów prezentowanych w aplikacji nie są dostosowywane do rozmiaru okna przeglądarki

i rozdzielczości ekranu. Liczba kafelków wyświetlanych w jednym wierszu została ustalona na

cztery. Łączna szerokość wiersza kafelków dobrze pasuje do rozmiaru mapy.

Fragment kodu odpowiedzialnego za generowanie tabeli zawierającej kafelki z informacjami

o zdobywcach Oscara:

<div id='tiles'> <table cellspacing="30"> <%@ page import="java.util.ArrayList, java.io.PrintWriter, com.example.se-

rvlets.Actor, com.example.servlets.Movie"%> <% int n=1; out.println("<tr>");

for(Actor a:actorList){ if(!a.isHidden()){ String oscarIcons = ""; for(int x=0; x<a.getNumberOfAwards(); x++) oscarIcons += "<img src=\"oscarIcon.jpg\" style=\"width:18px;height:40px;margin-top:10px;\">"; out.println("<td valign=\"top\"><img src=\""+a.getImage()+"\"></img><br/>" +oscarIcons+ " <a href=#\"\" onclick=\"window.open('"+a.getWikiUrl() +"','_blank');window.close();return false\">"+a.getName()+ "</a><br/><b>Date of birth:</b> "+a.getBirthDate()+ "<br/><b>Birthplace:</b> "+(a.getPlace()).toString()+

Page 34: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

34

"<br/><b>Awarded for:</b></br>");

for(Movie m: a.getMovies()){ out.println(m.toString()+"</br>"); } out.println("</td>"); out.println("</td>"); if(n%4 == 0) out.println("</tr><tr>"); n++; }

}

Page 35: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

35

6.3. Wykorzystane technologie

W rozdziale tym zostały przedstawione najważniejsze technologie wykorzystane do

utworzenia aplikacji Academy Award winners.

Java Servlet

Serwlety Java pozwalają na tworzenie niezależnych od platformy aplikacji webowych.

Są to działające po stronie serwera klasy mające dostęp do całego API Javy. Nie posiadają

interfejsu użytkownika. Komunikują się z przeglądarką za pomocą protokołu HTTP.

JavaServer Pages

Technologia JavaServer Pages (JSP) umożliwia tworzenie dynamicznych stron

internetowych poprzez łączenie obiektowego języka programowania Java z kodem dokumentu

HTML. Gdy przeglądarka żąda przesłania dokumentu JSP, kod w języku Java jest

wykonywany po stronie serwera, a użytkownik otrzymuje wygenerowany dokument HTML.

Technologia pozwala na połączenie statycznych elementów strony z dynamicznie generowaną

zawartością.

Sesame Framework

Sesame to framework dla języka Java umożliwiający przetwarzanie danych modelu

RDF. Pozwala na wykorzystanie możliwości Linked Data i sieci semantycznych przez

zapewnienie interfejsu programistycznego pozwalającego na łączenie z punktami dostępu

SPARQL, wykonywanie zapytań oraz parsowanie i przechowywanie odpowiedzi. Wspiera

wszystkie najważniejsze formaty modelu RDF, m.in. RDF/XML, Turtle i JSON-LD opisane

w rozdziale „Model reprezentacji Linked Data”.

Mapy Bing

Bing Maps to platforma firmy Microsoft udostępniająca szereg funkcji pozwalających

na osadzenie we własnej aplikacji interaktywnej mapy. Serwis zawiera zarówno mapy

drogowe, jak i stworzone ze zdjęć satelitarnych.

Page 36: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

36

6.4. Źródła danych

Dane prezentowane w aplikacji Academy Award winners pobierane są z trzech

powiązanych ze sobą zbiorów dostępnych w chmurze Linked Open Data:

DBpedia,

Freebase,

GeoNames.

DBpedia jest zbiorem danych utworzonym na podstawie artykułów w popularnym

serwisie Wikipedia. Jest to próba ustrukturyzowania i opisania za pomocą standardów sieci

semantycznych dostępnych w Wikipedii danych, aby umożliwić ich lepsze wykorzystanie.

Projekt ma także na celu ukazanie brakujących funkcji encyklopedii i wyłonienie obszarów,

które można ulepszyć.

Aplikacja Academy Award winners pobiera z DBpedii podstawowe dane na temat

laureatów Nagrody Akademii Filmowej w kategoriach Najlepszy aktor oraz Najlepsza aktorka.

Wyszukiwane są także identyfikatory URI powiązanych zasobów w zbiorach Freebase oraz

GeoNames pozwalające późniejsze wydobycie szczegółowych informacji.

Na początku wykorzystane zostały dwa proste zapytania SPARQL pobierające listę

identyfikatorów URI aktorów znajdujących się na liście zdobywców Oscara w analizowanych

kategoriach:

SELECT ?actors WHERE { ?actors dct:subject dbc:Best_Actor_Academy_Award_winners. }

SELECT ?actors WHERE { ?actors dct:subject dbc:Best_Actress_Academy_Award_winners. }

Pobrane identyfikatory zostały wykorzystane w kolejnych zapytaniach. Dzięki temu

możliwe było szybkie odnalezienie podstawowych informacji, a także powiązań z innymi

serwisami.

W pierwszym zapytaniu, wykonywanym dla wszystkich identyfikatorów URI

laureatów Oscara, ze zbioru DBpedia pobierane są następujące informacje:

nazwa zasobu w formie czytelnej dla człowieka: imię i nazwisko (zastosowano

filtr, aby odrzucić niepożądane etykiety zawierające nieodpowiednie znaki),

data urodzenia,

adres strony w serwisie Wikipedia, z której pochodzą dane,

identyfikator URI aktora w zbiorze danych Freebase (do jego identyfikacji

wykorzystano mechanizm filtrowania).

Page 37: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

37

SELECT DISTINCT ?name, ?birthDate, ?fbUri, ?wikiUrl WHERE { {

<uri> rdfs:label ?name. <uri> dbo:birthDate ?birthDate. <uri> <http://www.w3.org/ns/prov#wasDerivedFrom> ?wikiUrl. <uri> owl:sameAs ?fbUri. }

FILTER (regex(?fbUri, 'freebase')) FILTER (regex(?name, "[a-z]"))

} LIMIT 1

Kolejne zapytanie skierowane do DBpedii, pobiera następujące dane dotyczące miejsca

urodzenia poszczególnych aktorów:

identyfikator URI miejsca urodzenia (zastosowano filtry, aby upewnić się, że w

odpowiedzi nie zostanie dostarczony identyfikator kraju),

identyfikator URI miejsca urodzenia w zbiorze danych GeoNames (do jego

identyfikacji wykorzystano mechanizm filtrowania),

liczebność populacji miejsca urodzenia, jeżeli taka informacja jest dostępna.

SELECT DISTINCT ?birthPlace, ?place, ?population WHERE { {

<uri> dbo:birthPlace ?birthPlace. ?birthPlace owl:sameAs ?place. OPTIONAL { ?birthPlace dbo:populationTotal ?population. }

}

FILTER (regex(?place, "geoname")) FILTER (NOT EXISTS { ?birthPlace rdf:type dbo:Country }) FILTER (NOT EXISTS { ?birthPlace rdf:type umbel-rc:Country }) FILTER (NOT EXISTS { ?birthPlace rdf:type schema:Country })

} LIMIT 1

Dwa kolejne proste zapytania do serwisu DBpedia wykorzystano, aby pobrać czytelną dla

człowieka nazwę miejsca urodzenia aktora oraz adres zdjęcia laureata nagrody:

SELECT DISTINCT ?label WHERE {<uri> rdfs:label ?label} LIMIT 1

SELECT DISTINCT ?thumbnail WHERE {<uri> dbo:thumbnail ?thumbnail} LIMIT 1

Drugim zbiorem danych, który wykorzystano w aplikacji Academy Award winners, jest

Freebase. Zbiór ten ma podobny charakter do DBpedii. Dane w nim zawarte pochodzą z kilku

serwisów, m.in. Wikipedii. Członkowie społeczności utworzonej wokół Freebase mają również

możliwość dodawania danych.

Page 38: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

38

Do Freebase skierowane zostało jedno złożone zapytanie dla każdego laureata nagrody

pozwalające na wydobycie następujących informacji:

tytuł filmu, za rolę w którym została przyznana nagroda (zastosowano filtry, aby

został zwrócony tytuł w języku angielskim),

rok, w którym została przyznana nagroda.

PREFIX ns: http://rdf.freebase.com/ns/ SELECT ?award ?year ?movie ?movieTitle WHERE { {

<uri> ns:award.award_winner.awards_won ?award. ?award ns:award.award_honor.award ns:m.0f4x7. ?award ns:award.award_honor.year ?year. ?award ns:award.award_honor.honored_for ?movie. ?movie rdfs:label ?movieTitle.

}

UNION {

<uri> ns:award.award_winner.awards_won ?award. ?award ns:award.award_honor.award ns:m.0gqwc. ?award ns:award.award_honor.year ?year. ?award ns:award.award_honor.honored_for ?movie. ?movie rdfs:label ?movieTitle.

}

FILTER(LANG(?movieTitle) = \"\" || LANGMATCHES(LANG(?movieTitle), \"en\")) }

Zapytanie skierowane do Freebase zwraca listę wszystkich nagród, które zdobyła osoba

o danym identyfikatorze. Dzięki zastosowaniu sumy dwóch zestawów warunków

wykorzystujących inne identyfikatory do określenia nagrody, możliwe jest wykorzystanie tego

samego zapytania zarówno dla aktorek, jak i aktorów.

Projekt Freebase został oficjalnie zamknięty 2 maja 2016 roku. Aby możliwe było

dokończenie badań, dane pobierane wcześniej z tego serwisu przez aplikację Academy Award

winners będą wczytywane z pliku. Lokalnie przechowywane dane nie różnią się niczym od

wcześniejszych wyników zapytań kierowanych do Freebase. Różnica w sposobie pozyskiwania

danych nie jest zauważalna z punktu widzenia użytkownika programu i nie ma wpływu na

wyniki przeprowadzanych badań.

Do utworzenia aplikacji niezbędne były także dokładne dane geograficzne: współrzędne

oraz dane o liczebności populacji poszczególnych miejscowości. W początkowej fazie rozwoju

aplikacji, wykorzystywane były dane z DBpedii. Jednak po dokładnej analizie otrzymywanych

wyników, zauważone zostały błędy we współrzędnych. W niektórych przypadkach ujemne

wartości współrzędnych geograficznych zostały w zbiorze DBpedia niepoprawnie zamienione

Page 39: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

39

na wartości dodatnie. Chociaż dane w serwisie Wikipedia są poprawne, to zostały one

uszkodzone w procesie parsowania. DBpedia nie zawiera również informacji o liczebności

populacji wszystkich miejscowości.

Aby rozwiązać te problemy, wykorzystane zostały powiązania ze zbiorem danych

GeoNames zawierającym szczegółowe dane geograficzne. GeoNames nie udostępnia serwisu

pozwalającego na wykorzystanie protokołu SPARQL do pobierania danych, dlatego

w aplikacji zaimplementowany został dodatkowy moduł parsujący pliki RDF/XML będące

oferowaną przez portal formą reprezentacji danych semantycznych.

Dla miejsca urodzenia każdego z laureatów Nagrody Akademii Filmowej pobierane są

następujące informacje ze zbioru GeoNames:

długość geograficzna,

szerokość geograficzna,

liczebność populacji (wykorzystywana, jeżeli nie ma odpowiednich danych ze

zbioru DBpedia).

Page 40: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

40

7. Badanie metod wizualizacji Linked Data

Przeprowadzane w ramach pracy badania mają na celu ustalenie jakie są oczekiwania osób,

w różnym stopniu związanych z nowymi technologiami, względem narzędzi do wizualizacji

Linked Data.

Porównane zostaną dwa podejścia. Pierwsze z nich zakłada prezentację danych

nieopracowanych. Dzięki niemu użytkownik może sam przemieszczać się pomiędzy zasobami

i wyszukiwać interesujące go fakty. Aplikacje oparte na tym podejściu wykorzystane w

dalszych badaniach to Lod Live oraz LODmilla. W drugim podejściu dane pobierane z chmury

Linked Open Data są wstępnie opracowywane i prezentowane użytkownikowi w przyjaznej

formie umożliwiającej natychmiastowe zapoznanie się z tematem i rozpoczęcie analizy. Wadą

tego podejścia jest utrata możliwości samodzielnego wyboru analizowanego aspektu. Aby

umożliwić przeprowadzenie dalszych badań, została utworzona aplikacja Academy Award

winners oparta na drugim podejściu.

W pierwszym etapie badania zostaną przeanalizowane możliwości porównywanych

narzędzi pod kątem eksploracji danych na temat laureatów Nagrody Akademii Filmowej.

Kolejnym etapem będzie przeprowadzenie ankiety z udziałem osób w różnym stopniu

zainteresowanych nowymi technologiami. Uczestnicy badania będą mieli okazję zapoznać się

z każdym narzędziem, a następnie wykonają kilka zadań związanych z wyszukiwaniem

informacji na określony wcześniej temat. Sposób wykonywania zadań będzie obserwowany.

Po zapoznaniu się z wszystkimi narzędziami, uczestnicy badania odpowiedzą na kilka pytań

dotyczących wizualizacji danych oraz dokonają oceny aplikacji.

Page 41: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

41

7.1. Porównanie sposobów wizualizacji danych z wybranej dziedziny

Narzędzia Lod Live, LODmilla oraz Academy Award winners zostaną porównane pod

kątem możliwości wizualizacji danych o laureatach nagrody Akademii Filmowej

w kategoriach: najlepszy aktor i najlepsza aktorka.

Lod Live

Zapoznawanie się z informacjami na temat laureatów Oscara w narzędziu Lod Live

można w wygodny sposób rozpocząć od otwarcia zasobu ze zbioru DBpedia zawierającego

listę laureatów tej nagrody w danej kategorii, np.

http://dbpedia.org/resource/Category:Best_Actor_Academy_Award_winners.

Wizualna atrakcyjność narzędzia (rys. 7.1.1.) powoduje, że przeglądanie powiązanych

obiektów sprawia przyjemność i zaciekawia użytkownika. Nawigacja pomiędzy kolejnymi

powiązanymi ze sobą zasobami bez określonego na wstępie celu przebiega w zadowalający

sposób.

Problemem jest jednak wyszukiwanie konkretnych informacji. Nieuporządkowanie

powiązanych zasobów sprawia, że odnalezienie oczekiwanych danych jest trudne.

Rozwiązaniem pozwalającym na częściowe ominięcie tego problemu jest zapoznanie się ze

słownym opisem znajdującym się w oddzielnej sekcji po prawej stronie ekranu.

Rys. 7.1.1. Lod Live – informacje na temat rodziny i wykształcenia laureata Oscara.

Niestety zapoznanie się z informacjami o wszystkich nagrodzonych aktorach nie jest

możliwe ze względu na zbyt dużą liczbę zasobów powiązanych tą samą relacją z listą

zwycięzców. Obiekty powyżej określonej maksymalnej liczby, zostają obcięte. Chociaż

widoczna jest całkowita liczba powiązanych obiektów, użytkownik nie może zobaczyć ich na

ekranie.

Przy przeglądaniu danych na temat aktorów, bardzo przydatna okazuje się funkcja

pozwalająca na prezentację zdjęć powiązanych z widocznymi zasobami w oddzielnej sekcji

(rys. 7.1.2.). Dzięki niej nie ma konieczności wielokrotnego oddzielnego otwierania sekcji ze

szczegółami zasobu, aby zobaczyć zdjęcie nagrodzonej osoby.

Page 42: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

42

Lod Live umożliwia także przedstawienie lokalizacji widocznych zasobów na mapie.

Niestety otwarcie obiektu reprezentującego osobę nie jest wystarczające, aby na mapie zostały

przedstawione powiązane z nią miejscowości. Należy wcześniej dodać do grafu również

powiązane miejsce, co przy dużej liczbie obiektów jest bardzo niewygodne.

Rys. 7.1.2. Lod Live – sekcja przedstawiające zdjęcia powiązane z zasobami

reprezentującymi aktorów.

LODmilla

Przeglądanie zasobów w narzędziu LODmilla przebiega w sposób podobny do Lod

Live. Graf jest stopniowo rozszerzany przez dodawanie kolejnych powiązanych ze sobą

zasobów. Jednak sposób prezentacji własności obiektu i jego powiązań jest znacznie lepszy.

Specjalna sekcja dzieli powiązane z obiektem zasoby na grupy, dzięki którym użytkownik

może szybko i wygodnie poznać podstawowe informacje, a także dodawać kolejne węzły do

grafu. Nie ma również żadnych ograniczeń dotyczących liczby możliwych do zaprezentowania

powiązań. Dzięki temu zapoznanie się z listą nagrodzonych aktorów (rys. 7.1.3.) nie powinno

stanowić problemu dla użytkownika.

Page 43: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

43

Rys. 7.1.3. LODmilla – lista nagrodzonych aktorów widoczna w sekcji po prawej stronie

ekranu.

Niestety nie ma możliwości wygodnego zapoznania się ze szczegółowym opisem

zasobu z poziomu aplikacji. Aby to zrobić, można spróbować odnaleźć wśród zasobów

wychodzących powiązany z obiektem adres strony w serwisie Wikipedia.

Chociaż lepszy sposób prezentacji powiązanych obiektów ułatwia swobodne przeglądanie

danych laureatów nagrody Akademii Filmowej i umożliwia zapoznanie się z wszystkimi

powiązanymi zasobami niezależnie od ich liczby, to odnalezienie w ten sposób konkretnych

informacji niebędących bezpośrednio powiązanych z obiektem jest trudne. Z pomocą

przychodzą bardziej zaawansowane funkcje programu LODmilla. Pozwalają one na

odnajdywanie przy użyciu słów kluczowych obiektów i powiązań wśród widocznych węzłów,

a także w ich sąsiedztwie.

Aby znaleźć informacje o filmie, za rolę w którym przyznany został aktorowi Oscar, można

skorzystać z funkcji odnajdowania ścieżek pomiędzy zasobami. Wybieramy dwa węzły grafu

powiązane bezpośrednio z obiektem zawierającym listę laureatów nagrody:

węzeł reprezentujący jednego z laureatów nagrody,

węzeł zawierający listę filmów, w których grali aktorzy nagrodzeni Oscarem.

Po zaznaczeniu zasobów i ustawieniu parametrów, korzystamy z funkcji odnajdywania

ścieżek. W rezultacie do grafu dodane zostają filmy, w których grał jeden z laureatów nagrody

Akademii Filmowej i powiązane w jakiś sposób z wybranym przez nas aktorem (rys. 7.1.4.).

Wśród wyników znajdą się filmy, za rolę w których wybrany aktor został nagrodzony.

Samodzielne odnalezienie podobnych informacji bez korzystania z gotowego opracowania lub

wczytywania się w biografię artysty, byłoby niezwykle czasochłonnym zadaniem.

Page 44: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

44

Rys. 7.1.4. LODmilla – funkcja odnajdywania ścieżek pomiędzy węzłami grafu.

Academy Award winners

Aplikacja Academy Award winners została szczegółowo opisana w rozdziale

„Przedstawienie nowoutworzonego narzędzia do wizualizacji danych”. Pozwala ona na

zapoznanie się z najważniejszymi informacjami dotyczącymi każdego laureata Nagrody

Akademii Filmowej w kategoriach najlepszy aktor i najlepsza aktorka.

Podstawową funkcją aplikacji jest wybranie kluczowych informacji z kilku zbiorów

danych i przedstawienie ich w skrótowej formie. Aplikacja umożliwia szybkie zapoznanie się

z najważniejszymi informacjami, a także wygodne przejście do powiązanego artykułu w

serwisie Wikipedia.

Użytkownik ma także możliwość zastosowania szeregu filtrów, aby ograniczyć listę

laureatów do osób spełniających określone kryteria. Dodatkowa prezentacja danych na mapie

(rys. 7.1.5.) daje możliwość szybkiego zapoznania się z rejonami, z których wywodzą się

najbardziej doceniani aktorzy. Istnieje również możliwość prześledzenia zmian jakie

zachodziły w tym obszarze na przestrzeni dziesięcioleci.

Page 45: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

45

Rys. 7.1.5. Academy Award winners – pochodzenie wielokrotnych laureatów Oscara

przedstawione na mapie Stanów Zjednoczonych.

Wizualizacja danych na mapie świata pozwala szybko zidentyfikować obszary świata,

z których wywodzi się większość laureatów nagrody, a także zapoznać się z wyjątkowymi

sytuacjami przyznania nagrody osobom niepochodzącym ze Stanów Zjednoczonych ani

Europy Zachodniej.

Aplikacja w czytelny sposób prezentuje kluczowe dla omawianego tematu informacje. Nie

pozwala jednak na bezpośrednią prezentację części informacji dostępnych w innych

narzędziach. Aby na przykład dowiedzieć się czegoś o rodzinie lub wykształceniu aktorów,

użytkownik musiałby zapoznać się z powiązanym artykułem w serwisie Wikipedia.

Page 46: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

46

7.2. Badanie użyteczności narzędzi i analiza oczekiwań użytkowników

Dalsza analiza porównawcza narzędzi do wizualizacji danych prezentujących różne

podejścia do wizualizacji została wykonana z pomocą potencjalnych użytkowników aplikacji.

Badanie polegało na wykonaniu szeregu podobnych czynności w każdym z porównywanych

programów i udzieleniu odpowiedzi na pytania dotyczące oceny badanych aplikacji oraz

określenia ich najważniejszych cech.

W badaniu brały udział tylko osoby znające język angielski na poziomie co najmniej

średnio zaawansowanym (B1), aby wykluczyć wpływ poziomu znajomości języka na wyniki

badania.

Przed przystąpieniem do pracy, użytkownicy byli informowani o sposobie reprezentacji

danych w sieciach semantycznych, a także o odmiennym charakterze porównywanych

narzędzi.

Dla każdej z porównywanych aplikacji osoba biorąca udział w badaniu:

zapoznaje się z opisem narzędzia,

samodzielnie przegląda dane na określony temat,

realizuje przygotowane zadania.

Kolejność w jakiej użytkownik zapoznaje się z aplikacjami jest losowa.

Uczestnicy badania mieli podane identyfikatory URI zasobów zawierających listy

wszystkich zwycięzców Oscara w odpowiednich kategoriach, od których można wygodnie

rozpocząć eksplorację danych.

Przygotowana forma przeprowadzania badania daje użytkownikom możliwość zarówno

realizacji scenariusza eksploracyjnego, jak i daje podstawy do obiektywnej oceny poprzez

analizę sposobu wykonania zadań o tym samym poziomie trudności.

Osoby biorące udział w badaniu będą obserwowane podczas pracy z narzędziami do

wizualizacji Linked Data, a ich działania na ekranie komputera będą nagrywane. Dodatkowo

mierzony będzie czas wykonywania poszczególnych zadań i efekt ich realizacji.

Po zapoznaniu się z narzędziami Lod Live, LODmilla oraz Academy Award winners

uczestnicy badania będą mieli za zadanie:

określić swój poziom zaznajomienia z nowymi technologiami:

o niski (użytkownik),

o średni (hobby lub średnie wykształcenie o powiązanym profilu),

o wysoki (praca zawodowa lub wyższe wykształcenie o powiązanym

profilu).

ocenić w dziesięciostopniowej skali następujące cechy każdej z aplikacji:

o możliwość znalezienia oczekiwanych informacji,

o prostota obsługi,

o czytelność prezentowanych danych.

Page 47: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

47

ocenić w dziesięciostopniowej skali chęć wykorzystania podobnej aplikacji

do analizy danych z innych dziedzin,

określić najważniejsze cechy narzędzi do wizualizacji danych.

Realizacja przygotowanych zadań

Chociaż głównym zadaniem narzędzi zakładających eksploracyjny scenariusz

analizowania danych nie jest wyszukiwanie konkretnych informacji, to aby umożliwić

obiektywną ocenę sposobu radzenia sobie z obsługą aplikacji osoby biorące udział w badaniu

zostały poproszone o odnalezienie podstawowych informacji na temat laureatów Oscara.

Każdy z użytkowników miał do wykonania takie same zadania. Zestawy pytań dla

poszczególnych aplikacji różniły się tylko danymi konkretnych laureatów Nagrody Akademii

Filmowej.

Treści zadań są następujące:

1. Czy aktor X dostał Oscara?

2. Jak wygląda zdobywca Oscara aktor Y? (znajdź zdjęcie)

3. Za rolę w jakim filmie aktor Z został nagrodzony Oscarem?

4. Gdzie urodziła się zdobywczyni Oscara aktorka A?

W tabeli 7.2.1. przedstawiono wyniki przeprowadzonych pomiarów.

Zgodnie z oczekiwaniami, aplikacja Academy Award Winners umożliwiła

użytkownikom odnalezienie wymaganych informacji w zdecydowanie najkrótszym czasie

zbliżonym do około 30 sekund dla każdego zadania. Wszystkie osoby biorące udział w badaniu

zdołały z powodzeniem wykorzystać to narzędzie do wykonania przygotowanych zadań.

Rys. 7.2.1. Wykres przedstawiający średni czas wykonywania przygotowanych zadań [s].

Zad 1 Zad 2 Zad 3 Zad 4

0

20

40

60

80

100

120

140

160

180

200

LODmilla Lod Live Academy Award winners

Page 48: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

48

Lp. Poziom zn. nowych technologii

LODmilla Lod Live Academy Award winners

zad1 zad2 zad3 zad4 zad1 zad2 zad3 zad4 zad1 zad2 zad3 zad4

1 wysoki X X X 55 X 10 55 34 15 8 5 27

2 niski 338 X X 60 182 75 87 50 30 9 23 13

3 wysoki 53 45 389 31 26 80 82 64 36 24 23 27

4 wysoki 87 35 201 47 84 85 368 106 18 26 13 33

5 niski X 10 X 20 102 X X X 56 39 46 45

6 średni 144 38 X 100 X 127 164 267 30 32 56 34

7 wysoki 136 41 100 42 55 84 330 105 11 9 15 12

8 średni X 98 420 82 284 47 143 184 61 21 105 43

9 niski 45 26 240 54 41 32 386 34 27 14 25 69

10 wysoki 184 18 198 18 260 55 116 116 89 29 28 54

11 niski 43 25 X 95 83 32 X X 142 47 34 40

12 niski 71 32 100 50 X X X X 80 3 17 32

13 niski 97 34 207 509 X X X X 116 107 10 55

14 średni X 38 X 18 212 21 46 25 44 5 8 30

15 średni 272 28 64 41 54 50 42 89 23 30 12 29

16 niski 225 16 50 34 108 28 61 70 23 47 63 41

17 niski X 43 X 46 X 31 X 114 21 42 11 26

18 wysoki 246 13 X 24 128 108 86 62 46 8 5 8

19 wysoki 62 17 115 86 256 74 115 49 27 69 14 25

20 wysoki 281 20 205 19 100 27 159 30 30 7 4 20

Średnia 152,27 32,06 190,75 71,55 131,67 56,82 149,33 87,44 46,25 28,8 25,85 33,15

Tabela 7.2.1. Czas wykonywania przygotowanych zadań w poszczególnych aplikacjach [s]. Niepowodzenie oznaczono znakiem X.

Page 49: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

49

Na uwagę zasługuje bardzo długi średni czas wykonywania pierwszego zadania dla

aplikacji wykorzystujących graf do wizualizacji sieci powiązań pomiędzy obiektami. W apli-

kacji LODmilla użytkownicy potrzebowali około 2,5 minuty (rys. 7.2.1.) na odnalezienie in-

formacji o tym, czy dany aktor otrzymał Nagrodę Akademii Filmowej, a wielu osobom nie

udało się zrealizować tego zadania (rys. 7.2.2.).

Porównywalna liczba zadań zakończonych niepowodzeniem i nieznacznie krótszy

czas realizacji zadania, również przekraczający 2 minuty, zostały zmierzone podczas pracy

użytkowników z aplikacją Lod Live.

Wyniki te są zaskakujące, biorąc pod uwagę, że w dostarczonej uczestnikom badania

instrukcji znajdował się identyfikator URI zasobu zawierającego listę wszystkich laureatów

Oscara w analizowanych kategoriach. Aby znaleźć informację o zdobyciu nagrody, wystar-

czyło sprawdzić czy aktor jest powiązany z listą laureatów relacją Subject.

Zaobserwowany sposób wykonywania pierwszego zadania ukazuje przyzwyczajenie

użytkowników do popularnych w Internecie sposobów wyszukiwania informacji. Pomimo za-

poznania uczestników badania ze sposobem działania sieci semantycznych oraz umożliwienia

wcześniejszego zapoznania się z badanymi aplikacjami, większość z nich nie próbowała lub

nie umiała wykonać zadania przez prześledzenie połączeń pomiędzy obiektami. Informacja

o zdobyciu nagrody była zwykle odnajdywana w opisie obiektu w oddzielnej sekcji aplikacji

(w przypadku Lod Live) lub na powiązanej z obiektem stronie w serwisie Wikipedia.

Rys. 7.2.2. Wykres przedstawiający liczbę użytkowników, którym udało się wykonać pierw-

sze zadanie polegające na znalezieniu informacji o tym, że aktor otrzymał Oscara [%].

Czas wykonywania zadań drugiego i czwartego (rys. 7.2.1.) sugeruje, że użytkownicy

dobrze poradzili sobie z prostymi zadaniami polegającymi na wskazaniu zdjęcia lub miejsca

urodzenia laureata nagrody. Chociaż jest to prawda w przypadku aplikacji LODmilla, to

liczba osób, którym nie udało się z powodzeniem zakończyć tych zadań korzystając z narzę-

dzia Lod Live (rys. 7.2.3. oraz rys. 7.2.4.) wskazuje na problemy użytkowników z obsługą

programu. Nie wpływa to jednak na ocenę reprezentowanego przez nią podejścia, ponieważ

wysoki średni niski

0

10

20

30

40

50

60

70

80

90

100

Zadanie 1

LODmilla Lod Live Academy Award winners

Page 50: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

50

wykorzystanie opartej o te same założenia aplikacji LODmilla nie sprawiało użytkownikom

trudności. Problemem jest jedynie użyteczność konkretnej implementacji.

Rys. 7.2.3. Wykres przedstawiający liczbę użytkowników, którym udało się wykonać drugie

zadanie polegające na odnalezieniu zdjęcia aktora [%].

Rys. 7.2.4. Wykres przedstawiający liczbę użytkowników, którym udało się wykonać czwarte

zadanie polegające na wskazaniu miejsca urodzenia aktorki [%].

Najtrudniejszym zadaniem, które mieli zrealizować uczestnicy badania było odnale-

zienie informacji o tym za rolę w jakim filmie został nagrodzony dany aktor. Średni czas wy-

konywania zadania trzeciego (rys. 7.2.1.) dla aplikacji LODmilla przekroczył 3 minuty. Użyt-

kownicy nie wykorzystywali zaawansowanych funkcji aplikacji, ani nie analizowali sieci po-

łączeń pomiędzy obiektami. Najczęstszym sposobem rozwiązania tego zadania było przejście

do zewnętrznego serwisu, w którym osoby biorące udział w badaniu wczytywały się w bio-

wysoki średni niski

0

10

20

30

40

50

60

70

80

90

100

Zadanie 2

LODmilla Lod Live Academy Award winners

wysoki średni niski

0

10

20

30

40

50

60

70

80

90

100

Zadanie 4

LODmilla Lod Live Academy Award winners

Page 51: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

51

grafię autora, aby odnaleźć pożądane informacje. Jeżeli użytkownik podczas przeglądania po-

wiązanych zasobów nie trafił na adres takiej strony, zadanie zazwyczaj kończyło się niepowo-

dzeniem (rys. 7.2.5.).

Lepsze wyniki aplikacji Lod Live są związane z możliwością zapoznania się z krótkim

opisem zasobu w specjalnej sekcji tego programu. Użytkownicy wyszukiwali obiekt reprezen-

tujący aktora, a następnie wczytywali się w tekst.

Próby przeglądania sieci powiązań w celu odnalezienia odpowiedzi na zadane pytanie

w przypadku obu aplikacji zazwyczaj kończyły się niepowodzeniem.

Rys. 7.2.5. Wykres przedstawiający liczbę użytkowników, którym udało się wykonać trzecie

zadanie polegające na znalezieniu informacji o tym za rolę w jakim filmie aktor otrzymał

Oscara [%].

Ocena narzędzi i określenie oczekiwań użytkowników

Po samodzielnym zapoznaniu się z narzędziem, swobodnej eksploracji danych na te-

mat laureatów Nagrody Akademii Filmowej oraz wykonaniu przygotowanych zadań polega-

jących na odnalezieniu podstawowych informacji, uczestnicy badania mieli okazję ocenić po-

szczególne aspekty aplikacji poprzez udzielenie odpowiedzi na następujące pytania:

1. Czy udało się znaleźć oczekiwane informacje na zadany temat?

2. Czy obsługa aplikacji nie sprawiała trudności?

3. Czy dane były prezentowane w czytelny sposób?

4. Czy wyrażasz chęć korzystania z podobnego narzędzia do analizy danych z in-

nych dziedzin?

Odpowiedzią na powyższe pytania była liczba z przedziału od 1 do 10 dla każdej z badanych

aplikacji (im lepiej oceniana jest aplikacja, tym wyższa jest przypisywana jej liczba).

wysoki średni niski

0

10

20

30

40

50

60

70

80

90

100

Zadanie 3

LODmilla Lod Live Academy Award winners

Page 52: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

52

Osoby biorące udział w badaniu miały także za zadanie posegregować według istotności na-

stępujące cechy narzędzi do wizualizacji danych:

Prostota użycia

Czytelność prezentowanych danych

Dowolność analizowanego aspektu

Duża ilość dostępnych danych

Wyniki przeprowadzonych ankiet zostały zaprezentowane w tabelach 7.2.2. oraz 7.2.3.

Ocena poszczególnych aspektów porównywanych narzędzi nie różniła się znacząco

wśród poszczególnych grup użytkowników. Osoby o różnym poziomie zaznajomienia z no-

wymi technologiami wyrażały podobne opinie.

Najlepiej pod względem czytelności, prostoty obsługi i możliwości znalezienia oczeki-

wanych informacji oceniona została aplikacja Academy Award winners (rys. 7.2.6.). Zdecy-

dowanie słabiej wypadła aplikacja LODmilla, a najgorsze oceny przypadły Lod Live.

Rys. 7.2.6. Wykres przedstawiający ocenę czytelności, prostoty obsługi i możliwości znale-

zienia oczekiwanych informacji przez uczestników badania.

Oczekiwane informacje

Prostota obsługi

Czytelność

1 2 3 4 5 6 7 8 9 10

Academy Award winners Lod Live LODmilla

Page 53: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

53

Lp.

Poziom zn. nowych technologii

LODmilla Lod Live Acedemy Award winners

pyt2 pyt3 pyt4 pyt5 pyt2 pyt3 pyt4 pyt5 pyt2 pyt3 pyt4 pyt5

1 wysoki 2 2 2 1 4 4 2 1 10 10 9 6

2 niski 2 2 3 3 10 7 5 8 10 10 10 8

3 wysoki 6 6 5 3 8 7 8 6 8 9 6 4

4 wysoki 9 10 10 3 3 6 8 1 5 10 9 2

5 niski 5 5 5 7 1 1 1 1 10 10 10 7

6 średni 6 4 2 1 4 2 2 1 10 10 10 10

7 wysoki 10 9 6 8 8 6 1 1 10 10 10 10

8 średni 9 8 8 8 9 9 10 8 10 10 10 8

9 niski 5 5 8 9 2 3 2 1 9 7 9 9

10 wysoki 10 7 6 1 10 8 5 1 10 6 9 1

11 niski 8 7 8 6 3 2 2 1 9 9 8 7

12 niski 10 9 8 9 1 1 2 1 10 10 9 9

13 niski 9 6 7 6 1 2 6 1 7 8 6 3

14 średni 5 6 4 2 10 8 8 5 10 10 8 5

15 średni 8 8 8 6 5 7 5 4 6 10 10 8

16 niski 10 10 4 7 10 5 6 6 10 10 9 8

17 niski 4 9 10 6 6 10 8 7 8 8 10 7

18 wysoki 7 5 4 1 10 8 9 8 10 10 10 10

19 wysoki 7 9 8 9 2 2 1 1 3 8 4 3

20 wysoki 3 2 3 1 1 1 1 1 8 8 8 1

Średnia 6,75 6,45 5,95 4,85 5,4 4,95 4,6 3,2 8,65 9,15 8,7 6,3

Tabela 7.2.2. Ocena poszczególnych aspektów porównywanych aplikacji przez uczestników badania.

Page 54: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

54

Cecha narzędzi

Lp. Prostota

użycia Czytelność prezentowanych

danych Dowolność analizowanego

aspektu Duża ilość dostępnych

danych

1 1 3 4 2

2 1 3 2 4

3 1 2 4 3

4 3 1 2 4

5 2 3 4 1

6 3 1 2 4

7 1 2 3 4

8 4 1 3 2

9 4 1 3 2

10 1 3 4 2

11 1 2 4 3

12 3 1 2 4

13 1 3 4 2

14 3 4 1 2

15 4 2 3 1

16 3 2 4 1

17 1 3 4 2

18 1 2 4 3

19 4 1 3 2

20 1 2 4 3

Średnia 2,15 2,1 3,2 2,55

Tabela 7.2.3. Wyniki segregacji najważniejszych cech narzędzi do wizualizacji danych (naj-

ważniejsza cecha oznaczona jako 1).

Uczestnicy badania o niskim oraz średnim poziomie zaznajomienia z nowymi techno-

logiami wyrazili chęć wykorzystania narzędzia podobnego do Academy Award winners

do analizy danych z innych dziedzin (rys. 7.2.7.). Użytkownicy w największym stopniu zwią-

zani z nowymi technologiami neutralnie oceniają utworzoną w ramach pracy aplikację.

Osoby biorące udział w badaniu nie chciałyby ponownie pracować z aplikacjami

przedstawiającymi zawartość sieci semantycznej w formie grafu. Oceniają je negatywnie lub

neutralnie. Wyjątkiem jest grupa osób niezwiązanych z nowymi technologiami, która wyra-

ziła chęć ponownej pracy z aplikacją podobną do LODmilla.

Page 55: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

55

Rys. 7.2.7. Wyniki ankiety: chęć wykorzystania podobnych narzędzi do analizy danych

z innych dziedzin w zależności od poziomu zaznajomienia z nowymi technologiami.

Zdaniem uczestników badania, najważniejsze cechy narzędzi do wizualizacji danych

to prostota użycia oraz czytelność prezentowanych danych, które zostały uznane za ważniej-

sze od dużej ilości dostępnych danych oraz najmniej istotnej - dowolności analizowanego

aspektu (rys. 7.2.8.).

Rys. 7.2.8. Wyniki ankiety: najważniejsze cechy aplikacji do wizualizacji danych.

LODmilla

Lod Live

Academy Award winners

1 2 3 4 5 6 7 8 9 10

Niski Średni Wysoki

Prostota użycia

Czytelność prezentowanych danych

Dowolność analizowanego aspektu

Duża ilość dostępnych danych

Page 56: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

56

8. Podsumowanie

Wyniki przeprowadzonych w ramach pracy badań uwidaczniają istotność dostosowania

sposobu wizualizacji do konkretnych zastosowań. Najpopularniejsze obecnie metody

skupiające się na przedstawieniu nieprzetworzonej sieci powiązań i umożliwiające

swobodną eksplorację danych pod dowolnym kątem są niezastąpione przy pracy badawczej

nad analizą struktur sieci semantycznych. Część użytkowników niezwiązanych z nowymi

technologiami również uznaje je za interesujące i wyraża chęć pracy z aplikacjami opartymi

na tym podejściu.

Należy jednak pamiętać, że dowolność analizowanego aspektu będąca jedną

z największych zalet generycznych narzędzi do wizualizacji danych została uznana przez

uczestników badania za zdecydowanie mniej ważną od prostoty użycia aplikacji

i czytelności prezentowanych danych. Utworzenie niewielkiego programu skupiającego się

na wizualizacji wstępnie przetworzonych danych pozwoliło na osiągnięcie najlepszego

poziomu zadowolenia użytkowników ze wszystkich grup docelowych.

Chociaż metoda wizualizacji danych wykorzystana w przykładowej aplikacji Academy

Award winners była już stosowana do tworzenia programów ukazujących możliwości jakie

daje Linked Data, to nie była porównywana z metodami zakładającymi większą

uniwersalność narzędzi.

Uczestnicy badania nie byli w stanie wykorzystać możliwości, jakie dają bardziej

złożone programy. Chociaż odnalezienie własności pojedynczego obiektu nie sprawiało im

dużych trudności, to analiza połączeń pomiędzy zasobami, będąca podstawową funkcją

narzędzi przedstawiających sieć semantyczną w formie grafu, wydawała się nie

interesować większości osób biorących udział w badaniu. Chęć ponownego wykorzystania

jednego z narzędzi generycznych przez użytkowników w najmniejszym stopniu

związanych z nowymi technologiami może więc wynikać z jego wizualnej atrakcyjności.

Najbardziej negatywne oceny aplikacji opartych na podejściu zakładającym swobodą

eksplorację danych przez śledzenie połączeń pomiędzy zasobami wyraziły osoby dobrze

zaznajomione z nowymi technologiami. Użytkownicy z tej grupy najszybciej irytowali się

podczas pracy z narzędziami działającymi w nieszablonowy sposób. Wynika to

z przyzwyczajenia do tradycyjnych form wyszukiwania informacji i oczekiwania

uzyskania natychmiastowych wyników na zapytania kierowane do programu bez

konieczności samodzielnej eksploracji.

Aplikacje LODmilla oraz Lod Live można usprawnić przez rozwinięcie funkcji

wyszukiwania informacji, która obecnie sprowadza się do załadowania pojedynczego

zasobu. Oczekiwanym przez wielu uczestników badania sposobem wyszukiwania jest

wprowadzanie złożonych zapytań w języku naturalnym pozwalających na jednoczesne

załadowanie kilku obiektów oraz wykorzystanie jednej funkcji łączącej przeszukiwanie

zbioru zasobów z odnajdywaniem w nich konkretnych własności. Poprawić można również

wydajność tych narzędzi, aby rozwiązać problemy związane z wizualizacją sieci wielu

połączeń oraz przeglądaniem własności zasobów powiązanych z dużą liczbą obiektów.

Funkcjonalność narzędzia Academy Award winners można natomiast rozwinąć przez

zaimplementowanie mechanizmu sortowania prezentowanych wyników zgodnie

z oczekiwaniami użytkownika.

Aby umożliwić dynamiczny rozwój chmury Linked Open Data, niezbędna jest

dostępność łatwych w obsłudze aplikacji pozwalających na wizualizację jej zawartości.

Page 57: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

57

Chociaż programy zakładające eksploracyjny scenariusz analizy danych dobrze spełniają

swoje zadanie, obrazując ideę modelu danych powiązanych i umożliwiając wygodną pracę

osobom zajmującym się sieciami semantycznymi, to nie docierają do wszystkich grup

użytkowników. Badania nad wizualizacją Linked Data nie powinny więc skupiać się tylko

na tym podejściu.

Proponowanym sposobem na popularyzację idei Linked Data jest tworzenie wielu

niewielkich aplikacji skupiających się na przedstawieniu informacji na określony temat,

dobrze dostosowanych do realizowanego zadania i wykorzystujących ogromne możliwości

chmury Linked Open Data jako dynamicznego źródła danych. Liczne błędy, które na

obecnym poziomie rozwoju Linked Data nadal znajdują się w połączonych zbiorach

danych, mogą zostać łatwo zidentyfikowane i naprawione podczas tworzenia takich

programów.

Rozwiązania generyczne znajdą szersze zastosowanie, gdy sieć dostępnych na otwartej

licencji danych rozrośnie się, a poprawność dostępnych w niej danych zostanie

zweryfikowana.

Kolejnym krokiem badań powinna być analiza porównawcza sposobów tworzenia

aplikacji opartych na zaproponowanym podejściu skupiająca się na rozwiązaniach

technicznych - doborze odpowiednich technologii i sposobu pobierania danych z Linked

Open Data Cloud. Należy w nich zwrócić szczególną uwagę na rozpoczęty 18 maja 2016

roku projekt Eclipse RDF4J będący następcą frameworka Sesame. Wsparcie fundacji

Eclipse powinno zachęcić do pracy wielu nowych użytkowników i zapewnić dużą

dynamikę rozwoju przedsięwzięcia.

Page 58: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

58

Literatura

[1] Basham B., Sierra K., Bates B., Head first Servlets & JSP : edycja polska, Gliwice,

Helion, 2009

[2] Berners-Lee T., Linked Data, 2006

http://www.w3.org/DesignIssues/LinkedData.html [dostęp 27.05.2016]

[3] Bikakis N., Sellis T., Exploration and Visualization in the Web of Big Linked Data:

A Survey of the State of the Art. 6th International Workshop on Linked Web Data

Management, 2016

[4] Bizer C., Heath T., Linked Data: Evolving the Web into a Global Data Space.

Morgan & Claypool, 2011.

[5] Cyganiak R., Lanthaler M., Wood D., RDF 1.1 Concepts and Abstract Syntax, World

Wide Web Consortium, 2014

https://www.w3.org/TR/rdf11-concepts/ [dostęp 27.05.2016]

[6] Cyganiak R., Jentzsch A., The Linking Open Data cloud diagram, 2014

http://lod-cloud.net [dostęp 27.05.2016]

[7] Dadzie A.-S., Rowe M., Approaches to Visualising Linked Data: A Survey,

W: Semantic Web, IOS Press, 2014, 89-124

[8] Feigenbaum L., Prud’hommeaux E., SPARQL by Example, World Wide Web

Consortium, 2013

http://www.cambridgesemantics.com/semantic-university/sparql-by-example [dostęp

27.05.2016]

[9] Harris S., Seaborne A., SPARQL 1.1 Query Language, World Wide Web Consortium,

2013

https://www.w3.org/TR/2013/REC-sparql11-query-20130321/ [dostęp 29.04.2016]

[10] Hausenblas M., 5-star Open Data, 2012

http://5stardata.info [dostęp 27.05.2016]

[11] Mazumdar S., Petrelli D., Elbedweihy K., Lanfranchi V., Ciravegna F., Affective

graphs: the visual appeal of linked data. W: Semantic Web, IOS Press, 2015, 277-312

[12] Micsik A., Turbucz S., Tóth Z., Exploring publication metadata graphs with the

LODmilla browser and editor. W: International Journal on Digital Libraries, Springer,

2014

[13] Naik U., Shivalingaiah D., Comparative Study of Web 1.0, Web 2.0 and Web 3.0,

Allahabad, Caliber, 2008

[14] Sporny M., Longley D., Bazaar D., Kellogg G., Lanthaler M., Lindström N., JSON-LD

1.0, A JSON-based Serialization for Linked Data, World Wide Web Consortium, 2014

https://www.w3.org/TR/json-ld/ [dostęp 05.05.2016]

[15] Wood D., Zaidman M., Ruth L., Linked Data : structured data on the Web, Shelter

Island, Manning, 2014

Page 59: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

59

Spis rysunków

Rys. 3.1.1. Diagram przedstawiający chmurę Linked Open Data [6] w sierpniu 2014 roku.

Rys. 3.2.1 Diagram przedstawiający kolejne poziomy utworzonego przez Tima Berners-

Lee systemu oceny danych udostępnianych w Internecie [10].

Rys. 3.3.1. Diagram przedstawiający budowę trójki RDF i dopuszczalne wartości.

Rys. 4.1.1. Przykładowa reprezentacja zasobu w formie dokumentu HTML – DBpedia.

Rys. 4.1.2. Przykładowa reprezentacja zasobu w formie dokumentu HTML – Linked

MDB.

Rys. 5.1.1. Wykres fundacji Gapminder przedstawiający bogactwo i zdrowie narodów -

porównanie średniego przychodu na osobę oraz oczekiwanej długości życia

w poszczególnych państwach w 2013 roku.

Rys. 5.1.2. Dane na temat bogactwa i zdrowia narodów zaprezentowane na mapie świata.

Rys. 5.1.3. Thematic Mapping – oczekiwana długość życia w 2015 roku.

Rys. 5.2.1. Sposób prezentacji danych w Lod Live.

Rys. 5.2.2. Narzędzie LODmilla – sposób prezentacji danych.

Rys. 5.2.3. Narzędzie gFacet – graf przedstawiający informacje o piłkarzach grających

w Bundeslidze i reprezentacji Niemiec.

Rys. 5.2.4. Narzędzie RelFinder - graf przedstawiający powiązania pomiędzy filmami

„Pulp Fiction” i „Django Unchained”.

Rys. 5.2.5. Narzędzie Open Data Mashup – dane na temat wyników wyborów

zaprezentowane na wykresach Google.

Rys. 6.2.1. Sekcja Filters aplikacji Academy Award winners.

Rys. 6.2.2. Aplikacja Academy Award winners - informacje dotyczące laureatów nagrody

przedstawione na mapie.

Rys. 6.2.3. Aplikacja Academy Award winners - szczegółowe informacje widoczne po

klik-nięciu na punkt widoczny na mapie.

Rys. 6.2.4. Academy Award winners – ekran aplikacji ze zwiniętymi sekcjami filtrów i

mapy.

Rys. 6.2.5. Academy Award winners – kafelek z informacjami o laureacie Oscara.Rys.

7.1.1. Lod Live – informacje na temat rodziny i wykształcenia laureata Oscara.

Rys. 7.1.2. Lod Live – sekcja przedstawiające zdjęcia powiązane z zasobami

reprezentującymi aktorów.

Rys. 7.1.3. LODmilla – lista nagrodzonych aktorów widoczna w sekcji po prawej stronie

ekranu.

Rys. 7.1.4. LODmilla – funkcja odnajdywania ścieżek pomiędzy węzłami grafu.

Page 60: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

60

Rys. 7.1.5. Academy Award winners – pochodzenie wielokrotnych laureatów Oscara

przedstawione na mapie Stanów Zjednoczonych.

Rys. 7.2.1. Wykres przedstawiający średni czas wykonywania przygotowanych zadań [s].

Rys. 7.2.2. Wykres przedstawiający liczbę użytkowników, którym udało się wykonać

pierwsze zadanie polegające na znalezieniu informacji o tym, że aktor otrzymał

Oscara [%].

Rys. 7.2.3. Wykres przedstawiający liczbę użytkowników, którym udało się wykonać

drugie zadanie polegające na odnalezieniu zdjęcia aktora [%].

Rys. 7.2.4. Wykres przedstawiający liczbę użytkowników, którym udało się wykonać

czwarte zadanie polegające na wskazaniu miejsca urodzenia aktorki [%].

Rys. 7.2.5. Wykres przedstawiający liczbę użytkowników, którym udało się wykonać

trzecie zadanie polegające na znalezieniu informacji o tym za rolę w jakim

filmie aktor otrzymał Oscara [%].

Rys. 7.2.6. Wykres przedstawiający ocenę czytelności, prostoty obsługi i możliwości

znalezienia oczekiwanych informacji przez uczestników badania.

Rys. 7.2.7. Wyniki ankiety: chęć wykorzystania podobnych narzędzi do analizy danych

z innych dziedzin w zależności od poziomu zaznajomienia z nowymi

technologiami.

Rys. 7.2.8. Wyniki ankiety: najważniejsze cechy aplikacji do wizualizacji danych.

Spis tabel

Tabela 7.2.1. Czas wykonywania przygotowanych zadań w poszczególnych aplikacjach

[s].

Tabela 7.2.2. Ocena poszczególnych aspektów porównywanych aplikacji przez

uczestników badania.

Tabela 7.2.3. Wyniki segregacji najważniejszych cech narzędzi do wizualizacji danych

(najważniejsza cecha oznaczona jako 1).

Page 61: Praca dyplomowa - magisterskakopel/mgr/2016.06 mgr Rusiniak.pdfSemantic Web krótkie streszczenie: ... RDFa (Resource Description Framework in Attributes) to rozszerzenie języka HTML5

61

Załączniki

1. Dwie płyty DVD zawierające:

a. Instrukcję dla uczestnika badania.

b. Ankietę końcową dla uczestnika badania.

c. Kod źródłowy programu Academy Award winners.

d. Nagrania akcji użytkownika wykonywanych w czasie badań.