dr Marek Nahotko - OPAC nahotko/metadane/schematy.pdf · • Etykiety tekstowe zamiast cyfrowych,...

37
Standardy metadanych dr Marek Nahotko Opis zasobów cyfrowych I r. SUM

Transcript of dr Marek Nahotko - OPAC nahotko/metadane/schematy.pdf · • Etykiety tekstowe zamiast cyfrowych,...

Standardy metadanychdr Marek Nahotko

Opis zasobów cyfrowych I r. SUM

PlanPlan

Podstawy– Rodzaje metadanych– Języki kodowania dokumentów i kodowanie znaków

MetaMapa

Syntaktyka: RDF

Formaty metadanych:– MARC, MODS– DC, ONIX– TEI, EAD, METS, MIX– FGDC.

PodstawyPodstawyOpisowe– Tytuł, autor, abstrakt, hasła przedmiotowe itp….

Techniczne i strukturalne– Rozmiar pliku, niezbędne oprogramowanie, typ pliku,

zasady prezentacji itp….

Administracyjne (zwane “meta-metadanymi”)– Numer rekordu, data utworzenia, pochodzenie rekordu

itp….

Prawa własności– Własność copyright, warunki wykorzystania itp….

Zarządzanie– [Zwykle przez/dla właściciela]: opłaty, zasady

udostępniania itp….

5 rodzajów metadanych

PodstawyPodstawyJęzyki kodowania:– Opisują strukturę dokumentu– Zawierają instrukcje dla oprogramowania przetwarzającego

tekst w celu: • indeksowania tekstu przez wyszukiwarki,• tworzenia prezentacji tekstu (na ekranie lub wydruku),• transformacji tekstu dla urządzeń wyjściowych (np. dla

syntezatorów mowy).– Kodowanie jest na ogół niewidoczne dla użytkownika

Extensible Markup Language (XML):– XML jest metajęzykiem

• Agencje definiują własny XML do własnych celów– Tworząc Document Type Definitions (DTDs) lub XML Schema

– Dane są oddzielone od instrukcji dot. prezentacji• Instrukcje dot. prezentacji trafiają do opisu stylu (style sheet)

– Pozwala uzyskać właściwe połączenie elastyczności z ustrukturyzowaniem

Języki kodowania dokumentów - XML

PodstawyPodstawyResource Description Format (RDF)– Metajęzyk oparty na teorii grafów (wierzchołki i krawędzie), o

syntaktyce XML, do wyrażania metadanych o zasobach Web– Zaprojektowany do maszynowego przetwarzania metadanych

(podstawowy RDF nie jest zbyt przyjazny dla człowieka)– Głównym elementem RDF jest trójka: (temat + predykat + obiekt)– Zarządzany przez W3C (World Wide Web Consortium)

Zalety RDF:– Kwestia dyskusji (zwykle wybór między RDF a XML)!– Za: oparte na modelu wyrażanie metadanych niezbędne dla

Semantycznego Webu; bardziej elastyczny, skalowalny i „wyrozumiały” niż XML

– Przeciw: RDF powoduje wzrost przetwarzania; dokumenty RDF mająza dużo słabych punktów; mało używany

Zastosowania RDF:– Open Directory Project, wybrane oprogramowanie (np. Siderean)– OCLC Connexion eksportuje Dublin Core w RDF/XML

Języki kodowania dokumentów - RDF

RDF - przykładWierzchołki i krawędzie

PodstawyPodstawy

Kodowanie znaków:– Stosowane dla przedstawiania znaków tekstu w

środowisku cyfrowym– Istnieją setki standardów kodowania znaków

narodowych– Konwersja znaków jest skomplikowana i kosztowna

Unicode: – Jeden, „powszechny” światowy standard kodowania

znaków– Zawiera znaki wszystkich ważniejszych

współczesnych, wielu mniejszych i wybranych martwych języków

Kodowanie znaków

http://mapageweb.umontreal.ca/turner/meta/english/metamap.html

MetaMapaMetaMapa

MARC 21MARC 21MARC 21 (ISO 2709)– Protokół komunikacyjny metadanych oparty na ISO 2709– Możliwość wyboru 2 opcji kodowania znaków:

• MARC 8 (ASCII, ANSEL, częściowo ISO, EACC)• Unicode (ograniczony do odpowiednika zestawu MARC)

– Możliwe zastosowanie XML– Zarządzanie: Library of Congress, współpr. NLC, BL

Zalety:• Dojrzały standard dobrze zarządzany• Szeroko stosowany w bibliotekarstwie na świecie• Dostępna olbrzymia liczba rekordów MARC 21• Możliwość swobodnego wyboru oprogramowania bibliotecznego

Wady (obecnie i w przyszłości): • Praktycznie nie stosowany poza bibliotekami• Ograniczenia rozmiarów pola i rekordu• Ograniczony zakres dostępnych skryptów• Ograniczona zdolność do wyrażania złożonych relacji, hierarchii,

atrybutów na poziomie etykiet/podpól

MARCXML

<datafield tag="100" ind1="1" ind2=" ">

<subfield code="a">Sandburg, Carl,</subfield>

<subfield code="d">1878-1967.</subfield>

</datafield>

<datafield tag="245" ind1="1" ind2="0">

<subfield code="a">Arithmetic /</subfield>

<subfield code="c">

Carl Sandburg ; illustrated as an anamorphic adventure by Ted Rand.

</subfield>

</datafield>

<datafield tag="250" ind1=" " ind2=" ">

<subfield code="a">1st ed.</subfield>

</datafield>

<datafield tag="260" ind1=" " ind2=" ">

<subfield code="a">San Diego :</subfield>

<subfield code="b">Harcourt Brace Jovanovich,</subfield>

<subfield code="c">c1993.</subfield>

</datafield>

<datafield tag="300" ind1=" " ind2=" ">

<subfield code="a">1 v. (unpaged) :</subfield>

<subfield code="b">ill. (some col.) ;</subfield>

<subfield code="c">26 cm.</subfield>

</datafield>

MARCXML

MODSMODSMetadata Object Description Schema (MODS) – W zasadzie przeróbka MARC 21 do środowiska XML

• Etykiety tekstowe zamiast cyfrowych, • Zestawy atrybutów MARC 21 scalone w jeden element MODS

– MARC 21 jest łatwo konwertowany do MODS, konwersja z powrotem z MODS do MARC 21nie jest bezstratna

– Zarządzanie: Library of Congress

Zalety MODS:– Obszerny, biblioteczny schemat metadanych w XML– Optymalny dla konwersji rekordów z MARC– Równie prosty jak DC– Odpowiedni jako format metadanych dla współpracy z OAI

Zastosowania MODS:– Konwersja rekordów MARC w LC z American Memory– Projekt Minerva, U of Chicago Press, California Digital Library, inni

stosują dla rekordów na stronach Web, e-tekstów.– Projekt bibliograficzny OpenOffice

MODSTitleInfo NoteName CartographicsType of resources SubjectGenre ClassificationPublicationInfo Related itemLanguage IdentifierPhysical description LocationAbstract Access conditionsTable of contents ExtensionTarget audience RecordInfo

MARC 21 & MODS MARC 21 & MODS Cecha MARC

21MARC

21 Unicode

MARC XML

MARC Slim

MODS

Structura ISO 2709 ISO 2709 XML XML XML

Kodowanie MARC 8 Unicode Unicode Unicode Unicode

Repertuar skryptów JACKPHY JACKPHY JACKPHY JACKPHY Unicode

Konwersja z MARC 21bezstrat. bezstrat. bezstrat.

minimal.strata bezstrat.

Konwersja do MARC 21bezstrat. bezstrat. bezstrat. bezstrat? małe straty

· Dane bibliograficzne OCLC OCLC R OCLC R OCLC R OCLC DCPS

· Dane autorytarne OCLC OCLC R

OCLC R

OCLC R x

· Klasyfikacja x OCLC R OCLC R x

· Użytkownicy x x x x

· Zasób OCLC x x x

JACKPHY - Japoński, Arabski, Chiński, Koreański, Perski, Hebrajski oraz Yiddish

Automatycznie

Silny

Numerycz.

XML

MARCXML

Przez specjalistów i automat.

Pod wpływem

Tekstowe

XML

MODS

Przez użytkown.,

specjalistów i automat.

Brak

Tekstowe

XML

RDF

(X)HTML

DC

Przez specjalistów

Silny

Numerycz.

ISO 2709 [ANSI Z39.2]

MARC

Przez użytkown.,

specjalistów i automat.

Brak

Tekstowe

XML

RDF

(X)HTML

QDC

Typowy sposób tworzenia

Format rekordu

Związek z AACR

Etykiety pól

DC, MARC & MODSDC, MARC & MODS

Dublin CoreDublin CoreDublin Core Metadata Element Set– ISO 15836:2003(E) The Dublin Core metadata element set– ISO 15836:2006(P) Informacja i dokumentacja – Zestaw elementów

metadanych Dublin Core– Standard dla wielodziedzinowego opisu zasobów

• Zaprojektowany głównie dla realizacji wyszukiwania– Definiuje semantykę a nie syntaktykę– Dostępny podstawowy lub kwalifikowany zestaw elementów DC – Zarządzanie: Dublin Core Metadata Initiative (DCMI)

Zalety Dublin Core:– Prostota, rozszerzalność współdziałanie– Globalne zastosowanie (DCMES tłumaczony na ponad 20 języków)– Przydatny jako schemat przełącznikowy między różnymi standardami

Zastosowania Dublin Core:– Open Archives Initiative (OAI) opiera się na metadanych DC– Stosowana duża liczba rozszerzonych wersji:

• W bibliotekach cyfrowych (dLibra), archiwach, muzeach• W programach e-government (AU, CA, DK, FI, IE, NZ, UK)

– Zastosowanie w OCLC: Connexion, DCPS, ContentDM, badania

ONIXONIXONIX International (Online Information Exchange):– Standardowy format wymiany danych dla wydawców i

księgarzy• Oparty na EPICS (EDItEUR Product Information Communication Standards)

– Służy reprezentacji i komunikacji informacji elektronicznej o produktach przemysłu wydawniczego

• Oferuje dwa poziomy szczegółowości (level 1 & level 2)– Zastosowanie schematu XML i Unicode– Zarządzanie: EDItEUR we współpracy z Book Industry

Communication (BIC) i Book Industry Study Group (BISG)Zalety of ONIX:– Zaspakaja potrzeby wydawców i księgarzy przez:

• Łatwiejszy dostęp do pełnych danych o książkach (dane bibliograficzne, sztuka ilustracyjna, spisy treści i wiele innych)

• Łatwy do zaimplementowania format wymiany danych

Zastosowanie ONIX:– Głównie przeznaczony dla wydawców i sprzedawców książek

• Większość głównych firm (Amazon, Baker & Taylor, etc.) stosuje ONIX

– Współpraca ONIX z bibliotekami i dostawcami ILS

ONIXProduct record

TEITEIText Encoding Initiative (TEI):– Służy kompleksowemu kodowaniu tekstów literackich– Możliwe stosowanie SGML jak i DTD XML– Nagłówek TEI (TEIH) może służyć jako rekord metadanych– Agencja zarządzająca: Konsorcjum TEI:

• Konsorcjum TEI posiada biura w Bergen (Norwegia) i na czterech uniwersytetach: Univ. of Bergen, Brown Univ., Oxford Univ., Univ. of Virginia

• Opisany w “P4” Guidelines for Electronic Text Encoding and Interchangehttp://www.tei-c.org/release/doc/tei-p4-doc/html/

Zalety TEI:– Posiada wersję XML– Zaprojektowany na potrzeby pracowników naukowych (gł.

humanistów) do różnych celów, w tym:• Dodawanie komentarzy naukowych do e-tekstów• Wspomagania badań przez tworzenie specjalnych indeksów itp.

Zastosowania TEI:– Szeroko stosowany w głównych zbiorach humanistycznych tekstów

elektronicznych (np. CETH, UVa e-text center i in.).

TEI – moduły elementów

TEI HeaderTEI Header

TEI HeaderTEI HeaderElement <teiHeader> posiada cztery zasadnicze części: – <fileDesc> zawiera pełny opis bibliograficzny

obiektu elektronicznego – <encodingDesc> opisuje relacje pomiędzy tekstem

elektronicznym a źródłem lub źródłami z których został on pobrany

– <profileDesc> zawiera szczegółowy opis niebibliograficznych aspektów tekstu, w szczególności stosowane języki, konketst, w którym powstał oraz osoby biorące udział w tworzeniu

– <revisionDesc> zawiera historię zmian dokonywanych w obiekcie.

EADEADEncoded Archival Description (EAD)– Format dla wyszukiwania elektronicznych zasobów archiwalnych– Utworzono EAD DTD (wersja z 2002) działający zarówno jako SGML

i XML DTD– Zarządzany wspólnie przez Library of Congress oraz Society of

American Archivists (SAA)

Zalety EAD: – Efektywnie zorganizowana prezentacja zasobu dokumentów

(głównie zbiorów archiwalnych i rękopiśmiennych)• Nagłówek EAD zawiera metadane do wyszukiwania• Umożliwia proste lub złożone kodowanie dla różnych poziomów

indeksowania• Pomocny w tworzeniu sieci dokumentów z linkami do określonych

obiektów w zasobie (albo bezpośrednio do obiektu albo poprzez rekord z linkiem do obiektu).

Zastosowania EAD:– Konwersja papierowych narzędzi wyszukiwawczych do cyfrowych– Szeroko stosowany przez uczelnie i archiwa w USA– W bazie RLG Archival Resources jest wiele opisów w EAD

Struktura EADStruktura EAD

EAD

METSMETSMetadata Encoding and Transmission Standard (METS)– Standard „konteneru” do kodowania danych do wyszukiwania,

archiwizowania i obsługi zasobów cyfrowych• Sześć modułów definiujących metadane opisowe, administracyjne,

strukturalne, własnościowe i inne• Pewne części obiektu METS mogą być zewnętrzne (np. rekord MODS dla

metadanych opisowych)– Zarządzający schematem: Library of Congress

Zalety METS:– Potrzeba METS określona na spotkaniach ekspertów metadanych

DLF (Digital Library Federation - http://www.diglib.org/)• Zróżnicowanie lokalnych metadanych nieopisowych szkodzi

skalowalności i współdziałaniu– Oferuje standard dla „pakietowania” obiektów dla archiwizacji,

umieszczania w repozytoriach itp.

Zastosowania METS:– LC: plany użycia dla filmów, audio i zasobów multimedialnych– Zastosowanie w OCLC DCPS, RLG, Harvard, Stanford, UC

Berkeley, National Library of Wales w różnych projektach

METS

METSMETSMETS Header – metadane dotyczące samego pliku METS, w tym data utworzenia, twórca, status itp.Descriptive Metadata – metadane opisowe dotyczące obiektu biblioteki cyfrowejAdministrative Metadata – metadane administracyjne dotyczące obiektu, w tym zagadnienia techniczne, copyright, informacje o źródle i cyfrowej archiwizacjiFile Inventory – zestaw wszystkich plików składających się na zawartość obiektu biblioteki cyfrowejStructural Map – opis struktury logicznej obiektu wraz z opisem sposobu powiązania z tą strukturą metadanych opisowych i administracyjnychStructural Links – wykaz linków między węzłami struktury logicznej zapisanej w Structural map, który jest stosowany do wykazania hiperlinków między plikami tworzącymi złożony obiekt biblioteki cyfrowejBehaviors – zapis sposobu funkcjonowania oprogramowania niezbędnego dla uzyskania dostępu do obiektu lub którejś z jego części.

METS

MIXMIXMetadata for Images in XML (MIX)– Schemat XML dla zestawu elementów danych technicznych

niezbędnych dla obsługi zasobów obrazów cyfrowych– Format dla wymiany i/lub przechowywania danych opisany w normie

NISO Data Dictionary - Technical Metadata for Digital Still Images(ANSI/NISO Z39.87-2006).

– Dotąd na wstępnym etapie rozwoju i testowania– Powstaje we współpracy: Library of Congress i NISO Technical

Metadata for Digital Still Images Standards CommitteeZalety MIX:– Dostarcza schemat XML dla wyrażania danych technicznych,

głównie dla obrazów cyfrowych nieruchomych i ruchomych– Można go używać z innymi schematami, np. METS i MODS jako

część systemu zarządzania i archiwizacji cyfrowych obrazówZastosowanie MIX:– OCLC DCPS, LC, inni planują lub testują– MIX jeszcze we wstępnym etapie rozwoju i testów

MIX

DC ONIX TEI EAD METS MIX

StrukturaHTML, XML

XML XML XML XML XML

Kodowanie Unicode Unicode Unicode Unicode Unicode

Repertuar znaków Unicode Unicode Unicode Unicode Unicode

Konwersja z MARC 21

Różna strataMinimalna

strata

Tylko nagłówki -

stratny

Tylko nagłówki -

stratny

Konwersja do MARC 21Minimalna

strata

Częśćdanych stratna

Tylko nagłówki bez

straty

Tylko nagłówki bez

straty

Główne zastosowanie Prosty opis do

wyszukiwania

Inf. o nowych

publikacjach

Kodowanie etekstów

naukowych

Wyszukiw. Obiektów

archiwalnych

Kontener z danymi

technicznymi

Dane techniczne

dla obrazów

Główny użytkownik Biblioteki, muzea,

archiwa, e-rząd

Wydawcy, księgarze

Naukowcy z dziedzin

humanist.

Archiwa, biblioteki

Archiwa, biblioteki

Archiwa, biblioteki

Agencja zarządzająca

DCMI EditeurTEI

Consortium LC + SAA LC LC

Zestawienie:Zestawienie:

CSDGM (inaczej FGDC)CSDGM (inaczej FGDC)Content Standard for Digital Geospatial Metadata (CSDGM) [wcześniej znany jako “FGDC”]– CSDGM Version 2 - FGDC-STD-001-1998– Definiuje terminologię i opis cyfrowych danych geoprzestrzennych– Zarządzany przez Federal Geographic Data Committee (FGDC)– Dostępna konwersja z FGDC do ISO 19115:2003(E) Geographic

information - Metadata;

Zalety FGDC:– Stanowi standard dla publikowania metadanych o zasobach

geoprzestrzennych– Szeroko stosowany przez agendy rządowe i biznes– Standard wykorzystywany przez wiele systemów i aplikacji

Zastosowania FGDC:– Stosowany lub przystosowany przez główne agencje

geoprzestrzenne.– Przydatność rozszerzona dzięki profilom (np. dla danych

biologicznych)

FGDC

FGDC

FGDC

LinkiLinkiDublin Core: http://www.dublincore.org

EAD: http://www.loc.gov/ead

FGDC: http://www.fgdc.gov/metadata/meta_stand.html

MARC 21: http://lcweb.loc.gov/marc/marcdocz.html

MARCXML: http://www.loc.gov/marc/marcxml.html

METS: http://www.loc.gov/standards/mets

MIX: http://www.loc.gov/standards/mix

MODS: http://www.loc.gov/standards/mods

ONIX: http://www.editeur.org/onix.html

RDF: http://www.w3.org/RDF

TEI: http://www.tei-c.org

OCLC Research: http://www.oclc.org/research