Metadane w polskich bibliotekach cyfrowych

Post on 05-Feb-2016

97 views 0 download

description

Metadane w polskich bibliotekach cyfrowych. Joanna Potęga Biblioteka Narodowa. „Cyfrowość bibliotek i archiwów”. Warszawa, 26-27 listopada 2009. Polskie biblioteki cyfrowe. 42 w Federacji Bibliotek Cyfrowych - PowerPoint PPT Presentation

Transcript of Metadane w polskich bibliotekach cyfrowych

1

Metadane w polskich

bibliotekach cyfrowych

Joanna Potęga

Biblioteka Narodowa

„Cyfrowość bibliotek i archiwów”. Warszawa, 26-27

listopada 2009

2

Polskie biblioteki cyfrowe

• 42 w Federacji Bibliotek Cyfrowych

– FBC – „serwis ten jest zbiorem zaawansowanych usług sieciowych opartych na zasobach cyfrowych dostępnych w polskich bibliotekach cyfrowych i repozytoriach uruchomionych w sieci PIONIER”.

• inne (biblioteki cyfrowe (PGd, ABI), prezentacje internetowe zdigitalizowanych obiektów (BUJ, KUL))

• zasoby:

– FBC – dostępnych ponad 300 tysięcy obiektów cyfrowych

– zdigitalizowane zbiory bibliotek, archiwów, muzeów, ośrodków badawczych oraz kolekcje prywatne

– dokumenty „born digital”

3

Metadane - dlaczego analiza?• jedno miejsce dostępu do metadanych

(FBC)

• przekazywanie metadanych do zagranicznych serwisów (m.in. Europeana)

• dostęp do informacji (użytkownicy)

• środowisko / warsztat pracy bibliotekarzy cyfrowych (w kontekście tworzenia metadanych):

– standardy

– schematy

– praktyka

4

Metadane - analiza

• Biblioteki cyfrowe dostępne w FBC*

– 40 bibliotek cyfrowych (pominięto PBI oraz planowaną Morską Bibliotekę Cyfrową)

• Analiza: wrzesień – październik 2009 r.

• Wykonanie: Agnieszka Wróbel (BUW), Joanna Potęga (BN)

* pobieranie metadanych przy pomocy protokołu OAI-PMH w wersji 2.0. - niezależne od stosowanych standardów tworzenia metadanych

5

Metadane - analiza• Podstawa opisu (dla materiałów

digitalizowanych):

– Kopia cyfrowa dokumentu oryginalnego (cechy formalne dok. analogowego wraz z informacjami chrakterystycznymi dla dokumentu cyfrowego) - 36

– Rozróżnienie wydawcy i dat wyd. (dok. oryg., dok. cyfrowego) - 3

– Nowy dokument elektroniczny - 1

• Standardy:

– Dublin Core - 38*

– MARC 21 - 1

– Własny - 1* Oprogramowanie: 37 – dLibra 2 – własne

1 – VTLS/Virtua

6

The Dublin Core Metadata Element Set, Ver. 1.1

ZawartośćContent

Własność intelektualnaIntellectual property

DookreślenieInstantiation

Tytuł (Title) Twórca (Creator) Data (Date)

Temat (Subject) Wydawca (Publisher)

Typ (Type)

Opis (Description) Współtwórca (Contributor)

Format (Format) –

Źródło (Source) Prawa (Right) Identyfikator (Identifer)

Język (Language)

Relacja (Relation)

Miejsce i czas (Zakres / zasięg Coverage)

7

Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu)

Wartości

Title Tytuł - 37Tytuł(y) - 1

Tytuły - 1Inny tutuł - 2Wariant tytułu - 2Tytuł oryginału- 1Podtytuł - 2Gatunek sceniczny -

1Miejsce powstania -

1Data powstania - 1

Tytuły właściwe (z podtytułami lub bez zapisywanymi w róznych konwencjach); tytuły czasopism (numeracja) ;cBN Polona tutył właściw i ozn. wyd. i/lub aders wydaw.

Creator Autor - 35Twórca - 3

Konsekwencja w składni: nazwisko, imie, ale braki w dopowiedzeniach (daty biograficzne) dla tej samej osoby

Subject Temat i słowa kluczowe - 31

Słowa kluczowe - 2Hasło przedmiotowe - 2Hasło przedmiotowe KABA

- 1Dziedzina – 1Brak - 1

Hasło przedmiotowe - 4Słowa kluczowe - 1Słowa kluczowe użytkowników - 1

8

Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu)

Wartości

Description

Opis - 33Adnotacje [uwagi] -

2Uwagi – 2Brak - 1

Wymiary - 1Abstrakt - 1Komentarz - 1

Informacje o innych tytułach, oznaczenie wydania, opis fizyczny, informacje o streszczeniu, defektach, liczbie skanów

Publisher Wydawca - 36Wydawca/Drukarz -

1Wydanie oryginalne

- 1

Miejsce wydania - 20Drukarz - 2

W elemencie nazwanym „Wydawca” też informacje o miejscu wyd. (część adresu wydawniczego)

Contributor

Współtwórca - 38 Instytucja sprawcza - 1

Różne sposoby zapisu dopowiedzeń (Wyd., Wydaw. lub ich brak)

Date Data wydania - 37Data wydania oryg. - 1

Data druku - 1Miejsce wydania - 1

Spotykany zapis: 1999 (wyd. oryg.) ; 2008 (wyd. cyfrowe)

Type Typ zasobu - 32 Typ dokumentu - 2Typ źródła - 1Rodzaj dokumentu - 1Typ publikacji – 1Brak - 1

Określenie typu dokumentu oryginalnego ; 631 różnych określeń – rekordowa liczba ; czasopismo - czasopisma

9

Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu)

Wartości

Format Format 36Format elektroniczny –

1Brak - 1

Format pliku cyfrowego zamieszczonego w BC

Identifier

Identyfikator zasobu - 34Identyfikator - 1Identyfikator dokumentu cyfrowego - 1Identyfikator publikacji – 1URL - 1

ISBN - 2ISSN - 2Sygnatura oryginału - 1Identyfikator obiektu cyfrowego - 2Identyfikator oryginału - 3

Nadawany automatycznie identyfikator OAI, ale też: sygnatura obiektu oryginalnego, przekierowania do opisu katalogowego, numery ISBN, ISSN

Source Źródło (32)Źródło- sygn. oryginału (1)Sygnatura (1)Sygnatura oryginału (1) ; Dokument oryg. (1)Brak – 2

Uwagi ; Współoprawny z ; Powiązania ; Prowieniencja ; Linki (wszystkie wystąpienia w 1 BC)

Instytucja przechowujca obiekt oryginalny,

Language

Język – 37Brak - 1

Różne sposoby zapisu informacji o jezyku treści (pol ; polski

10

Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu)

Wartości

Relation Powiązania - 36Seria [cykl] - 1Brak - 1

Katalog GAIK - 1OPAC WWW kat. online

- 1Seria - 1

Informacje o serii, związki z innymi tytułami, ale też: sygnatury wersji MF, płyt DVD

Coverage

Zakres - 37Brak – 1

Element choć wystepuje w schemacie, to jest praktycznie niewykorzystywany – pojawiają się pojedyncze wartości, np. informacje o zastosowanej skali mapy ; w jednej z BC informacja o trybie dostępu

Rights Prawa - 36Prawa do dysponowania publikacją - 1Brak - 1

Prawa do dysponowania publikacją - 1Licencja - 2Treść licencji- 1Tekst - 1Lokalizacja - 1 Lokalizacja oryginału - 2Konatakt - 1Digitalizacja - 2Sygnatura - 1Zespół archiwalny - 1Sygn. - 1

Informacje o miejscu przechowywania oryginału, informacja o właścicielu autorskich praw majątkowych, warunkach udostępniania (przekierowania do treści licencji, regulaminów), informacje o tyrbie dostępu (o ograniczeniach w dostępie do obiektu)

11

Elementy poza DC (rożne nazwy, ale równoważne informacje)

Interpretacja / Wartości

Wariant tytułu - 1Tytuł w języku angielskim - 1

Tłumaczenie tytułu przez BC

Wydanie - 1 Informacja o oznaczeniu wydania

Miejsce wydania - 4

Opis fizyczny - 1

Seria (1)

Tagi - 27Słowa kluczowe użytkowników - 1

Wyrażenia w języku naturalnym opisujące tematykę zasobu nadawane przez użytkowników

Uwagi - 5Adnotacje - 1Inf. tech. - 1

Dotyczące oryginału (braki, defekty), dotyczące obiektu cyfrowego (jakości), informacje o powiązaniach (tytuł poprzedni)

12

Elementy poza DC (rożne nazwy, ale równoważne informacje)

Interpretacja / Wartości

Numer zespołu archiwalnego - 2

Nazwa zespołu archiwalnego - 1

Uwagi archiwistów - 1

Identyfikator obiektu cyfrowego - 2

Numer identyfikacyjny nośnika? (płyty?)

Identyfikator oryginału - 1Sygnatura BCPW - 1Sygnatura oryginalna – 1

Sygnatury obiektu analogowego

Lokalizacja oryginału- 5Lokalizacja źródła - 2

Informacja o instytucji

przechowującej obiekt

OPAC - 1WebOPAC BN - 1

Przekierowanie do opisu w

katalogu komputerowym

Pełny opis katalogowy - 1 Link do publikacji w innej BC

13

Elementy poza DC (rożne nazwy, ale równoważne informacje)

Interpretacja / Wartości

Digitalizacja - 6Reprodukcja cyfrowa - 1

Informacje o wykonawcy digitalizacji

Sponsor digitalizacji - 2WWW - 1

WWW – przekierowanie do strony www sponsora digitalizacji

Publikacja - 1 Informacja o instytucji umieszczającej obiekt w BC (informacja głownie wykorzystywana do celów statystycznych w danej BC – tam, gdzie BC jest współtworzona przez wiele instytucji

Tryb dostępu - 1 Informacja o ograniczeniu w dostepie do siedziby jednostki

Strona wydawcy - 1 Przekierowanie do strony internetowej wydawcy

15

Metadane w polskich BC

• BC nie jest katalogiem bibliotecznym

• znaczna dowolność przy wpisywaniu danych

– większa elastyczność i intuicyjność danych (dla użytkownika, ale w konsekwencji: szum informacyjny)

– brak wsparcia takiego jakie daje KHW w katalogach

• brak słowników kontrolowanych dla poszczególnych atrybutów (Indeks autorów/twórców, Indeks słów kluczowych)

16

Metadane w polskich BC

• różnice w interpretacji poszczególnych elementów DC (przy zachowaniu jednorodengo nazewnictwa elementów)

• nierównoważne informacje w tym samym elemencie

• informacja tego samego typu w wielu różnych elementach

• przypadki umieszczania wielu wartości w jednym elemencie jako ciągłego tekstu (brak powtórzeń elementu – brak możliwości wyszukiwania po wartości)

• umieszczanie wielu informacji poza DC – lokalność informacji

17

Metadane w polskich BCCzynniki wpływające na jakość:

• różnorodność zasobów i ich specyfika

• różnorodność praktyk katalogowych instytucji współtworzących BC (także w BC konsorcyjnych)

• mechanizmy tworzenia metadanych przez bibliotekarzy / redaktorów cyfrowych

(ankieta październik/listopad 2009): 41 bibliotek – 29 odpowiedzi):

- tylko import bez ingerencji w dane – 1

- tylko import z ingerencją w dane – 3

- import i też samodzielne tworzenie opisów – 10

- samodzielne tworzenie opisów - 14

18

Metadane w polskich BC• Import – dane wyjściowe:

– MARC21 – 12 (+1 w przygotowaniu)

– MARC – 1

– MARC BN – 1

– MASTER – 1 (plany)

• Zalecenia do tworzenia opisów:

– TAK – 27

– NIE – 2

• Tylko zalecenia ogóle – 15

• Tylko zalecenia szczegółowe – 8

• Ogólne ze wskazówkami opisu dla poszczególnych typów dokumentów - 4

19

Federacja Bibliotek Cyfrowych• Wyszukiwanie – dane wyłącznie z 15 elementów DC

• Możliwość rozszerzenia protokołu OAI o dodatkowe elementy (pod warunkiem ujednoliconego schematu)

FBC:

„Zróżnicowanie tych opisów jest dla nas przeszkodą:

- w realizowaniu nowych zaawansowanych funkcji dla czytelników

- realizowaniu nowych zaawansowanych funkcji dla twórców bibliotek cyfrowych

- przekazywaniu metadanych obiektów z polskich bibliotek cyfrowych do zagranicznych serwisów”*

* Adam Dudczak, Marcin Werla Warsztaty nt. Opracowania zasobów bibliotek cyfrowych, Gniezno 6-8 września 2009 r.

20

Europeana – poziomy wymagań• Absolutne minimum:

– Unikalny i trwały identyfikator obiektu cyfrowego (URL, link do obiektu - isShwonBy i/lub isShownAt)

• Minimum (z wykorzystaniem uszczegółowień)

– KTO (dc:creator, dc:contributor itp.)

– CO (dc:title, europeana:type, dc:language itp.)

– KIEDY (dc:date itp.)

– GDZIE (dcterms:spatial itp.)

• Zwiększenie możliwości dostępu do obiektu:

- Rights, Provenance, Format, Relation itp…

21

Europeana Semantic Elements (ESE) 1. Elementy Dublin Core • Title

• Alternative

• Creator • Subject• Description

• TableofContents

• Publisher• Contributor • Date

• Created

• Issued

• Type• Format

• Extent• Medium

• Identifier • Source• Language• Relation

• isVersionOf; hasVersion;• isReplacedBy;replaces;• isRequiredBy; requires;• isPartOf; hasPart;• isReferencedBy;references;• isFormatOf; hasFormat;• conformsTo

• Coverage • Spatial • Temporal

• Rights• Provenance (dcterms)

Elementy DC: rekomendowane ; zalecane ; dodatkowe

22

•Language – język kraju dostawcy obiektu

•Country – kraj dostawcy treści

•Provider – dostawca obiektu

•Year – rok związany z obiektem (Time Line)

•Type – typ obiektu (wg Europeana: Text, Image, Video, Sound)

•HasObject – czy jest dostępna „miniaturka”

•Object – link do „miniaturki”

•Unstored – wszystko czego nie udało się przemapować

•Usertag – tagi użytkowników

•URI – unikalny identyfikator obiektu

• isShownAt – link do obiektu w pełnym kontekście informacji

• isShownBy – link do obiektu w najlepszej jakości

Europeana Semantic Elements (ESE) 2. Elementy Europeana

23

Metadane w polskich

bibliotekach cyfrowych

„Cyfrowość bibliotek i archiwów”. Warszawa, 26-27

listopada 2009

24

Dziękuję za uwagę

Joanna Potęga

Biblioteka Narodowa

„Cyfrowość bibliotek i archiwów”. Warszawa, 26-27

listopada 2009