Czeski projekt archiwizacji Internetu
description
Transcript of Czeski projekt archiwizacji Internetu
czeski projekt archiwizacji publikacji internetowych
„Problemem związanym z gromadzeniem, przechowywaniem oraz udostępnianiem źródeł elektronicznych, publikowanych w Internecie
i traktowanych jako część dziedzictwa narodowego czy narodowego zasobu informacji, bibliotekarze w świecie
zajęli się już w połowie lat 90.”
W Czechach natomiast projekt WebArchiv zainicjowano
w roku 2000, tylko kilka lat później, przez co nie odbiegają oni od czołówki światowej.
Nietrwałość zasobów sieciowych !
• około 90% ogólnej liczby publikacji dostępnych w sieci stanowią dokumenty istniejące jedynie w wersji
elektronicznej
• około 40 % publikacji znika z sieci w ciągu jednego roku
• około 40 % zmienia formę
• około 20 % po roku dostępna jest w pierwotnym kształcie
• przeciętny okres życia strony webowej to zaledwie 75 dni
W ramach pierwszej koncepcji dokumenty podzielono na:
W koncepcji tej starano się sformułować:
Warunki niezbędne do gromadzenia, archiwizowania oraz udostępniania publikowanych elektronicznych i zdigitalizowanych dokumentów w najbliższych
latach
Projekt powstał w roku 2000 w ramach programu badań i wdrożeń Ministerstwa
Kultury „Rejestracja, ochrona i udostępnianie krajowych źródeł elektronicznych w sieci
Internet”. Realizują go: Biblioteka Narodowa (NK ČR)
w Pradze, Morawska Biblioteka Ziemska (MZK) oraz Instytut Techniki Komputerowej
Uniwersytetu im. Masaryka (ÚVT MU) w Brnie. Ogólnie projekt liczy 11 osób (3 w Pradze oraz 8 w Brnie). Pierwszym kierownikiem projektu
była Ludmila Celbová, obecnie zaś szefem WebArchiv jest Libor Coufal
NK ČR - główny realizator od strony merytorycznej. Do jego zadań należy:
•wybór, ocena i opis źródeł•współpraca z wydawcami i pośrednictwo między nimi oraz
technicznych zapleczem w Brnie•prezentacja projektu
•obsługa serwera udostępniającego archiwum•prowadzenie internetowego portalu projektu
ÚVT MU – dba o techniczną stronę projektu:
•zbieranie danych w sieci•obsługa dwóch serwerów
•rozwój oraz testowanie narzędzi i procedur•utrzymanie sprzętu i oprogramowania
MZK – koordynuje wszystkie powyższe działania
Podstawowym celem WebArchiv było zidentyfikowanie i zarchiwizowanie wszystkiego, co było opublikowane
w ramach czeskiego Webu, czyli ujmując inaczej, chciano
utworzyć cyfrowe archiwum narodowych stron WWW. Dokument kwalifikowano jako narodowy w momencie, gdy
ten spełnił jedno z trzech poniższych kryteriów.
•został wydany na terytorium RCz•autorem jest osoba narodowości czeskiej
•jest napisany po czesku lub Czech dotyczy
„Zautomatyzowanego „zbierania” całego obszaru narodowego Webu (large – scale automated harvesting,
obejmujący również metadane)”
„Selektywnego archiwizowania (na podstawie URL najbardziej interesujących źródeł wybranych według,
przyjętych kryteriów, pozwalających uwzględnić publikacje wartościowe pod względem kulturowym, artystycznym,
naukowym i historycznym”
Ponadto zdecydowano się również na tworzenie kolekcji tematycznych odzwierciedlające ważne sprawy
bieżące.
„W przypadku pierwszej z nich, automatycznej, głównym kryterium jest internetowa domena .cz. Wówczas jednak pomija się źródła spełniające
kryteria narodowego dokumentu i znajdujące się w innych domenach, jak org., net., eu. Z tego względu opracowano i po raz pierwszy zastosowano
narzędzie WebAnalyzer, pozwalające na automatyczne, pełniejsze rozpoznanie narodowych stron WWW.”
„W przypadku selektywnego podejścia do archiwizowania Webu stosuje się z góry ustanowione kryteria doboru źródeł w celu uzyskania
jakościowej, reprezentatywnej próby "produkcji on-line". Preferowane są tu dokumenty zawierające oryginalne treści o dużej i długotrwałej wartości
z punktu widzenia kultury i nauki, jak czasopisma elektroniczne, monografie, materiały konferencyjne, raporty z badań, a nawet niektóre wartościowe weblogi i strony WWW poświęcone wyjątkowym tematom.
Uwzględniane są np. portale instytucji, które na swoich stronach publikują sprawozdania, raporty etc.”
„Tematyczna archiwizacja odbywa się według potrzeb i możliwości, uwzględnia wydarzenia ważne dla całego
społeczeństwa. Pozwoliła pozyskać sieciowe dokumenty dotyczące np. powodzi (2002), wyborów parlamentarnych (2006)
i prezydenckich (2008), Pragi olimpijskiej (2007) a nawet publikacje na głośne tematy kulturalne czy wręcz bibliotekarskie, jak Kronika Dalimila (2005), projektowanie nowego gmachu NK
ČR (2007) czy budowa Narodowej Biblioteki Technicznej w Pradze (2007).”
„Pozyskane pliki zapisywane są w formacie ARC, automatycznie nadając plikom odpowiednią strukturę oraz
dołączając do nich metadane. Oprócz formatu ARC, stosowanego na potrzeby archiwizacji, w projekcie WebArchiv są konsekwentnie przestrzegane inne
międzynarodowe standardy: do identyfikacji źródeł - ISSN i URN, zaś do opisu dokumentów - MARC21, Dublin Core,
XML… Ściągnięte dane (sieciowe pliki i metadane) są układane i przechowywane na specjalnym serwerze
podłączonym do krajowej sieci akademickiej CESNET. Obok serwera archiwizacji służy pole dyskowe (redundant disk
array - RAID). „
„Warto wspomnieć, że nie wszystkie składniki penetrowanych stron są archiwizowane. WebArchiv gromadzi
głównie teksty, aczkolwiek, jeśli tego wymaga kontekst, uwzględnia również elementy graficzne i audiowizualne.
Z grubsza przyjęto limit 100 MB dla ściąganego pliku, z kolei dla większości penetrowanych źródeł przyjęto zalecenie
ograniczające ściąganie do 5000 plików/źródło „
„W celu pełnotekstowej indeksacji dokumentów, archiwizowanych…w formacie ARC, stosuje się
oprogramowanie Nutchwax, stanowiące nakładkę do systemu wyszukiwawczego Nutch. Nutchwax dodaje do formatu
potrzebne metadane, przede wszystkim czasowy stempel. W projekcie WebArchiv narzędzie to jest wykorzystane do indeksowania zbioru źródeł pozyskiwanych na podstawie umów z wydawcami, które można w pełni udostępniać w
trybie on-line.”
W pierwszym chodzi o dostęp kogokolwiek, kiedykolwiek i z dowolnego miejsca do zasobów WebArchivu poprzez Internet. Ten pełny, wolny dostęp dotyczy jednak tylko
dokumentów pozyskiwanych podczas selektywnego (ręcznego) wybierania, które zostały objęte umowami z wydawcami. Pozostałe dokumenty, pochodzące głównie
z automatycznego skanowania Webu, są udostępniane tylko na wybranych stacjach PC zainstalowanych w Centrum Informacji NK ČR. Można się z nimi zapoznać
w celach naukowych i edukacyjnych, nie wolno ich kopiować. W tym drugim trybie można korzystać z całego zasobu WebArchivu. W celu wyszukiwania i udostępniania dokumentów jest obecnie stosowane oprogramowanie Wayback, rozwijane w języku
Java i opracowane w 2001 r. w Internet Archive. Dokumenty są indeksowane i udostępniane za pomocą URL. Po wpisaniu konkretnego
adresu strony, system pokaże listę wszystkich jej archiwizowanych kopii łącznie z datami ich utworzenia .System może pracować w trzech trybach: Archival URL, Proxy
oraz Timeline. Dokumenty opatrzone umową z wydawcami można otworzyć i przeglądać w zwykły sposób. Wayback, niestety, nie pozwala wyszukiwać w pełnych
tekstach poprzez słowa kluczowe.
•2001 Zarchiwizowano pierwszy dokument sieciowy
•2003 Uruchomiono pierwszy projekt pilotażowy
•2005 „Osiągnięto pierwsze praktyczne wyniki. Udostępniono część cyfrowego archiwum w trybie on-line (chodzi o te źródła elektroniczne, publikowane
przez wydawców, z którymi NK ČR podpisała umowy).”
•2006 „na INFORUM projekt WebArchiv otrzymał nagrodę jako jeden z najważniejszych i najlepszych produktów, usług lub przedsięwzięć, związanych z elektronicznymi
źródłami informacji, zaistniałych w roku 2005.”
•2006 „…weszło w Czechach w życie znowelizowane - zgodnie z Dyrektywą 2001/29/EC - prawo autorskie. Dzięki tej nowelizacji można było już udostępniać cały WebArchiv do
celów naukowych i na użytek prywatny, jednak nie w trybie on-line. Zmusza to organizatorów WebArchivu do zawierania umów z poszczególnymi wydawcami
dokumentów internetowych. Najpierw zawarto próbnie 12 umów umożliwiających NK ČR w Pradze wyszukiwanie, ściąganie, kopiowanie, archiwizowanie i udostępnianie
dokumentów elektronicznych, początkowo jedynie użytkownikom biblioteki (tylko do oglądania i tylko na wybranych terminalach). Wydawca podpisujący umowę zgadza się jednocześnie na włączenie opisów tych dokumentów do czeskiej bibliografii narodowej
oraz zobowiązuje się do tworzenia lub zamieszczania danych o dokumencie elektronicznym w standardzie Dublin Core. Obecnie zawarto ponad 1200 umów z
wydawcami.”
•2007 „…przyjęcie organizatorów WebArchivu do międzynarodowego konsorcjum IIPC (International Internet Preservation Consortium) w 2007 r. Konsorcjum powstało w 2003 r. i jego misją jest gromadzenie i przechowywanie wiedzy i informacji opublikowanych
•w Internecie tak, żeby były dostępne dla przyszłych generacji, a także wspieranie ogólnoświatowej wymiany tych informacji oraz doświadczeń. W tym celu IIPC łączy
instytucje zajmujące się archiwizacją Webu i wspiera międzynarodową współpracę na tym polu.”
•2008 – 2011 „WebArchiv współpracuje również przy nowym europejskim projekcie LiWA (Liwing Web Archives -) związanym z rozwojem technologii potrzebnych do
penetracji, pozyskiwania i archiwizowania dokumentów sieciowych, tworzonych na różne nowe sposoby. Projekt, przewidziany na luty 2008 - styczeń 2011 r., jest finansowany
przez Wspólnotę Europejską ze środków jej siódmego programu ramowego. Uczestniczy w nim ośmiu partnerów (instytucje badawcze, archiwa webowe) z pięciu
krajów europejskich.”
„…Trzeba przyznać, że tempo tworzenia, opracowania, archiwizowania i udostępniania narodowego zasobu sieciowych wydawnictw elektronicznych
w Czechach nie było w pierwszych latach imponujące…. Najważniejsze jest jednak to, że projekt WebArchiv został podjęty, przemyślany, przetestowany
i wdrożony. Udało się już - co najważniejsze z punktu widzenia użytkowników - udostępnić archiwizowane dokumenty, chociaż nie wszystkie w pełni publicznie (on-line). Projekt stał się integralną częścią Narodowej Biblioteki Cyfrowej, jest
kontynuowany i doskonalony. Uczestniczy efektywnie w międzynarodowej współpracy nad archiwizacją zasobów internetowych.”
•Do prezentacji został użyty artykuł K. Kwiatkowska-Žák, Petr Žák:
Webarchiv - czeski projekt archiwizacji publikacji internetowych
Przemysław Kowalski