Czeski projekt archiwizacji Internetu

czeski projekt archiwizacji publikacji internetowych

„Problemem związanym z gromadzeniem, przechowywaniem oraz udostępnianiem źródeł elektronicznych, publikowanych w Internecie

i traktowanych jako część dziedzictwa narodowego czy narodowego zasobu informacji, bibliotekarze w świecie

zajęli się już w połowie lat 90.”

W Czechach natomiast projekt WebArchiv zainicjowano

w roku 2000, tylko kilka lat później, przez co nie odbiegają oni od czołówki światowej.

Nietrwałość zasobów sieciowych !

• około 90% ogólnej liczby publikacji dostępnych w sieci stanowią dokumenty istniejące jedynie w wersji

elektronicznej

• około 40 % publikacji znika z sieci w ciągu jednego roku

• około 40 % zmienia formę

• około 20 % po roku dostępna jest w pierwotnym kształcie

• przeciętny okres życia strony webowej to zaledwie 75 dni

W ramach pierwszej koncepcji dokumenty podzielono na:

W koncepcji tej starano się sformułować:

Warunki niezbędne do gromadzenia, archiwizowania oraz udostępniania publikowanych elektronicznych i zdigitalizowanych dokumentów w najbliższych

latach

Projekt powstał w roku 2000 w ramach programu badań i wdrożeń Ministerstwa

Kultury „Rejestracja, ochrona i udostępnianie krajowych źródeł elektronicznych w sieci

Internet”. Realizują go: Biblioteka Narodowa (NK ČR)

w Pradze, Morawska Biblioteka Ziemska (MZK) oraz Instytut Techniki Komputerowej

Uniwersytetu im. Masaryka (ÚVT MU) w Brnie. Ogólnie projekt liczy 11 osób (3 w Pradze oraz 8 w Brnie). Pierwszym kierownikiem projektu

była Ludmila Celbová, obecnie zaś szefem WebArchiv jest Libor Coufal

NK ČR - główny realizator od strony merytorycznej. Do jego zadań należy:

•wybór, ocena i opis źródeł•współpraca z wydawcami i pośrednictwo między nimi oraz

technicznych zapleczem w Brnie•prezentacja projektu

•obsługa serwera udostępniającego archiwum•prowadzenie internetowego portalu projektu

ÚVT MU – dba o techniczną stronę projektu:

•zbieranie danych w sieci•obsługa dwóch serwerów

•rozwój oraz testowanie narzędzi i procedur•utrzymanie sprzętu i oprogramowania

MZK – koordynuje wszystkie powyższe działania

Podstawowym celem WebArchiv było zidentyfikowanie i zarchiwizowanie wszystkiego, co było opublikowane

w ramach czeskiego Webu, czyli ujmując inaczej, chciano

utworzyć cyfrowe archiwum narodowych stron WWW. Dokument kwalifikowano jako narodowy w momencie, gdy

ten spełnił jedno z trzech poniższych kryteriów.

•został wydany na terytorium RCz•autorem jest osoba narodowości czeskiej

•jest napisany po czesku lub Czech dotyczy

„Zautomatyzowanego „zbierania” całego obszaru narodowego Webu (large – scale automated harvesting,

obejmujący również metadane)”

„Selektywnego archiwizowania (na podstawie URL najbardziej interesujących źródeł wybranych według,

przyjętych kryteriów, pozwalających uwzględnić publikacje wartościowe pod względem kulturowym, artystycznym,

naukowym i historycznym”

Ponadto zdecydowano się również na tworzenie kolekcji tematycznych odzwierciedlające ważne sprawy

bieżące.

„W przypadku pierwszej z nich, automatycznej, głównym kryterium jest internetowa domena .cz. Wówczas jednak pomija się źródła spełniające

kryteria narodowego dokumentu i znajdujące się w innych domenach, jak org., net., eu. Z tego względu opracowano i po raz pierwszy zastosowano

narzędzie WebAnalyzer, pozwalające na automatyczne, pełniejsze rozpoznanie narodowych stron WWW.”

„W przypadku selektywnego podejścia do archiwizowania Webu stosuje się z góry ustanowione kryteria doboru źródeł w celu uzyskania

jakościowej, reprezentatywnej próby "produkcji on-line". Preferowane są tu dokumenty zawierające oryginalne treści o dużej i długotrwałej wartości

z punktu widzenia kultury i nauki, jak czasopisma elektroniczne, monografie, materiały konferencyjne, raporty z badań, a nawet niektóre wartościowe weblogi i strony WWW poświęcone wyjątkowym tematom.

Uwzględniane są np. portale instytucji, które na swoich stronach publikują sprawozdania, raporty etc.”

„Tematyczna archiwizacja odbywa się według potrzeb i możliwości, uwzględnia wydarzenia ważne dla całego

społeczeństwa. Pozwoliła pozyskać sieciowe dokumenty dotyczące np. powodzi (2002), wyborów parlamentarnych (2006)

i prezydenckich (2008), Pragi olimpijskiej (2007) a nawet publikacje na głośne tematy kulturalne czy wręcz bibliotekarskie, jak Kronika Dalimila (2005), projektowanie nowego gmachu NK

ČR (2007) czy budowa Narodowej Biblioteki Technicznej w Pradze (2007).”

„Pozyskane pliki zapisywane są w formacie ARC, automatycznie nadając plikom odpowiednią strukturę oraz

dołączając do nich metadane. Oprócz formatu ARC, stosowanego na potrzeby archiwizacji, w projekcie WebArchiv są konsekwentnie przestrzegane inne

międzynarodowe standardy: do identyfikacji źródeł - ISSN i URN, zaś do opisu dokumentów - MARC21, Dublin Core,

XML… Ściągnięte dane (sieciowe pliki i metadane) są układane i przechowywane na specjalnym serwerze

podłączonym do krajowej sieci akademickiej CESNET. Obok serwera archiwizacji służy pole dyskowe (redundant disk

array - RAID). „

„Warto wspomnieć, że nie wszystkie składniki penetrowanych stron są archiwizowane. WebArchiv gromadzi

głównie teksty, aczkolwiek, jeśli tego wymaga kontekst, uwzględnia również elementy graficzne i audiowizualne.

Z grubsza przyjęto limit 100 MB dla ściąganego pliku, z kolei dla większości penetrowanych źródeł przyjęto zalecenie

ograniczające ściąganie do 5000 plików/źródło „

„W celu pełnotekstowej indeksacji dokumentów, archiwizowanych…w formacie ARC, stosuje się

oprogramowanie Nutchwax, stanowiące nakładkę do systemu wyszukiwawczego Nutch. Nutchwax dodaje do formatu

potrzebne metadane, przede wszystkim czasowy stempel. W projekcie WebArchiv narzędzie to jest wykorzystane do indeksowania zbioru źródeł pozyskiwanych na podstawie umów z wydawcami, które można w pełni udostępniać w

trybie on-line.”

W pierwszym chodzi o dostęp kogokolwiek, kiedykolwiek i z dowolnego miejsca do zasobów WebArchivu poprzez Internet. Ten pełny, wolny dostęp dotyczy jednak tylko

dokumentów pozyskiwanych podczas selektywnego (ręcznego) wybierania, które zostały objęte umowami z wydawcami. Pozostałe dokumenty, pochodzące głównie

z automatycznego skanowania Webu, są udostępniane tylko na wybranych stacjach PC zainstalowanych w Centrum Informacji NK ČR. Można się z nimi zapoznać

w celach naukowych i edukacyjnych, nie wolno ich kopiować. W tym drugim trybie można korzystać z całego zasobu WebArchivu. W celu wyszukiwania i udostępniania dokumentów jest obecnie stosowane oprogramowanie Wayback, rozwijane w języku

Java i opracowane w 2001 r. w Internet Archive. Dokumenty są indeksowane i udostępniane za pomocą URL. Po wpisaniu konkretnego

adresu strony, system pokaże listę wszystkich jej archiwizowanych kopii łącznie z datami ich utworzenia .System może pracować w trzech trybach: Archival URL, Proxy

oraz Timeline. Dokumenty opatrzone umową z wydawcami można otworzyć i przeglądać w zwykły sposób. Wayback, niestety, nie pozwala wyszukiwać w pełnych

tekstach poprzez słowa kluczowe.

•2001 Zarchiwizowano pierwszy dokument sieciowy

•2003 Uruchomiono pierwszy projekt pilotażowy

•2005 „Osiągnięto pierwsze praktyczne wyniki. Udostępniono część cyfrowego archiwum w trybie on-line (chodzi o te źródła elektroniczne, publikowane

przez wydawców, z którymi NK ČR podpisała umowy).”

•2006 „na INFORUM projekt WebArchiv otrzymał nagrodę jako jeden z najważniejszych i najlepszych produktów, usług lub przedsięwzięć, związanych z elektronicznymi

źródłami informacji, zaistniałych w roku 2005.”

•2006 „…weszło w Czechach w życie znowelizowane - zgodnie z Dyrektywą 2001/29/EC - prawo autorskie. Dzięki tej nowelizacji można było już udostępniać cały WebArchiv do

celów naukowych i na użytek prywatny, jednak nie w trybie on-line. Zmusza to organizatorów WebArchivu do zawierania umów z poszczególnymi wydawcami

dokumentów internetowych. Najpierw zawarto próbnie 12 umów umożliwiających NK ČR w Pradze wyszukiwanie, ściąganie, kopiowanie, archiwizowanie i udostępnianie

dokumentów elektronicznych, początkowo jedynie użytkownikom biblioteki (tylko do oglądania i tylko na wybranych terminalach). Wydawca podpisujący umowę zgadza się jednocześnie na włączenie opisów tych dokumentów do czeskiej bibliografii narodowej

oraz zobowiązuje się do tworzenia lub zamieszczania danych o dokumencie elektronicznym w standardzie Dublin Core. Obecnie zawarto ponad 1200 umów z

wydawcami.”

•2007 „…przyjęcie organizatorów WebArchivu do międzynarodowego konsorcjum IIPC (International Internet Preservation Consortium) w 2007 r. Konsorcjum powstało w 2003 r. i jego misją jest gromadzenie i przechowywanie wiedzy i informacji opublikowanych

•w Internecie tak, żeby były dostępne dla przyszłych generacji, a także wspieranie ogólnoświatowej wymiany tych informacji oraz doświadczeń. W tym celu IIPC łączy

instytucje zajmujące się archiwizacją Webu i wspiera międzynarodową współpracę na tym polu.”

•2008 – 2011 „WebArchiv współpracuje również przy nowym europejskim projekcie LiWA (Liwing Web Archives -) związanym z rozwojem technologii potrzebnych do

penetracji, pozyskiwania i archiwizowania dokumentów sieciowych, tworzonych na różne nowe sposoby. Projekt, przewidziany na luty 2008 - styczeń 2011 r., jest finansowany

przez Wspólnotę Europejską ze środków jej siódmego programu ramowego. Uczestniczy w nim ośmiu partnerów (instytucje badawcze, archiwa webowe) z pięciu

krajów europejskich.”

„…Trzeba przyznać, że tempo tworzenia, opracowania, archiwizowania i udostępniania narodowego zasobu sieciowych wydawnictw elektronicznych

w Czechach nie było w pierwszych latach imponujące…. Najważniejsze jest jednak to, że projekt WebArchiv został podjęty, przemyślany, przetestowany

i wdrożony. Udało się już - co najważniejsze z punktu widzenia użytkowników - udostępnić archiwizowane dokumenty, chociaż nie wszystkie w pełni publicznie (on-line). Projekt stał się integralną częścią Narodowej Biblioteki Cyfrowej, jest

kontynuowany i doskonalony. Uczestniczy efektywnie w międzynarodowej współpracy nad archiwizacją zasobów internetowych.”

•Do prezentacji został użyty artykuł K. Kwiatkowska-Žák, Petr Žák:

Webarchiv - czeski projekt archiwizacji publikacji internetowych

Przemysław Kowalski

http://www.ebib.info/2009/107/a.php?kwiatkowska_zak

http://www.ebib.info/2009/107/a.php?kwiatkowska_zak

Czeski projekt archiwizacji Internetu

Education

Transcript of Czeski projekt archiwizacji Internetu