Czeski projekt archiwizacji Internetu

22
czeski projekt archiwizacji publikacji internetowych

description

Czeski projekt archiwizacji Internetu w skrócie

Transcript of Czeski projekt archiwizacji Internetu

Page 1: Czeski projekt archiwizacji Internetu

czeski projekt archiwizacji publikacji internetowych

Page 2: Czeski projekt archiwizacji Internetu

„Problemem związanym z gromadzeniem, przechowywaniem oraz udostępnianiem źródeł elektronicznych, publikowanych w Internecie

i traktowanych jako część dziedzictwa narodowego czy narodowego zasobu informacji, bibliotekarze w świecie

zajęli się już w połowie lat 90.”

W Czechach natomiast projekt WebArchiv zainicjowano

w roku 2000, tylko kilka lat później, przez co nie odbiegają oni od czołówki światowej.

Page 3: Czeski projekt archiwizacji Internetu

Nietrwałość zasobów sieciowych !

• około 90% ogólnej liczby publikacji dostępnych w sieci stanowią dokumenty istniejące jedynie w wersji

elektronicznej

• około 40 % publikacji znika z sieci w ciągu jednego roku

• około 40 % zmienia formę

• około 20 % po roku dostępna jest w pierwotnym kształcie

• przeciętny okres życia strony webowej to zaledwie 75 dni

Page 4: Czeski projekt archiwizacji Internetu

W ramach pierwszej koncepcji dokumenty podzielono na:

Page 5: Czeski projekt archiwizacji Internetu

W koncepcji tej starano się sformułować:

Warunki niezbędne do gromadzenia, archiwizowania oraz udostępniania publikowanych elektronicznych i zdigitalizowanych dokumentów w najbliższych

latach

Page 6: Czeski projekt archiwizacji Internetu

Projekt powstał w roku 2000 w ramach programu badań i wdrożeń Ministerstwa

Kultury „Rejestracja, ochrona i udostępnianie krajowych źródeł elektronicznych w sieci

Internet”. Realizują go: Biblioteka Narodowa (NK ČR)

w Pradze, Morawska Biblioteka Ziemska (MZK) oraz Instytut Techniki Komputerowej

Uniwersytetu im. Masaryka (ÚVT MU) w Brnie. Ogólnie projekt liczy 11 osób (3 w Pradze oraz 8 w Brnie). Pierwszym kierownikiem projektu

była Ludmila Celbová, obecnie zaś szefem WebArchiv jest Libor Coufal

Page 7: Czeski projekt archiwizacji Internetu

NK ČR - główny realizator od strony merytorycznej. Do jego zadań należy:

•wybór, ocena i opis źródeł•współpraca z wydawcami i pośrednictwo między nimi oraz

technicznych zapleczem w Brnie•prezentacja projektu

•obsługa serwera udostępniającego archiwum•prowadzenie internetowego portalu projektu

Page 8: Czeski projekt archiwizacji Internetu

ÚVT MU – dba o techniczną stronę projektu:

•zbieranie danych w sieci•obsługa dwóch serwerów

•rozwój oraz testowanie narzędzi i procedur•utrzymanie sprzętu i oprogramowania

Page 9: Czeski projekt archiwizacji Internetu

MZK – koordynuje wszystkie powyższe działania

Page 10: Czeski projekt archiwizacji Internetu

Podstawowym celem WebArchiv było zidentyfikowanie i zarchiwizowanie wszystkiego, co było opublikowane

w ramach czeskiego Webu, czyli ujmując inaczej, chciano

utworzyć cyfrowe archiwum narodowych stron WWW. Dokument kwalifikowano jako narodowy w momencie, gdy

ten spełnił jedno z trzech poniższych kryteriów.

•został wydany na terytorium RCz•autorem jest osoba narodowości czeskiej

•jest napisany po czesku lub Czech dotyczy

Page 11: Czeski projekt archiwizacji Internetu

„Zautomatyzowanego „zbierania” całego obszaru narodowego Webu (large – scale automated harvesting,

obejmujący również metadane)”

„Selektywnego archiwizowania (na podstawie URL najbardziej interesujących źródeł wybranych według,

przyjętych kryteriów, pozwalających uwzględnić publikacje wartościowe pod względem kulturowym, artystycznym,

naukowym i historycznym”

Ponadto zdecydowano się również na tworzenie kolekcji tematycznych odzwierciedlające ważne sprawy

bieżące.

Page 12: Czeski projekt archiwizacji Internetu

„W przypadku pierwszej z nich, automatycznej, głównym kryterium jest internetowa domena .cz. Wówczas jednak pomija się źródła spełniające

kryteria narodowego dokumentu i znajdujące się w innych domenach, jak org., net., eu. Z tego względu opracowano i po raz pierwszy zastosowano

narzędzie WebAnalyzer, pozwalające na automatyczne, pełniejsze rozpoznanie narodowych stron WWW.”

„W przypadku selektywnego podejścia do archiwizowania Webu stosuje się z góry ustanowione kryteria doboru źródeł w celu uzyskania

jakościowej, reprezentatywnej próby "produkcji on-line". Preferowane są tu dokumenty zawierające oryginalne treści o dużej i długotrwałej wartości

z punktu widzenia kultury i nauki, jak czasopisma elektroniczne, monografie, materiały konferencyjne, raporty z badań, a nawet niektóre wartościowe weblogi i strony WWW poświęcone wyjątkowym tematom.

Uwzględniane są np. portale instytucji, które na swoich stronach publikują sprawozdania, raporty etc.”

Page 13: Czeski projekt archiwizacji Internetu

„Tematyczna archiwizacja odbywa się według potrzeb i możliwości, uwzględnia wydarzenia ważne dla całego

społeczeństwa. Pozwoliła pozyskać sieciowe dokumenty dotyczące np. powodzi (2002), wyborów parlamentarnych (2006)

i prezydenckich (2008), Pragi olimpijskiej (2007) a nawet publikacje na głośne tematy kulturalne czy wręcz bibliotekarskie, jak Kronika Dalimila (2005), projektowanie nowego gmachu NK

ČR (2007) czy budowa Narodowej Biblioteki Technicznej w Pradze (2007).”

Page 14: Czeski projekt archiwizacji Internetu

„Pozyskane pliki zapisywane są w formacie ARC, automatycznie nadając plikom odpowiednią strukturę oraz

dołączając do nich metadane. Oprócz formatu ARC, stosowanego na potrzeby archiwizacji, w projekcie WebArchiv są konsekwentnie przestrzegane inne

międzynarodowe standardy: do identyfikacji źródeł - ISSN i URN, zaś do opisu dokumentów - MARC21, Dublin Core,

XML… Ściągnięte dane (sieciowe pliki i metadane) są układane i przechowywane na specjalnym serwerze

podłączonym do krajowej sieci akademickiej CESNET. Obok serwera archiwizacji służy pole dyskowe (redundant disk

array - RAID). „

Page 15: Czeski projekt archiwizacji Internetu

„Warto wspomnieć, że nie wszystkie składniki penetrowanych stron są archiwizowane. WebArchiv gromadzi

głównie teksty, aczkolwiek, jeśli tego wymaga kontekst, uwzględnia również elementy graficzne i audiowizualne.

Z grubsza przyjęto limit 100 MB dla ściąganego pliku, z kolei dla większości penetrowanych źródeł przyjęto zalecenie

ograniczające ściąganie do 5000 plików/źródło „

Page 16: Czeski projekt archiwizacji Internetu

„W celu pełnotekstowej indeksacji dokumentów, archiwizowanych…w formacie ARC, stosuje się

oprogramowanie Nutchwax, stanowiące nakładkę do systemu wyszukiwawczego Nutch. Nutchwax dodaje do formatu

potrzebne metadane, przede wszystkim czasowy stempel. W projekcie WebArchiv narzędzie to jest wykorzystane do indeksowania zbioru źródeł pozyskiwanych na podstawie umów z wydawcami, które można w pełni udostępniać w

trybie on-line.”

Page 17: Czeski projekt archiwizacji Internetu

W pierwszym chodzi o dostęp kogokolwiek, kiedykolwiek i z dowolnego miejsca do zasobów WebArchivu poprzez Internet. Ten pełny, wolny dostęp dotyczy jednak tylko

dokumentów pozyskiwanych podczas selektywnego (ręcznego) wybierania, które zostały objęte umowami z wydawcami. Pozostałe dokumenty, pochodzące głównie

z automatycznego skanowania Webu, są udostępniane tylko na wybranych stacjach PC zainstalowanych w Centrum Informacji NK ČR. Można się z nimi zapoznać

w celach naukowych i edukacyjnych, nie wolno ich kopiować. W tym drugim trybie można korzystać z całego zasobu WebArchivu. W celu wyszukiwania i udostępniania dokumentów jest obecnie stosowane oprogramowanie Wayback, rozwijane w języku

Java i opracowane w 2001 r. w Internet Archive. Dokumenty są indeksowane i udostępniane za pomocą URL. Po wpisaniu konkretnego

adresu strony, system pokaże listę wszystkich jej archiwizowanych kopii łącznie z datami ich utworzenia .System może pracować w trzech trybach: Archival URL, Proxy

oraz Timeline. Dokumenty opatrzone umową z wydawcami można otworzyć i przeglądać w zwykły sposób. Wayback, niestety, nie pozwala wyszukiwać w pełnych

tekstach poprzez słowa kluczowe.

Page 18: Czeski projekt archiwizacji Internetu

•2001 Zarchiwizowano pierwszy dokument sieciowy

•2003 Uruchomiono pierwszy projekt pilotażowy

•2005 „Osiągnięto pierwsze praktyczne wyniki. Udostępniono część cyfrowego archiwum w trybie on-line (chodzi o te źródła elektroniczne, publikowane

przez wydawców, z którymi NK ČR podpisała umowy).”

•2006 „na INFORUM projekt WebArchiv otrzymał nagrodę jako jeden z najważniejszych i najlepszych produktów, usług lub przedsięwzięć, związanych z elektronicznymi

źródłami informacji, zaistniałych w roku 2005.”

Page 19: Czeski projekt archiwizacji Internetu

•2006 „…weszło w Czechach w życie znowelizowane - zgodnie z Dyrektywą 2001/29/EC - prawo autorskie. Dzięki tej nowelizacji można było już udostępniać cały WebArchiv do

celów naukowych i na użytek prywatny, jednak nie w trybie on-line. Zmusza to organizatorów WebArchivu do zawierania umów z poszczególnymi wydawcami

dokumentów internetowych. Najpierw zawarto próbnie 12 umów umożliwiających NK ČR w Pradze wyszukiwanie, ściąganie, kopiowanie, archiwizowanie i udostępnianie

dokumentów elektronicznych, początkowo jedynie użytkownikom biblioteki (tylko do oglądania i tylko na wybranych terminalach). Wydawca podpisujący umowę zgadza się jednocześnie na włączenie opisów tych dokumentów do czeskiej bibliografii narodowej

oraz zobowiązuje się do tworzenia lub zamieszczania danych o dokumencie elektronicznym w standardzie Dublin Core. Obecnie zawarto ponad 1200 umów z

wydawcami.”

•2007 „…przyjęcie organizatorów WebArchivu do międzynarodowego konsorcjum IIPC (International Internet Preservation Consortium) w 2007 r. Konsorcjum powstało w 2003 r. i jego misją jest gromadzenie i przechowywanie wiedzy i informacji opublikowanych

•w Internecie tak, żeby były dostępne dla przyszłych generacji, a także wspieranie ogólnoświatowej wymiany tych informacji oraz doświadczeń. W tym celu IIPC łączy

instytucje zajmujące się archiwizacją Webu i wspiera międzynarodową współpracę na tym polu.”

Page 20: Czeski projekt archiwizacji Internetu

•2008 – 2011 „WebArchiv współpracuje również przy nowym europejskim projekcie LiWA (Liwing Web Archives -) związanym z rozwojem technologii potrzebnych do

penetracji, pozyskiwania i archiwizowania dokumentów sieciowych, tworzonych na różne nowe sposoby. Projekt, przewidziany na luty 2008 - styczeń 2011 r., jest finansowany

przez Wspólnotę Europejską ze środków jej siódmego programu ramowego. Uczestniczy w nim ośmiu partnerów (instytucje badawcze, archiwa webowe) z pięciu

krajów europejskich.”

Page 21: Czeski projekt archiwizacji Internetu

„…Trzeba przyznać, że tempo tworzenia, opracowania, archiwizowania i udostępniania narodowego zasobu sieciowych wydawnictw elektronicznych

w Czechach nie było w pierwszych latach imponujące…. Najważniejsze jest jednak to, że projekt WebArchiv został podjęty, przemyślany, przetestowany

i wdrożony. Udało się już - co najważniejsze z punktu widzenia użytkowników - udostępnić archiwizowane dokumenty, chociaż nie wszystkie w pełni publicznie (on-line). Projekt stał się integralną częścią Narodowej Biblioteki Cyfrowej, jest

kontynuowany i doskonalony. Uczestniczy efektywnie w międzynarodowej współpracy nad archiwizacją zasobów internetowych.”

Page 22: Czeski projekt archiwizacji Internetu

•Do prezentacji został użyty artykuł K. Kwiatkowska-Žák, Petr Žák:

Webarchiv - czeski projekt archiwizacji publikacji internetowych

Przemysław Kowalski