Czeski projekt archiwizacji Internetu

czeski projekt archiwizacji publikacji internetowych

„Problemem związanym z gromadzeniem, przechowywaniem oraz udostępnianiem źródeł elektronicznych, publikowanych w Internecie

i traktowanych jako część dziedzictwa narodowego czy narodowego zasobu informacji, bibliotekarze w świecie

zajęli się już w połowie lat 90.”

W Czechach natomiast projekt WebArchiv zainicjowano

w roku 2000, tylko kilka lat później, przez co nie odbiegają oni od czołówki światowej.

Nietrwałość zasobów sieciowych !

• około 90% ogólnej liczby publikacji dostępnych w sieci stanowią dokumenty istniejące jedynie w wersji

elektronicznej

• około 40 % publikacji znika z sieci w ciągu jednego roku

• około 40 % zmienia formę

• około 20 % po roku dostępna jest w pierwotnym kształcie

• przeciętny okres życia strony webowej to zaledwie 75 dni

W ramach pierwszej koncepcji dokumenty podzielono na:

W koncepcji tej starano się sformułować:

Warunki niezbędne do gromadzenia, archiwizowania oraz udostępniania publikowanych elektronicznych i zdigitalizowanych dokumentów w najbliższych

latach

Projekt powstał w roku 2000 w ramach programu badań i wdrożeń Ministerstwa

Kultury „Rejestracja, ochrona i udostępnianie krajowych źródeł elektronicznych w sieci

Internet”. Realizują go: Biblioteka Narodowa (NK ČR)

w Pradze, Morawska Biblioteka Ziemska (MZK) oraz Instytut Techniki Komputerowej

Uniwersytetu im. Masaryka (ÚVT MU) w Brnie. Ogólnie projekt liczy 11 osób (3 w Pradze oraz 8 w Brnie). Pierwszym kierownikiem projektu

była Ludmila Celbová, obecnie zaś szefem WebArchiv jest Libor Coufal

NK ČR - główny realizator od strony merytorycznej. Do jego zadań należy:

•wybór, ocena i opis źródeł•współpraca z wydawcami i pośrednictwo między nimi oraz

technicznych zapleczem w Brnie•prezentacja projektu

•obsługa serwera udostępniającego archiwum•prowadzenie internetowego portalu projektu

ÚVT MU – dba o techniczną stronę projektu:

•zbieranie danych w sieci•obsługa dwóch serwerów

•rozwój oraz testowanie narzędzi i procedur•utrzymanie sprzętu i oprogramowania

MZK – koordynuje wszystkie powyższe działania

Podstawowym celem WebArchiv było zidentyfikowanie i zarchiwizowanie wszystkiego, co było opublikowane

w ramach czeskiego Webu, czyli ujmując inaczej, chciano

utworzyć cyfrowe archiwum narodowych stron WWW. Dokument kwalifikowano jako narodowy w momencie, gdy

ten spełnił jedno z trzech poniższych kryteriów.

•został wydany na terytorium RCz•autorem jest osoba narodowości czeskiej

•jest napisany po czesku lub Czech dotyczy

„Zautomatyzowanego „zbierania” całego obszaru narodowego Webu (large – scale automated harvesting,

obejmujący również metadane)”

„Selektywnego archiwizowania (na podstawie URL najbardziej interesujących źródeł wybranych według,

przyjętych kryteriów, pozwalających uwzględnić publikacje wartościowe pod względem kulturowym, artystycznym,

naukowym i historycznym”

Ponadto zdecydowano się również na tworzenie kolekcji tematycznych odzwierciedlające ważne sprawy

bieżące.

„W przypadku pierwszej z nich, automatycznej, głównym kryterium jest internetowa domena .cz. Wówczas jednak pomija się źródła spełniające

kryteria narodowego dokumentu i znajdujące się w innych domenach, jak org., net., eu. Z tego względu opracowano i po raz pierwszy zastosowano

narzędzie WebAnalyzer, pozwalające na automatyczne, pełniejsze rozpoznanie narodowych stron WWW.”

„W przypadku selektywnego podejścia do archiwizowania Webu stosuje się z góry ustanowione kryteria doboru źródeł w celu uzyskania

jakościowej, reprezentatywnej próby "produkcji on-line". Preferowane są tu dokumenty zawierające oryginalne treści o dużej i długotrwałej wartości

z punktu widzenia kultury i nauki, jak czasopisma elektroniczne, monografie, materiały konferencyjne, raporty z badań, a nawet niektóre wartościowe weblogi i strony WWW poświęcone wyjątkowym tematom.

Uwzględniane są np. portale instytucji, które na swoich stronach publikują sprawozdania, raporty etc.”

„Tematyczna archiwizacja odbywa się według potrzeb i możliwości, uwzględnia wydarzenia ważne dla całego

społeczeństwa. Pozwoliła pozyskać sieciowe dokumenty dotyczące np. powodzi (2002), wyborów parlamentarnych (2006)

i prezydenckich (2008), Pragi olimpijskiej (2007) a nawet publikacje na głośne tematy kulturalne czy wręcz bibliotekarskie, jak Kronika Dalimila (2005), projektowanie nowego gmachu NK

ČR (2007) czy budowa Narodowej Biblioteki Technicznej w Pradze (2007).”

„Pozyskane pliki zapisywane są w formacie ARC, automatycznie nadając plikom odpowiednią strukturę oraz

dołączając do nich metadane. Oprócz formatu ARC, stosowanego na potrzeby archiwizacji, w projekcie WebArchiv są konsekwentnie przestrzegane inne

międzynarodowe standardy: do identyfikacji źródeł - ISSN i URN, zaś do opisu dokumentów - MARC21, Dublin Core,

XML… Ściągnięte dane (sieciowe pliki i metadane) są układane i przechowywane na specjalnym serwerze

podłączonym do krajowej sieci akademickiej CESNET. Obok serwera archiwizacji służy pole dyskowe (redundant disk

array - RAID). „

„Warto wspomnieć, że nie wszystkie składniki penetrowanych stron są archiwizowane. WebArchiv gromadzi

głównie teksty, aczkolwiek, jeśli tego wymaga kontekst, uwzględnia również elementy graficzne i audiowizualne.

Z grubsza przyjęto limit 100 MB dla ściąganego pliku, z kolei dla większości penetrowanych źródeł przyjęto zalecenie

ograniczające ściąganie do 5000 plików/źródło „

„W celu pełnotekstowej indeksacji dokumentów, archiwizowanych…w formacie ARC, stosuje się

oprogramowanie Nutchwax, stanowiące nakładkę do systemu wyszukiwawczego Nutch. Nutchwax dodaje do formatu

potrzebne metadane, przede wszystkim czasowy stempel. W projekcie WebArchiv narzędzie to jest wykorzystane do indeksowania zbioru źródeł pozyskiwanych na podstawie umów z wydawcami, które można w pełni udostępniać w

trybie on-line.”

W pierwszym chodzi o dostęp kogokolwiek, kiedykolwiek i z dowolnego miejsca do zasobów WebArchivu poprzez Internet. Ten pełny, wolny dostęp dotyczy jednak tylko

dokumentów pozyskiwanych podczas selektywnego (ręcznego) wybierania, które zostały objęte umowami z wydawcami. Pozostałe dokumenty, pochodzące głównie

z automatycznego skanowania Webu, są udostępniane tylko na wybranych stacjach PC zainstalowanych w Centrum Informacji NK ČR. Można się z nimi zapoznać

w celach naukowych i edukacyjnych, nie wolno ich kopiować. W tym drugim trybie można korzystać z całego zasobu WebArchivu. W celu wyszukiwania i udostępniania dokumentów jest obecnie stosowane oprogramowanie Wayback, rozwijane w języku

Java i opracowane w 2001 r. w Internet Archive. Dokumenty są indeksowane i udostępniane za pomocą URL. Po wpisaniu konkretnego

adresu strony, system pokaże listę wszystkich jej archiwizowanych kopii łącznie z datami ich utworzenia .System może pracować w trzech trybach: Archival URL, Proxy

oraz Timeline. Dokumenty opatrzone umową z wydawcami można otworzyć i przeglądać w zwykły sposób. Wayback, niestety, nie pozwala wyszukiwać w pełnych

tekstach poprzez słowa kluczowe.

•2001 Zarchiwizowano pierwszy dokument sieciowy

•2003 Uruchomiono pierwszy projekt pilotażowy

•2005 „Osiągnięto pierwsze praktyczne wyniki. Udostępniono część cyfrowego archiwum w trybie on-line (chodzi o te źródła elektroniczne, publikowane

przez wydawców, z którymi NK ČR podpisała umowy).”

•2006 „na INFORUM projekt WebArchiv otrzymał nagrodę jako jeden z najważniejszych i najlepszych produktów, usług lub przedsięwzięć, związanych z elektronicznymi

źródłami informacji, zaistniałych w roku 2005.”

•2006 „…weszło w Czechach w życie znowelizowane - zgodnie z Dyrektywą 2001/29/EC - prawo autorskie. Dzięki tej nowelizacji można było już udostępniać cały WebArchiv do

celów naukowych i na użytek prywatny, jednak nie w trybie on-line. Zmusza to organizatorów WebArchivu do zawierania umów z poszczególnymi wydawcami

dokumentów internetowych. Najpierw zawarto próbnie 12 umów umożliwiających NK ČR w Pradze wyszukiwanie, ściąganie, kopiowanie, archiwizowanie i udostępnianie

dokumentów elektronicznych, początkowo jedynie użytkownikom biblioteki (tylko do oglądania i tylko na wybranych terminalach). Wydawca podpisujący umowę zgadza się jednocześnie na włączenie opisów tych dokumentów do czeskiej bibliografii narodowej

oraz zobowiązuje się do tworzenia lub zamieszczania danych o dokumencie elektronicznym w standardzie Dublin Core. Obecnie zawarto ponad 1200 umów z

wydawcami.”

•2007 „…przyjęcie organizatorów WebArchivu do międzynarodowego konsorcjum IIPC (International Internet Preservation Consortium) w 2007 r. Konsorcjum powstało w 2003 r. i jego misją jest gromadzenie i przechowywanie wiedzy i informacji opublikowanych

•w Internecie tak, żeby były dostępne dla przyszłych generacji, a także wspieranie ogólnoświatowej wymiany tych informacji oraz doświadczeń. W tym celu IIPC łączy

instytucje zajmujące się archiwizacją Webu i wspiera międzynarodową współpracę na tym polu.”

•2008 – 2011 „WebArchiv współpracuje również przy nowym europejskim projekcie LiWA (Liwing Web Archives -) związanym z rozwojem technologii potrzebnych do

penetracji, pozyskiwania i archiwizowania dokumentów sieciowych, tworzonych na różne nowe sposoby. Projekt, przewidziany na luty 2008 - styczeń 2011 r., jest finansowany

przez Wspólnotę Europejską ze środków jej siódmego programu ramowego. Uczestniczy w nim ośmiu partnerów (instytucje badawcze, archiwa webowe) z pięciu

krajów europejskich.”

„…Trzeba przyznać, że tempo tworzenia, opracowania, archiwizowania i udostępniania narodowego zasobu sieciowych wydawnictw elektronicznych

w Czechach nie było w pierwszych latach imponujące…. Najważniejsze jest jednak to, że projekt WebArchiv został podjęty, przemyślany, przetestowany

i wdrożony. Udało się już - co najważniejsze z punktu widzenia użytkowników - udostępnić archiwizowane dokumenty, chociaż nie wszystkie w pełni publicznie (on-line). Projekt stał się integralną częścią Narodowej Biblioteki Cyfrowej, jest

kontynuowany i doskonalony. Uczestniczy efektywnie w międzynarodowej współpracy nad archiwizacją zasobów internetowych.”

•Do prezentacji został użyty artykuł K. Kwiatkowska-Žák, Petr Žák:

Webarchiv - czeski projekt archiwizacji publikacji internetowych

Przemysław Kowalski

Czeski projekt archiwizacji Internetu

Education

Transcript of Czeski projekt archiwizacji Internetu

Infomator Do Internetu

Dzień Bezpiecznego Internetu

Prezentacja programu Otwarty System Archiwizacji

Podstawowe elementy Internetu

SZANSE I ZAGROŻENIA INTERNETU

Czeski system kwalifikacji - ibe.edu.pl · Czeski system edukacji • W kształceniu na poziomie średnim bierze udział 92% młodzieży – więcej osób idzie do szkół zawodowych

OBSZARY EDUKACYJNYCH ZASTOSOWAŃ INTERNETU€¦ · Obszary edukacyjnych zastosowań Internetu Wyróżnić można trzy podstawowe obszary zastosowań Internetu w edu-kacji17: wytwarzanie

DZIEŃ BEZPIECZNEGO INTERNETU

ServisiServisi nnaa Internetu Internetu -- uvoduvodtelekomunikacije.etf.rs/predmeti/ot4ai/Servisi - uvod.pdf · ServisiServisi nnaa Internetu Internetu-- uvoduvod --ddrr Nenad Nenad

Podstawy projektowania do Internetu „Podstawy pisania do Internetu"

ABC internetu. Wydanie VII - pdf.helion.pl · zagrożeń korzystać z niezmierzonych możliwości fascynującego internetu! • Połączenie i konfiguracja internetu • Zakładanie

Usługa Powszechnej Archiwizacji – U4

„Czeski rynek stali na rozdrożu” Europejski Kongres Gospodarczy EEC 2011

11. Nowoczesne systemy archiwizacji

POLSKO-CZESKI Teatr

pniania Y Udost i Archiwizacji Dokumentów

Uzależnienie od Internetu

Akademia Internetu - SEM

Dzień Bezpiecznego Internetu Comarch

Usług a powszechnej archiwizacji PLATON-U4