Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików...
Transcript of Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików...
Jonas Palm
Cyfrowa czarna dziura
Komentarz A.D. 2011
Artykuł o czarnej dziurze cyfrowej (The Digital Black Hole) powstał pięd lat temu, a pewne jego
części nawet przed sześcioma laty. W cyfrowym świecie czas płynie szybko, dlatego często mówi
się, że nie można przewidzied, co się stanie dalej niż za pięd lat. Stwierdzenie to okazało się
prawdziwe również w przypadku mojego artykułu. Z uwagi na fakt, że planuję napisad jego
kontynuację i zbadad, co się przez ten czas wydarzyło, przeprowadziłem kilka wywiadów z ludźmi
zajmującymi się długoterminowym przechowywaniem danych cyfrowych oraz masowym
skanowaniem.
Jednym ze zjawisk zauważonych przeze mnie i – co pokazały przeprowadzone wywiady – przez
innych, jest wolniejszy spadek cen nośników danych. Kiedy pisałem artykuł, szacowano, że wynosi
on 37% rocznie. Wydaje się, że dziś jest wolniejszy i wynosi 15-18% rocznie. Nie stanowi to jednak
problemu, gdyż cena nośników danych to jedynie ułamek całkowitych kosztów digitalizacji. Taśma
LTO4 kosztuje około 25 euro i ma pojemnośd 800 GB. Koszt wytworzenia takiej ilości informacji w
postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000
euro.
Istotniejsze jest jednak to, że wysokie koszty długoterminowego przechowywania skłoniły różne
instytucje do opracowania szeregu rozmaitych strategii konserwacji. Oczywiście pewien wpływ miał
również międzynarodowy kryzys finansowy, który oznaczał cięcia środków. Uważam jednak, że
nawet bez niego sytuacja wyglądałaby identycznie. Jeśli przyjmiemy, że potrzebne są najlepsze
rozwiązania dla dużych ilości materiałów, koszty długoterminowego przechowywania są w dalszym
ciągu olbrzymie. Wydaje się zatem, że ocena ryzyka staje się coraz częściej integralną częścią
strategicznego planowania długoterminowego przechowywania danych. Nadal występują
negatywne efekty skali, chociaż słyszałem od co najmniej jednej osoby zajmującej się archiwizacją
informacji cyfrowych, że jest dokładnie odwrotnie. Pokazuje to jedynie, że pojawiło się wiele
sposobów rozwiązania problemu długoterminowego przechowywania danych.
Wydaje się, że okres pięciu lat nie zmienia kosztów digitalizacji pliku graficznego. Według działu
skanowania MKC (Ośrodka Konwersji Nośników) Archiwum Narodowego Szwecji usprawnienia
techniczne w zakresie szybkości i jakości zostały w sensie ekonomicznym zniwelowane przez
zwiększone koszty produkcji (wynagrodzenia, pomieszczenia itp.).Mam nadzieję, że uda mi się
znaleźd czas na napisanie kontynuacji artykułu o czarnej dziurze cyfrowej. Zanim to nastąpi, proszę
przyjąd niniejsze uwagi z 2011 roku w formie, w jakiej znajdują się obecnie.
Wydaje się, że projekt cyfrowy łatwo jest zaplanowad, a jego wymyślenie to dobra zabawa. Nie ma
ograniczeo, możliwości są na pozór nieskooczone i wydaje się, że gdy materiał jest dostępny w
formie cyfrowej, jego wykorzystanie będzie ciekawe i tanie. Czy można chcied więcej?
W latach 60. w jednym z komiksów Disneya występowała postad o imieniu Gyro Gearloose.
Bohater ten wynalazł maszynę, która potrafiła odpowiedzied na każde pytanie. Finał był taki, że
Gyro zrezygnował z maszyny, bo nie mógł wymyślid wystarczającej liczby pytao dla wszystkich
odpowiedzi. Ta historyjka może posłużyd jako analogia dla dzisiejszego entuzjazmu towarzyszącego
projektom cyfrowym. Pod wpływem zachwytu nad rozwiązaniami, jakie oferuje digitalizacja, często
pomija się pytania dotyczące kosztów, zwłaszcza tych długoterminowych, ponoszonych w związku
z utrzymywaniem archiwów cyfrowych w stanie użyteczności. To entuzjastyczne podejście jest
ryzykowne, ponieważ proces konwersji służący do tworzenia plików cyfrowych na początku bywa
dośd drogi. Może więc okazad się, że jeśli zabraknie planów na przyszłośd a fundusze strukturalne
na konserwację nie zostaną zabezpieczone, inwestycja ta zostanie zmarnowana. Bez
długoterminowego planowania projekty digitalizacji mogą zacząd funkcjonowad jak czarne dziury w
kosmosie. Zeskanowane informacje, do których w świecie analogowym można dotrzed za pomocą
zmysłów, trafiają nagle do środowiska, w którym pozyskuje się je za pośrednictwem technologii
stale generującej koszty. Im więcej informacji zostanie przekształcanych na formę elektroniczną,
tym bardziej wrosną koszty dostępu do nich. Czarna dziura zacznie oddziaływad na projekt. Będzie
pochłaniad albo pieniądze, albo informacje: konieczne jest nieprzerwane finansowanie, w
przeciwnym razie dane zostaną stracone. Kiedy środki finansowe zaczną topnied, informacje wciąż
będzie można odzyskad, jednak po jakimś czasie dostęp do nich nie będzie możliwy z powodu
uszkodzenia plików, przestarzałych formatów lub nieaktualnej technologii. W takiej sytuacji
informacje cyfrowe na zawsze znikną w czarnej dziurze.
Przebieg typowego projektu digitalizacji można porównad do cyklu życia gwiazdy. Gwiazdy rodzą
się i umierają. Ten cykl życia obrazuje Ilustracja 1. Analogia stanie się oczywista, gdy etapy życia
gwiazdy zastąpimy etapami życia przeciętnego projektu digitalizacji (Ilustracja 2).
Ilustracja 1. Cykl życia gwiazd masywnych (opublikowany na stronie:
www.star.ucl.ac.uk/groups/hotstar/research.html)
Ilustracja 2. Cykl życia projektu digitalizacji (na podstawie zmodyfikowanej przez autora Ilustracji 1)
Dobre pomysły zawsze krążą wokół, jak materia międzygwiazdowa. Na początku gromadzone są
duże ilości energii, które przenosi się dalej, do etapu planowania i zabezpieczenia funduszy
projektu. Następnie projekt jest wdrażany, sprawy zaczynają nabierad kształtów, rozpoczyna się
digitalizacja. Kiedy wszystkie informacje przyjmą formę cyfrową i zostaną uporządkowane na
stronie internetowej, projekt staje się jasno świecącym nadolbrzymem, widocznym dla całego
świata. Wtedy jednak powstają nowe projekty, pojawiają się inne sfery zainteresowao, nasz
projekt zaczyna byd zaniedbywany i podupada. Organizatorzy w koocu decydują się go zakooczyd –
w ten sposób umiera kolejny dobry projekt. Nie wszystko musi jednak umrzed wraz z nim:
najważniejsze informacje mogą przetrwad, zgodnie z darwinowską zasadą doboru naturalnego, a
niektóre stare, dobre pomysły połączą się z nowymi i utworzą nowy projekt.
Podczas, gdy cykl o stosunkowo krótkiej przewidywanej długości życia może byd idealny dla
mniejszych projektów, które w sferze naszych zainteresowao pozostaną jedynie przez ograniczony
czas, w przypadku większych projektów rezygnacja z planu życia pliku wykraczającego poza ten
horyzont jest zbyt kosztowna. W takich przypadkach wybór, czy realizowad projekt, zależy tak
naprawdę od zaplanowania przyszłości. Projekt można rozpocząd lub nie, ale decyzja pozytywna
pociąga za sobą długoterminowe zobowiązania finansowe
Niniejszy artykuł zawiera analizę kosztów digitalizacji i długoterminowego przechowywania plików
w Riksarkivet (Archiwum Narodowe, RA) w Sztokholmie, w Szwecji. Analiza ta jest przykładowa,
ponieważ faktyczne koszty mogą wahad się pomiędzy różnymi instytucjami i krajami z uwagi na
różnice w kosztach pomieszczeo, wynagrodzeo itd. Mimo to, model szacowania kosztów ma
szerokie odniesienie i może byd stosowany do podobnych obliczeo w innych sytuacjach.
Koszty długoterminowego przechowywania
Archiwum Narodowe (Riksarkivet, RA) w Sztokholmie od lat 70. XX wieku otrzymuje coraz większe
ilości danych w formie cyfrowej; w 2005 dostało około 25 Tb (terabajtów). Aby móc zabezpieczyd
te dane na potrzeby użytkowania i przeprowadzania badao w przyszłości, Riksarkivet dwa lata
temu zainwestował w duży system przechowywania danych HSM (Hierarchical Storage
Management System – System Usystematyzowanego Zarządzania Archiwami), oparty na pracy
robota archiwizacyjnego. W tym przypadku jest to system z kasetą taśmową połączony z
serwerami i komputerami. System jest skonstruowany tak, aby: wykrywad i poprawiad błędy
danych w przechowywanych informacjach cyfrowych, oraz mógł przenosid dane do systemu
masowej archiwizacji następnej generacji.
Dane, które mają myd wykorzystane, są kopiowane z taśmy na serwer. Informacje w robocie
archiwizacyjnym właściwie nigdy nie są używane. Koszty generowane są nie przez nośniki danych
(ich koszty stanowią około 5%-10% sumy kosztów), ale przez pozostałą częśd systemu – sprzęt,
oprogramowanie, wsparcie, konserwację i zarządzanie/obsługę.
Zasadniczo RA otrzymuje dwa rodzaje informacji cyfrowych – informacje utworzone już w formie
cyfrowej oraz cyfrowe kopie tradycyjnych dokumentów i zapisów. Oryginalnie informacje
zawierają zapisy agencji paostwowych, natomiast cyfrowe kopie zapisów pochodzą ze zbiorów RA
utworzonych w celu otwarcia i udoskonalenia dostępu dla wszystkich zainteresowanych. Pliki
oryginalnie są dośd małe, ponieważ składają się głównie z baz danych. Natomiast pliki zawierające
zapisy zdigitalizowane stanowią prawie wyłącznie obrazy, dlatego zawierają więcej informacji i w
ostatecznym rozrachunku operowanie nimi jest droższe. Ta digitalizacja to wynik działao paostwa
mających na celu otwarcie (w określonym zakresie) dostępu do agencji rządowych przez 24
godziny na dobę.
Trzy lata temu w Riksarkivet rozpoczęto dyskusję na temat kosztów i problemów związanych z
długoterminowym przechowywaniem informacji cyfrowych. Wątpliwości dotyczyły tego, czy po
tym, jak materiały zostały zapisane w formie cyfrowej, taniej jest przez długi czas utrzymywad pliki
cyfrowe, czy też stosowad długoterminowe metody przechowywania za pomocą obrazów na
mikrofilmach sporządzonych na podstawie plików cyfrowych z zastosowaniem COM (Computer
Output Microfilm). W obu przypadkach przechowywane byłyby również oryginały. Punktem
otwierającym dyskusję było stwierdzenie, że w ramach projektów digitalizacji stworzono wiele
plików, które służą różnym celom, jednak nie jest jasne, czy pliki należy przez długi czas
przechowywad.
Wątpliwości wywołały dwa artykuły. Pierwszy z nich był autorstwa Stevena Puglii (Administracja
Archiwów i Zapisów Narodowych) i dotyczył kosztów projektów związanych z obrazami
cyfrowymi.1 Drugi został napisany przez Stephena Chapmana (Weissman Preservation Center,
Harvard University Library) i poruszał kwestię kosztów przechowywania w repozytorium.2 Artykuły
te jasno dowodzą, że sytuacja jest bardziej skomplikowana, niż mogłoby się wydawad.
Przechowywanie plików cyfrowych jest drogie.
Przeprowadziliśmy w Riksarkivet obliczenia w oparciu o koszty uporządkowanego systemu
zarządzania archiwami, który stosowaliśmy do przechowywania informacji cyfrowych. Kiedy wynik
naszych obliczeo porównaliśmy z wynikami Chapmana, okazało się, że są one podobne, co widad
na Ilustracji 3. W obu przypadkach porównano koszty przechowywania tej samej ilości informacji:
przeciętnej książki składającej się z 332 stron 1) w formacie oryginalnym, przechowywanej w
klimatyzowanym repozytorium, 2) w postaci mikrofilmu, przechowywanego w pomieszczeniach o
kontrolowanym klimacie, 3) w postaci obrazów cyfrowych bitonalnych o rozdzielczości 600 dpi
oraz 4) w postaci obrazów cyfrowych w skali szarości (8 bitów) o rozdzielczości 300 dpi. Obrazy w
skali szarości zajmują więcej miejsca, ich przechowywanie jest więc droższe, mimo że miejsce
przechowywania samo w sobie jest obecnie bardzo tanie i nie stanowi głównego czynnika
generującego koszy. Koszty przechowywania obejmują koniecznośd zarządzania danymi przez
system i ich konserwacji, a więc sprawdzanie ich kompletności, procedury tworzenia kopii,
kontrole w celu odzyskania informacji, automatyczne przenoszenie na nowe taśmy itd.
1 Steve Puglia, The Costs of Digital imaging Projects , [w:] RLG News, październik 1999 r.
2 Stephen Chapman , Counting the Costs of Digital Preservation: Is Repository Storage Affordable?,[w:] „Journal
of Digital Information”, nr 4(2), artykuł nr 178, maj 2003 r.
Ilustracja 3. Porównanie kosztów przechowywania przez RA i Harvard University Library identycznych
informacji w formacie mikrofilmu, oryginalnej wersji papierowej i w dwóch różnych formatach plików
cyfrowych.
Koszty przechowywania plików cyfrowych są znacznie wyższe, niż się powszechnie sądzi, gdyż
wymagają zaangażowania większej ilości środków. W trakcie dyskusji przedstawiciele branży
zasugerowali, że w miarę wzrostu ilości przechowywanych informacji szybciej rośnie obciążenie
ekonomiczne. Fakt, że pojemnośd nośników co roku się podwaja, powoduje błędne
przekonanie, iż ceny przechowywania szybko spadają. Sprawdza się to w krótkim okresie, czyli z
reguły krótszym niż 5 lat, ponieważ utrzymywanie dostępu do plików wymaga niewiele wysiłku.
Jednak w perspektywie długoterminowej koszty zarządzania będą stale rosnąd. Mówi o tym Jim
Gray, szef Bay Area Research Center firmy Microsoft:
Prawdziwe koszty generowane są jednak przy zarządzaniu. Ludzie z Wall Street
powiedzieli mi, że zarządzając przechowywanymi danymi co roku wydają 300 000 USD na
terabajt. Na jeden terabajt mają więcej, niż jednego administratora danych. Inne firmy
mówią o jednym administratorze na 10 TB, Google i Internet Archive mają jednego na 100
TB. Koszt tworzenia kopii, odtwarzania, archiwizowania, reorganizowania, powiększania i
zarządzania pojemnością zdaje się przerastad koszt sprzętu. To prawdziwe wyzwanie dla
speców od oprogramowania. Jeżeli przyjąd powyższe normy, to petabajt wymagałby 1000
administratorów.3
3 Wywiad w ACM Queue, nr 1(4), czerwiec 2003 r.
Ogólnie rzecz biorąc, koszty sprzętu wciąż maleją, a nośniki danych są tak tanie, że mają bardzo
niewielkie znaczenie. Istnieje jednak różnica między kosztami nośników danych a kosztami
komputerów (Ilustracje 4 i 5). Cena komputerów w odniesieniu do pojemności znacznie spadła,
tymczasem ilośd danych, z którymi pracują komputery, a więc ich wymagana zdolnośd
przetwarzania plików, znacznie wzrosła. Nie chodzi tu o operowanie większą ilością informacji –
często oznacza to po prostu posługiwanie się większą ilością opcji. Stanie się to jasne, gdy
porównamy koszt pojedynczego dysku twardego o pojemności 2 Tb, który kosztuje 450 euro, z
kosztem typowego sprzętu do systemu tworzenia kopii, którzy może kosztowad 10 razy tyle, czyli
4500 euro i więcej. W przypadku systemu HSM największe koszty związane są nie z nośnikami
danych, ale z odpowiednim sprzętem i oprogramowaniem.
Spadek kosztów przechowywania 1 Mb
Rok
Ilustracja 4. Spadek kosztów przechowywania 1 Mb danych na magnetycznych nośnikach danych.
Spadek cen przetwarzania komputerowego tego samego rodzaju informacji
Rok
Ilustracja 5. Spadek cen przetwarzania komputerowego tego samego rodzaju informacji
W przypadku dużych systemów do długoterminowego przechowywania danych ma
prawdopodobnie zastosowanie inny wzór rozwoju cen. Przyjęto, że okres funkcjonowania tych
systemów wynosi około 5 lat. Cena jest najwyższa w momencie pojawienia się takiego systemu.
Będzie ona spadad dopóki nie pojawi się system nowej generacji. Potem nastąpi kolejny skok
cenowy: ceny wzrosną, chociaż nie do tego samego poziomu, co na początku cyklu. W naszych
wyliczeniach założyliśmy niewielki spadek cen w każdej kolejnej generacji, wynoszący około 25%
(Ilustracja 6). Jest to jedynie założenie, jak w przypadku każdej innej próby przewidzenia
przyszłości archiwów cyfrowych, sięgającej poza horyzont 5-10 lat. Tego typu założenia mają na
celu zarysowanie uwarunkowao gospodarczych w przyszłości.
Ilustracja 6. Przewidywany spadek cen w dłuższej perspektywie czasowej dla dużych systemów archiwizacji.
Stosowany w RA system HSM z robotem taśmowym do długoterminowego przechowywania
zapisów cyfrowych ma całkowitą pojemnośd 200Tb, przy czym istnieje możliwośd powiększania jej
o 40Tb rocznie (jak już wspomniano, do tej pory wzrost wynosił zaledwie 25Tb rocznie). System
działa przez około 18 miesięcy, został zainstalowany w 2003 r. Koszty samego systemu i jego
obsługi pokazano na Ilustracji 7.
Przewidywany spadek cen systemu HSM
Specyfikacja kosztów 1. rok 2. rok 3. rok 4. rok 5. rok 5 lat
1 system archiwizacji HSM
cena w 2003 r. + 3% odsetek/rok
406 643 euro w ciągu 5 lat, 81 328/rok
94818 92379 89939 87499 85059 449694
Personel do obsługi, 0,6 pracownika etatowego, 40 000 euro na pracownika etatowego ze wszystkimi kosztami
24000 25200 26400 27660 28980 132240
Pomieszczenia 100m2, 126 euro na m
2
12600 12915 13237 13568 13908 66228
Serwis/wsparcie 22700 28900 28900 28900 28900 138300
Łączne koszty przechowywania 154118 159394 158476 157627 156847 786462
Roczny koszt przechowywania na Gb
3.85 1.99 1.32 0.98 0.78
Średni koszt przechowywania na Gb przez 5 lat
7.86
Nośnik danych 40Tb/rok
17930 11295 7116 4483 2824 43648
Personel do wprowadzania danych, 0,4 pracownika etatowego, 40 000 euro na pracownika etatowego ze wszystkimi kosztami
16000 16800 17600 18440 19320 88160
Roczne koszty wprowadzania danych (personel, nośnik danych)
33930 28095 24716 22923 22144 131808
Koszt wprowadzania danych na Gb
0.84 0.7 0.61 0.57 0.55 0.66
Łączny koszt nowo dodanego Gb
4.69 2.69 1.93 1.55 1.33
Średni łączny koszt na Gb za 5 lat 9.18
Ilustracja 7. Koszty systemu archiwizacji HSM w RA, Sztokholm, Szwecja. Koszty podano w euro.
Ilustracje 8 i 9 pokazują, jak spadad będą koszty sprzętu przy jednoczesnym wzroście kosztów płac
i pomieszczeo. Normalnie koszty wsparcia i aktualizacji powinny rosnąd, jednak w ramach umowy
między RA i sprzedawcą koszt został równomiernie rozłożony na 5 lat.
Gdy rozdzielimy koszty pomiędzy technologię, personel i pomieszczenia (Ilustracja 10), to okaże
się, że koszty pracy stanowią 39% ich sumy. Odsetek ten zwiększy się w najbliższych latach,
Ilustracja 8. Koszty sprzętu do systemu archiwizacji HSM.
Ilustracja 9. Koszty operacyjne systemu archiwizacji HSM w RA
ponieważ rosnąd będą stawki wynagrodzenia i potrzeba będzie większej liczby pracowników do
zarządzania systemu w miarę powiększania się jego pojemności. Nie wszyscy pracownicy będą
musieli mied wysokie kwalifikacje; wynagrodzenia w Szwecji nie są jednak tak zróżnicowane, jak w
niektórych innych krajach, dlatego nie będzie to miało istotnego wpływu na nasze wyliczenia.
Ilustracja 10. Podział kosztów systemu archiwizacji HSM w RA.
Przy próbie dokonania rzeczy niemożliwej, może nawet niedorzecznej, jaką jest sporządzenie
prognozy sięgającej poza okres 10 lat, jedyną pewną rzeczą jest to, że stawki wynagrodzeo
wzrosną, podobnie jak wskaźnik kosztów ogólnych. Obliczenia przeprowadzone dla Riksarkivet
oparte są na założeniu, że przeważająca ilośd informacji cyfrowych przechowywana będzie w
trybie biernym. Koszty personelu wiążą się z dostępem do danych, a sytuacja RA wymaga jedynie
ograniczonej liczby pracowników czuwających nad działaniem systemu, w przeciwieostwie do
firm, banków i Google (przykłady wymienione powyżej przez Jima Graya z Microsoft). Mimo to,
koszty personelu i pomieszczeo RA będą rosnąd. Na Ilustracji 11 pokazano, że łączne koszty
personelu, wsparcia i pomieszczeo przekroczą koszty sprzętu ponad dwunastokrotnie w ciągu 30
lat. Koszty nośników danych są na wykresie ledwie widoczne i to tylko w pierwszym
dziesięcioleciu.
Ilustracja 11. Przewidywane koszty rozwoju w RA
Koszty długoterminowego przechowywania zależą od częstotliwości działao: im częściej
przechowywane informacje są wykorzystywane, tym wyższe są koszty administracyjne. Gdy
częstotliwośd korzystania z informacji wzrasta, zwiększa się również zapotrzebowanie na serwery
zewnętrzne, z których można do tych informacji dotrzed. Jeśli w dotychczasowych obliczeniach
uwzględnimy czynniki kosztów związanych z przyszłą częstotliwością działao w RA w Sztokholmie,
uzyskamy następujący obraz. Biorąc pod uwagę negatywny efekt skali, a także zwiększoną
częstotliwośd wykorzystywania przechowywanych informacji, przewiduje się, że koszty obsługi
systemu i zarządzania nim w RA najprawdopodobniej wzrosną do poziomu stanowiąceg
wielokrotnośd kosztu sprzętu.
Ilustracja 12. Prawdopodobne skutki negatywnego efektu skali w RA w perspektywie długoterminowej
Wraz ze wzrostem liczby pracowników, wzrosną koszty pomieszczeo. Ponieważ trudno
przewidzied koszty wsparcia, przyjęto ich stały poziom, najprawdopodobniej jednak wzrosną one
wraz z rozmiarami systemu (Ilustracja 12).
Digitalizacja
Te scenariusze kosztów mogą skłonid do przemyśleo. Przedstawiając poziom długoterminowych
zobowiązao finansowych koniecznych do archiwizacji plików cyfrowych – nawet jeżeli będą one
jedynie utrzymywane w gotowości poprzez stałe odświeżanie – wskazują na potrzebę starannego
przeanalizowania początkowej inwestycji w digitalizację. Ryzyko, że materiały skooczą w cyfrowej
czarnej dziurze, jest coraz poważniejsze, ponieważ koszty samej digitalizacji również są wysokie.
Digitalizacja obejmuje różne czynności takie jak wybór, tworzenie opisów i metadanych,
zarządzanie projektem i faktyczna konwersja (skanowanie bądź robienie zdjęd aparatem
cyfrowym). Koszty skanowania są obecnie dobrze znane.
Jakośd skanu zależy od sprzętu, specyfikacji procesu, wiedzy na temat skanowanego materiału i
obchodzenia się z nim. Wybór sprzętu wiąże się z rodzajem materiału, który trzeba zeskanowad,
specyfikacje związane są z właściwościami i jakością oryginalnych informacji, a wiedza na temat
materiału, który ma byd przetworzony na wersję cyfrową, ma zasadnicze znaczenie dla kontroli
jakości, obchodzenia się z materiałem i ustalenia trybu organizacji pracy. Przy digitalizacji obrazów
i dźwięków niezbędna jest fachowa wiedza na temat treści i nośników, która zapewni optymalny
sposób utrwalenia informacji zawartych w oryginale.
W 2005 r. w Riksarkivet przeprowadzono obliczenia kosztów digitalizacji materiałów papierowych.
Riksarkivet dysponuje własnym zakładem skanowania, MKC (Medie konverterings centrum,
Centrum konwersji nośników danych), w którym w 2005 r. pracowało około 80 pracowników.
Skanowane obiekty to zapisy – oprawione i na arkuszach – oraz mapy i rysunki o dużych
formatach. Wszystkie poniższe dane liczbowe oparte są na informacjach MKC.
W MKC co roku skanuje się 5 milionów obrazów, przetwarza się je na 1-bitowe pliki o
rozdzielczości 600 dpi w formacie A4. Koszt każdego zeskanowanego pliku wynosi w przybliżeniu
0,10 euro. Zapisy są skanowane za pomocą automatycznego skanera. Rozkład kosztów tworzenia
pliku z obrazem cyfrowym przedstawiono na Ilustracji 13. Jedna trzecia kosztów przypada na
skanowanie, tymczasem przygotowanie, kontrola jakości, pozostałe czynności i administracja
składają się na główną częśd kosztów.
Ilustracja 13. Rozkład kosztów w zakładzie skanowania MKC w RA, Fransta, Szwecja.
Rysunki o dużym formacie skanowane są z zastosowaniem 8-bitowej skali szarości i
rozdzielczości 297 dpi, przy użyciu skanerów z ręcznym podajnikiem. Koszt utworzenia każdego
pliku to około 0,61 euro, przy czym co roku tworzy się 1 321 000 plików z obrazami. Koszty
zeskanowanych w ten sposób plików rozkładają się tak, jak pokazano na Ilustracji 14. W tym
wypadku same koszty skanowania stanowią prawie dwa razy większą częśd sumy wszystkich
kosztów (65%). Administracja to drugi co do wielkości czynnik kosztów, tymczasem pozostałe
koszty rozkładają się mniej więcej po równo.
Ilustracja 14. Rozkład kosztów w zakładzie skanowania RA, Fransta, Szwecja.
W przypadku digitalizacji informacji audiowizualnych sytuacja wygląda inaczej. Jest to proces
bardzo czasochłonny, w ramach którego produkowane są ogromne ilości informacji. Jest to
również jedyny przypadek, w którym digitalizacja stanowi jedyną możliwości przechowywania
materiałów. Innymi słowy, dla zachowania materiałów audiowizualnych konieczna jest ich
digitalizacja, a jej wynikiem będą ogromne ilości danych cyfrowych, które trzeba przechowywad i
konserwowad przez długi czas.
W 2004 r. szwedzkie Ministerstwo Kultury opublikowało raport Zachowad dźwięki i obrazy4, w
którym omówiono strategię zachowania zbiorów Paostwowego Archiwum Audiowizualnego
(Statens Ljud och Bild Arkiv, SLBA). Zbiory zawierają 4,5 miliona godzin zapisów audio i wideo, z
czego 30% stanowią taśmy audio, a 70% taśmy wideo. Gdyby przetworzyd je na pliki cyfrowe w
nieco „skompresowanych” bądź ograniczonych formatach – przez wielu uznawanych za swego
rodzaju jakośd minimalną – takich jak płyty CD (częstotliwośd próbkowania 16 bitów 44100 khz) i
DVD (MPEG 2), w sumie zajęłyby one 8 petabajtów (czyli 8 000 000 GB). Gdyby zastosowad
„jakośd rzeczywistą”, zgodną z aktualnym rozwojem technologii w danym czasie, liczba danych
byłaby jeszcze większa. A ponieważ technologia w tej dziedzinie rozwija się bardzo szybko,
definicja rzeczywistej jakości jest, łagodnie rzecz ujmując, płynna. Zbiory zawierają wiele różnych
formatów i rodzajów nagrao, zastosowad można więc rozmaite procedury digitalizacji. Sugeruje
się na przykład, że taśmy ¼’’ z nagraniem mowy można digitalizowad przy prędkości dwa razy
szybszej od oryginalnej. W przypadku tego rodzaju materiałów zapewniłoby to wystarczającą
jakośd, a biorąc pod uwagę dużą liczbę tych taśm, oszczędnośd czasu byłaby niebagatelna. Jednak
nawet przy największej wydajności szacuje się, że cała ta operacja zajmie 10 lat i będzie
kosztowad 90 milionów euro.W raporcie stwierdza się, że: z powodu stanu materiałów i
okoliczności technicznych transfer danych powinien zająd dziesięd najbliższych lat. Aby zachowad
materiał tego rodzaju, należy go zdigitalizowad w najbliższej przyszłości, ponieważ oryginalne
nośniki stale się niszczą, a także, podobnie jak sprzęt, stają się przestarzałe i trudne w utrzymaniu
w trybie roboczym.
Rozkład kosztów nie został w raporcie szczegółowo określony. Większośd kosztów pochłonie
sama konwersja, ponieważ wiele maszyn można ustawid tak, aby działały jednocześnie i były
obsługiwane przez niewielką liczbę pracowników. Przygotowanie i pozostałe czynności to
prawdopodobnie drugi największy czynnik kosztów. Przy materiałach audiowizualnych należy
wziąd pod uwagę koszty konserwacji sprzętu analogowego oraz dostosowania go do optymalnej
ekstrakcji sygnału. Jest to specjalistyczna praca, która może byd czasochłonna. Porównanie
kosztów produkcji na Gb plików audiowizualnych do innych materiałów przedstawiono na
Ilustracji 15.
4 Bevara ljud och rorlig bild (SOU 2004:53), Ministerstwo Kultury Szwecji, 2004 r.
W wyniku konwersji całego materiału rocznie powstałoby około 800 000 Gb informacji
cyfrowych. Na Ilustracji 16 porównano liczbę plików z obrazami produkowanymi rocznie w MKC z
szacowaną roczną produkcją plików audiowizualnych. Tę ogromną inwestycję w digitalizację
należy połączyd z odpowiednimi działaniami na rzecz zachowania wyników pracy przez długi
okres.
Ilustracja 16. Porównanie rocznej liczby plików z obrazami i plików audiowizualnych, które zostaną
utworzone w ramach szwedzkich projektów digitalizacji w RA/MKC oraz SLBA w nadchodzących
latach.
Koszty produkcji na 1 Gb zdigitalizowanych informacji w Szwecji.
Ilustracja 15. Koszty produkcji różnych formatów plików – 1 GB 1-bitowych i 8-bitowych plików z obrazami i
plików audiowizualnych
Biorąc jednak pod uwagę koszty samego przechowywania, oczywiste jest, że konieczne jest
finansowanie strukturalne na poziomie, który obecnie trudno przewidzied.
Jest to problematyczne w odniesieniu do materiałów audiowizualnych, nie ma bowiem innego
sposobu, niż ich konwersja na format cyfrowy i zachowanie plików cyfrowych. Trzeba więc będzie
stworzyd przepisy dotyczące ich konwersji i długoterminowego przechowywania. Tymczasem
zabezpieczenie finansowania tak dużych projektów i ich utrzymania jest wątpliwe. W przypadku
materiałów papierowych wciąż istnieje możliwośd ich digitalizacji oraz zachowania w formie
oryginalnej i na mikrofilmie. Decyzja o utworzeniu obrazów cyfrowych, wykorzystaniu ich do
sporządzenia COM (format, w którym pliki są przechowywane) bez zobowiązania do
przechowywania plików cyfrowych, w przyszłości może byd rozsądna pod względem finansowym.
Zbiory cyfrowe mogą pełnid określoną rolę jedynie przez krótki okres, niekoniecznie trzeba je
zachowywad, zwłaszcza gdy stosunkowo niskim kosztem można je w razie potrzeby przeskanowad
z formatu COM.
RA analizuje obecnie, czy opłaca się zastosowad COM na potrzeby udoskonalenia strategii
tworzenia mikrofilmów, która przez długi czas stosowana była do zabezpieczania informacji z
materiałów będących w złym stanie. Zamiast tworzenia mikrofilmów RA rozważa transfer plików z
obrazami do formatu COM wraz z metadanymi na potrzeby wyszukiwania (jeżeli po sporządzeniu
mikrofilmu, na podstawie którego tworzone są pliki z obrazami, pracownik skieruje swoją pracę w
inną stronę, to przy mikrofilmie będzie brakowad tych danych potrzebnych do wyszukiwania). Z
obrazów cyfrowych można korzystad bezpośrednio, jednak przy COM nie ma konieczności
zachowywania tych plików, jak byłoby w innych przypadkach. W przyszłości filmy można będzie
szybko ponownie zeskanowad i udostępnid, tak aby istniała możliwośd ich wyszukania.
Niezależnie od wybranej strategii, zasadniczym elementem, który należy rozważyd przed
podjęciem dużego projektu digitalizacji, jest poziom długoterminowych zobowiązao finansowych,
które można zabezpieczyd, oraz opracowanie odpowiedniej strategii zachowania materiałów.
Częścią procesu planowania powinny byd szacunki kosztów obejmujące wszystkie aspekty, aby
ograniczyd ryzyko, że projekt zakooczy swoje istnienie przemieniając się w kolejną cyfrową czarną
dziurę, jak już wielokrotnie miało to miejsce.