Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików...

17
Jonas Palm Cyfrowa czarna dziura Komentarz A.D. 2011 Artykuł o czarnej dziurze cyfrowej (The Digital Black Hole) powstał pięd lat temu, a pewne jego części nawet przed sześcioma laty. W cyfrowym świecie czas płynie szybko, dlatego często mówi się, że nie można przewidzied, co się stanie dalej niż za pięd lat. Stwierdzenie to okazało się prawdziwe również w przypadku mojego artykułu. Z uwagi na fakt, że planuję napisad jego kontynuację i zbadad, co się przez ten czas wydarzyło, przeprowadziłem kilka wywiadów z ludźmi zajmującymi się długoterminowym przechowywaniem danych cyfrowych oraz masowym skanowaniem. Jednym ze zjawisk zauważonych przeze mnie i – co pokazały przeprowadzone wywiady – przez innych, jest wolniejszy spadek cen nośników danych. Kiedy pisałem artykuł, szacowano, że wynosi on 37% rocznie. Wydaje się, że dziś jest wolniejszy i wynosi 15-18% rocznie. Nie stanowi to jednak problemu, gdyż cena nośników danych to jedynie ułamek całkowitych kosztów digitalizacji. Taśma LTO4 kosztuje około 25 euro i ma pojemnośd 800 GB. Koszt wytworzenia takiej ilości informacji w postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie koszty długoterminowego przechowywania skłoniły różne instytucje do opracowania szeregu rozmaitych strategii konserwacji. Oczywiście pewien wpływ miał również międzynarodowy kryzys finansowy, który oznaczał cięcia środków. Uważam jednak, że nawet bez niego sytuacja wyglądałaby identycznie. Jeśli przyjmiemy, że potrzebne są najlepsze rozwiązania dla dużych ilości materiałów, koszty długoterminowego przechowywania są w dalszym ciągu olbrzymie. Wydaje się zatem, że ocena ryzyka staje się coraz częściej integralną częścią strategicznego planowania długoterminowego przechowywania danych. Nadal występują negatywne efekty skali, chociaż słyszałem od co najmniej jednej osoby zajmującej się archiwizacją informacji cyfrowych, że jest dokładnie odwrotnie. Pokazuje to jedynie, że pojawiło się wiele sposobów rozwiązania problemu długoterminowego przechowywania danych. Wydaje się, że okres pięciu lat nie zmienia kosztów digitalizacji pliku graficznego. Według działu skanowania MKC (Ośrodka Konwersji Nośników) Archiwum Narodowego Szwecji usprawnienia techniczne w zakresie szybkości i jakości zostały w sensie ekonomicznym zniwelowane przez zwiększone koszty produkcji (wynagrodzenia, pomieszczenia itp.).Mam nadzieję, że uda mi się znaleźd czas na napisanie kontynuacji artykułu o czarnej dziurze cyfrowej. Zanim to nastąpi, proszę przyjąd niniejsze uwagi z 2011 roku w formie, w jakiej znajdują się obecnie.

Transcript of Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików...

Page 1: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Jonas Palm

Cyfrowa czarna dziura

Komentarz A.D. 2011

Artykuł o czarnej dziurze cyfrowej (The Digital Black Hole) powstał pięd lat temu, a pewne jego

części nawet przed sześcioma laty. W cyfrowym świecie czas płynie szybko, dlatego często mówi

się, że nie można przewidzied, co się stanie dalej niż za pięd lat. Stwierdzenie to okazało się

prawdziwe również w przypadku mojego artykułu. Z uwagi na fakt, że planuję napisad jego

kontynuację i zbadad, co się przez ten czas wydarzyło, przeprowadziłem kilka wywiadów z ludźmi

zajmującymi się długoterminowym przechowywaniem danych cyfrowych oraz masowym

skanowaniem.

Jednym ze zjawisk zauważonych przeze mnie i – co pokazały przeprowadzone wywiady – przez

innych, jest wolniejszy spadek cen nośników danych. Kiedy pisałem artykuł, szacowano, że wynosi

on 37% rocznie. Wydaje się, że dziś jest wolniejszy i wynosi 15-18% rocznie. Nie stanowi to jednak

problemu, gdyż cena nośników danych to jedynie ułamek całkowitych kosztów digitalizacji. Taśma

LTO4 kosztuje około 25 euro i ma pojemnośd 800 GB. Koszt wytworzenia takiej ilości informacji w

postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000

euro.

Istotniejsze jest jednak to, że wysokie koszty długoterminowego przechowywania skłoniły różne

instytucje do opracowania szeregu rozmaitych strategii konserwacji. Oczywiście pewien wpływ miał

również międzynarodowy kryzys finansowy, który oznaczał cięcia środków. Uważam jednak, że

nawet bez niego sytuacja wyglądałaby identycznie. Jeśli przyjmiemy, że potrzebne są najlepsze

rozwiązania dla dużych ilości materiałów, koszty długoterminowego przechowywania są w dalszym

ciągu olbrzymie. Wydaje się zatem, że ocena ryzyka staje się coraz częściej integralną częścią

strategicznego planowania długoterminowego przechowywania danych. Nadal występują

negatywne efekty skali, chociaż słyszałem od co najmniej jednej osoby zajmującej się archiwizacją

informacji cyfrowych, że jest dokładnie odwrotnie. Pokazuje to jedynie, że pojawiło się wiele

sposobów rozwiązania problemu długoterminowego przechowywania danych.

Wydaje się, że okres pięciu lat nie zmienia kosztów digitalizacji pliku graficznego. Według działu

skanowania MKC (Ośrodka Konwersji Nośników) Archiwum Narodowego Szwecji usprawnienia

techniczne w zakresie szybkości i jakości zostały w sensie ekonomicznym zniwelowane przez

zwiększone koszty produkcji (wynagrodzenia, pomieszczenia itp.).Mam nadzieję, że uda mi się

znaleźd czas na napisanie kontynuacji artykułu o czarnej dziurze cyfrowej. Zanim to nastąpi, proszę

przyjąd niniejsze uwagi z 2011 roku w formie, w jakiej znajdują się obecnie.

Page 2: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Wydaje się, że projekt cyfrowy łatwo jest zaplanowad, a jego wymyślenie to dobra zabawa. Nie ma

ograniczeo, możliwości są na pozór nieskooczone i wydaje się, że gdy materiał jest dostępny w

formie cyfrowej, jego wykorzystanie będzie ciekawe i tanie. Czy można chcied więcej?

W latach 60. w jednym z komiksów Disneya występowała postad o imieniu Gyro Gearloose.

Bohater ten wynalazł maszynę, która potrafiła odpowiedzied na każde pytanie. Finał był taki, że

Gyro zrezygnował z maszyny, bo nie mógł wymyślid wystarczającej liczby pytao dla wszystkich

odpowiedzi. Ta historyjka może posłużyd jako analogia dla dzisiejszego entuzjazmu towarzyszącego

projektom cyfrowym. Pod wpływem zachwytu nad rozwiązaniami, jakie oferuje digitalizacja, często

pomija się pytania dotyczące kosztów, zwłaszcza tych długoterminowych, ponoszonych w związku

z utrzymywaniem archiwów cyfrowych w stanie użyteczności. To entuzjastyczne podejście jest

ryzykowne, ponieważ proces konwersji służący do tworzenia plików cyfrowych na początku bywa

dośd drogi. Może więc okazad się, że jeśli zabraknie planów na przyszłośd a fundusze strukturalne

na konserwację nie zostaną zabezpieczone, inwestycja ta zostanie zmarnowana. Bez

długoterminowego planowania projekty digitalizacji mogą zacząd funkcjonowad jak czarne dziury w

kosmosie. Zeskanowane informacje, do których w świecie analogowym można dotrzed za pomocą

zmysłów, trafiają nagle do środowiska, w którym pozyskuje się je za pośrednictwem technologii

stale generującej koszty. Im więcej informacji zostanie przekształcanych na formę elektroniczną,

tym bardziej wrosną koszty dostępu do nich. Czarna dziura zacznie oddziaływad na projekt. Będzie

pochłaniad albo pieniądze, albo informacje: konieczne jest nieprzerwane finansowanie, w

przeciwnym razie dane zostaną stracone. Kiedy środki finansowe zaczną topnied, informacje wciąż

będzie można odzyskad, jednak po jakimś czasie dostęp do nich nie będzie możliwy z powodu

uszkodzenia plików, przestarzałych formatów lub nieaktualnej technologii. W takiej sytuacji

informacje cyfrowe na zawsze znikną w czarnej dziurze.

Przebieg typowego projektu digitalizacji można porównad do cyklu życia gwiazdy. Gwiazdy rodzą

się i umierają. Ten cykl życia obrazuje Ilustracja 1. Analogia stanie się oczywista, gdy etapy życia

gwiazdy zastąpimy etapami życia przeciętnego projektu digitalizacji (Ilustracja 2).

Page 3: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Ilustracja 1. Cykl życia gwiazd masywnych (opublikowany na stronie:

www.star.ucl.ac.uk/groups/hotstar/research.html)

Ilustracja 2. Cykl życia projektu digitalizacji (na podstawie zmodyfikowanej przez autora Ilustracji 1)

Dobre pomysły zawsze krążą wokół, jak materia międzygwiazdowa. Na początku gromadzone są

duże ilości energii, które przenosi się dalej, do etapu planowania i zabezpieczenia funduszy

projektu. Następnie projekt jest wdrażany, sprawy zaczynają nabierad kształtów, rozpoczyna się

digitalizacja. Kiedy wszystkie informacje przyjmą formę cyfrową i zostaną uporządkowane na

stronie internetowej, projekt staje się jasno świecącym nadolbrzymem, widocznym dla całego

Page 4: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

świata. Wtedy jednak powstają nowe projekty, pojawiają się inne sfery zainteresowao, nasz

projekt zaczyna byd zaniedbywany i podupada. Organizatorzy w koocu decydują się go zakooczyd –

w ten sposób umiera kolejny dobry projekt. Nie wszystko musi jednak umrzed wraz z nim:

najważniejsze informacje mogą przetrwad, zgodnie z darwinowską zasadą doboru naturalnego, a

niektóre stare, dobre pomysły połączą się z nowymi i utworzą nowy projekt.

Podczas, gdy cykl o stosunkowo krótkiej przewidywanej długości życia może byd idealny dla

mniejszych projektów, które w sferze naszych zainteresowao pozostaną jedynie przez ograniczony

czas, w przypadku większych projektów rezygnacja z planu życia pliku wykraczającego poza ten

horyzont jest zbyt kosztowna. W takich przypadkach wybór, czy realizowad projekt, zależy tak

naprawdę od zaplanowania przyszłości. Projekt można rozpocząd lub nie, ale decyzja pozytywna

pociąga za sobą długoterminowe zobowiązania finansowe

Niniejszy artykuł zawiera analizę kosztów digitalizacji i długoterminowego przechowywania plików

w Riksarkivet (Archiwum Narodowe, RA) w Sztokholmie, w Szwecji. Analiza ta jest przykładowa,

ponieważ faktyczne koszty mogą wahad się pomiędzy różnymi instytucjami i krajami z uwagi na

różnice w kosztach pomieszczeo, wynagrodzeo itd. Mimo to, model szacowania kosztów ma

szerokie odniesienie i może byd stosowany do podobnych obliczeo w innych sytuacjach.

Koszty długoterminowego przechowywania

Archiwum Narodowe (Riksarkivet, RA) w Sztokholmie od lat 70. XX wieku otrzymuje coraz większe

ilości danych w formie cyfrowej; w 2005 dostało około 25 Tb (terabajtów). Aby móc zabezpieczyd

te dane na potrzeby użytkowania i przeprowadzania badao w przyszłości, Riksarkivet dwa lata

temu zainwestował w duży system przechowywania danych HSM (Hierarchical Storage

Management System – System Usystematyzowanego Zarządzania Archiwami), oparty na pracy

robota archiwizacyjnego. W tym przypadku jest to system z kasetą taśmową połączony z

serwerami i komputerami. System jest skonstruowany tak, aby: wykrywad i poprawiad błędy

danych w przechowywanych informacjach cyfrowych, oraz mógł przenosid dane do systemu

masowej archiwizacji następnej generacji.

Dane, które mają myd wykorzystane, są kopiowane z taśmy na serwer. Informacje w robocie

archiwizacyjnym właściwie nigdy nie są używane. Koszty generowane są nie przez nośniki danych

(ich koszty stanowią około 5%-10% sumy kosztów), ale przez pozostałą częśd systemu – sprzęt,

oprogramowanie, wsparcie, konserwację i zarządzanie/obsługę.

Zasadniczo RA otrzymuje dwa rodzaje informacji cyfrowych – informacje utworzone już w formie

cyfrowej oraz cyfrowe kopie tradycyjnych dokumentów i zapisów. Oryginalnie informacje

zawierają zapisy agencji paostwowych, natomiast cyfrowe kopie zapisów pochodzą ze zbiorów RA

utworzonych w celu otwarcia i udoskonalenia dostępu dla wszystkich zainteresowanych. Pliki

oryginalnie są dośd małe, ponieważ składają się głównie z baz danych. Natomiast pliki zawierające

zapisy zdigitalizowane stanowią prawie wyłącznie obrazy, dlatego zawierają więcej informacji i w

ostatecznym rozrachunku operowanie nimi jest droższe. Ta digitalizacja to wynik działao paostwa

Page 5: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

mających na celu otwarcie (w określonym zakresie) dostępu do agencji rządowych przez 24

godziny na dobę.

Trzy lata temu w Riksarkivet rozpoczęto dyskusję na temat kosztów i problemów związanych z

długoterminowym przechowywaniem informacji cyfrowych. Wątpliwości dotyczyły tego, czy po

tym, jak materiały zostały zapisane w formie cyfrowej, taniej jest przez długi czas utrzymywad pliki

cyfrowe, czy też stosowad długoterminowe metody przechowywania za pomocą obrazów na

mikrofilmach sporządzonych na podstawie plików cyfrowych z zastosowaniem COM (Computer

Output Microfilm). W obu przypadkach przechowywane byłyby również oryginały. Punktem

otwierającym dyskusję było stwierdzenie, że w ramach projektów digitalizacji stworzono wiele

plików, które służą różnym celom, jednak nie jest jasne, czy pliki należy przez długi czas

przechowywad.

Wątpliwości wywołały dwa artykuły. Pierwszy z nich był autorstwa Stevena Puglii (Administracja

Archiwów i Zapisów Narodowych) i dotyczył kosztów projektów związanych z obrazami

cyfrowymi.1 Drugi został napisany przez Stephena Chapmana (Weissman Preservation Center,

Harvard University Library) i poruszał kwestię kosztów przechowywania w repozytorium.2 Artykuły

te jasno dowodzą, że sytuacja jest bardziej skomplikowana, niż mogłoby się wydawad.

Przechowywanie plików cyfrowych jest drogie.

Przeprowadziliśmy w Riksarkivet obliczenia w oparciu o koszty uporządkowanego systemu

zarządzania archiwami, który stosowaliśmy do przechowywania informacji cyfrowych. Kiedy wynik

naszych obliczeo porównaliśmy z wynikami Chapmana, okazało się, że są one podobne, co widad

na Ilustracji 3. W obu przypadkach porównano koszty przechowywania tej samej ilości informacji:

przeciętnej książki składającej się z 332 stron 1) w formacie oryginalnym, przechowywanej w

klimatyzowanym repozytorium, 2) w postaci mikrofilmu, przechowywanego w pomieszczeniach o

kontrolowanym klimacie, 3) w postaci obrazów cyfrowych bitonalnych o rozdzielczości 600 dpi

oraz 4) w postaci obrazów cyfrowych w skali szarości (8 bitów) o rozdzielczości 300 dpi. Obrazy w

skali szarości zajmują więcej miejsca, ich przechowywanie jest więc droższe, mimo że miejsce

przechowywania samo w sobie jest obecnie bardzo tanie i nie stanowi głównego czynnika

generującego koszy. Koszty przechowywania obejmują koniecznośd zarządzania danymi przez

system i ich konserwacji, a więc sprawdzanie ich kompletności, procedury tworzenia kopii,

kontrole w celu odzyskania informacji, automatyczne przenoszenie na nowe taśmy itd.

1 Steve Puglia, The Costs of Digital imaging Projects , [w:] RLG News, październik 1999 r.

2 Stephen Chapman , Counting the Costs of Digital Preservation: Is Repository Storage Affordable?,[w:] „Journal

of Digital Information”, nr 4(2), artykuł nr 178, maj 2003 r.

Page 6: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Ilustracja 3. Porównanie kosztów przechowywania przez RA i Harvard University Library identycznych

informacji w formacie mikrofilmu, oryginalnej wersji papierowej i w dwóch różnych formatach plików

cyfrowych.

Koszty przechowywania plików cyfrowych są znacznie wyższe, niż się powszechnie sądzi, gdyż

wymagają zaangażowania większej ilości środków. W trakcie dyskusji przedstawiciele branży

zasugerowali, że w miarę wzrostu ilości przechowywanych informacji szybciej rośnie obciążenie

ekonomiczne. Fakt, że pojemnośd nośników co roku się podwaja, powoduje błędne

przekonanie, iż ceny przechowywania szybko spadają. Sprawdza się to w krótkim okresie, czyli z

reguły krótszym niż 5 lat, ponieważ utrzymywanie dostępu do plików wymaga niewiele wysiłku.

Jednak w perspektywie długoterminowej koszty zarządzania będą stale rosnąd. Mówi o tym Jim

Gray, szef Bay Area Research Center firmy Microsoft:

Prawdziwe koszty generowane są jednak przy zarządzaniu. Ludzie z Wall Street

powiedzieli mi, że zarządzając przechowywanymi danymi co roku wydają 300 000 USD na

terabajt. Na jeden terabajt mają więcej, niż jednego administratora danych. Inne firmy

mówią o jednym administratorze na 10 TB, Google i Internet Archive mają jednego na 100

TB. Koszt tworzenia kopii, odtwarzania, archiwizowania, reorganizowania, powiększania i

zarządzania pojemnością zdaje się przerastad koszt sprzętu. To prawdziwe wyzwanie dla

speców od oprogramowania. Jeżeli przyjąd powyższe normy, to petabajt wymagałby 1000

administratorów.3

3 Wywiad w ACM Queue, nr 1(4), czerwiec 2003 r.

Page 7: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Ogólnie rzecz biorąc, koszty sprzętu wciąż maleją, a nośniki danych są tak tanie, że mają bardzo

niewielkie znaczenie. Istnieje jednak różnica między kosztami nośników danych a kosztami

komputerów (Ilustracje 4 i 5). Cena komputerów w odniesieniu do pojemności znacznie spadła,

tymczasem ilośd danych, z którymi pracują komputery, a więc ich wymagana zdolnośd

przetwarzania plików, znacznie wzrosła. Nie chodzi tu o operowanie większą ilością informacji –

często oznacza to po prostu posługiwanie się większą ilością opcji. Stanie się to jasne, gdy

porównamy koszt pojedynczego dysku twardego o pojemności 2 Tb, który kosztuje 450 euro, z

kosztem typowego sprzętu do systemu tworzenia kopii, którzy może kosztowad 10 razy tyle, czyli

4500 euro i więcej. W przypadku systemu HSM największe koszty związane są nie z nośnikami

danych, ale z odpowiednim sprzętem i oprogramowaniem.

Spadek kosztów przechowywania 1 Mb

Rok

Ilustracja 4. Spadek kosztów przechowywania 1 Mb danych na magnetycznych nośnikach danych.

Spadek cen przetwarzania komputerowego tego samego rodzaju informacji

Rok

Ilustracja 5. Spadek cen przetwarzania komputerowego tego samego rodzaju informacji

Page 8: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

W przypadku dużych systemów do długoterminowego przechowywania danych ma

prawdopodobnie zastosowanie inny wzór rozwoju cen. Przyjęto, że okres funkcjonowania tych

systemów wynosi około 5 lat. Cena jest najwyższa w momencie pojawienia się takiego systemu.

Będzie ona spadad dopóki nie pojawi się system nowej generacji. Potem nastąpi kolejny skok

cenowy: ceny wzrosną, chociaż nie do tego samego poziomu, co na początku cyklu. W naszych

wyliczeniach założyliśmy niewielki spadek cen w każdej kolejnej generacji, wynoszący około 25%

(Ilustracja 6). Jest to jedynie założenie, jak w przypadku każdej innej próby przewidzenia

przyszłości archiwów cyfrowych, sięgającej poza horyzont 5-10 lat. Tego typu założenia mają na

celu zarysowanie uwarunkowao gospodarczych w przyszłości.

Ilustracja 6. Przewidywany spadek cen w dłuższej perspektywie czasowej dla dużych systemów archiwizacji.

Stosowany w RA system HSM z robotem taśmowym do długoterminowego przechowywania

zapisów cyfrowych ma całkowitą pojemnośd 200Tb, przy czym istnieje możliwośd powiększania jej

o 40Tb rocznie (jak już wspomniano, do tej pory wzrost wynosił zaledwie 25Tb rocznie). System

działa przez około 18 miesięcy, został zainstalowany w 2003 r. Koszty samego systemu i jego

obsługi pokazano na Ilustracji 7.

Przewidywany spadek cen systemu HSM

Specyfikacja kosztów 1. rok 2. rok 3. rok 4. rok 5. rok 5 lat

1 system archiwizacji HSM

cena w 2003 r. + 3% odsetek/rok

406 643 euro w ciągu 5 lat, 81 328/rok

94818 92379 89939 87499 85059 449694

Personel do obsługi, 0,6 pracownika etatowego, 40 000 euro na pracownika etatowego ze wszystkimi kosztami

24000 25200 26400 27660 28980 132240

Pomieszczenia 100m2, 126 euro na m

2

12600 12915 13237 13568 13908 66228

Serwis/wsparcie 22700 28900 28900 28900 28900 138300

Page 9: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Łączne koszty przechowywania 154118 159394 158476 157627 156847 786462

Roczny koszt przechowywania na Gb

3.85 1.99 1.32 0.98 0.78

Średni koszt przechowywania na Gb przez 5 lat

7.86

Nośnik danych 40Tb/rok

17930 11295 7116 4483 2824 43648

Personel do wprowadzania danych, 0,4 pracownika etatowego, 40 000 euro na pracownika etatowego ze wszystkimi kosztami

16000 16800 17600 18440 19320 88160

Roczne koszty wprowadzania danych (personel, nośnik danych)

33930 28095 24716 22923 22144 131808

Koszt wprowadzania danych na Gb

0.84 0.7 0.61 0.57 0.55 0.66

Łączny koszt nowo dodanego Gb

4.69 2.69 1.93 1.55 1.33

Średni łączny koszt na Gb za 5 lat 9.18

Ilustracja 7. Koszty systemu archiwizacji HSM w RA, Sztokholm, Szwecja. Koszty podano w euro.

Page 10: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Ilustracje 8 i 9 pokazują, jak spadad będą koszty sprzętu przy jednoczesnym wzroście kosztów płac

i pomieszczeo. Normalnie koszty wsparcia i aktualizacji powinny rosnąd, jednak w ramach umowy

między RA i sprzedawcą koszt został równomiernie rozłożony na 5 lat.

Gdy rozdzielimy koszty pomiędzy technologię, personel i pomieszczenia (Ilustracja 10), to okaże

się, że koszty pracy stanowią 39% ich sumy. Odsetek ten zwiększy się w najbliższych latach,

Ilustracja 8. Koszty sprzętu do systemu archiwizacji HSM.

Ilustracja 9. Koszty operacyjne systemu archiwizacji HSM w RA

Page 11: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

ponieważ rosnąd będą stawki wynagrodzenia i potrzeba będzie większej liczby pracowników do

zarządzania systemu w miarę powiększania się jego pojemności. Nie wszyscy pracownicy będą

musieli mied wysokie kwalifikacje; wynagrodzenia w Szwecji nie są jednak tak zróżnicowane, jak w

niektórych innych krajach, dlatego nie będzie to miało istotnego wpływu na nasze wyliczenia.

Ilustracja 10. Podział kosztów systemu archiwizacji HSM w RA.

Przy próbie dokonania rzeczy niemożliwej, może nawet niedorzecznej, jaką jest sporządzenie

prognozy sięgającej poza okres 10 lat, jedyną pewną rzeczą jest to, że stawki wynagrodzeo

wzrosną, podobnie jak wskaźnik kosztów ogólnych. Obliczenia przeprowadzone dla Riksarkivet

oparte są na założeniu, że przeważająca ilośd informacji cyfrowych przechowywana będzie w

trybie biernym. Koszty personelu wiążą się z dostępem do danych, a sytuacja RA wymaga jedynie

ograniczonej liczby pracowników czuwających nad działaniem systemu, w przeciwieostwie do

firm, banków i Google (przykłady wymienione powyżej przez Jima Graya z Microsoft). Mimo to,

koszty personelu i pomieszczeo RA będą rosnąd. Na Ilustracji 11 pokazano, że łączne koszty

personelu, wsparcia i pomieszczeo przekroczą koszty sprzętu ponad dwunastokrotnie w ciągu 30

lat. Koszty nośników danych są na wykresie ledwie widoczne i to tylko w pierwszym

dziesięcioleciu.

Page 12: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Ilustracja 11. Przewidywane koszty rozwoju w RA

Koszty długoterminowego przechowywania zależą od częstotliwości działao: im częściej

przechowywane informacje są wykorzystywane, tym wyższe są koszty administracyjne. Gdy

częstotliwośd korzystania z informacji wzrasta, zwiększa się również zapotrzebowanie na serwery

zewnętrzne, z których można do tych informacji dotrzed. Jeśli w dotychczasowych obliczeniach

uwzględnimy czynniki kosztów związanych z przyszłą częstotliwością działao w RA w Sztokholmie,

uzyskamy następujący obraz. Biorąc pod uwagę negatywny efekt skali, a także zwiększoną

częstotliwośd wykorzystywania przechowywanych informacji, przewiduje się, że koszty obsługi

systemu i zarządzania nim w RA najprawdopodobniej wzrosną do poziomu stanowiąceg

wielokrotnośd kosztu sprzętu.

Ilustracja 12. Prawdopodobne skutki negatywnego efektu skali w RA w perspektywie długoterminowej

Page 13: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Wraz ze wzrostem liczby pracowników, wzrosną koszty pomieszczeo. Ponieważ trudno

przewidzied koszty wsparcia, przyjęto ich stały poziom, najprawdopodobniej jednak wzrosną one

wraz z rozmiarami systemu (Ilustracja 12).

Digitalizacja

Te scenariusze kosztów mogą skłonid do przemyśleo. Przedstawiając poziom długoterminowych

zobowiązao finansowych koniecznych do archiwizacji plików cyfrowych – nawet jeżeli będą one

jedynie utrzymywane w gotowości poprzez stałe odświeżanie – wskazują na potrzebę starannego

przeanalizowania początkowej inwestycji w digitalizację. Ryzyko, że materiały skooczą w cyfrowej

czarnej dziurze, jest coraz poważniejsze, ponieważ koszty samej digitalizacji również są wysokie.

Digitalizacja obejmuje różne czynności takie jak wybór, tworzenie opisów i metadanych,

zarządzanie projektem i faktyczna konwersja (skanowanie bądź robienie zdjęd aparatem

cyfrowym). Koszty skanowania są obecnie dobrze znane.

Jakośd skanu zależy od sprzętu, specyfikacji procesu, wiedzy na temat skanowanego materiału i

obchodzenia się z nim. Wybór sprzętu wiąże się z rodzajem materiału, który trzeba zeskanowad,

specyfikacje związane są z właściwościami i jakością oryginalnych informacji, a wiedza na temat

materiału, który ma byd przetworzony na wersję cyfrową, ma zasadnicze znaczenie dla kontroli

jakości, obchodzenia się z materiałem i ustalenia trybu organizacji pracy. Przy digitalizacji obrazów

i dźwięków niezbędna jest fachowa wiedza na temat treści i nośników, która zapewni optymalny

sposób utrwalenia informacji zawartych w oryginale.

W 2005 r. w Riksarkivet przeprowadzono obliczenia kosztów digitalizacji materiałów papierowych.

Riksarkivet dysponuje własnym zakładem skanowania, MKC (Medie konverterings centrum,

Centrum konwersji nośników danych), w którym w 2005 r. pracowało około 80 pracowników.

Skanowane obiekty to zapisy – oprawione i na arkuszach – oraz mapy i rysunki o dużych

formatach. Wszystkie poniższe dane liczbowe oparte są na informacjach MKC.

W MKC co roku skanuje się 5 milionów obrazów, przetwarza się je na 1-bitowe pliki o

rozdzielczości 600 dpi w formacie A4. Koszt każdego zeskanowanego pliku wynosi w przybliżeniu

0,10 euro. Zapisy są skanowane za pomocą automatycznego skanera. Rozkład kosztów tworzenia

pliku z obrazem cyfrowym przedstawiono na Ilustracji 13. Jedna trzecia kosztów przypada na

skanowanie, tymczasem przygotowanie, kontrola jakości, pozostałe czynności i administracja

składają się na główną częśd kosztów.

Page 14: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Ilustracja 13. Rozkład kosztów w zakładzie skanowania MKC w RA, Fransta, Szwecja.

Rysunki o dużym formacie skanowane są z zastosowaniem 8-bitowej skali szarości i

rozdzielczości 297 dpi, przy użyciu skanerów z ręcznym podajnikiem. Koszt utworzenia każdego

pliku to około 0,61 euro, przy czym co roku tworzy się 1 321 000 plików z obrazami. Koszty

zeskanowanych w ten sposób plików rozkładają się tak, jak pokazano na Ilustracji 14. W tym

wypadku same koszty skanowania stanowią prawie dwa razy większą częśd sumy wszystkich

kosztów (65%). Administracja to drugi co do wielkości czynnik kosztów, tymczasem pozostałe

koszty rozkładają się mniej więcej po równo.

Ilustracja 14. Rozkład kosztów w zakładzie skanowania RA, Fransta, Szwecja.

W przypadku digitalizacji informacji audiowizualnych sytuacja wygląda inaczej. Jest to proces

bardzo czasochłonny, w ramach którego produkowane są ogromne ilości informacji. Jest to

również jedyny przypadek, w którym digitalizacja stanowi jedyną możliwości przechowywania

materiałów. Innymi słowy, dla zachowania materiałów audiowizualnych konieczna jest ich

Page 15: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

digitalizacja, a jej wynikiem będą ogromne ilości danych cyfrowych, które trzeba przechowywad i

konserwowad przez długi czas.

W 2004 r. szwedzkie Ministerstwo Kultury opublikowało raport Zachowad dźwięki i obrazy4, w

którym omówiono strategię zachowania zbiorów Paostwowego Archiwum Audiowizualnego

(Statens Ljud och Bild Arkiv, SLBA). Zbiory zawierają 4,5 miliona godzin zapisów audio i wideo, z

czego 30% stanowią taśmy audio, a 70% taśmy wideo. Gdyby przetworzyd je na pliki cyfrowe w

nieco „skompresowanych” bądź ograniczonych formatach – przez wielu uznawanych za swego

rodzaju jakośd minimalną – takich jak płyty CD (częstotliwośd próbkowania 16 bitów 44100 khz) i

DVD (MPEG 2), w sumie zajęłyby one 8 petabajtów (czyli 8 000 000 GB). Gdyby zastosowad

„jakośd rzeczywistą”, zgodną z aktualnym rozwojem technologii w danym czasie, liczba danych

byłaby jeszcze większa. A ponieważ technologia w tej dziedzinie rozwija się bardzo szybko,

definicja rzeczywistej jakości jest, łagodnie rzecz ujmując, płynna. Zbiory zawierają wiele różnych

formatów i rodzajów nagrao, zastosowad można więc rozmaite procedury digitalizacji. Sugeruje

się na przykład, że taśmy ¼’’ z nagraniem mowy można digitalizowad przy prędkości dwa razy

szybszej od oryginalnej. W przypadku tego rodzaju materiałów zapewniłoby to wystarczającą

jakośd, a biorąc pod uwagę dużą liczbę tych taśm, oszczędnośd czasu byłaby niebagatelna. Jednak

nawet przy największej wydajności szacuje się, że cała ta operacja zajmie 10 lat i będzie

kosztowad 90 milionów euro.W raporcie stwierdza się, że: z powodu stanu materiałów i

okoliczności technicznych transfer danych powinien zająd dziesięd najbliższych lat. Aby zachowad

materiał tego rodzaju, należy go zdigitalizowad w najbliższej przyszłości, ponieważ oryginalne

nośniki stale się niszczą, a także, podobnie jak sprzęt, stają się przestarzałe i trudne w utrzymaniu

w trybie roboczym.

Rozkład kosztów nie został w raporcie szczegółowo określony. Większośd kosztów pochłonie

sama konwersja, ponieważ wiele maszyn można ustawid tak, aby działały jednocześnie i były

obsługiwane przez niewielką liczbę pracowników. Przygotowanie i pozostałe czynności to

prawdopodobnie drugi największy czynnik kosztów. Przy materiałach audiowizualnych należy

wziąd pod uwagę koszty konserwacji sprzętu analogowego oraz dostosowania go do optymalnej

ekstrakcji sygnału. Jest to specjalistyczna praca, która może byd czasochłonna. Porównanie

kosztów produkcji na Gb plików audiowizualnych do innych materiałów przedstawiono na

Ilustracji 15.

4 Bevara ljud och rorlig bild (SOU 2004:53), Ministerstwo Kultury Szwecji, 2004 r.

Page 16: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

W wyniku konwersji całego materiału rocznie powstałoby około 800 000 Gb informacji

cyfrowych. Na Ilustracji 16 porównano liczbę plików z obrazami produkowanymi rocznie w MKC z

szacowaną roczną produkcją plików audiowizualnych. Tę ogromną inwestycję w digitalizację

należy połączyd z odpowiednimi działaniami na rzecz zachowania wyników pracy przez długi

okres.

Ilustracja 16. Porównanie rocznej liczby plików z obrazami i plików audiowizualnych, które zostaną

utworzone w ramach szwedzkich projektów digitalizacji w RA/MKC oraz SLBA w nadchodzących

latach.

Koszty produkcji na 1 Gb zdigitalizowanych informacji w Szwecji.

Ilustracja 15. Koszty produkcji różnych formatów plików – 1 GB 1-bitowych i 8-bitowych plików z obrazami i

plików audiowizualnych

Page 17: Cyfrowa czarna dziura - nina.gov.pl · postaci zdigitalizowanych materiałów archiwalnych (plików graficznych) wynosi w sumie 25 000 euro. Istotniejsze jest jednak to, że wysokie

Biorąc jednak pod uwagę koszty samego przechowywania, oczywiste jest, że konieczne jest

finansowanie strukturalne na poziomie, który obecnie trudno przewidzied.

Jest to problematyczne w odniesieniu do materiałów audiowizualnych, nie ma bowiem innego

sposobu, niż ich konwersja na format cyfrowy i zachowanie plików cyfrowych. Trzeba więc będzie

stworzyd przepisy dotyczące ich konwersji i długoterminowego przechowywania. Tymczasem

zabezpieczenie finansowania tak dużych projektów i ich utrzymania jest wątpliwe. W przypadku

materiałów papierowych wciąż istnieje możliwośd ich digitalizacji oraz zachowania w formie

oryginalnej i na mikrofilmie. Decyzja o utworzeniu obrazów cyfrowych, wykorzystaniu ich do

sporządzenia COM (format, w którym pliki są przechowywane) bez zobowiązania do

przechowywania plików cyfrowych, w przyszłości może byd rozsądna pod względem finansowym.

Zbiory cyfrowe mogą pełnid określoną rolę jedynie przez krótki okres, niekoniecznie trzeba je

zachowywad, zwłaszcza gdy stosunkowo niskim kosztem można je w razie potrzeby przeskanowad

z formatu COM.

RA analizuje obecnie, czy opłaca się zastosowad COM na potrzeby udoskonalenia strategii

tworzenia mikrofilmów, która przez długi czas stosowana była do zabezpieczania informacji z

materiałów będących w złym stanie. Zamiast tworzenia mikrofilmów RA rozważa transfer plików z

obrazami do formatu COM wraz z metadanymi na potrzeby wyszukiwania (jeżeli po sporządzeniu

mikrofilmu, na podstawie którego tworzone są pliki z obrazami, pracownik skieruje swoją pracę w

inną stronę, to przy mikrofilmie będzie brakowad tych danych potrzebnych do wyszukiwania). Z

obrazów cyfrowych można korzystad bezpośrednio, jednak przy COM nie ma konieczności

zachowywania tych plików, jak byłoby w innych przypadkach. W przyszłości filmy można będzie

szybko ponownie zeskanowad i udostępnid, tak aby istniała możliwośd ich wyszukania.

Niezależnie od wybranej strategii, zasadniczym elementem, który należy rozważyd przed

podjęciem dużego projektu digitalizacji, jest poziom długoterminowych zobowiązao finansowych,

które można zabezpieczyd, oraz opracowanie odpowiedniej strategii zachowania materiałów.

Częścią procesu planowania powinny byd szacunki kosztów obejmujące wszystkie aspekty, aby

ograniczyd ryzyko, że projekt zakooczy swoje istnienie przemieniając się w kolejną cyfrową czarną

dziurę, jak już wielokrotnie miało to miejsce.