Algorytmy generowania cyfrowych wtórników dokumentów...

240
Uniwersytet Warszawski Wydział Historyczny Aleksander Trembowiecki Nr albumu: 245104 Algorytmy generowania cyfrowych wtórników dokumentów bibliotecznych i ich wersji prezentacyjnych Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska na kierunku informacja naukowa i bibliotekoznawstwo Praca wykonana pod kierunkiem prof. dr hab. Barbary Sosińskiej-Kalaty Instytut Informacji Naukowej i Studiów Bibliologicznych Warszawa, maj 2012

Transcript of Algorytmy generowania cyfrowych wtórników dokumentów...

Page 1: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

Uniwersytet Warszawski

Wydział Historyczny

Aleksander Trembowiecki

Nr albumu: 245104

Algorytmy generowania cyfrowych wtórników

dokumentów bibliotecznych

i ich wersji prezentacyjnych

Analiza i ocena zastosowania praktycznego w polskich bibliotekach

Praca magisterska

na kierunku informacja naukowa i bibliotekoznawstwo

Praca wykonana pod kierunkiem

prof. dr hab. Barbary Sosińskiej-Kalaty

Instytut Informacji Naukowej i Studiów Bibliologicznych

Warszawa, maj 2012

Page 2: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska
Page 3: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

Oświadczenie kierującego pracą

Oświadczam, że niniejsza praca została przygotowana pod moim kierunkiem

i stwierdzam, że spełnia ona warunki do przedstawienia jej w postępowaniu o nadanie

tytułu zawodowego.

Data Podpis kierującego pracą

Oświadczenie autora (autorów) pracy

Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została

napisana przez mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny

z obowiązującymi przepisami.

Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur

związanych z uzyskaniem tytułu zawodowego w wyższej uczelni.

Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załączoną wersją

elektroniczną.

Data Podpis autora pracy

Page 4: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska
Page 5: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

Streszczenie

Przedmiotem pracy są wymagania i postulaty jakościowe stawiane polskiej digitalizacji

sensu stricto. Przedstawiony został model minimalnych wymagań jakościowych –

zdefiniowany przez prawodawstwo (Rozporządzenie Rady Ministrów w sprawie

minimalnych wymagań dla systemów teleinformatycznych) i najistotniejsze krajowe

publikacje dotyczące digitalizacji. Postulowany model następnie porównano

z faktycznym stanem jakości generowanych obiektów cyfrowych, którego obraz

otrzymano na podstawie wyników badania ankietowego, któremu poddano wszystkie

polskie biblioteki tworzące lub współtworzące biblioteki cyfrowe. W wyniku

porównania stwierdzono, że w Polsce dominuje digitalizacja oparta na ujednoliconych

parametrach – niezależnie od typu dokumentów. Oprócz kwestii parametrów

stosowanych w digitalizacji, w pracy poruszono także problematykę postępowania

z plikami archiwalnymi, generowania formatów o charakterze prezentacyjnym, a także

rolę metadanych i perspektywy dalszego rozwoju digitalizacji w Polsce.

Słowa kluczowe

digitalizacja, obiekt cyfrowy, dokument elektroniczny, dokumenty biblioteczne,

format zapisu, biblioteka cyfrowa, Polska

Dziedzina pracy (kody wg programu Socrates-Erasmus)

15400 bibliotekoznawstwo

Tytuł pracy w języku angielskim:

The algorithms for generating the digital duplicates of library documents and creating

their presentation versions. Analysis and assessment of practical aplications in Polish

libraries.

Page 6: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska
Page 7: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

Spis treści

Wstęp .............................................................................................................................. 11

1. Digitalizacja sensu stricto w świetle obowiązującego prawa

i oficjalnych zaleceń ............................................................................................... 15

1.1. Digitalizacja – zakres i pisownia terminu .............................................................. 15

1.2. Zarys rozwoju digitalizacji w Polsce ..................................................................... 16

1.3. Digitalizacja sensu stricto w kontekście polskiego prawa .................................... 20

1.3.1. Ustawy ................................................................................................................. 20

1.3.2. Rozporządzenia ................................................................................................... 21

1.4. Digitalizacja – krajowe zalecenia i dobre praktyki ................................................ 31

1.4.1. Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych .......... 31

1.4.2. Digitalizacja piśmiennictwa ................................................................................ 37

1.4.3. Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego ............. 39

2. Metodologia ............................................................................................................ 49

2.1. Próba badawcza ..................................................................................................... 49

2.2. Narzędzia badawcze .............................................................................................. 59

2.3. Schemat ankiety ..................................................................................................... 61

2.4. Zaplecze sprzętowo-programowe badania ............................................................ 75

2.5. Analiza wyników badania...................................................................................... 77

3. Wyniki badania ...................................................................................................... 82

3.1. Model digitalizacji ................................................................................................. 82

3.1.1. Proszę wskazać stosowany w bibliotece model digitalizacji .............................. 82

3.1.2. Przyczyna zdecydowania się na częściowy outsourcing ..................................... 83

3.1.3. Szacunkowy procent skanów zleconych na zewnątrz w stosunku

do wykonywanych samodzielnie ........................................................................ 84

3.2. Parametry digitalizacji ........................................................................................... 84

3.2.1. W jaki sposób ustalono parametry skanowania i format zapisu

plików archiwalnych dla poszczególnych typów dokumentów? ........................ 84

3.2.2. Jak ustalana jest rozdzielczość skanowania? ...................................................... 85

3.3. Typy digitalizowanych dokumentów – książki ..................................................... 87

3.3.1. Książki – czarno-biała treść ................................................................................ 89

3.3.2. Książki monochromatyczne ................................................................................ 92

3.3.3. Książki zawierające czarno-białe ilustracje ........................................................ 93

3.3.4. Książki zawierające ilustracje w odcieniach szarości ......................................... 94

3.3.5. Książki zawierające kolorowe ilustracje ............................................................. 95

3.4. Typy digitalizowanych dokumentów – gazety ...................................................... 96

Page 8: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

3.4.1. Gazety – czarno-biała treść ................................................................................. 96

3.4.2. Gazety monochromatyczne ................................................................................. 97

3.4.3. Gazety zawierające czarno-białe ilustracje ......................................................... 97

3.4.4. Gazety zawierające ilustracje w odcieniach szarości .......................................... 98

3.4.5. Gazety zawierające kolorowe ilustracje .............................................................. 98

3.5. Typy digitalizowanych dokumentów – czasopisma .............................................. 99

3.5.1. Czasopisma – czarno-biała treść ....................................................................... 100

3.5.2. Czasopisma monochromatyczne ....................................................................... 100

3.5.3. Czasopisma zawierające czarno-białe ilustracje ............................................... 100

3.5.4. Czasopisma zawierające ilustracje w odcieniach szarości ................................ 101

3.5.5. Czasopisma zawierające kolorowe ilustracje .................................................... 102

3.6. Typy digitalizowanych dokumentów – rękopisy................................................. 103

3.6.1. Rękopisy – wyraźny kontrast ............................................................................ 103

3.6.2. Rękopisy – niewyraźny kontrast ....................................................................... 104

3.7. Typy digitalizowanych dokumentów – inkunabuły ............................................ 105

3.8. Typy digitalizowanych dokumentów – stare druki ............................................. 105

3.9. Typy digitalizowanych dokumentów – grafiki .................................................... 106

3.9.1. Grafiki czarno-białe........................................................................................... 107

3.9.2. Grafiki monochromatyczne ............................................................................... 107

3.9.3. Grafiki w odcieniach szarości ........................................................................... 108

3.9.4. Grafiki kolorowe ............................................................................................... 108

3.10. Typy digitalizowanych dokumentów – grafiki wielkoformatowe .................... 109

3.10.1. Grafiki wielkoformatowe czarno-białe ........................................................... 109

3.10.2. Grafiki wielkoformatowe monochromatyczne ............................................... 110

3.10.3. Grafiki wielkoformatowe w odcieniach szarości ............................................ 110

3.10.4. Grafiki wielkoformatowe kolorowe ................................................................ 110

3.11. Typy digitalizowanych dokumentów – mapy ................................................... 111

3.11.1. Mapy czarno-białe z wyraźnym kontrastem ................................................... 111

3.11.2. Mapy czarno-białe z niewyraźnym kontrastem .............................................. 112

3.11.3. Mapy monochromatyczne ............................................................................... 112

3.11.4. Mapy w odcieniach szarości ........................................................................... 112

3.11.5. Mapy kolorowe ............................................................................................... 113

3.12. Typy digitalizowanych dokumentów – mapy wielkoformatowe ...................... 113

3.12.1. Mapy wielkoformatowe czarno-białe z wyraźnym kontrastem ...................... 113

3.12.2. Mapy wielkoformatowe czarno-białe z niewyraźnym kontrastem ................. 114

3.12.3. Mapy wielkoformatowe monochromatyczne ................................................. 114

3.12.4. Mapy wielkoformatowe w odcieniach szarości .............................................. 114

3.12.5. Mapy wielkoformatowe kolorowe .................................................................. 114

Page 9: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

3.13. Typy digitalizowanych dokumentów – odbitki fotograficzne .......................... 115

3.13.1. Odbitki fotograficzne monochromatyczne ..................................................... 115

3.13.2. Odbitki fotograficzne w odcieniach szarości .................................................. 116

3.13.3. Odbitki fotograficzne kolorowe ...................................................................... 116

3.14. Typy digitalizowanych dokumentów – negatywy, przezrocza ......................... 117

3.14.1. Negatywy, przezrocza monochromatyczne .................................................... 117

3.14.2. Negatywy, przezrocza w odcieniach szarości ................................................... 118

3.14.3. Negatywy, przezrocza kolorowe ..................................................................... 118

3.15. Typy digitalizowanych dokumentów – mikroformy ......................................... 118

3.15.1. Mikrofilmy ...................................................................................................... 119

3.15.2. Mikrofisze ....................................................................................................... 119

3.16. Typy digitalizowanych dokumentów – prace licencjackie,

magisterskie i doktorskie ................................................................................... 120

3.16.1. Prace licencjackie, magisterskie i doktorskie – czarno-biała treść ................. 120

3.16.2. Prace licencjackie, magisterskie i doktorskie zawierające

czarno-białe elementy graficzne ..................................................................... 120

3.16.3. Prace licencjackie, magisterskie i doktorskie zawierające

elementy graficzne w odcieniach szarości ...................................................... 121

3.16.4. Prace licencjackie, magisterskie i doktorskie zawierające

kolorowe elementy graficzne .......................................................................... 121

3.17. Typy digitalizowanych dokumentów – dokumenty urzędowe ......................... 122

3.17.1. Dokumenty urzędowe – czarno-biała treść ..................................................... 122

3.17.2. Dokumenty urzędowe zawierające czarno-białe elementy graficzne ............. 122

3.17.3. Dokumenty urzędowe zawierające elementy graficzne

w odcieniach szarości ..................................................................................... 123

3.17.4. Dokumenty urzędowe zawierające kolorowe elementy graficzne .................. 123

3.18. Typy digitalizowanych dokumentów – maszynopisy ....................................... 123

3.18.1. Maszynopisy – wyraźny kontrast.................................................................... 124

3.18.2. Maszynopisy – niewyraźny kontrast ............................................................... 124

3.19. Typy digitalizowanych dokumentów – nuty ..................................................... 125

3.19.1. Nuty – wyraźny kontrast ................................................................................. 125

3.19.2. Nuty – niewyraźny kontrast ............................................................................ 125

3.20. Typy digitalizowanych dokumentów – rysunki techniczne .............................. 125

3.20.1. Rysunki techniczne – wyraźny kontrast ......................................................... 126

3.20.2. Rysunki techniczne – niewyraźny kontrast..................................................... 126

3.21. Typy digitalizowanych dokumentów inne, niż wskazane wcześniej ................ 126

3.22. Pliki archiwalne ................................................................................................. 127

3.22.1. Jak postępują Państwo z plikami uzyskanymi w trakcie

skanowania / fotografowania? ........................................................................ 127

Page 10: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

3.22.2. Proszę wybrać stosowaną politykę długotrwałego przechowywania

plików ............................................................................................................. 128

3.22.3. Proszę wskazać stosowane typy nośników, na których docelowo

przechowywane są pliki .................................................................................. 128

3.22.4. Korekta plików archiwalnych ......................................................................... 130

3.22.5. Sposób postepowania ze skorygowanymi kopiami ........................................ 131

3.22.6. Sposób przeprowadzania korekty ................................................................... 131

3.22.7. Czynności wykonywane w trakcie korekty .................................................... 131

3.22.8. Oprogramowanie stosowane do korekty skanów ........................................... 132

3.23. Pliki prezentacyjne ............................................................................................ 133

3.23.1. DjVu ................................................................................................................ 134

3.23.2. PDF ................................................................................................................. 138

3.23.3. JPEG ............................................................................................................... 139

3.23.4. PNG ................................................................................................................ 140

3.24. Głęboka digitalizacja ......................................................................................... 141

3.25. Metadane ........................................................................................................... 142

3.25.1. Proszę wskazać sposób wypełniania metadanych EXIF ................................ 142

3.25.2. Czy korzystają Państwo z jednego (lub wielu) standardu metadanych

administracyjnych, technicznych lub strukturalnych przy tworzeniu

i zarządzaniu cyfrowymi obiektami (nie dotyczy EXIF)? .............................. 143

3.26. Zestawienie otrzymanych wyników z zaleceniami ........................................... 143

3.27. Uwagi końcowe .................................................................................................147

Zakończenie .................................................................................................................. 150

Załącznik 1 .................................................................................................................... 153

Załącznik 2 .................................................................................................................... 229

Bibliografia ................................................................................................................... 235

Spis tabel ....................................................................................................................... 240

Page 11: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

11

Wstęp

Może się wydawać, że o digitalizacji napisano już wszystko. Z ciekawostki

promowanej głównie przez pasjonatów ewoluowała w Polsce do rozmiarów

imponującego swoim zasięgiem zjawiska. Zjawiska, które doczekało się wielu

publikacji, konferencji, stron internetowych i z którym od kilku lat związane są wielkie

nakłady finansowe, w tym dedykowane programy ministerialne.

Bardzo wnikliwie opisane zostały wszystkie najważniejsze aspekty digitalizacji –

od kwestii czysto organizacyjnych, poprzez techniczne (dotyczące zaplecza sprzętowo-

programowego), aż do społecznych skutków digitalizacji jako zjawiska definiującego

nową jakość kontaktu użytkowników z cyfrowym medium (na długo przed

pojawieniem zdobywających coraz większą popularność e-booków) oraz – z drugiej

strony – generującego nowe minispołeczności skupiające miłośników elektronicznych

publikacji. Gdyby spojrzeć z szerszej perspektywy na krajową digitalizację jako na

pewien system, wszystko wydaje się tworzyć spójną, rozrastającą się dynamicznie

całość. Czy jednak rzeczywiście tak jest? Niniejsza praca ma na celu rzucenie światła na

pewną bardzo istotną lukę w tym systemie, a następnie dostarczenie danych, które – być

może – przyczynią się w przyszłości do jej istotnego zredukowania.

Luką tą jest brak jednolitej polityki wytwarzania wysokiej jakości obiektów

cyfrowych – zarówno w odniesieniu do duplikatów wzorca (czyli tzw. masterów), jak

i wersji docelowych – prezentacyjnych. Przy czym nie jest tak, że ten problem nie został

wcześniej przez nikogo dostrzeżony. Owszem, dostrzeżony został, ale po pierwsze dość

późno (w kraju funkcjonowało już kilkadziesiąt bibliotek cyfrowych), a po drugie próba

zmierzenia się z nim była w najlepszym wypadku niewystarczająca. Za taką próbę

niewątpliwie należy uznać ukazanie się w 2008 r. publikacji Standardy w procesie

digitalizacji obiektów dziedzictwa kulturowego pod red. G. Płoszajskiego (opisanej

szerzej w punkcie 1.4.3 pierwszego rozdziału niniejszej pracy), która przedstawiła

zalecenia odnośnie do generowanych masterów, z podziałem na poszczególne grupy

dokumentów prymarnych. Mimo swych niezaprzeczalnych walorów, wydawnictwo to

ma też fundamentalną wadę – niemal całkowicie pomija kwestię formatów

prezentacyjnych.

Problematyka odpowiedniego wygenerowania wersji prezentacyjnych właściwych

dla danego typu dokumentu jest szalenie istotna z przynajmniej dwóch względów. Po

pierwsze bezpośrednio wpływa na jakość obcowania użytkownika końcowego

z dokumentem cyfrowym. Misją bibliotek jest szerzenie czytelnictwa, niezależnie od

Page 12: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

12

tego, czy dotyczy książek tradycyjnych czy elektronicznych. Zapewnienie optymalnej

jakości książki w wersji cyfrowej sprawi, że czytelnik nie zrazi się do nowego medium,

a być może wręcz doceni możliwości, jakie niesie ze sobą nowa technologia. Po drugie

poprawne wygenerowanie wersji prezentacyjnych (dotyczy to formatów hybrydowych,

czyli PDF i DjVu) jest niejednokrotnie co najmniej tak samo czasochłonne i kosztowne

jak proces skanowania i późniejszej obróbki masterów. Niewłaściwe przeprowadzenie

konwersji może skutecznie zniweczyć ogromnie ważny dla bibliotek cel digitalizacji,

czyli stworzenie namiastki obcowania z papierowym oryginałem.

Przyczyn takiego niefrasobliwego podejścia do „prezentacyjnego” aspektu

digitalizacji można upatrywać w pewnej niestabilności wśród formatów udostępnianych

on-line. W przeciwieństwie do formatu TIFF, który od samego początku niezmiennie

królował jako podstawowy format archiwalny, popularność konkretnych formatów

prezentacyjnych (i ich kolejnych wersji, które znacznie różniły się między sobą

funkcjonalnością) zmieniała się z biegiem czasu. Siłą rzeczy kwestia sposobu

prezentacji obiektów cyfrowych zaczęła być więc traktowana przez specjalistów jako

tymczasowa, a tym samym mniej istotna. Teoretycznie w każdej chwili można na

podstawie bazowych masterów wygenerować dowolny format prezentacyjny, więc

nadmierne skupianie się na ich umiejętnym tworzeniu pozornie nie ma większego

sensu.

Rozumowanie takie z praktycznego punktu widzenia jest błędne. Digitalizacja to

zjawisko, które ciągle postępuje naprzód i nie lubi się oglądać za siebie. Wciąż setki

tysięcy dokumentów czekają na zeskanowanie i po prostu nie ma kiedy wracać do tych

zdigitalizowanych wcześniej. W praktyce nawet dokumenty zapisane we wczesnej

wersji formatu DjVu, która jeszcze nie umożliwiała integrowania warstwy OCR,

w wielu przypadkach najprawdopodobniej nigdy się tej warstwy nie doczekają. Jako

argument przeciwko tworzeniu standardów dla udostępniania obiektów cyfrowych

w oparciu o formaty prezentacyjne można wskazać ich relatywnie dużą różnorodność

i dynamikę rozwoju, podczas gdy standardy powinny cechować się względną

stabilnością. Należy jednakże mieć na uwadze, że przecież w świecie IT nie istnieją

rozwiązania permanentne. Celowo wcześniej pisząc o „królowaniu” formatu TIFF użyto

czasu przeszłego – na świecie podejmowane są już pierwsze (lecz znaczące) próby

zastępowania go formatem JPEG 2000.

Punktem wyjścia dla badań przedstawionych w niniejszej pracy była więc chęć

sprawdzenia, jakie formaty prezentacyjne są obecnie generowane w polskich

bibliotekach. Wiązała się z tym ściśle kwestia gotowości aktualnie posiadanych

Page 13: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

13

masterów do ewentualnej konwersji – należało więc dodatkowo zbadać, na jakich

archiwalnych formatach biblioteki opierają swoje repozytoria. Parametry tych masterów

z kolei determinowały jakość, jaką można otrzymać po konwersji w potencjalnych

wersjach prezentacyjnych. Ostatnim elementem dopełniającym obraz całości była

ogólna polityka postępowania z masterami, która bezpośrednio decyduje o możności

późniejszego wygenerowania wersji prezentacyjnych.

Posiadając już wstępne założenia, należało w pierwszej kolejności sprawdzić, jak

problematyka wyboru konkretnych formatów zapisu (i ich parametrów) uregulowana

jest w polskim ustawodawstwie i literaturze. Rozważaniom tym poświęcony jest

rozdział pierwszy, który ma na celu ustalenie ram dla dalszych badań. Co prawda

polskie prawo regulowało w niewielkim stopniu zakres możliwych do wykorzystania

formatów, ale w momencie pisania niniejszej pracy odpowiednie rozporządzenie zostało

już uchylone, a nowe wciąż nie wykroczyło poza fazę projektu. Tym samym jedynym

źródłem, na którym zdecydowano się bazować w dalszej części pracy, były

wspomniane Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego.

W rozdziale drugim przedstawiono metodologię badania, któremu poddano

wszystkie polskie biblioteki tworzące lub współtworzące biblioteki cyfrowe.

Szczegółowo opisano wszystkie przygotowania, użyte narzędzia, sam proces

przeprowadzenia badania oraz analizy i selekcji otrzymanych danych.

Rozdział trzeci zawiera uporządkowane wyniki badania wraz z ich oceną

i komentarzem, tzn. informacje dotyczące wykorzystywanych formatów archiwalnych

(i ich parametrów) z podziałem na typy dokumentów, sposobów postępowania

z masterami, rodzaje generowanych formatów prezentacyjnych, a także dodatkowe

kwestie dotyczące m.in. stosowania głębokiej digitalizacji i metadanych. Na końcu

rozdziału dokonano konfrontacji zaleceń znajdujących się w Standardach (…)

z faktycznymi parametrami masterów najczęściej stosowanymi przez polskie biblioteki.

Ten bezprecedensowy zabieg miał na celu ukazanie faktycznego obrazu obecnej

digitalizacji w odniesieniu do wymogów, jakie są jej stawiane przez ekspertów.

Omawiana konfrontacja obnażyła słabe i mocne strony bibliotecznej digitalizacji, co

może posłużyć jako punkt wyjściowy do działań na rzecz jej jakościowego zbliżenia do

krajowych zaleceń i – w dalszej perspektywie – do światowych standardów.

Page 14: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska
Page 15: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

15

1. Digitalizacja sensu stricto w świetle obowiązującego prawa

i oficjalnych zaleceń

1.1. Digitalizacja – zakres i pisownia terminu

Idea procesu digitalizacji – zdobywająca na świecie popularność już od lat

osiemdziesiątych XX wieku – w polskiej praktyce bibliotecznej zaistniała

z dziesięcioletnim opóźnieniem, by na trwałe zapisać się w świadomości pracowników

instytucji kultury na początku XXI wieku, w związku głośną z premierą Polskiej

Biblioteki Internetowej1 oraz mniej nagłośnioną, ale zdecydowanie bardziej znaczącą

dla rozwoju krajowej digitalizacji – Wielkopolskiej Biblioteki Cyfrowej2

.

Sformułowanie pracownicy instytucji kultury padło tu celowo, ponieważ społeczna

świadomość istoty digitalizacji jest wciąż znikoma.

Zakres pojęcia digitalizacja do dzisiaj budzi kontrowersje nawet wśród

specjalistów i – wraz z upowszechnianiem digitalizacji wśród instytucji kultury – ma

tendencje do rozszerzania się. Pierwsze definicje były dość ubogie – np. według

Encyklopedii PWN z 1999 r. digitalizacja (cyfryzacja) to „zmiana postaci sygnału (…)

z analogowej na cyfrową; przeprowadzana w procesie przetworzenia analogowo-

cyfrowego”3. W książce Digitalizacja zbiorów bibliotecznych: teoria i praktyka autor

tak ujęty proces określił mianem digitalizacji sensu stricto, która jest tylko elementem

składowym digitalizacji sensu largo, uwzględniającej również obróbkę cyfrowych

wtórników i tworzenie na ich podstawie dokumentów prezentacyjnych, a następnie ich

udostępnianie4. Publikacja Standardy w procesie digitalizacji obiektów dziedzictwa

kulturowego5

z 2008 r. wzbogaciła definicję o konieczność uwzględnienia opisu

informacyjnego (metadanych) i aspekt długotrwałego utrzymania repozytorium

cyfrowych wtórników. Z kolei w chronologicznie najmłodszej publikacji Digitalizacja

piśmiennictwa6, która ukazała się w listopadzie 2010 r., charakterystyka digitalizacji

1 Historia projektu. [W:] Polska Biblioteka Internetowa [on-line]. Tryb dostępu:

http://www.pbi.edu.pl/opbi_historia_projektu.html [dostęp: 22.10.2010 r.]. 2 Informacje na temat projektu. [W:] Wielkopolska Biblioteka Cyfrowa [on-line]. Tryb dostępu:

http://www.wbc.poznan.pl/dlibra/text?id=library-desc [dostęp: 22.10.2010 r.]. 3 Cyfryzacja (digitalizacja). [W:] Encyklopedia PWN w trzech tomach. T. 1. Pod. red.

A. Dyczkowskiego. Warszawa: Wydawnictwo Naukowe PWN, 1999. 4 A. Trembowiecki: Digitalizacja zbiorów bibliotecznych : teoria i praktyka. Warszawa: Centrum

Edukacji Bibliotekarskiej, Informacyjnej i Dokumentacyjnej, 2006, s. 15. 5 Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego. Pod red. G. Płoszajskiego

[on-line]. Warszawa: Biblioteka Główna Politechniki Warszawskiej, 2008, s. 11. Tryb dostępu:

http://bcpw.bg.pw.edu.pl/dlibra/doccontent?id=1262&dirids=1 [dostęp: 17.08.2010 r.]. 6 Digitalizacja piśmiennictwa. Pod red. D. Paradowskiego. Warszawa: Biblioteka Narodowa, 2010.

Page 16: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

16

została rozbudowana o etap przygotowawczy – planowanie, selekcję dokumentów,

stworzenie zaplecza kadrowego, lokalowego, sprzętowego i programowego, a także

transport dokumentów oryginalnych.

Kłopotów przysporzyło nie tylko wyznaczenie zakresu digitalizacji, lecz także

grafia terminu. W połowie pierwszego dziesięciolecia tego wieku toczył się spór między

zwolennikami pisowni digitalizacja i dygitalizacja7. Druga forma, chociaż jest bardziej

poprawna z punktu widzenia zasad języka polskiego, w piśmiennictwie i praktyce

używana jest zdecydowanie rzadziej. Spór nie doczekał się jednoznacznego

rozstrzygnięcia, lecz za używaniem formy mniej poprawnej przemawiają między

innymi:

brak nowych publikacji używających formy dygitalizacja,

popularność formy digitalizacja w Internecie, który jest źródłem wiedzy

i platformą wymiany doświadczeń dla praktyków. Ponadto Google, który jest

najpopularniejszą internetową wyszukiwarką, po użyciu w kwerendzie formy

dygitalizacja podpowiada, że być może chodziło o digitalizację,

funkcja Centrum Kompetencji w zakresie digitalizacji materiałów

bibliotecznych, którą pełni Biblioteka Narodowa i która na tej podstawie

przygotowała wspomniany wcześniej oficjalny podręcznik zatytułowany

Digitalizacja piśmiennictwa.

Ponadto językoznawcy nie negują już digitalizacji tak gwałtownie jak kilka lat

temu i traktują ją jako oficjalny synonim formy zalecanej. Z powyższych względów

w niniejszej pracy używana będzie forma mniej poprawna, lecz bardziej popularna

i obecnie powszechnie używana także w bibliotekoznawstwie.

1.2. Zarys rozwoju digitalizacji w Polsce

W poprzednim punkcie wspomniano o premierach dwóch bibliotek cyfrowych

jako cezurze upowszechniania się digitalizacji w Polsce. Każda z nich była równie

istotna, lecz z perspektywy czasu ich doniosłość istotnie się różni.

Uruchomienie Polskiej Biblioteki Internetowej 21 grudnia 2002 r. wiązało się

z głośną kampanią medialną, ponieważ za funkcjonowanie PBI odpowiedzialne było

Ministerstwo Spraw Wewnętrznych i Administracji, a finansowana była bezpośrednio

z funduszy Skarbu Państwa. Promowano ją jako efekt działalności państwa na rzecz

7 M. Kowalska: Dygitalizacja zbiorów bibliotek polskich. Warszawa: Wydawnictwo SBP, 2007, s. 21-24.

Page 17: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

17

uczynienia wielkiego kroku naprzód w rozwoju polskiego społeczeństwa

informacyjnego. Pomijając wszelkie kontrowersje, które powstały w związku

z późniejszym funkcjonowaniem (i ostatecznie upadkiem projektu), PBI odegrała

bardzo ważną rolę ideową. Obudziła społeczną świadomość możliwości korzystania ze

źródeł informacji na całkiem nowym poziomie. Użytkownik preferujący Internet jako

źródło wiedzy ponad tradycyjne dokumenty drukowane, mógł od tej pory –

przynajmniej teoretycznie – mieć wgląd do elektronicznych wersji publikacji, po które

wcześniej musiał się udać do biblioteki lub księgarni.

Pojawienie się PBI nie sprawiło, że w polskim społeczeństwie dokonała się

zmiana mentalności, było za to impulsem dla instytucji kultury (a w szczególności dla

bibliotek) do zainteresowania się – prawdopodobnie z uwagi na obawę przed spadkiem

czytelnictwa w obliczu rozwoju nowych technologii – wzbogaceniem usług o dostęp do

tworzonych przez siebie pełnotekstowych baz danych. Przykład PBI bardziej jednak

w tym przypadku odstraszał niż zachęcał do samodzielnych prób, ponieważ w ogólnej

opinii digitalizacja, w wyniku której powstawały między innymi repozytoria PBI, była

szalenie kosztowna8.

Premiera Wielkopolskiej Biblioteki Cyfrowej, która miała miejsce 1 października

2002 r., nie była nagłośniona i stanowiła bardziej wydarzenie branżowe niż medialne.

Poznańskie Centrum Superkomputerowo-Sieciowe – twórcy pionierskiej platformy

dLibra9, na której opiera się WBC – zamiast inwestować w ogólnopolską reklamę

swojego produktu – skupili się na bardzo aktywnym uczestniczeniu w większości wtedy

organizowanych konferencji, seminariów i sympozjów dla bibliotek i archiwów. Na

przykładzie WBC demonstrowali możliwości, jakie stwarza dLibra i zachęcali do jej

testowania. Należy dodać, że początkowo platforma PCSS była produktem darmowym,

co tym bardziej zwiększyło jej popularność.

Wraz z upowszechnieniem wiedzy o funkcjonowaniu i faktycznych kosztach

stworzenia i utrzymania własnej biblioteki cyfrowej, popularność dLibry wśród

instytucji kultury gwałtownie rosła, by niemal całkowicie obecnie zdominować polski

rynek platform do obsługi bibliotek cyfrowych. Efektem ubocznym tego zjawiska było

8 PBI. Niestety to znowu o pieniądzach: krytyka wydatków na Polską Bibliotekę Internetową.

[W:] 7thGuard.net [on-line]. Tryb dostępu: http://7thguard.net/news.php?id=3661

[dostęp: 23.10.2010 r.]. 9 Witaj na stronie projektu dLibra! [W:] dLibra [on-line]. Tryb dostępu: http://dlibra.psnc.pl

[dostęp: 23.10.2010 r.].

Page 18: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

18

oddolne powstanie ogólnokrajowej sieci bibliotek cyfrowych10

– realizowane przez

multiwyszukiwanie za pomocą wbudowanego w dLibrę protokołu OAI-PMH.

W rezultacie obecnie11

funkcjonują w Polsce 62 biblioteki cyfrowe12

, z czego

około 90% pracuje na platformie dLibra. Można więc w przypadku infrastruktury

programowej mówić o pewnym ujednoliceniu interfejsu bibliotek cyfrowych w kraju.

Sytuacja ta dotyczy również metadanych opisowych, ponieważ dLibra niejako narzuca

format Dublin Core. Na tym jednak ujednolicenie w sposobie funkcjonowania bibliotek

cyfrowych i digitalizacji w zasadzie się kończy. Różnice rozpoczynają się już

w momencie interpretacji pól wspomnianego formatu Dublin Core13

i dotyczą

praktycznie całego procesu szeroko rozumianej digitalizacji.

W celu wpisania polskiej digitalizacji w ramy wewnętrznie spójnego systemu,

Minister Kultury i Dziedzictwa Narodowego na podstawie założeń Programu

digitalizacji dóbr kultury oraz gromadzenia, przechowywania i udostępniania obiektów

cyfrowych w Polsce 2009-2020, powołał w dniu 29 października 2009 r. cztery centra

kompetencji:

Biblioteka Narodowa – w zakresie digitalizacji materiałów bibliotecznych,

Narodowe Archiwum Cyfrowe – w zakresie digitalizacji materiałów

archiwalnych,

Krajowy Ośrodek Badań i Dokumentacji Zabytków – w zakresie digitalizacji

zabytków i muzealiów,

Narodowy Instytut Audiowizualny – w zakresie digitalizacji materiałów

audiowizualnych.

Mają one być „instytucjami wiodącymi w danym obszarze, stanowiąc wzór dla

innych instytucji oraz prowadząc szkolenia z zakresu digitalizacji dziedzictwa

kulturowego”14

. Z uwagi na zakres niniejszej pracy, w jej dalszej części rozważania

skupią się na działaniach Biblioteki Narodowej. Przez pierwszy rok funkcjonowania

10

J. Franke: Digitalizacja dokumentów piśmienniczych – strategie rozwoju. [W:] Cyfrowy świat

dokumentu: wydawnictwa, biblioteki, muzea, archiwa. Pod red. H. Hollendra. Warszawa: Centrum

Promocji Informatyki Sp. z o.o., 2011, s. 157-158. 11

Stan na dzień 16 lutego 2011 r. 12

Zestawienie polskich bibliotek cyfrowych. [W:] Federacja Bibliotek Cyfrowych [on-line]. Tryb

dostępu: http://fbc.pionier.net.pl/owoc/list-libs [dostęp: 23.10.2010 r.]. 13

L. Defert-Wolf: Jak posługiwać się biblioteką cyfrową? [W:] Cyfrowy…, op. cit., s. 201-207. 14

Biblioteka Narodowa – Centrum Kompetencji. [W:] Biblioteka Narodowa [on-line]. Tryb dostępu:

http://www.bn.org.pl/aktualnosci/96-biblioteka-narodowa-%E2%80%93-centrum-kompetencji.html

[dostęp: 10.01.2011 r.].

Page 19: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

19

jako Centrum Kompetencji, BN zorganizowała między innymi seminarium dotyczące

kwestii prawno-autorskich związanych z digitalizacją i opublikowała wspomniany

w poprzednim punkcie poradnik Digitalizacja piśmiennictwa.

Kolejnym krokiem w kierunku uporządkowania digitalizacji w Polsce jest

ogłoszony przez MSWiA w dniu 17 lutego 2011 r. Wieloletni Program Rządowy

KULTURA+15

, którego jednym z priorytetów jest digitalizacja. Głównym celem tego

priorytetu jest „umożliwienie dostępu do cyfrowych zasobów polskiego dziedzictwa

kulturowego za pośrednictwem Internetu dla mieszkańców Polski, zwłaszcza wsi

i małych miast.”16

. Pomijając szereg nieścisłości w treści samego programu, niepokoić

może szczególnie zapis, że w pierwszej kolejności nacisk zostanie położony na

specjalistyczne wyposażenie pracowni w Centrach Kompetencji17

, co – biorąc pod

uwagę zaangażowanie Narodowego Instytutu Audiowizualnego (będącego przecież

jednym z Centrów) w merytoryczne przygotowanie programu – budzić może

uzasadniony niesmak najbardziej zainteresowanych, czyli państwowych instytucji

kultury niższego szczebla.

Jeszcze więcej zastrzeżeń rodzi regulamin składania wniosków o dofinansowanie

z Priorytetu „Digitalizacja”18

. Zgodnie z pkt 7 działu IX. Zobowiązania wnioskodawcy

– biblioteka, która otrzyma dofinansowanie z programu KULTURA+, obowiązana

będzie przynajmniej 85% plików wygenerowanych dzięki temu dofinansowaniu

udostępnić w Cyfrowej Bibliotece Narodowej „Polona” lub w innym portalu

wskazanym przez Bibliotekę Narodową19

.

Zamiast systematyzować polską digitalizację, MSWiA zmierza do jej

scentralizowania. Automatycznie rodzi się pytanie: jaki scenariusz MSWiA

przygotowało dla już istniejących regionalnych i instytucjonalnych bibliotek

cyfrowych? W chwili obecnej trudno przewidzieć, jak będzie wyglądał krajobraz sieci

polskich bibliotek cyfrowych za 2-3 lata, ponieważ działania Ministerstwa i Biblioteki

Narodowej najwyraźniej zmierzają do jej wyeliminowania. Wydaje się, że najbardziej

prawdopodobny scenariusz dla sieci to jej dalsza działalność, ale przy jednoczesnym

15

Rusza Wieloletni Program Rządowy Kultura+. [W:] DOM KULTURY+ [on-line]. Tryb dostępu:

http://www.domkulturyplus.pl/art,pl,aktualnosci,95985.html [dostęp: 21.02.2011 r.]. 16

Wieloletni program rządowy KULTURA+ [on-line]. Tryb dostępu:

http://bip.mkidn.gov.pl/media/docs/inne_dok/WPR_KULTURA_projekt_20100318.pdf

[dostęp: 21.02.2011 r.], s. 39. 17

Ibidem, s. 38. 18

Regulamin Programu Wieloletniego KULTURA+: Priorytet „Digitalizacja” [on-line]. Tryb dostępu:

http://www.nina.gov.pl/files/Regulamin_WPR_Kultura_Priorytet_Digitalizacja.pdf

[dostęp: 8.03.2011 r.]. 19

Ibidem, s. 10.

Page 20: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

20

radykalnym obniżeniu dynamiki rozwoju oraz zdecydowany wzrost znaczenia

„Polony”. Niewykluczone, że w dalszej przyszłości „Polona” wchłaniać będzie kolekcje

już istniejących biblioteki cyfrowych, które z kolei będą zamykane.

1.3. Digitalizacja sensu stricto w kontekście polskiego prawa

Naszkicowana w poprzednim punkcie krótka historia digitalizacji w Polsce

prowadzi do konkluzji, że brak jest jednolitej, narodowej strategii budowania

cyfrowych repozytoriów. Instytucje chcące prowadzić digitalizację dowolnych zbiorów,

muszą więc brać pod uwagę przede wszystkim uwarunkowania, jakie w tej kwestii

stawia polskie prawo. Do niedawna reszta czynników była całkowicie fakultatywna

i zależna wyłącznie od zapatrywań danego podmiotu prowadzącego digitalizację; mógł,

lecz nie musiał stosować się do zewnętrznych zaleceń i dobrych praktyk. Sytuację na

pewno zmieni (lecz w niewielkim stopniu20

) ogłoszenie Wieloletniego Programu

Rządowego KULTURA+, którego jednym z załączników jest Katalog dobrych praktyk

digitalizacyjnych dla obiektów bibliotecznych21

. Wymóg jego stosowania wśród

instytucji, które otrzymają ministerialne dofinansowanie – jako wymagań minimalnych

– ujęty jest expressis verbis w pkt 7 lit. b w dziale V. Szczegółowe warunki finansowe

i organizacyjne w Regulaminie PW KULTURA+: Priorytet „Digitalizacja”.

Zanim jednak omówione zostaną podstawowe źródła zaleceń (ponieważ standardy

krajowe de facto jeszcze nie istnieją), należy przeanalizować przepisy prawa polskiego

mogące bezpośrednio wpłynąć na przebieg digitalizacji sensu stricto.

1.3.1. Ustawy

Działalność bibliotek reguluje szczegółowo wiele ustaw, lecz przepisy mające

wpływ bezpośrednio na proces digitalizacji znajdują się tylko w jednej – ustawie

o informatyzacji działalności podmiotów realizujących zadania publiczne22

. Już w art. 1

pkt 2 ustawa wprowadza pojęcia minimalnych wymagań stawianych systemom

teleinformatycznym używanym do realizacji zadań publicznych oraz Krajowych Ram

Interoperacyjności. Minimalne wymagania (…) są katalogiem wymagań o charakterze

organizacyjno-technicznym, którego stosowanie ma zagwarantować poziom

20

Zob. pkt 1.4.1. 21

Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych [on-line]. Tryb dostępu:

http://www.nina.gov.pl/files/Katalog_Dobrych_Praktyk_digitalizacji_dla_obiektow_

bibliotecznych.doc [dostęp: 8.03.2011 r.]. 22

Ustawa o informatyzacji działalności podmiotów realizujących zadania publiczne z dnia 17.02.2005 r.

Dz. U. Nr 64 z 2005 r., poz. 565 z późniejszymi zmianami. Stan na 1.01.2011 r.

Page 21: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

21

informatyzacji państwa zgodny z dalekosiężnymi planami informatyzacji państwa,

koordynowanymi za pomocą Krajowych Ram Interoperacyjności, stanowiących z kolei

„zbiór uzgodnionych definicji, wymagań, reguł architektury systemów

teleinformatycznych, procedur i zasad, których stosowanie umożliwi współdziałanie

systemów informacyjnych jednostek administracji publicznej w procesach realizacji

zadań publicznych drogą elektroniczną”23

.

Kolejną kwestią bezpośrednio związaną z dalszymi rozważaniami są definicje

legalne zawarte w art. 3. Dokumentem elektronicznym wg ustawy jest „stanowiący

odrębną całość znaczeniową zbiór danych uporządkowanych w określonej strukturze

wewnętrznej i zapisany na informatycznym nośniku danych”24

. Za testy akceptacyjne

ustawodawca uważa zaś „udokumentowane wartości danych wejściowych

wprowadzanych do systemu teleinformatycznego i powiązanych z nimi wartości

oczekiwanych danych wyjściowych, opisujące zestawy poprawnych odpowiedzi

systemu teleinformatycznego na podawane dane wejściowe, pozwalające na

sprawdzenie poprawności wdrożenia oprogramowania interfejsowego”25

.

Art. 13 ust. 1 zawiera przepis explicite nakazujący podmiotom, których dotyczy

ustawa, stosowanie rozwiązań wyszczególnionych w minimalnych wymaganiach (…).

Kontrowersje mogące potencjalnie narosnąć wokół tego zapisu po części łagodzi ust. 2

pkt 2 tego artykułu, który zezwala na rozszerzenie katalogu zawartego w minimalnych

wymaganiach (…) o dodatkowe rozwiązania, które jednak muszą być zabezpieczone

posiadaniem odpowiednich testów akceptacyjnych, wspomnianych w art. 3 pkt 12.

Ostatnim przepisem omawianej ustawy, który należy wymienić w kontekście

digitalizacji sencu stricto, jest art. 18 pkt 1. Zawiera on delegację ustawową nakładającą

na Radę Ministrów obowiązek uchwalenia w drodze rozporządzenia wcześniej

wspomnianych minimalnych wymagań dla systemów teleinformatycznych.

1.3.2. Rozporządzenia

Uchwalone w dniu 11 października 2005 r. rozporządzenie Rady Ministrów

w sprawie minimalnych wymagań dla systemów teleinformatycznych26

stanowi akt

23

Projekt rozporządzenia Rady Ministrów w sprawie Krajowych Ram Interoperacyjności, minimalnych

wymagań dla rejestrów publicznych i wymiany informacji w formie elektronicznej oraz minimalnych

wymagań dla systemów teleinformatycznych [on-line]. Tryb dostępu:

http://bip.mswia.gov.pl/download.php?s=4&id=8282 [dostęp: 15.02.2011 r.], §3 pkt 1. 24

Ustawa o informatyzacji... art. 3, pkt 2. 25

Ibidem, pkt 12. 26

Rozporządzenie Rady Ministrów w sprawie minimalnych wymagań dla systemów teleinformatycznych

z dnia 11.10.2005 r. Dz. U. Nr 212 z 2005 r., poz. 1766.

Page 22: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

22

wykonawczy w stosunku do ustawy opisanej w punkcie 1.3.1. Poza przepisami

wprowadzającymi, zawiera dwa załączniki, z których drugi – Formaty danych

zapewniające dostęp do zasobów informacji udostępnianych za pomocą systemów

teleinformatycznych używanych do realizacji zadań publicznych – ma podstawowe

znaczenie dla tematu poruszanego w niniejszej pracy, dlatego zostanie przytoczony

w tabeli 1.

Tab. 1. Formaty danych zapewniające dostęp do zasobów informacji udostępnianych za pomocą

systemów teleinformatycznych używanych do realizacji zadań publicznych

Lp. Nazwa skrócona standardu oraz

jego wersja

Oryginalna pełna nazwa standardu

Opis standardu

Organizacja określająca normę lub standard

Nazwa normy, standardu lub

dokumentu normalizacyjnego

albo standaryzacyjnego

1 2 3 4 5 6

A. Do przetworzenia informacji na dane w układzie bitowym stosuje się następujące formaty danych:

2. Do danych zawierających dokumenty tekstowe lub tekstowo-graficzne stosuje się co najmniej jeden z

następujących formatów danych, umożliwiających ich przeglądanie i drukowanie przy użyciu popularnych przeglądarek i edytorów:

2.1 .txt

Dokumenty w postaci czystego

(niesformatowanego) zbioru znaków

zapisanych w standardzie Unicode UTF-8 jako pliki

typu .txt

2.2 .rtf

wersja 1.6 Rich Text Format

Specification

Dokumenty w postaci sformatowanego tekstu

jako pliki typu .rtf Microsoft Corp.

2.3 .pdf

wersja 1.4 Portable Document

Format

Dokumenty tekstowo-graficzne jako pliki typu

.pdf w wersji 5 przeglądarki Adobe Reader – standard

obowiązuje wyłącznie dla odczytu dokumentu

Adobe Systems Inc.

2.4 .doc

Dokumenty w postaci sformatowanego tekstu

jako pliki typu .doc – standard obowiązuje wyłącznie dla odczytu

dokumentu

Microsoft Corp.

2.5 Open Document

wersja 1.0

Open Document Format for Office

Application

Otwarty format dokumentów aplikacji

biurowych OASIS

3. Do danych zawierających informację graficzną stosuje się co najmniej jeden z następujących formatów

danych:

3.1 .jpg (.jpeg)

Digital compression and coding of

continuous-tone still images

Pliki typu .jpg (Joint Photographic Experts

Group) ISO ISO 10918

Page 23: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

23

1 2 3 4 5 6

3.2 .gif

wersja 98a Graphics

Interchange Format Pliki typu .gif

CompuServer Inc.

3.3 .tif (.tiff) Tagged Image File

Format Pliki typu .tif

Adobe Systems Inc.

3.4 .png Portable Network

Graphics Pliki typu .png ISO ISO/IEC 15948:2003

3.5 .svg Scalable Vector

Graphics Grafika wektorowa W3C

B. Do określenia układu informacji w dokumencie elektronicznym stosuje się następujące formaty danych:

1. Do definiowania układu informacji polegającego na określeniu elementów informacyjnych oraz powiązań

między nimi stosuje się następujące formaty danych:

1.1 XML Extensible Markup

Language

Standard uniwersalnego formatu tekstowego służącego do zapisu

danych w formie elektronicznej

W3C

1.2 XSD

(schemat XML)

Standard opisu definicji struktury dokumentów zapisanych w formacie

XML

W3C

1.3 GML Geography Markup

Language Język Znaczników

Geograficznych OGC

Źródło: Rozporządzenie Rady Ministrów w sprawie minimalnych wymagań dla systemów

teleinformatycznych (Dz. U. Nr 212 z 2005 r., poz. 1766).

Tabela nr 1 nie uwzględnia punktów 1, 4 i 5 części A oraz punktu 2 części B

załącznika nr 2 do rozporządzenia, ponieważ zawierają one wyszczególnienie formatów

dla zadań nie objętych merytorycznym zakresem niniejszej pracy.

Przed przejściem do szczegółowej analizy zawartości rozporządzenia, warto

zastanowić się nad jego użytecznością z punktu widzenia instytucji kultury. Już sam

tytuł budzi zastrzeżenia, ponieważ w treści aktu znajduje się enumeratywny katalog

formatów. Katalog ten nie jest ani wyczerpujący, ani nie zawiera charakterystyki

technicznej wymienionych formatów, ani tym bardziej ich nie konfrontuje ze sobą,

nawet nie wspominając o konfrontacji z formatami nie ujętymi na liście. Używając

sformułowania minimalne wymagania prawodawca sugeruje, że instytucja publiczna

powinna korzystać z (jednego? kilku? na jakiej podstawie dokonać wyboru?)

narzuconych formatów. Czy zatem formaty pominięte w rozporządzeniu należy

rozumieć jako dodatkowe, które można ewentualnie zastosować obok tych

wymienionych? A może nie uwzględniono ich w treści rozporządzenia, bo nie spełniają

minimalnych wymogów? Prawodawca pisząc o minimalnych wymaganiach

automatycznie wartościuje coś, co jest bardzo trudne bądź wręcz niemożliwe do

Page 24: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

24

wartościowania, ponieważ każdy z formatów ma inną specyfikę i nadaje się do

określonych zastosowań.

Rada Ministrów w odpowiedzi na liczne zapytania odnośnie sposobu interpretacji

katalogu formatów umieszczonego w rozporządzeniu, wydała oświadczenie, w którym

nakazuje traktować wspomniany katalog jako katalog obowiązkowy, ale nie

wykluczający stosowanie innych formatów. Padło również stwierdzenie, że żaden

z tych formatów nie jest preferowany przez prawodawcę i należy je traktować na

równi27

.

Komunikat zamiast rozwiać wątpliwości, tylko je pogłębił. Skoro instytucja

kultury ma obowiązek wybrać któryś z narzuconych formatów, to jaki jest sens

dublowania dokumentów elektronicznych w innym (dodatkowym) formacie? Co

gorsza, rozporządzenie nie zawiera rozróżnienia formatów ze względu na ich

właściwości do przechowywania i udostępniania danych. Łatwo sobie wyobrazić

ograniczenie całego procesu digitalizacji – przy nikłej wiedzy praktycznej – do formatu

JPEG o wysokim stopniu kompresji i niskiej rozdzielczości. Chociaż z punktu widzenia

idei digitalizacji cały proces okazałby się bezwartościowy, byłby całkowicie zgodny

z minimalnymi wytycznymi.

Prawodawca zdecydował się na zastosowanie podziału dychotomicznego na dane

tekstowe i tekstowo-graficzne oraz stricte graficzne. Punkt 2 załącznika koncentruje się

na formatach zapisu pierwszej grupy danych. Analizując tę grupę należy pamiętać

o tym, że rozporządzenie dotyczy przede wszystkim systemów używanych przez

instytucje publiczne do realizacji ich podstawowych zadań, czyli obsługujących

biurowe zaplecze administracji. Widać to szczególnie w przypadku punktu 2, gdzie gros

formatów ma charakter stricte biurowy, a niekiedy wręcz związany z określonymi

pakietami biurowymi. Dotyczy to przede wszystkim formatów:

DOC (pkt A.2.4) – stworzony przez Microsoft Corporation i przypisany do MS

Word, edytora tekstu, będącego częścią pakietu MS Office28

,

Open Document (pkt A.2.5) – standard zapisu danych używany w popularnym

bezpłatnym pakiecie biurowym OpenOffice.org29

.

27

Komunikat z dnia 28.11.2005 r. [W:] Ministerstwo Spraw Wewnętrznych i Administracji [on-line].

Tryb dostępu: http://www.mswia.gov.pl/index.php?dzial=2&id=3607 [dostęp: 3.11.2010 r.]. 28

DOC (computing). [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/DOC_(computing) [dostęp: 20.12.2010 r.]. 29

OpenDocument (computing). [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Open_Document [dostęp: 20.12.2010 r.].

Page 25: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

25

RTF (pkt A.2.2) – chociaż zaprojektowany został z myślą o łatwej wymianie

danych między rozmaitymi aplikacjami i platformami30

, również związany jest głównie

z produktami Microsoft Corporation.

Wspomniane formaty teoretycznie mogą służyć w procesie digitalizacji do

przechowywania i udostępniania danych, w praktyce unika się jednak takich rozwiązań.

Używanie rozbudowanych pakietów biurowych do przeglądania dokumentów

elektronicznych jest uciążliwe i mało wygodne. Samo oprogramowanie jest kosztowne,

a użytkownicy na ogół nie wiedzą, że dokumenty zapisane w formacie MS Office

można otwierać za pomocą odpowiednich bezpłatnych przeglądarek udostępnianych

on-line przez Microsoft.

Częściej spotkać można TXT31

(pkt A.2.1) oraz – przede wszystkim – PDF32

(A.2.3), jako formaty prezentacyjne, w których zapisane są cyfrowe obiekty. Obydwa

na ogół są wygenerowane na podstawie jednej z odmian formatu XML33

(pkt B.1.1),

przez prawodawcę przedstawionego jako standard definiowania układu i wewnętrznej

relacji w dokumentach, służący do długoterminowego przechowywania dokumentów

tekstowych bądź tekstowo-graficznych.

W punkcie 3 załącznika wymienione są formaty przeznaczone dla danych

zawierających informacje graficzne. Z punktu widzenia digitalizacji, punkt ten

zdecydowanie bardziej przystaje do realiów i wymogów dobrej praktyki, niż punkt

wcześniejszy. Największe znaczenie ma tu format TIFF34

(pkt A.3.3), będący

standardem dla LTP35

. Zalecenie jego stosowania jest powszechnie przyjętym, stałym

elementem polityki digitalizacji – w odniesieniu zarówno do rozmaitych projektów, jak

też w skali ogólnokrajowej36

. Jego bezstratność, bezproblemowość odczytu i obsługa

przez wszystkie popularne programy graficzne sprawiają, że idealnie nadaje się jako

format archiwalny, tzn. przeznaczony do przechowywania danych i będący bazą dla

konwersji do rozmaitych formatów prezentacyjnych.

30

Rich Text Format. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Rich_Text_Format [dostęp: 20.12.2010 r.]. 31

Text file. [W:] Wikipedia [on-line]. Tryb dostępu: http://en.wikipedia.org/wiki/Text_file

[dostęp: 21.12.2010 r.]. 32

Portable Document Format. [W:] Wikipedia [on-line]. Tryb dostępu: http://en.wikipedia.org/wiki/Pdf

[dostęp: 21.12.2010 r.]. 33

XML. [W:] Wikipedia [on-line]. Tryb dostępu: http://en.wikipedia.org/wiki/Xml

[dostęp: 21.12.2010 r.]. 34

Tagged Image File Format. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Tagged_Image_File_Format [dostęp: 22.12.2010 r.]. 35

LTP – Long-Term Preservation (długotrwałe przechowywanie). Skrótem tym opatruje się zagadnienia

skupiające się wokół problematyki przechowywania i zabezpieczania danych w dłuższej perspektywie

czasowej. 36

Zob. pkt 1.4.1, 1.4.3.

Page 26: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

26

JPEG37

(pkt A.3.1) jest nie tylko formatem graficznym, ale również standardem

w udostępnianiu dokumentów o charakterze graficznym. Na początku XXI wieku był

najszerzej stosowanym formatem do prezentacji rozmaitych cyfrowych obiektów –

stosowano go zarówno do dokumentów o charakterze typowo graficznym (zdjęcia,

plakaty, obrazy), ale też do dokumentów stricte tekstowych. Na dzień dzisiejszy z tej

ostatniej wspomnianej grupy został niemal całkowicie wyparty przez formaty tekstowe

lub hybrydowe38

, lecz wciąż za jego pomocą udostępnia się najwięcej graficznych

obiektów cyfrowych.

GIF39

(pkt A.3.2) i PNG40

(pkt A.3.4) mają zbliżony zakres zastosowań –

najczęściej używa się ich do prezentacji rozmaitych elementów graficznych, przede

wszystkim na stronach WWW. Dzieje się tak głównie za sprawą obsługi przez te

formaty trybu przezroczystości i niewielkie rozmiary plików (mimo wewnętrznej

bezstratności). W digitalizacji praktycznie się ich nie stosuje, co nie dziwi w przypadku

GIF (możliwość zapisania do 256 kolorów), ale zastanawia w odniesieniu do PNG. Być

może PNG czeka podobny los jak JPEG 200041

, który przez kilka pierwszych lat po

premierze miał charakter niszowy, by obecnie przeżywać swój renesans.

SVG42

(pkt A.3.5) ma szerokie zastosowanie przy dokumentach born-digital43

,

ponieważ służy za międzyplatformowy standard do przenoszenia danych graficznych

zapisanych w sposób wektorowy. Głęboka digitalizacja, której końcowym efektem są

obrazy wektorowe, ma miejsce niezmiernie rzadko i najczęściej występuje przy

specjalistycznych projektach, których adresatami jest wąska grupa odbiorców (np. przy

digitalizacji zasobów geodezyjnych).

Z powyższej analizy wynika, że rozporządzenie skierowane było bardziej do

administracji publicznej, niż do jednostek kultury zajmujących się digitalizacją, tym

samym skazując organizatorów bibliotek cyfrowych na rozwiązania o dyskusyjnym

walorze praktycznym.

37

JPEG. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/JPEG

[dostęp: 22.12.2010 r.]. 38

W. M. Kolasa: Formaty hybrydowe w bibliotekach cyfrowych [on-line]. Tryb dostępu:

http://issuu.com/mefrox/docs/fromaty [dostęp: 21.12.2010 r.]. 39

GIF. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/GIF

[dostęp: 20.12.2010 r.]. 40

PNG. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/Png

[dostęp: 20.12.2010 r.]. 41

JPEG 2000. [W:] Wikipedia [on-line]. Tryb dostępu: http://en.wikipedia.org/wiki/Jpeg2000

[dostęp: 22.12.2010 r.]. 42

Scalable Vector Graphics [W:] Wikipedia [on-line]. Tryb dostępu: http://en.wikipedia.org/wiki/Svg

[dostęp: 22.12.2010 r.]. 43

Standardy..., op. cit., s. 19.

Page 27: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

27

Omawiane rozporządzenie Rady Ministrów w sprawie minimalnych wymagań dla

systemów teleinformatycznych zostało w całości uchylone przez art. 14 ustawy

o zmianie ustawy o informatyzacji działalności podmiotów realizujących zadania

publiczne oraz niektórych innych ustaw44

. Artykuł ten utrzymał w mocy wspomniane

rozporządzenie do dnia wejścia w życie nowego rozporządzenia wydanego na

podstawie znowelizowanej delegacji ustawowej zawartej w art. 18 ustawy

o informatyzacji (…), nie dłużej jednak, niż sześć miesięcy od wejścia w życie ustawy

o zmianie ustawy o informatyzacji (…), która zaczęła obowiązywać od dnia

16 czerwca 2010 r.

Do chwili obecnej nie uchwalono rozporządzenia mającego zastąpić

dotychczasowe rozporządzenie Rady Ministrów w sprawie minimalnych wymagań (…),

więc de facto od dnia 17 grudnia 2010 r. w Polsce nie istnieją żadne regulacje prawne

określające minimalne wymagania stawiane m.in. obiektom cyfrowym powstałym

w procesie digitalizacji. Zakładając, że nie wiadomo, kiedy zostanie uchwalone wciąż

będące w fazie przygotowań rozporządzenie Rady Ministrów w sprawie Krajowych

Ram Interoperacyjności, minimalnych wymagań dla rejestrów publicznych i wymiany

informacji w formie elektronicznej oraz minimalnych wymagań dla systemów

teleinformatycznych, wydaje się, że do tego momentu brak będzie jakichkolwiek

obowiązujących zaleceń odnośnie digitalizacji realizowanej przez podmioty publiczne.

Zasadniczo z prawnego punktu widzenia tak właśnie będzie, niemniej dowolność

w określaniu parametrów technicznych prowadzonej digitalizacji w ciągu najbliższych

przynajmniej pięciu lat zostanie formalnie w dużym stopniu ograniczona45

.

Wspomniany projekt (w wersji po uzgodnieniach wewnątrz resortowych)

rozporządzenia Rady Ministrów w sprawie Krajowych Ram Interoperacyjności (…)

umieszczony jest w internetowym serwisie Ministerstwa Spraw Wewnętrznych

i Administracji46

, dzięki czemu można go przeanalizować w odniesieniu do wcześniej

omówionego rozporządzenia Rady Ministrów w sprawie minimalnych wymagań (…).

44

Ustawa o zmianie ustawy o informatyzacji działalności podmiotów realizujących zadania publiczne

z dnia 12.02.2010 r. Dz. U. Nr 40 z 2010 r., poz. 230. 45

Zob. pkt 1.4.1. 46

Projekt rozporządzenia…, op. cit.

Page 28: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

28

Tab. 2. Formaty danych oraz standardy zapewniające dostęp do zasobów informacji udostępnianych za

pomocą systemów teleinformatycznych używanych do realizacji zadań publicznych

Lp.

Format danych lub skrócona

nazwa standardu

Oryginalna pełna nazwa standardu

Opis standardu

Organizacja określająca normę lub standard

Nazwa normy, standardu lub

dokumentu normalizacyjnego

albo standaryzacyjnego

1 2 3 4 5 6

A. W celu udostępniania zasobów informacyjnych przez podmiot realizujący zadania publiczne stosuje się:

1. Do danych zawierających dokumenty tekstowe, tekstowo-graficzne lub multimedialne stosuje się co najmniej jeden z następujących formatów danych:

1.1 .txt

Dokumenty w postaci czystego

(niesformatowanego) zbioru znaków

zapisanych w standardzie Unicode UTF-8 jako pliki

typu .txt

ISO ISO/IEC 10646

1.2 .rtf Rich Text Format

Specification

Dokumenty w postaci sformatowanego tekstu

jako pliki typu .rtf Microsoft Corp.

1.3 .pdf Portable Document

Format

Dokumenty tekstowo-graficzne jako pliki typu

.pdf

Adobe Systems Inc.

1.4 .doc Dokumenty w postaci

sformatowanego tekstu jako pliki typu .doc

Microsoft Corp.

1.5 .docx Dokumenty w postaci

sformatowanego tekstu jako pliki typu .docx

Microsoft Corp.

1.6 .odt Open Document Format for Office

Application

Otwarty format dokumentów aplikacji

biurowych OASIS

1.7 Open XML Office Open Document

Otwarty standard ISO dokumentów

elektronicznych ISO ISO/IEC 29500

2. Do danych zawierających informację graficzną stosuje się co najmniej jeden z następujących formatów

danych:

2.1 .jpg (.jpeg)

Digital compression and coding of

continuous-tone still images

Pliki typu .jpg (Joint Photographic Experts

Group) ISO ISO 10918

2.2 .gif Graphics

Interchange Format Pliki typu .gif

CompuServer Inc.

2.3 .tif (.tiff) Tagged Image File

Format Pliki typu .tif

Adobe Systems Inc.

2.4 .geotiff Geographic Tagged Image File Format

Pliki typu .geotiff NASA Jet Propulsion Laboratory

GeoTIFF Revision 1.0

2.5 .png Portable Network

Graphics Pliki typu .png ISO ISO/IEC 15948:2003

2.6 .svg Scalable Vector

Graphics Grafika wektorowa W3C

Page 29: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

29

1 2 3 4 5 6

B. Do określenia struktury i wizualizacji dokumentu elektronicznego stosuje się następujące formaty danych:

1. Do definiowania układu informacji polegającego na określeniu elementów informacyjnych oraz powiązań między nimi

stosuje się następujące formaty danych:

1.1 .xml Extensible Markup

Language

Standard uniwersalnego formatu tekstowego

służącego do zapisu danych w formie elektronicznej

W3C

1.2 .xsd Extensible Markup

Language

Standard opisu definicji struktury dokumentów

zapisanych w formacie XML W3C

1.3 .gml Geography Markup

Language Język Znaczników

Geograficznych OGC

Źródło: Projekt rozporządzenia Rady Ministrów w sprawie Krajowych Ram Interoperacyjności,

minimalnych wymagań dla rejestrów publicznych i wymiany informacji w formie elektronicznej

oraz minimalnych wymagań dla systemów teleinformatycznych.

W tabeli nr 2 nie ujęto punktów 3 i 4 części A oraz 2 i 3 części B załącznika nr 2

do projektu rozporządzenia.

W porównaniu z wytycznymi zawartymi w rozporządzenia Rady Ministrów

w sprawie minimalnych wymagań (…), projekt rozporządzenia Rady Ministrów

w sprawie Krajowych Ram Interoperacyjności (…) nie wnosi większych zmian. Wciąż

ma miejsce dychotomiczny podział formatów, bez wskazania ich pola zastosowania.

Pkt A.1. załącznika, dotyczący dokumentów tekstowych i tekstowo-graficznych,

został wzbogacony o DOCX47

(pkt A.1.5) i Open XML48

(pkt A.1.7), jednocześnie

Open Document zastąpiono jego faktycznym rozszerzeniem nadawanym plikom –

ODT. DOCX to nowsza wersja formatu DOC (związana z MS Office 2007 i MS Office

2010) i jednocześnie realizacja założeń standardu Open XML (również stworzonego

przez Microsoft Corporation). Zakres zmian wydaje się więc mieć charakter

kosmetyczny i tylko potwierdza wnioski wyciągnięte po analizie rozporządzenia Rady

Ministrów w sprawie minimalnych wymagań (…), czyli przeznaczenie rozporządzenia

przede wszystkim do zastosowań w biurowym obrocie dokumentami.

W punkcie dotyczącym dokumentów graficznych zmiany są jeszcze bardziej

symboliczne, ponieważ do zestawienia wprowadzono tylko jeden dodatkowy „format” –

GeoTIFF49

(pkt A.2.4). Słowo „format” ujęte zostało w cudzysłów, ponieważ GeoTIFF

to nie tyle format, ile standard metadanych geograficznych (chociaż sposób jego zapisu

47

What is the docx format? [W:] Docx File Extension (.docx) [on-line]. Tryb dostępu:

http://www.docx.net/what-is-the-docx-format [dostęp: 10.01.2011 r.]. 48

Office Open XML. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Office_Open_XML [dostęp: 10.01.2011 r.]. 49

GeoTIFF. [W:] Wikipedia [on-line]. Tryb dostępu: http://en.wikipedia.org/wiki/Geotiff [dostęp:

10.01.2011 r.].

Page 30: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

30

w załączniku do rozporządzenia może sugerować, że mamy do czynienia z osobnym

formatem) umieszczanych w plikach TIFF.

Oznaczenie omawianej wersji rozporządzenia jako „projektu” pozwala

przypuszczać, że w ostatecznej postaci mogą jeszcze zajść zmiany, chociaż widoczne

przywiązanie prawodawcy do już wcześniej narzuconych rozwiązań każe wątpić

w jakiekolwiek radykalne posunięcia mogące uwzględnić specyficzne potrzeby

podmiotów zajmujących się digitalizacją. Szczególnie zastanawia brak w spisie

powszechnie przyjętych i cenionych formatów, jakimi są JPEG 2000 i DjVu. Zgodnie

z ustawą o informatyzacji działalności podmiotów realizujących zadania publiczne,

instytucje korzystające ze wspomnianych formatów powinny posiadać zaświadczenia

o pozytywnym zakończeniu odpowiednich testów akceptacyjnych, co jest

nieuzasadnionym obciążeniem.

Ostatnim aktem prawnym, który wydaje się mieć bezpośredni wpływ na obiekty

cyfrowe wytwarzane przez instytucje publiczne, jest rozporządzenie Ministra Spraw

Wewnętrznych i Administracji w sprawie niezbędnych elementów struktury dokumentów

elektronicznych50

. Tytuł rozporządzenia sugeruje, że jego regulacje dotyczą

wewnętrznej struktury dokumentów elektronicznych, co niestety nie pokrywa się

z samą treścią rozporządzenia. §2 ust. 1 zawiera definicję legalną metadanych, po czym

w kolejnych punktach ust. 2 wylicza obowiązkowe pola metadanych opisujących

dokumenty (m.in. identyfikator, twórcę, tytuł, datę, format, dostęp, typ itd.). Problem

w tym, że prawodawca dość nietrafnie określił te metadane jako „niezbędne elementy

struktury dokumentów elektronicznych”, co wskazuje na metadane strukturalne,

faktycznie stanowiące wewnętrzny element dokumentów elektronicznych. Tymczasem

wykaz pól wygląda bardziej na metadane opisowe i administracyjne, towarzyszące

obiektom cyfrowym, ale fizycznie wprowadzone do systemu zarządzającego tym

obiektem i nie stanowiące integralnego elementu jego struktury51

. W punkcie 7

expressis verbis zalecono zakres wartości zaczerpnięty z Dublin Core, który jest

przecież jednym z najpopularniejszych standardów metadanych opisowych. Poza tym

mowa tu o dokumentach elektronicznych, a nie o plikach, które to pojęcia nie są

przecież tożsame.

Zakres niniejszej pracy obejmuje wyłącznie generowanie, obróbkę

i przechowywanie cyfrowych odwzorowań dokumentów oryginalnych, czyli

50

Rozporządzenie Ministra Spraw Wewnętrznych i Administracji w sprawie niezbędnych elementów

struktury dokumentów elektronicznych z dnia 30.10.2006 r. Dz. U. Nr 206 z 2006 r., poz. 1517. 51

Standardy..., op. cit., s. 17.

Page 31: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

31

digitalizację sensu strico, więc wszelkie metadane, poza czysto technicznymi

i strukturalnymi, nie mieszczą się w tym zakresie. W świetle przytoczonych

argumentów można wysnuć zatem wniosek, że rozporządzenie nie wiąże osób

zajmujących się wyłącznie digitalizacją sensu stricto.

Problematyka zgodności metadanych przyjętych dla instytucjonalnych systemów

repozytoryjnych oraz metadanych przyjętych w systemach realizujących funkcje

biblioteki cyfrowej, których dotyczy omawiane rozporządzenie, związana jest przede

wszystkim z zarządzaniem i udostępnianiem dokumentów elektronicznych, które są

przejawami digitalizacji sensu largo.

1.4. Digitalizacja – krajowe zalecenia i dobre praktyki

W punktach 1.4.2. i 1.4.3. omówione zostaną zalecenia opracowane przez zespoły

polskich autorytetów w dziedzinie digitalizacji i promowane przez Bibliotekę

Narodową pełniącą rolę Centrum Kompetencji. Logika podpowiada, że mają one

wyższy status niż jakikolwiek przykład dobrej praktyki, jednakże w świetle założeń

Wieloletniego Programu Rządowego KULTURA+52

, który całkowicie przejął

finansowanie krajowych inicjatyw digitalizacyjnych, logiczne rozumowanie nie

znajduje zastosowania. Jako realizację założeń KULTURY+, w lutym 2011 r. ogłoszono

nabór wniosków o dofinansowanie digitalizacji, którego regulamin narzuca obowiązek

stosowania bardzo konkretnych rozwiązań przedstawionych w dokumencie

zatytułowanym Katalog dobrych praktyk digitalizacyjnych dla obiektów

bibliotecznych53

. Biorąc pod uwagę fakt, że to właśnie KULTURA+ będzie odpowiadała

do 2015 r. za dynamikę i kształt rozwoju digitalizacji, to właśnie Katalog (…) staje się

faktycznym wyznacznikiem standardów, które będą obowiązywały.

1.4.1. Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych

Z uwagi na doniosłość omawianego dokumentu, warto go przytoczyć w części

zawierającej wytyczne dla wytwarzanych obiektów cyfrowych.

52

Zob. pkt 1.2. 53

Katalog..., op. cit.

Page 32: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

32

Tab. 3. Techniczne wymagania Wieloletniego Programu Rządowego KULTURA+, stawiane

digitalizacji prowadzonej w ramach dofinansowania

Lp. Kryteria Obiekt Biblioteczny

1 2 3

4. Standardy techniczne, w tym parametry sprzętowe, oprogramowanie-zalecenia minimum

Wymagane są co najmniej następujące parametry techniczne plików cyfrowych, będących wynikiem digitalizacji obiektów bibliotecznych.

1. Zalecenia minimalne dla tekstów drukowanych - książki, gazety, czasopisma bez ilustracji, rysunki, mapy monochromatyczne, nuty, dokumenty urzędowe (normy, monitory, rozporządzenia itp.), maszynopisy, prace licencjackie, magisterskie, doktorskie:

a. Format: TIFF 6.0 z kompresją CCITT Group4

b. Rozdzielczość: 400 ppi

c. Bity na piksel: 1

d. Wzorce szarości/koloru: nie dotyczy

2. Zalecenia minimalne dla tekstów drukowanych z ilustracjami oraz rysunków, grafik i fotografii monochromatycznych:

a. Format: TIFF 6.0, dopuszcza się kompresję bezstratną LZW

b. Rozdzielczość: 300 ppi, lecz nie mniej niż 3000 pikseli na dłuższym wymiarze

c. Bity na piksel: 8-bitowa skala szarości

d. Wzorce szarości/koloru: Gray Gamma 2.2

3. Zalecenia minimalne dla odbitek fotograficznych barwnych, rysunków i grafik kolorowych, miedziorytów, drzeworytów, rękopisów, inkunabułów i starych druków:

a. Format: TIFF 6.0, dopuszcza się kompresję bezstratną LZW

b. Rozdzielczość: 300 ppi, lecz nie mniej niż 3000 pikseli na dłuższym wymiarze

c. Bity na piksel: 8 bitów na kolor 24-bit RGB

d. Wzorce szarości/koloru: Adobe RGB 1998

4. Zalecenia minimalne dla mikrofilmów:

a. Format: TIFF 6.0 z kompresją CCITT Group4

b. Rozdzielczość: jak dla mikrofilmowanego oryginału w granicach przenoszenia jego cech przez mikrofilm

c. Bity na piksel: 8 bitów na kolor, 24-bit RGB albo 8-bitowa skala szarości

d. Wzorce szarości/koloru: nie dotyczy

5. Zalecenia minimalne dla map wielkoformatowych, atlasów, plakatów:

a. Format: TIFF 6.0, dopuszcza się kompresję bezstratną LZW

b. Rozdzielczość: 300 ppi c. Bity na piksel: 8 bitów na kolor 24-bit RGB d. Wzorce szarości/koloru: Adobe RGB 1998

Page 33: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

33

1 2 3

5. Udostępnianie, w tym:

1. konwersja cyfrowa wtórna – przygotowanie materiałów do udostępniania, cyfrowe przetworzenie materiałów wytworzonych w czasie konwersji cyfrowej pierwotnej (zmiana rozmiaru, naniesienie znaków wodnych, korekcja etc.);

2. udostępnienie materiałów użytkownikom przy zapewnieniu ich możliwie największej dostępności, najlepiej w internecie.

1. Przy udostępnianiu reprodukcji cyfrowych zaleca się utworzenie kopii pochodnych z oryginału cyfrowego:

a. plik JPG dużej jakości z oryginału (o znacznej kompresji względem pliku TIFF)

b. wytworzenie plików JPG o zmniejszonej rozdzielczości (w celu publikacji na stronie WWW zalecana jest rozdzielczość ekranowa)

c. dla plików tekstowych wykonanie operacji OCR

(…)

6. Zabezpieczenie danych (Ew. repozytoria cyfrowe) - zapis danych powstałych w wyniku konwersji cyfrowej na nośnikach pamięci masowej;

Wymagany jest zapis głównej kopii w formacie archiwalnym (TIFF) za pomocą systemu na odpowiednim medium przeznaczonym do plików archiwalnych. Format powinien być bezstratny, obraz zapisany w dużej rozdzielczości, którą otrzymano z urządzenia skanującego (według wskazań zawartych w pkt. 4).

Plik należy uzupełnić metadanymi, zapisanymi w pliku graficznym (np. w formacie Exif).

Kopie w formacie archiwalnym powinny zostać przekazane do bezpiecznego repozytorium cyfrowego, wskazanego przez Bibliotekę Narodową.

Źródło: Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych.

W tabeli pominięto punkty 1-3 Katalogu (…), ponieważ odnoszą się one do sfery

czysto organizacyjnej związanej z digitalizacją oraz do zaleceń odnośnie metadanych

opisowych – nie objętych tematyką niniejszej pracy.

W punkcie 4 Katalogu (…) podzielono obiekty biblioteczne na grupy, w stosunku

do których należy stosować „co najmniej” zalecone minimalne parametry dla formatów

archiwalnych – ponieważ to ich dotyczy ten punkt, choć nie jest to ujęte explicite. Co

ciekawe, zarówno sam podział, jak i wyliczenie obiektów wchodzących w skład

poszczególnych grup, zostały zaczerpnięte z wspomnianej wcześniej i omówionej

w punkcie 1.4.3. publikacji Standardy w procesie digitalizacji obiektów dziedzictwa

kulturowego54

, której zadaniem było wytyczenie zaleceń dla polskiej digitalizacji.

Zakładając, że digitalizacja w skali ogólnokrajowej powinna docelowo tworzyć pewien

ujednolicony system, chęć zachowania w Katalogu (…) pełnej zgodności

z rozwiązaniami przyjętymi w Standardach (…), jest posunięciem zdecydowanie

pozytywnym.

Ponieważ ujęte w Katalogu (…) wytyczne opisane są w Standardach (…)

w formie wzbogaconej o część zawierającą (oprócz wymagań minimalnych) także

wymagania zalecane, ich szczegółowe omówienie znajduje się w punkcie 1.4.3.

niniejszej pracy.

54

Standardy..., op. cit.

Page 34: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

34

W kontekście ścisłego bazowania na zaleceniach Standardów (…), dziwić może

beztroska instytucji opracowujących Katalog (…) w interpretowaniu wspomnianej

publikacji. Przykładowo w oryginale dokumenty zaliczone do grupy A to „książki,

gazety, czasopisma bez ilustracji; rysunki; mapy monochromatyczne; rysunki

techniczne (z wyraźnym kontrastem); nuty; dokumenty urzędowe (normy, monitory,

rozporządzenia itp.); maszynopisy; prace licencjackie, magisterskie, doktorskie”55

.

Katalog (…) przytacza opis tej grupy, lecz – nie wiedzieć czemu – opuszcza fragment

„rysunki techniczne (z wyraźnym kontrastem)”. Jest to o tyle istotne, że właśnie poziom

kontrastu jest kryterium decydującym w zakwalifikowaniu pewnych dokumentów

(rysunków technicznych, druków, map, nut) do pierwszej lub drugiej grupy.

Kolejnym poważnym błędem Katalogu (…) jest utożsamianie

monochromatyczności z czernią i bielą, co niesie za sobą dość poważne konsekwencje.

Do drugiej grupy dokumentów zalicza on „teksty drukowane z ilustracjami oraz

rysunki, grafiki i fotografie monochromatyczne”. Grupa ta jest pewnego rodzaju

połączeniem grup B i C opisanych w Standardach (…). Tyle, że tam mowa jest m.in.

o odbitkach fotograficznych czarno-białych, a nie monochromatycznych. Stare zdjęcia

niejednokrotnie mają odcienie sepii, przez co są monochromatyczne, lecz

zdigitalizowanie ich w odcieniach szarości (a właśnie w takim trybie powinny być wg

Katalogu (…) digitalizowane dokumenty z grupy drugiej) stoi w opozycji do idei

digitalizacji, która ma za zadanie oddawać możliwie wiernie wygląd dokumentu

oryginalnego. Odbitki fotograficzne barwne i monochromatyczne ujęte są także

w Standardach (…), lecz w grupie F, podlegającej digitalizacji w trybie co najmniej

true color.

Ponadto fakt, że do drugiej grupy w Katalogu (…) zaliczono rysunki

monochromatyczne – bez podania kryterium związanego z kontrastem – sprawia, że ten

sam typ dokumentu występuje zarówno w grupie pierwszej jak i drugiej, co daje

instytucji digitalizującej dowolność wyboru, co z kolei może doprowadzić do złego

zakwalifikowania rysunków, a tym samym do nieprawidłowości w prowadzeniu

digitalizacji.

O ile wyżej wymienione mankamenty Katalogu (…) mają charakter głównie

problematyczny, o tyle zapis przy zaleceniach dla grupy czwartej (mikrofilmów) nosi

znamiona ewidentnego błędu. I nie chodzi tu nawet o fakt, że zakres dokumentów

należących do tej grupy ograniczono wyłącznie do mikrofilmów (z niewiadomych

przyczyn nie uwzględniono innych mikroform), lecz o zalecenie, żeby stosować format

55

Standardy..., op. cit., s. 205.

Page 35: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

35

TIFF z kompresją CCITT G4. Tymczasem w dopuszczalnych trybach koloru

wymieniono wyłącznie tryby, których akurat kompresja CCITT G4 nie obsługuje,

ponieważ stosuje się ją wyłącznie do kompresji grafik bitonalnych. Prawdopodobnie

chodziło o kompresję LZW, niemniej wersja z błędem wciąż obowiązuje i dostępna jest

w takiej postaci na stronach Narodowego Instytutu Audiowizualnego.

Ostatnią zagadką związaną z punktem 4 Katalogu (…) jest całkowite pominięcie

negatywów i przezroczy fotograficznych. I znowu powstaje pytanie, czy był to zabieg

celowy (a jeśli tak, to czym spowodowany?), czy zwykłe przeoczenie.

Punkt 5 dotyczy z kolei formatów prezentacyjnych tworzonych na podstawie

archiwalnych plików TIFF i służących udostępnianiu obiektów cyfrowych, „najlepiej

w internecie”. Jego podpunkty są (wybiórczo) zaczerpnięte z publikacji Digitalizacja

piśmiennictwa56

.

Podpunkt 1 informuje, że „przy udostępnianiu reprodukcji cyfrowych zaleca się

utworzenie kopii pochodnych z oryginału cyfrowego”. Jego intencją jest zalecenie

udostępniania obiektów cyfrowych w formacie bardziej przyjaznym niż TIFF, którego

pliki, w przypadku odwzorowania oryginałów o sporych wymiarach, mogą osiągać

rozmiary sięgające kilkuset MB.

Kolejne podpunkty zawierają bardziej konkretne wskazówki. Podpunkt 1.A zaleca

generowanie „pliku JPG dużej jakości z oryginału (o znacznej kompresji względem

pliku TIFF)”. Zastrzeżenia budzi już sam sens podpunktu. Przede wszystkim

przedstawiono JPEG jako format wiodący dla udostępniania – najprawdopodobniej dla

wszystkich rodzajów dokumentów oryginalnych, skoro nie ma żadnego wykazu, dla

jakich dokumentów JPEG byłby wskazany, a dla jakich nie. Rozwiązanie takie było

szeroko stosowane dziesięć lat temu57

i obecnie trudno nazywać je dobrą praktyką.

Niezrozumiały jest również postulat, żeby plik JPEG był względem TIFF znacznie

skompresowany. JPEG jako format stratny automatycznie redukuje rozmiar obrazu

przynajmniej kilkakrotnie.

Sytuację wyjaśnia konfrontacja Katalogu (…) z tekstem źródłowym, gdzie cytat

przytoczony w podpunkcie 1.A okazuje się wyrwanym z kontekstu (a tym samym

pozbawionym pierwotnego sensu) fragmentem. W punkcie 20.1 Digitalizacji

piśmiennictwa mowa jest o „zapisie wyników otrzymanych z urządzenia

digitalizującego”58

, gdzie zaleca się oprócz plików archiwalnych jednoczesne tworzenie

56

Digitalizacja…, op. cit., s. 197. 57

Zob. pkt 1.3.2. 58

Digitalizacja…, op. cit., s. 196-197.

Page 36: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

36

„plików JPG dużej jakości z oryginału (znaczna kompresja względem TIFF, bez

zauważalnej dla oka różnicy, powoduje mniejsze rozmiary i ułatwia pracę na pliku)”59

.

Czyli nie chodzi tu o tworzenie plików przeznaczonych do udostępniania, a jedynie

kopii pośrednich, przeznaczonych do dalszej obróbki.

Wątpliwości zrodzone przez podpunkt 1.A dodatkowo potęguje podpunkt

następny: „wytworzenie plików JPG o zmniejszonej rozdzielczości (w celu publikacji

na stronie WWW zalecana jest rozdzielczość ekranowa)”. Trudno znaleźć racjonalne

wytłumaczenie dla powyższego zapisu w kontekście digitalizacji. Zasada przedstawiona

w tym podpunkcie odnosi się głównie dla grafik i elementów graficznych tworzonych

na potrzeby serwisów WWW. Jedyne – chociaż bardzo luźne – powiązanie

z digitalizacją może stanowić konieczność tworzenia miniatur dla udostępnianych

obiektów cyfrowych. Należy nadmienić, że miniatury te na ogół są generowane

automatycznie. Umieszczanie on-line obiektów w rozdzielczości 72-96 ppi (czyli

rozdzielczości ekranowej) może doprowadzić jedynie do zniechęcenia użytkowników

fatalną jakością tych obiektów.

Ponownie w poprawnej interpretacji pomaga tekst źródłowy, który zawiera pełne

brzmienie podpunktu 1.B: „jeśli celem digitalizacji jest udostępnianie i prezentacja

materiału, wytworzenie plików JPG o zmniejszonej rozdzielczości (np. w celach

publikacji WWW rozdzielczość ekranowa, rozdzielczość dla miniaturek itp.)”60

. Jest to

ciąg dalszy paragrafu dotyczącego plików automatycznie tworzonych, towarzyszących

– w miarę potrzeb – bezstratnym plikom archiwalnym.

Ostatni podpunkt (1.C) zawiera jedynie zalecenie wykonywania OCR61

.

Podsumowując – punkt 5 teoretycznie powinien mieć zasadnicze znaczenie dla

instytucji starających się o dofinansowanie. To właśnie obróbka plików TIFF

i generowanie odpowiednich plików prezentacyjnych zajmuje najwięcej czasu i sprawia

najwięcej kłopotów. Niestety, Katalog (…) zamiast zaproponowania racjonalnych

rozwiązań, swoimi niezrozumiałymi zapisami prawdopodobnie utrudni instytucjom

poprawne rozliczenie potencjalnego dofinansowania i ocenę jakości digitalizacji

przeprowadzonej z użyciem środków pozyskanych z KULTURY+. W trakcie

studiowania jego kolejnych punktów, czytającemu towarzyszy nieodparte wrażenie, że

całość została przygotowana bezrefleksyjnie, w wielkim pośpiechu i bez

59

Digitalizacja…, op. cit., s. 197. 60

Ibidem. 61

Ibidem, s. 206.

Page 37: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

37

skonsultowania z Biblioteką Narodową jako Centrum Kompetencji w dziedzinie

digitalizacji materiałów bibliotecznych.

Ostatni punkt Katalogu (…) dotyczy LTP. Tym razem explicite wymaga się

zapisywania plików archiwalnych w formacie TIFF w jednej z bezstratnych odmian,

w rozdzielczości takiej, jaką zdefiniowano w urządzeniu digitalizującym. Punkt

dodatkowo nakazuje uzupełnienie metadanych zapisanych w pliku graficznym, co

w praktyce robi się rzadko, ponieważ metadane techniczne generowane są

automatycznie przez skaner lub aparat. Na metadane tego typu wskazuje powołanie się

na przykładowy format Exif62

, gdyż twórcy Katalogu (…) nie określili, o jaki typ

metadanych w istocie chodzi.

1.4.2. Digitalizacja piśmiennictwa

Gdy w 2009 r. decyzją Ministra Kultury i Dziedzictwa Narodowego Biblioteka

Narodowa stała się Centrum Kompetencji, posiadała już bardzo dobrze wyposażoną

pracownię i spore doświadczenie uzyskane przy tworzeniu i prowadzeniu Cyfrowej

Biblioteki Narodowej POLONA. W czasie pierwszego roku pełnienia nowej funkcji,

BN przeprowadziła szereg szkoleń z zakresu digitalizacji, a także seminarium prawne

dla bibliotekarzy cyfrowych63

. Jednak najważniejszym do tej pory osiągnięciem CK jest

wydanie w listopadzie 2010 r. Digitalizacji piśmiennictwa64

, pierwszego oficjalnego

podręcznika mającego stanowić dla bibliotek kompendium wiedzy na temat

digitalizacji. Tak w każdym razie w czasie konferencji „Regionalne sieci współpracy –

strategie, narzędzia, realizacje” reklamował tę książkę dyrektor Biblioteki Narodowej

w przeddzień jej premiery.

Po dokładnej analizie podręcznika należy uznać go za spory sukces, chociaż

nacechowany dość nieoczekiwanym mankamentem. Bez wątpienia nie było jeszcze

w Polsce wydawnictwa tak kompleksowo omawiającego prawie wszystkie aspekty

digitalizacji. Bardzo dokładnie przeanalizowano cały proces digitalizacji – od

planowania, aż do zagadnień związanych z LPT. Wartość publikacji podnosi dodatkowo

szczegółowa parametryzacja zaleceń, która chociaż pozornie sprawia wrażenie

nadmiernie rozbudowanej, w praktyce na pewno sprawdzi się zdecydowanie bardziej

62

Exchangeable image file format. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Exchangeable_image_file_format [dostęp: 14.03.2011 r.]. 63

Biblioteka Narodowa - Centrum Kompetencji w zakresie digitalizacji materiałów bibliotecznych

[on-line]. Tryb dostępu: http://www.bn.org.pl/programy-i-uslugi/centrum-kompetencji-w-zakresie-

digitalizacji-materialow-bibliotecznych [dostęp: 28.02.2011 r.]. 64

Digitalizacja…, op. cit.

Page 38: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

38

niż luźny wykaz ogólnych wskazówek. Ukoronowaniem ogromu pracy, jaka bez

wątpienia została włożona przez zespół redakcyjny w przygotowanie podręcznika, jest

umieszczony na końcu kilkustronicowy „schemat workflow”65

– wariantowy scenariusz

postępowania prezentujący logiczną kolejność czynności podejmowanych przy

realizacji projektów digitalizacyjnych.

Niestety, obrazu całości dopełnia wcześniej wspomniany mankament, którym jest

w zasadzie brak informacji na temat digitalizacji sensu stricto. Czytelnik z publikacji

dowie się, w jaki sprzęt i oprogramowanie się zaopatrzyć, jak wszystko skalibrować,

żeby osiągnąć optymalny efekt, ale nie dowie się np. jakich rozdzielczości użyć

w stosunku do różnych rodzajów dokumentów, jakie formaty zapisu stosować dla

wersji udostępnianej i dlaczego akurat te, a nie inne. W miejsce zaleceń pojawia się

tylko jedno zdanie: „tabelę pozwalającą na szybki, orientacyjny dobór podstawowych

parametrów skanowania dla typowych rodzajów obiektów przedstawiono w publikacji

Standardy w procesie digitalizacji obiektów dziedzictwa narodowego, pod redakcją

Grzegorza Płoszajskiego (…)”66

. Całość problematyki została zatem oficjalnie

„delegowana” do publikacji, która tym samym stała się komplementarna z Digitalizacją

piśmiennictwa. Jest to decyzja niezrozumiała, jeśli weźmie się pod uwagę dogłębność

i jednocześnie kompleksowość podręcznika BN. Nasuwa się pytanie, dlaczego nie

zdecydowano się na przedruk wspomnianej tabeli – wtedy czytelnik miałby wszystkie

potrzebne informacje w jednym miejscu, a tak ma podręcznik dotyczący digitalizacji,

ale o sednie digitalizacji piszący bardzo niewiele.

Wśród informacji relewantnych dla dalszych rozważań, podręcznik zawiera:

1) opis oprogramowania (w tym systemów operacyjnych) wykorzystywanego

w procesie digitalizacji. Pokrótce omówiono najpopularniejsze programy

graficzne, m.in. GIMP, Adobe Photoshop, IrfanView,

2) wykaz przekształceń, którym mogą podlegać obiekty cyfrowe. Do

przekształceń bezstratnych zaliczono kadrowanie, korekcję kolorów i obroty

o kąty będące wielokrotnością 90°. Wśród przekształceń stratnych

wymieniono kompresję stratną oraz zmianę skali. Z kolei najpopularniejsze

korekcje i modyfikacje to korekta jasności, kontrastu, kolorów i przekoszenia,

wyostrzenie, zmiana głębi bitowej koloru, kadrowanie i wycinanie

fragmentów obrazu, a także korekta artefaktów i zniekształceń,

65

Digitalizacja…, op. cit., s. 208-213. 66

Ibidem, s. 112.

Page 39: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

39

3) wprowadzenie do problematyki znaków wodnych (widocznych

i niewidocznych) oraz OCR,

4) wzmiankę o najpopularniejszych formatach hybrydowych – PDF i DjVu,

5) rozbudowany fragment dotyczący LTP – prezentujący rozmaite rozwiązania

w dziedzinie pamięci masowych. Wyróżniono m.in. pamięci flash, dyski

optyczne (organizowane ręcznie lub automatycznie za pomocą zmieniarki),

nośniki magnetooptyczne, dyski twarde, macierze dyskowe i media taśmowe,

6) opis modelu systemu do zarządzania całością procesu digitalizacji –

nazwanego na potrzeby podręcznika „repozytorium”.

Sporo miejsca poświęcono także metodologii skanowania, która jednak nie

została objęta badaniem opisanym w dalszej części niniejszej pracy.

1.4.3. Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego

Potrzeba stworzenia krajowej strategii i standardów dla digitalizacji istniała

w Polsce już od końca XX wieku, kiedy to instytucje kultury zaczęły poważnie

interesować się możliwościami przenoszenia swoich zbiorów do środowiska

zerojedynkowego. Biblioteka Narodowa – wbrew powszechnym oczekiwaniom – nie

podejmowała żadnych znaczących kroków w tym kierunku, aż do momentu

mianowania jej Centrum Kompetencji, czyli do 2009 r. Ministerstwo Kultury

i Dziedzictwa Narodowego, przed powołaniem Centrów Kompetencji, już w 2006 r.

próbowało usystematyzować błyskawicznie zdobywającą popularność digitalizację,

poprzez powołanie Zespołu ds. digitalizacji67

. Zespół ten zasłynął głównie rzadkimi

posiedzeniami, z których w zasadzie nic wiążącego nie wyniknęło.

W ramach wspomnianego Zespołu działał Zespół roboczy ds. standardów

technicznych digitalizowanych obiektów, którego osiągnięcia są z kolei nie do

przecenienia. W wyniku prowadzonych prac, Zespół opracował wewnętrzny dokument

zatytułowany Opracowanie standardów technicznych dla obiektów cyfrowych

tworzonych przy digitalizacji dziedzictwa kulturowego, który stał się podstawą dla

wydanej w 2008 r. pracy zbiorowej Standardy w procesie digitalizacji obiektów

dziedzictwa kulturowego pod redakcją Grzegorza Płoszajskiego68

.

67

K. Ślaska, J. Potęga: Cyfrowa Biblioteka Narodowa Polona. [W:] Biuletyn EBIB, nr 11/2006

[on-line]. Tryb dostępu: http://www.ebib.info/2006/81/a.php?slaska_potega [dostęp: 16.11.2010 r.]. 68

Standardy…, op. cit.

Page 40: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

40

Tytuł publikacji jest nieprzypadkowy. Jej autorzy odróżniają termin „standardy”

jako bardziej odnoszący się do metadanych, od „zaleceń”, dotyczących aspektów

technicznych digitalizacji69

. I faktycznie – zdecydowana większość książki skupia się

na problematyce metadanych – ich rodzajach, charakterystyce i zakresie zastosowań.

Można odnieść wrażenie, że według autorów metadane są dla digitalizacji sprawą

absolutnie kluczową i decydującą o jakości, użyteczności i elastyczności w odniesieniu

do archiwizacji, migracji, konwersji i w końcu udostępniania obiektów cyfrowych.

Proponując scenariusz standaryzacji metadanych w polskiej digitalizacji, autorzy

wykazali się dogłębną znajomością krajowych realiów, co zaowocowało bardzo

racjonalnym podejściem do możliwości jego realizacji. Po prezentacji i szczegółowym

omówieniu wiodących światowych standardów oraz pól ich stosowania, jako optymalne

rozwiązanie zaproponowano:

1) dla metadanych strukturalnych i technicznych – przejściowo ABMPL70

,

docelowo METS71

2) dla metadanych strukturalnych związanych z dokumentami poddanymi

OCR – ALTO72

3) dla metadanych technicznych – MIX73

lub standard własny na nim oparty.

ABMPL przedstawiono jako rozwiązanie tymczasowe, będące pomostem między

aktualną praktyką a docelowym standardem METS, który ze względu na swoją

wszechstronność i elastyczność jest w wielu krajach standardem dominującym, ale

niestety wymaga odpowiedniego oprogramowania. Dlatego też autorzy mieli

świadomość, że „zalecenie powszechnego stosowania standardu METS może okazać się

pustym przepisem, gdyż w początkowym okresie mało kto zdoła się do niego

zastosować”74

.

Podobna sytuacja ma miejsce w przypadku MIX, który – pomimo jego

niewątpliwych zalet – trudno będzie wdrożyć ze względu na panującą w Polsce

praktykę bazowania na standardzie EXIF, zakodowanym wewnątrz plików TIFF.

Jednocześnie trudno oprzeć się na EXIF jako standardzie docelowym, ponieważ sposób

69

Standardy…, op. cit., s. 9. 70

Ibidem, s. 22. 71

Ibidem, s. 47. 72

Ibidem, s. 67. 73

Ibidem, s. 46. 74

Ibidem, s. 85-86.

Page 41: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

41

jego interpretacji i katalog generowanych pól znacznie różni się w zależności od

producenta danego urządzenia75

.

Dla tematyki poruszanej w niniejszej pracy, największe znaczenie ma punkt 7.2

Standardów (…) – Zestawienie tabelaryczne wymagań dotyczących parametrów plików

graficznych rastrowych76

. Zawiera on zalecenia dla rastrowych plików archiwalnych,

stanowiących podstawę dla LTP i wygenerowania wszelkich pochodnych formatów

o charakterze prezentacyjnym.

Wyliczenie opiera się na siedmiu grupach dokumentów, wobec których

zastosowano różne kryteria utrwalenia plików archiwalnych. Ponadto każdorazowo

oprócz wymagań minimalnych, dla każdej grupy przewidziano również wymagania

zalecane. Katalog tych wymagań przedstawiono w tabeli 4.

75

Standardy…, op. cit., s. 93. 76

Ibidem, s. 203-208.

Page 42: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

Tab. 4. Zestawienie wymagań dotyczących plików archiwalnych rastrowych

Lista przykładowych dokumentów

Format Rozdzielczość Bity na piksel Wzorce szarości / koloru

wymagania minimalne

wymagania zalecane

wymagania minimalne

wymagania zalecane

wymagania minimalne

wymagania zalecane

wymagania minimalne

wymagania zalecane

1 2 3 4 5 6 7 8 9

GRUPA A: książki, gazety, czasopisma bez ilustracji; rysunki; mapy monochromatyczne; rysunki techniczne (z wyraźnym kontrastem); nuty; dokumenty urzędowe (normy, monitory, rozporządzenia itp.); maszynopisy; prace licencjackie, magisterskie, doktorskie

TIFF 6.0 z kompresją

CCITT Group4

TIFF 6.0 z kompresją

CCITT Group4 400 ppi 600 ppi 1 1 nie dotyczy nie dotyczy

GRUPA B: książki, gazety, czasopisma z ilustracjami w odcieniach szarości (ewentualnie pojedyncze strony jako uzupełnienie grupy A); rysunki techniczne, druki, mapy, nuty (z „niewyraźnym” kontrastem)

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

300 ppi 400 ppi 8-bitowa skala

szarości 16-bitowa skala

szarości Grey Gamma 2.2 Grey Gamma 2.2

GRUPA C: odbitki fotograficzne czarno-białe; rysunki i grafiki czarno-białe lub w odcieniach szarości; (gdy użycie koloru nie jest uzasadnione szczególnymi cechami dokumentów, to także rękopisy; inkunabuły; stare druki)

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

300 ppi, lecz nie mniej niż 3000

pikseli na dłuższym wymiarze

400 ppi, lecz nie mniej niż 5000

pikseli na dłuższym wymiarze

8-bitowa skala szarości

16-bitowa skala szarości

Grey Gamma 2.2 Grey Gamma 2.2

GEUPA D: fotografia (tylko negatywy i przezrocza), negatywy szklane o typowej wielkości

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

300 ppi, lecz nie mniej niż 3000

pikseli na dłuższym wymiarze

600 ppi, lecz nie mniej niż 5000

pikseli na dłuższym wymiarze

8 bitów na kolor 24-bit RGB

albo 8-bitowa skala szarości

16 bitów na kolor 48-bit RGB

albo 16-bitowa skala szarości

Adobe RGB 1998 Grey Gamma 2.2. albo Adobe RGB 1998 lub lepszy

Page 43: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

1 2 3 4 5 6 7 8 9

GRUPA E: mikrofilmy i mikrofisze: kopie zabezpieczające wykonane w technice fotograficznej

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

jak dla mikrofilmowa-nego oryginału

w granicach przenoszenia

jego cech przez mikrofilm

jak dla mikrofilmowa-nego oryginału

w granicach przenoszenia

jego cech przez mikrofilm

8 bitów na kolor 24-bit RGB

albo 8-bitowa skala szarości

8 bitów na kolor 24-bit RGB

albo 8-bitowa skala szarości

nie dotyczy nie dotyczy

GRUPA F: odbitki fotograficzne barwne, ew. monochromatyczne (sepia itp.); rysunki i grafiki kolorowe; obrazy; miedzioryty; drzeworyty; rękopisy; inkunabuły; stare druki; (gdy użycie koloru jest uzasadnione szczególnymi cechami dokumentów, to także, książki, czasopisma); obiekty muzealne małe i średniej wielkości, takie jak biżuteria, monety, medale, bibeloty, niewielkie rzeźby, narzędzia i przedmioty codziennego użytku, narzędzia produkcyjne, naczynia, militaria

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

300 ppi, lecz nie mniej niż 3000

pikseli na dłuższym wymiarze

400 ppi, lecz nie mniej niż 5000

pikseli na dłuższym wymiarze

8 bitów na kolor 24-bit RGB

16 bitów na kolor 48-bit RGB

Adobe RGB 1998 Adobe RGB 1998

lub lepszy

GRUPA G: mapy wielkoformatowe; atlasy; plakaty; duże obrazy; duże obiekty muzealne; malarstwo naścienne

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

TIFF 6.0 dopuszcza się

kompresję bezstratną LZW

300 ppi 300 ppi 8 bitów na kolor

24-bit RGB 16 bitów na kolor

48-bit RGB Adobe RGB 1998

Adobe RGB 1998 lub lepszy

Źródło: Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego. Pod red. G. Płoszajskiego.

Page 44: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

44

Grupa A, ze względu na najmniejszą ilość informacji konieczną do zakodowania

w formie rastra, nadaje się do zapisu w trybie 1-bitowego koloru. Zalecany format to –

wspomniany w punkcie 1.4.1 TIFF z dedykowaną dla czerni i bieli kompresją CCITT

G4. Jedyna różnica między wymaganiami minimalnymi i zalecanymi to sugerowana

rozdzielczość. Mimo, że tabela podaje konkretne wartości (odpowiednio 400 i 600 ppi),

do parametru tego należy podchodzić bardzo ostrożnie i nie tyle sztywno bazować na

proponowanych wartościach, ile umieć je samodzielnie dobrać w zależności od

dokumentu.

Pomocna w tym przypadku jest formuła opracowana w Cornell University77

:

dpi=3QI/0.039h

(dla obrazów 1-bitowych)

dpi=2QI/0.039h

(dla obrazów zapisanych w odcieniach szarości i kolorze)

gdzie:

dpi = rozdzielczość, z jaką należy skanować dany dokument

QI = Quality Index, czyli wartość osiągana dla najmniejszego znaku w tekście. Nie

powinien on być niższy niż 8

h = wysokość najmniejszego znaku w tekście

Jeśli wyliczona na podstawie wzoru rozdzielczość skanowania jest niższa niż 400

ppi, należy użyć zaleconej wartości minimalnej.

Należy w tym miejscu wyjaśnić pewien dualizm nomenklaturowy w kwestii

jednostki rozdzielczości. Przyjęło się powszechnie określać ją w punktach na cal (z ang.

dots per inch), w skrócie dpi. Jest to poprawna miara, niemniej warto wiedzieć, że jest

to jednostka stosowana głównie przy określaniu rozdzielczości wydruku. Przy skanach

i obrazach elektronicznych powinno się w zasadzie używać jednostki pikseli na cal

(z ang. pixels per inch), czyli ppi. Z tego też względu w pracy zdecydowano się określać

rozdzielczość w ppi.

Głównym wyznacznikiem dla dokumentów w grupie B jest niewyraźny kontrast,

który je dyskwalifikuje z możliwości zapisu w kolorze 1-bitowym. Poczynając od tej

grupy, zgodnie z zaleceniami wszystkie kolejne powinny być zapisane w formacie TIFF

z opcjonalnie włączoną bezstratną kompresją LZW. W pierwszej połowie poprzedniego

dziesięciolecia takie postępowanie spotykało się z dezaprobatą wśród specjalistów

(którzy preferowali „czysty” TIFF), lecz wraz z rozwojem urządzeń do digitalizacji

77

Standardy…, op. cit., s. 206.

Page 45: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

45

i oferowanymi przez nie wysokimi rozdzielczościami, oszczędność nawet na jednym

pliku może wynosić kilkaset MB, co w przeliczeniu na wiele tysięcy skanów daje

oszczędności, których nie można bagatelizować.

Grupę B można uznać za zbiór problematycznych przypadków, których stan

i forma dyskwalifikują je z grupy pierwszej. W ich przypadku kolor 1-bitowy

zastąpiono odcieniami szarości, w wersji minimalnej z głębią 8-bitową, w wersji

optymalnej – 16-bitową. Rozdzielczość 300 ppi w większości przypadków daje dobre

rezultaty, niemniej zalecono 400 ppi. Gray Gamma 2.2 jest powszechnie uznanym

wzorcem szarości, którego wartość odpowiada naturalnej luminancji ludzkiego oka.

Grupa C zawiera katalog dokumentów o bardziej złożonej zawartości,

niejednokrotnie bogatej w detale i niuanse dobrze widoczne dopiero po powiększeniu

dokumentu. To tłumaczy jedyną różnicę (w porównaniu z grupą B) w zaleceniach

wyrażającą się w dodatkowym wymogu utrzymania dłuższego wymiaru skanu na

poziomie nie mniejszym niż 3000 pikseli (wartość zalecana – 5000 pikseli). Warunek

ten ma za zadanie zapewnić plikom archiwalnym odpowiednią wielkość

reprezentowanego obrazu, którego rzeczywiste wymiary mogą być stosunkowo

niewielkie. Poza tym wskazanie wspomnianej wartości jest też pomocne dla instytucji,

które digitalizują za pomocą aparatów cyfrowych, gdzie rozdzielczość liniowa

zastąpiona jest obiektową.

Grupa D ogranicza się wyłącznie do fotograficznych negatywów i przezroczy,

więc jako pierwsza wymaga (w przypadku negatywów barwnych) zastosowania trybu

8-bitowego koloru – co w rezultacie daje 24-bitowy kolor RGB. Wartość zalecana

ustalona jest na 16 bitów dla każdego koloru. Jako wzorzec koloru podany jest profil

Adobe RGB 1998, który wymaga kilku słów wyjaśnienia.

Ogólnie przyjętym standardem prezentacji barw w Internecie jest aktualnie

sRGB78

, będący rozszerzoną wersją RGB. Stosuje się go powszechnie, gdy docelowym

medium udostępnienia nie jest druk. Okazuje się, że dla potrzeb poligrafii sRGB jest

niewystarczający, ponieważ pokrywa zbyt wąski zakres barw z przestrzeni absolutnej

(zaledwie 35%). Dlatego też popularność zdobył standard Adobe RGB 1998, który

reprezentuje około 50% barw. Przy wymaganiach zalecanych dla grup F i G widnieje

zapis, że powinien być stosowany profil „Adobe RGB 1998 lub lepszy”, co oznacza że

zaleca się korzystanie także z Adobe Wide Gamut RGB (77% barw, w tym 8% spoza

78

sRGB. [W:] Wikipedia [on-line]. Tryb dostępu: http://en.wikipedia.org/wiki/SRGB

[dostęp: 5.04.2011 r.].

Page 46: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

46

przestrzeni absolutnej) oraz ProPhoto RGB (90%, w tym 13% spoza przestrzeni

absolutnej)79

.

Dla instytucji digitalizujących przede wszystkim w celu ochrony rzadkich

i zniszczonych dokumentów, Adobe RGB 1998 jest rozsądnym minimum. Powstaje

pytanie, dlaczego mimo wszystko wciąż powszechnie praktykuje się zapisywanie

plików w standardzie sRGB, skoro Adobe RGB 1998 ma większe możliwości i więcej

pól zastosowań. Wśród głównych przyczyn można wskazać:

nieprawidłową obsługę grafik o przestrzeni większej niż sRGB przez

popularne przeglądarki internetowe,

dodatkową czynność w procesie digitalizacji, jaką jest konwersja do sRGB,

żeby użytkownik biblioteki cyfrowej miał kontakt z wiernym odwzorowaniem

kolorystycznym. Problem polega na tym, że po usunięciu „informacji

nadmiarowych” w trakcie konwersji obraz wynikowy może się różnić od pliku

wzorcowego, ponieważ na ogół programy nie umożliwiają zdefiniowania

parametrów konwersji80

,

jeśli jednak program umożliwia ustawienie parametrów konwersji do sRGB, to

właściwe dobranie tych parametrów (nie wiążące się z widocznym

pogorszeniem się odwzorowań barwnych obrazu w pliku wynikowym) niesie

za sobą konieczność posiadania dużych umiejętności i wymaga

specjalistycznej wiedzą od osoby zajmującej się konwersją.

Prostym rozwiązaniem w tym przypadku byłoby tworzenie w jednym kroku

odwzorowania wzorca w obu profilach, z czego sRGB miałby charakter bazowy dla

późniejszych konwersji do formatów prezentacyjnych. Niestety, takie rozwiązanie

niesie za sobą ogromne koszty, ponieważ praktycznie podwaja zapotrzebowanie na

ilość pamięci masowej zajmowanej przez wygenerowane pliki. Pewnym wyjściem

z sytuacji mogłoby więc być kasowanie plików wzorcowych z profilem sRGB po

dokonaniu wszystkich przewidzianych konwersji, w przeciwieństwie do plików

zawierających barwy opisane profilem Adobe RGB 1998, które by zostały

przeznaczone do LTP.

Twórcy zaleceń nie chcieli jednak dodatkowo komplikować i tak już niełatwej

materii, jaką jest problematyka odwzorowania barw i wszystkie jej konsekwencje, więc

79

Standardy… op. cit., s. 98-99. 80

Canon 7D: sRGB vs. Adobe RGB (1998) Color Space. [W:] foto-biz.com [on-line]. Tryb dostępu:

http://www.foto-biz.com/Canon/Srgb-vs-adobe-rgb-color-space [dostęp: 5.04.2011 r.].

Page 47: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

47

postawili na profil bardziej przyszłościowy niż sRGB, co uznać należy za dobre

posunięcie.

Grupa E również charakteryzuje się wąskim zakresem typów dokumentów,

ponieważ ogranicza się do mikroform. Zamiast podawać minimalną i zalecaną

rozdzielczość, zdecydowano się na uwagę „jak dla mikrofilmowanego oryginału

w granicach przenoszenia jego cech przez mikrofilm”, co należy odczytywać w ten

sposób, że rozdzielczość jest podyktowana typem dokumentu oryginalnego, który został

zmikrofilmowany. Żeby ją ustalić, należy najpierw przyporządkować utrwalony

dokument do jednej z pozostałych grup.

Grupa F wydaje się najbardziej pojemna, ponieważ oprócz dokumentów

o charakterze typowo archiwalnym i bibliotecznym, zawiera także obiekty muzealne.

Stąd wcześniej wspomniane zalecenie, żeby – w miarę potrzeb i możliwości – używać

najbardziej zaawansowanych profili barwnych.

Ostatnia grupa to dokumenty wyselekcjonowane ze względu na swoje znaczne

rozmiary. Zarówno rozdzielczość minimalna, jak i zalecana, wynoszą 300 ppi. Takie

rozwiązanie – niewątpliwie podyktowane wielkimi rozmiarami plików

wygenerowanych przy użyciu rozdzielczości powyżej 300 ppi – może jednak budzić

pewne wątpliwości. Niejednokrotnie mapy (lub „duże obiekty muzealne”) posiadają

dużo detali, których 300 ppi nie jest w stanie właściwie oddać. O ile więc ta wartość

jako wymaganie minimalne nie budzi zastrzeżeń, o tyle wartość zalecana powinna

wynosić 400 ppi, a w uzasadnionych przypadkach nawet więcej. Faktem jest, że

powstające w ten sposób pliki są bardzo trudne do obróbki i zajmują sporo miejsca,

dlatego też w innych krajach powoli pojawia się tendencja do stosowania w roli formatu

archiwalnego bezstratnej wersji JPEG 200081

, który generuje pliki o zdecydowanie

mniejszych rozmiarach, chociaż jest bardziej kłopotliwy w przypadku obróbki

i konwersji do innych formatów.

Można odnieść wrażenie, że w Standardach (…) nie została w stopniu

satysfakcjonującym poruszona bardzo ważna kwestia dotycząca formatów

prezentacyjnych. Na początku publikacji można natknąć się na dość nonszalancką

uwagę: „Jeśli więc czytelnik niniejszego opracowania spodziewa się, że znajdzie tu

tylko tabelkę z wykazem formatów plików możliwych do zastosowania oraz ich

parametrów technicznych, to powinien od razu przejść do czytania ostatniego

81

TIFF to JPEG 2000? Preservation Planning at the Bavarian State Library Using a Collection of

Digitized 16th Century Printings. [W:] D-Lib Magazine [on-line]. Tryb dostępu:

http://www.dlib.org/dlib/november09/kulovits/11kulovits.html [dostęp: 20.01.2011 r.].

Page 48: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

48

rozdziału”82

. Po słowie „zastosowania” umieszczono przypis: „to już zostało określone

w Rozporządzeniu Rady Ministrów z dnia 11 października 2005 w sprawie

minimalnych wymagań dla systemów teleinformatycznych (Dziennik Ustaw Nr 212,

poz. 1766, zał. 1 i 2), i stanowi ogólne ramy, w jakich należy się poruszać”83

. Pomijając

niefortunność stwierdzenia o „ramach, w jakich należy się poruszać” (co jest niezgodne

z prawdą84

), to przecież właśnie dobór odpowiednich formatów prezentacyjnych,

a następnie metodologia ich tworzenia, są na ogół najbardziej problematycznym,

kosztownym i pochłaniającym czas (i moc obliczeniową komputerów) etapem w całym

procesie digitalizacji.

Wciąż brak jest źródeł, które w sposób wyczerpujący omówiłyby formaty

prezentacyjne (wraz z ich wewnętrznymi odmianami) w połączeniu ze wskazówkami,

do których typów dokumentów je stosować, jakiego oprogramowania do ich

wygenerowania najlepiej użyć, żeby uniknąć przykrych niespodzianek oraz na co

zwrócić uwagę w trakcie pracy z tymi formatami. Najprawdopodobniej przyczyną

takiego stanu rzeczy jest potencjalnie szybka utrata aktualności, niemniej brak tego typu

opracowań zmusza osoby zajmujące się digitalizacją do samodzielnego

wypracowywania odpowiednich ścieżek technologicznych i jeszcze bardziej oddala

krajową politykę digitalizacyjną od ujednolicenia.

82

Standardy…, op. cit., s. 14. 83

Ibidem. 84

Zob. pkt 1.3.2.

Page 49: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

49

2. Metodologia

2.1. Próba badawcza

Niniejsza praca dotyczy praktyki generowania obiektów cyfrowych w polskich

bibliotekach, bez względu na rodzaj i wielkość tych bibliotek. Jedynym kryterium było

ich usytuowanie na terytorium Rzeczypospolitej Polskiej. Ponieważ na dzień

31.12.2010 r. funkcjonowało w Polsce aż 8.342 samych bibliotek publicznych (wraz

z filiami)1, należało zawęzić grupę potencjalnych respondentów. Tym bardziej, że

chociaż digitalizacja na przestrzeni ostatnich lat stała się w Polsce popularną formą

działalności bibliotek, wciąż zajmuje się nią stosunkowo niewielki ich odsetek.

Ustalenie próby badawczej ułatwił fakt, że zdecydowana większość takich bibliotek

udostępnia swoje obiekty za pomocą jednej z 52 działających na terenie kraju bibliotek

cyfrowych2.

Podjęto decyzję, żeby badaniu poddać wszystkie biblioteki tworzące lub

współtworzące biblioteki cyfrowe, wchodzące w skład Federacji Bibliotek Cyfrowych3.

Przyjęto następujące założenia:

badaniem zostaną objęte nawet najmniejsze biblioteki, jeżeli zostały

wymienione wśród instytucji współtworzących daną BC,

jeśli wśród instytucji tworzących / współtworzących BC widniała nazwa

uczelni, zakładano, że digitalizację nadzoruje biblioteka wyodrębniona w

strukturze tej uczelni,

archiwa i muzea, nawet jeśli tworzone / współtworzone przez nie BC

wchodziły

w skład FBC, nie zostały objęte badaniem. Pominięto również wszystkie

organizacje, które nie posiadały w swojej strukturze wyraźnie wyodrębnionej

biblioteki.

W drodze powyższej eliminacji z 62 bibliotek cyfrowych, badaniem objęto 52,

których wykaz – wraz z tworzącymi je instytucjami – znajduje się poniżej:

1 Informacja Instytutu Książki i Czytelnictwa Biblioteki Narodowej o działalności bibliotek publicznych

w 2010 r. (Opracowano na podstawie danych Głównego Urzędu Statystycznego) [W:] Biblioteka

Narodowa – Biblioteki Publiczne w Liczbach [on-line]. Tryb dostępu:

http://www.bn.org.pl/download/document/1311762794.pdf [dostęp: 1.02.2012 r.]. 2 Stan na dzień 10.06.2011 r. Liczba ta nie uwzględnia bibliotek cyfrowych tworzonych przez archiwa

i muzea. 3 Zestawienie polskich bibliotek cyfrowych. [W:] Federacja Bibliotek Cyfrowych [on-line]. Tryb dostępu:

http://fbc.pionier.net.pl/owoc/list-libs [dostęp: 5.06.2011 r.].

Page 50: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

50

1) Akademicka Biblioteka Cyfrowa KRAKÓW (ABC KRAKÓW)

Biblioteka Główna Akademii Górniczo-Hutniczej w Krakowie

Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

2) ARMARIUM. dominikańska biblioteka cyfrowa (Armarium)

Biblioteka Kolegium Filozoficzno-Teologicznego oo. Dominikanów

w Krakowie

3) Bałtycka Biblioteka Cyfrowa (BBC)

Miejska Biblioteka Publiczna w Słupsku

Biblioteka Publiczna Gminy Wejherowo im. Aleksandra Labudy

w Bolszewie

Wojewódzka i Miejska Biblioteka Publiczna im. Josepha Conrada

Korzeniowskiego w Gdańsku

4) Bialska Biblioteka Cyfrowa (BBC)

Miejska Biblioteka Publiczna w Białej Podlaskiej

5) Bibliologiczna Biblioteka Cyfrowa (BBC UW)

Instytut Informacji Naukowej i Studiów Bibliologicznych Uniwersytetu

Warszawskiego

6) Biblioteka Cyfrowa Instytutów PAN (BCIPAN)

Centralna Biblioteka Matematyczna Instytutu Matematycznego PAN

w Warszawie

Centralna Biblioteka Geografii i Ochrony Środowiska Instytutu Geografii

i Przestrzennego Zagospodarowania PAN w Warszawie

7) Biblioteka Cyfrowa Instytutu Łączności (BC IŁ)

Instytut Łączności - Państwowy Instytut Badawczy w Warszawie

8) Biblioteka Cyfrowa Katedry Lingwistyki Formalnej Uniwersytetu

Warszawskiego

(BC KLF UW)

Katedra Lingwistyki Formalnej Uniwersytetu Warszawskiego

9) Biblioteka Cyfrowa Książnicy Stargardzkiej (BCKS)

Książnica Stargardzka

10) Biblioteka Cyfrowa Politechniki Krakowskiej (BCPK)

Biblioteka Politechniki Krakowskiej

Page 51: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

51

11) Biblioteka Cyfrowa Politechniki Lubelskiej (BCPL)

Biblioteka Politechniki Lubelskiej

12) Biblioteka Cyfrowa Politechniki Łódzkiej (eBiPoL)

Biblioteka Politechniki Łódzkiej

13) Biblioteka Cyfrowa Politechniki Śląskiej (BCPS)

Biblioteka Główna Politechniki Śląskiej w Gliwicach

14) Biblioteka Cyfrowa Politechniki Warszawskiej (BCPW)

Biblioteka Główna Politechniki Warszawskiej

15) Biblioteka Cyfrowa Polskiego Instytutu Antropologii (BCPIA)

Biblioteka Główna Instytutu Archeologii i Etnologii PAN w Warszawie

Biblioteka Instytutu Etnologii i Antropologii Kulturowej Uniwersytetu

Warszawskiego

Biblioteka Instytutu Sztuki PAN w Warszawie

Polski Instytut Antropologii w Warszawie

Biblioteka Polskiego Towarzystwa Ludoznawczego we Wrocławiu

16) Biblioteka Cyfrowa - Regionalia Ziemi Łódzkiej (BC-RZŁ)

Wojewódzka i Miejska Biblioteka Publiczna im. Marszałka Józefa

Piłsudskiego w Łodzi

17) Biblioteka Cyfrowa UMCS (BC UMCS)

Biblioteka Główna Uniwersytetu Marii Curie Skłodowskiej w Lublinie

18) Biblioteka Cyfrowa Uniwersytetu Łódzkiego (BCUŁ)

Biblioteka Uniwersytetu Łódzkiego

19) Biblioteka Cyfrowa Uniwersytetu Warmińsko-Mazurskiego (BCUWM)

Biblioteka Uniwersytecka, Uniwersytet Warmińsko-Mazurski w Olsztynie

20) Biblioteka Cyfrowa Uniwersytetu Wrocławskiego (BCUWr)

Biblioteka Uniwersytecka we Wrocławiu

21) Chełmska Biblioteka Cyfrowa (ChBC)

Chełmska Biblioteka Publiczna im. Marii Pauliny Orsetti w Chełmie

22) Cyfrowa Biblioteka Diecezjalna w Sandomierzu (CBDSandomierz)

Biblioteka Diecezjalna w Sandomierzu

23) Cyfrowa Biblioteka Narodowa (CBN Polona)

Page 52: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

52

Biblioteka Narodowa w Warszawie

24) Cyfrowa Ziemia Sieradzka (CZS)

Powiatowa Biblioteka Publiczna w Sieradzu

25) Cyfrowy Dolny Śląsk (CDŚ)

Dolnośląska Biblioteka Publiczna im. Tadeusza Mikulskiego we Wrocławiu

Jeleniogórskie Centrum Informacji i Edukacji Regionalnej - Książnica

Karkonoska w Jeleniej Górze

Powiatowa i Miejska Biblioteka Publiczna im. Mikołaja Reja w Oleśnicy

Powiatowa i Miejska Biblioteka Publiczna w Oławie

Miejska Biblioteka Publiczna im. Marii Dąbrowskiej w Świebodzicach

Miejska Biblioteka Publiczna w Zgorzelcu

26) Dolnośląska Biblioteka Cyfrowa (DBC)

Biblioteka Główna Akademii Medycznej im. Piastów Śląskich we Wrocławiu

Biblioteka Główna Akademii Muzycznej im. Karola Lipińskiego we

Wrocławiu

Biblioteka Główna Akademii Wychowania Fizycznego we Wrocławiu

Biblioteka Główna Politechniki Opolskiej

Biblioteka Główna Politechniki Wrocławskiej

Biblioteka Główna Uniwersytetu Ekonomicznego we Wrocławiu

Biblioteka Główna Uniwersytetu Przyrodniczego we Wrocławiu

Biblioteka Państwowej Wyższej Szkoły Teatralnej Filia we Wrocławiu

Biblioteka Państwowej Wyższej Szkoły Zawodowej im. Angelusa Silesiusa

w Wałbrzychu

Biblioteka Państwowej Wyższej Szkoły Zawodowej im. Witelona w Legnicy

Biblioteka Państwowej Wyższej Szkoły Zawodowej w Głogowie

Biblioteka Państwowej Wyższej Szkoły Zawodowej w Nysie

Biblioteka Papieskiego Wydziału Teologicznego we Wrocławiu

Biblioteka Wyższej Szkoły Wojsk Lądowych im. gen. Tadeusza Kościuszki

we Wrocławiu

Dolnośląska Biblioteka Pedagogiczna we Wrocławiu

Zakład Narodowy im. Ossolińskich we Wrocławiu

27) e-biblioteka Uniwersytetu Warszawskiego (e-bUW)

Biblioteka Instytutu Historycznego Uniwersytetu Warszawskiego

Page 53: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

53

Biblioteka Uniwersytecka w Warszawie

Biblioteka Wydziału Prawa i Administracji Uniwersytetu Warszawskiego

28) Elbląska Biblioteka Cyfrowa (EBC)

Biblioteka Elbląska im. Cypriana Norwida

29) Iławska Biblioteka Cyfrowa (IBC)

Miejska Biblioteka Publiczna w Iławie

30) Internetowa Biblioteka Wzornictwa (IBW)

Instytut Wzornictwa Przemysłowego w Warszawie

31) Jagiellońska Biblioteka Cyfrowa (JBC)

Biblioteka Jagiellońska w Krakowie

32) Kolbuszowska Biblioteka Cyfrowa (KBC)

Miejska i Powiatowa Biblioteka Publiczna w Kolbuszowej

33) Krośnieńska Biblioteka Cyfrowa (KBC Krosno)

Krośnieńska Biblioteka Publiczna

34) Księgozbiór Wirtualny Federacji Bibliotek Kościelnych FIDES (KWBK

FIDES)

Biblioteka im. Jana Pawła II Wyższego Seminarium Duchownego Diecezji

Legnickiej w Legnicy

Biblioteka Zgromadzenia Księży Misjonarzy w Krakowie

Biblioteka Wyższego Seminarium Duchownego Metropolii Warmińskiej

„HOSIANUM” w Olsztynie

35) Kujawsko-Pomorska Biblioteka Cyfrowa (KPBC)

Biblioteka Główna Uniwersytetu Kazimierza Wielkiego w Bydgoszczy

Biblioteka Główna Uniwersytetu Mikołaja Kopernika w Toruniu

Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego

w Bydgoszczy

Biblioteka Collegium Medicum im. Ludwika Rydygiera UMK w Bydgoszczy

Biblioteka Miejska im. Wiktora Kulerskiego w Grudziądzu

Biblioteka Państwowej Wyższej Szkoły Zawodowej we Włocławku

Miejsko-Powiatowa Biblioteka Publiczna w Rypinie

Wojewódzka Biblioteka Publiczna - Książnica Kopernikańska w Toruniu

36) Małopolska Biblioteka Cyfrowa (MBC)

Page 54: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

54

Biblioteka Książąt Czartoryskich w Krakowie

Biblioteka Muzeum Narodowego w Krakowie

Miejska Biblioteka Publiczna w Chrzanowie

Miejska Biblioteka Publiczna im. Juliusza Słowackiego w Tarnowie

Miejska Biblioteka Publiczna w Olkuszu

Wojewódzka Biblioteka Publiczna w Krakowie

37) Mazowiecka Biblioteka Cyfrowa (MBC)

Biblioteka Publiczna m. st. Warszawy

38) Nowohucka Biblioteka Cyfrowa (NHBC)

Nowohucka Biblioteka Publiczna w Krakowie

39) Opolska Biblioteka Cyfrowa (OBC)

Wojewódzka Biblioteka Publiczna im. Emanuela Smołki w Opolu

40) Pedagogiczna Biblioteka Cyfrowa (PBC)

Biblioteka Główna Uniwersytetu Pedagogicznego im. KEN w Krakowie

Biblioteka Instytutu Informacji Naukowej i Bibliotekoznawstwa

Uniwersytetu Pedagogicznego w Krakowie

Pedagogiczna Biblioteka Wojewódzka im. Hugona Kołłątaja w Krakowie

Publiczna Biblioteka Pedagogiczna Książnica Pedagogiczna im. Alfonsa

Parczewskiego w Kaliszu

41) Podkarpacka Biblioteka Cyfrowa (PBC)

Biblioteka Akademicka Wyższej Szkoły Informatyki i Zarządzania

w Rzeszowie

Biblioteka Główna Politechniki Rzeszowskiej

Biblioteka Uniwersytetu Rzeszowskiego

Wojewódzka i Miejska Biblioteka Publiczna w Rzeszowie

42) Podlaska Biblioteka Cyfrowa (PBC)

Biblioteka Archidiecezjalnego Wyższego Seminarium Duchownego

w Białymstoku

Biblioteka Główna Uniwersytetu Medycznego w Białymstoku

Biblioteka Politechniki Białostockiej

Biblioteka Uniwersytecka im. Jerzego Giedroycia w Białymstoku

Biblioteka Uniwersytetu Muzycznego Fryderyka Chopina. Wydział

Instrumentalno-Pedagogiczny w Białymstoku

Page 55: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

55

Książnica Podlaska im. Łukasza Górnickiego w Białymstoku

43) Pomorska Biblioteka Cyfrowa (PBC)

Biblioteka Akademii Sztuk Pięknych w Gdańsku

Biblioteka Akademii Wychowania Fizycznego i Sportu im. Jędrzeja

Śniadeckiego w Gdańsku

Biblioteka Gdańska Polskiej Akademii Nauk

Biblioteka Główna Akademii Morskiej w Gdyni

Biblioteka Główna Akademii Muzycznej im. Stanisława Moniuszki

w Gdańsku

Biblioteka Główna Gdańskiego Uniwersytetu Medycznego

Biblioteka Główna Politechniki Gdańskiej

Biblioteka Główna Uniwersytetu Gdańskiego

Biblioteka Pedagogiczna w Kartuzach

Miejska Biblioteka Publiczna w Gdyni

Ośrodek Informacji Naukowej - Biblioteka Naukowa Morskiego Instytutu

Rybackiego w Gdyni

Pedagogiczna Biblioteka Wojewódzka im. Gdańskiej Macierzy Szkolnej

w Gdańsku

Pedagogiczna Biblioteka Wojewódzka w Słupsku

44) Radomska Biblioteka Cyfrowa (RBC)

Biblioteka Radomskiego Towarzystwa Naukowego

Miejska Biblioteka Publiczna im. Józefa A. i Andrzeja S. Załuskich

w Radomiu

45) Sanocka Biblioteka Cyfrowa (SBC)

Miejska Biblioteka Publiczna im. Grzegorza z Sanoka w Sanoku

46) Śląska Biblioteka Cyfrowa (ŚBC)

Biblioteka Akademii Sztuk Pięknych w Katowicach

Biblioteka Centrum Dziedzictwa Przyrody Górnego Śląska w Katowicach

Biblioteka Główna Akademii im. Jana Długosza w Częstochowie

Biblioteka Główna Akademii Muzycznej im. Karola Szymanowskiego

w Katowicach

Biblioteka Główna Akademii Techniczno-Humanistycznej w Bielsku-Białej

Page 56: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

56

Biblioteka Główna Akademii Wychowania Fizycznego im. Jerzego Kukuczki

w Katowicach

Biblioteka Główna Politechniki Częstochowskiej

Biblioteka Główna Uniwersytetu Ekonomicznego w Katowicach

Biblioteka Główna Uniwersytetu Opolskiego

Biblioteka Górnośląskiej Wyższej Szkoły Pedagogicznej w Mysłowicach

Biblioteka Miejska w Cieszynie

Biblioteka Pałacu Młodzieży w Katowicach

Biblioteka Publiczna im. Wł. Biegańskiego w Częstochowie

Biblioteka Śląska

Biblioteka Śląskiego Uniwersytetu Medycznego w Katowicach

Biblioteka Uniwersytetu Śląskiego w Katowicach

Biblioteka Wyższej Szkoły Administracji w Bielsku-Białej

Biblioteka Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiejscowy

w Chorzowie

Biblioteka Wyższej Szkoły Biznesu w Dąbrowie Górniczej

Biblioteka Wyższej Szkoły Humanitas w Sosnowcu

Biblioteka Wyższej Szkoły Lingwistycznej w Częstochowie

Książnica Beskidzka w Bielsku-Białej

Książnica Cieszyńska

Miejska Biblioteka Publiczna im. Jerzego Fusieckiego w Zabrzu

Miejska Biblioteka Publiczna w Bytomiu

Miejska Biblioteka Publiczna w Czeladzi

Miejska Biblioteka Publiczna w Dąbrowie Górniczej

Miejska Biblioteka Publiczna w Jastrzębiu-Zdroju

Miejska Biblioteka Publiczna w Jaworznie

Miejska Biblioteka Publiczna w Piekarach Śląskich

Miejska Biblioteka Publiczna w Rudzie Śląskiej

Miejska Biblioteka Publiczna w Sosnowcu

Miejska Biblioteka Publiczna w Tarnowskich Górach

Miejska Biblioteka Publiczna w Żorach

Miejska i Gminna Biblioteka Publiczna w Głubczycach

Miejska i Powiatowa Biblioteka Publiczna im. Ryszarda Knicla w Raciborzu

Miejska i Powiatowa Biblioteka Publiczna w Wodzisławiu Śląskim

Page 57: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

57

Miejsko-Powiatowa Biblioteka Publiczna w Pszczynie

Pedagogiczna Biblioteka Wojewódzka im. Józefa Lompy w Katowicach

Powiatowa Biblioteka Publiczna w Gliwicach

Powiatowa i Miejska Biblioteka Publiczna w Rybniku

47) Świętokrzyska Biblioteka Cyfrowa (ŚBC)

Wojewódzka Biblioteka Publiczna im. Witolda Gombrowicza w Kielcach

48) Tarnowska Biblioteka Cyfrowa (TBC)

Miejska Biblioteka Publiczna im. J. Słowackiego w Tarnowie

49) Wejherowska Biblioteka Cyfrowa (WBC)

Powiatowa i Miejska Biblioteka Publiczna im. Aleksandra Majakowskiego

w Wejherowie

50) Wielkopolska Biblioteka Cyfrowa (WBC)

Biblioteka Główna Akademii Muzycznej im. Ignacego Jana Paderewskiego

w Poznaniu

Biblioteka Główna Akademii Sztuk Pięknych w Poznaniu

Biblioteka Główna Akademii Wychowania Fizycznego w Poznaniu

Biblioteka Główna i Centrum Informacji Naukowej Uniwersytetu

Przyrodniczego w Poznaniu

Biblioteka Główna Politechniki Poznańskiej

Biblioteka Główna Uniwersytetu Ekonomicznego w Poznaniu

Biblioteka Główna Uniwersytetu Medycznego w Poznaniu

Biblioteka Instytutu Historii UAM w Poznaniu

Biblioteka Instytutu Zachodniego w Poznaniu

Biblioteka Kórnicka PAN w Poznaniu

Biblioteka Poznańskiego Towarzystwa Przyjaciół Nauk w Poznaniu

Biblioteka Publiczna im. Stefana Rowińskiego w Ostrowie Wielkopolskim

Biblioteka Raczyńskich w Poznaniu

Biblioteka Uniwersytecka w Poznaniu

Centralna Biblioteka Wojskowa im. Marszałka Józefa Piłsudskiego

w Warszawie

Powiatowa Biblioteka Publiczna w Szamotułach

51) Zachodniopomorska Biblioteka Cyfrowa POMERANIA (ZBC POMERANIA)

Biblioteka Główna Akademii Morskiej w Szczecinie

Page 58: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

58

Biblioteka Główna Pomorskiego Uniwersytetu Medycznego w Szczecinie

Biblioteka Główna Uniwersytetu Szczecińskiego

Biblioteka Główna Zachodniopomorskiego Uniwersytetu Technologicznego

w Szczecinie

Biblioteka Politechniki Koszalińskiej

Koszalińska Biblioteka Publiczna im. Joachima Lelewela

Książnica Pomorska w Szczecinie

Miejska Biblioteka Publiczna im. Galla Anonima w Kołobrzegu

Miejska Biblioteka Publiczna w Szczecinie

Publiczna Biblioteka Pedagogiczna Zachodniopomorskiego Centrum

Doskonalenia Nauczycieli w Szczecinie

52) Zielonogórska Biblioteka Cyfrowa (ZBC)

Biblioteka Sztuki Uniwersytetu Zielonogórskiego

Biblioteka Uniwersytecka Uniwersytetu Zielonogórskiego

Wojewódzka i Miejska Biblioteka Publiczna im. C. Norwida w Zielonej

Górze

Wyłoniono w ten sposób 186 potencjalnych respondentów. Po opracowaniu

wykazu, dokładnie przeanalizowano dostępne w Internecie informacje o każdej

z instytucji, w celu zdobycia adresów e-mail, pod które należało wysłać zaproszenie do

wzięcia udziału w badaniu. Żeby ograniczyć do minimum sytuację, w której

wspomniane zaproszenie będzie później przesyłane z działu do działu w poszukiwaniu

kompetentnej osoby, skupiono się na wyszukaniu danych kontaktowych do osób

bezpośrednio odpowiedzialnych za digitalizację w danej instytucji. Zastosowano

następujący tryb postępowania: na stronie WWW każdej instytucji objętej badaniem,

szukano w strukturze organizacyjnej komórki zajmującej się digitalizacją. Następnie:

gdy taka komórka istniała, zaproszenie kierowano do kierownika tej komórki

lub (gdy nie znaleziono informacji o jego adresie e-mail) na adres ogólny

komórki. Jeśli on również nie był podany, wysyłano zaproszenie na ogólny

adres e-mail biblioteki,

gdy brak było informacji o wyspecjalizowanej komórce, a biblioteka była

jedną z kilku współtworzących daną BC, zaproszenie wysyłano do działu

zajmującego się komputeryzacją w danej bibliotece,

Page 59: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

59

gdy nie stwierdzono istnienia wspomnianej komórki, a jednocześnie BC

tworzona była tylko przez tę jedną instytucję, prośbę wysyłano na adres

znaleziony w danych kontaktowych umieszczonych bezpośrednio w danej

bibliotece cyfrowej.

Ustalona próba badawcza miała więc charakter nieprobabilistyczny i chociaż

z jednej strony stanowiła pewną całość, z drugiej jednak od początku obarczona była

wysokim ryzykiem niewielkiej ilości zwrotów. Główną przyczyną nie była w tym

wypadku kompleksowość badania (która również stanowiła istotny negatywny czynnik,

o czym będzie mowa w następnym punkcie), lecz fakt, że wiele instytucji

współtworzących biblioteki cyfrowe uczestniczy w tych projektach w sposób bierny,

tzn. wyłącznie poprzez dostarczanie dokumentów do digitalizacji. Niestety nie istniał

żaden sposób, który pozwalałby na wyeliminowanie takich bibliotek ze zbioru instytucji

objętych badaniem. Brak tu było jakiegokolwiek schematu – a najbardziej oczywisty,

polegający na wyeliminowaniu bibliotek z mniejszych miejscowości byłby nie dość że

kłopotliwy (ponieważ wymagałby ustalenia kryterium „wielkości” miejscowości,

a następnie ponownego przefiltrowania grupy), to z gruntu obarczony błędem.

Niejednokrotnie biblioteki z mniejszych miejscowości na własną rękę samodzielnie

digitalizują całkiem spore ilości materiałów, podczas gdy duże biblioteki

decydują się na całkowity outsourcing. Żeby więc apriorycznie nie zawęzić grupy

potencjalnych respondentów, zdecydowano się na objęcie badaniem wszystkich

bibliotek występujących w wykazie Federacji Bibliotek Cyfrowych.

2.2. Narzędzie badawcze

Przed wyborem odpowiedniego narzędzia badawczego, fundamentalne znaczenie

miała odpowiedź na pytanie „jaki jest cel badania”. Już na etapie tworzenia koncepcji

pracy założono, że celem tym będzie konfrontacja zaleceń opisanych w punkcie 1.4.3

z obecną biblioteczną praktyką digitalizowania dokumentów oraz próba całościowej

oceny najpopularniejszych rozwiązań. Zatem jako tryb badawczy zastosowano

dedukcję, gdzie rolę hipotezy (teorii oczekiwań) pełniły założenia ujęte w Standardach

w procesie digitalizacji obiektów dziedzictwa kulturowego4.

Zdecydowano się na metodę ilościową przyjmując, że grupa badawcza będzie

miała za zadanie wskazać stosowane przez siebie szczegółowe praktyki w kwestii

4 Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego. Pod red. G. Płoszajskiego

[dokument elektroniczny]. Warszawa: Biblioteka Główna Politechniki Warszawskiej, 2008. Tryb

dostępu: http://bcpw.bg.pw.edu.pl/dlibra/doccontent?id=1262&dirids=1 [dostęp: 17.08.2010 r.].

Page 60: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

60

digitalizacji. Następnie wszystkie wyniki miały zostać poddane analizie i – w ostatniej

fazie – skonfrontowane z krajowymi zaleceniami. Zakres badania został dodatkowo

poszerzony (w stosunku do zaleceń, gdzie mowa jest głównie o metadanych

i parametrach plików archiwalnych) o szczegółowe dane dotyczące generowanych

plików prezentacyjnych (docelowych obiektów cyfrowych) i metody przechowywania

całej „cyfrowej produkcji”. Zabieg ten miał na celu spojrzenie na digitalizację

w polskich bibliotekach z szerszej perspektywy i próbę oceny, czy jakiekolwiek zmiany

są potrzebne, a jeśli tak – czy realne byłoby ich wdrożenie na obecnym etapie, gdy

biblioteki posiadają własne ścieżki technologiczne, z których raczej nie będą chciały

rezygnować.

Metoda ilościowa implikowała wykorzystanie ankiety ze zmiennymi

i predefiowanymi wartościami (tam, gdzie tylko istniała taka możliwość), które miały

ułatwić ukazanie skali określonych praktyk w postaci liczb reprezentujących

częstotliwość występowania najpopularniejszych wartości.

Zastosowanie Standardów (…) jako hipotezy wiązało się z przygotowaniem

ankiety o wysokim stopniu szczegółowości. Nie wystarczyło przykładowo zapytać

respondentów o parametry skanowania pewnego typu dokumentów, lecz – żeby móc

skonfrontować wyniki z zaleceniami – należało rozbić poszczególne typy dokumentów

na podgrupy (rodzaje dokumentów), z których każda zawierała własny zbiór pytań.

Poza tym osobie zajmującej się digitalizacją trudno odpowiedzieć na pytanie, z jaką

rozdzielczością skanuje wszystkie książki, w jakim trybie i przy jakiej głębi koloru.

Parametry te znacznie się od siebie różnią, w zależności od charakterystyki danej

książki bądź grupy książek. Zatem pozorne uproszczenie pytań tylko skomplikowałoby

udzielenie właściwej odpowiedzi.

Ponieważ od początku było wiadomo, że ankieta będzie miała złożoną strukturę

i będzie zawierała kilkadziesiąt pytań, powstała kwestia jej potencjalnych zwrotów.

Ilość i szczegółowość pytań należało więc zrównoważyć zmniejszeniem do absolutnego

minimum liczby pytań otwartych i przejrzystością konstrukcji, która automatycznie

wymusiła wykorzystanie pytań warunkowych. Należało respondentom umożliwić

„wyklikanie” jak największej części ankiety. To z kolei pociągało za sobą

przygotowanie wszystkich możliwych wartości (odpowiedzi) dla danej zmiennej

(pytania). Oprócz tego w wielu przypadkach użytkownik miał możliwość ręcznego

wprowadzenia wartości nie uwzględnionej w ankiecie.

Kolejnym dylematem była anonimowość ankiety. Można było wyposażyć ją

w listę wszystkich respondentów, z której każdy mógłby wybrać instytucję, którą

Page 61: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

61

reprezentuje, można też było zostawić miejsce przeznaczone do samodzielnego

wpisania nazwy instytucji. Zdecydowano się jednak na pełną anonimowość.

Niejednokrotnie instytucje digitalizują dokumenty własnym sumptem w sposób, który

stoi w opozycji do współczesnych dobrych praktyk i istniało prawdopodobieństwo, że

osoba wypełniająca ankietę będzie bała się potencjalnej odpowiedzialności za wskazane

dane, bądź będzie wybierała odpowiedzi „postulatywne”, nie mające wiele wspólnego

z faktycznym procesem digitalizacji w danej instytucji. Anonimowość pozwalała na

pewną swobodę i niezobowiązujące podejście respondenta, co oczywiście mogło mieć

również swoje negatywne aspekty. Niemniej wydaje się, że zalety wybranego

rozwiązania przeważały nad mankamentami, stąd informację o anonimowości bardzo

wyraźnie wyeksponowano już w tekście wprowadzającym do ankiety (wyświetlającym

się respondentom po wejściu na stronę WWW z ankietą).

2.3. Schemat ankiety

I. Tekst wprowadzający

Szanowni Państwo,

Niniejsza ankieta jest anonimowa i dotyczy digitalizacji sensu stricto, tzn. etapu od

rozpoczęcia skanowania, poprzez wytworzenie i zachowanie plików archiwalnych, aż

po wygenerowanie odpowiednich formatów prezentacyjnych. Nie porusza ona

zagadnień związanych z całą otoczką digitalizacji (tzn. etapów przygotowawczych

i związanych z udostępnianiem). Jej celem jest zbadanie aktualnie przyjętych w Polsce

sposobów postępowania ze zdigitalizowanymi dokumentami, czyli stosowanych

parametrów skanów / fotografii w zależności od zasobu, generowanych formatów

i oprogramowania służącego do pracy z otrzymanymi plikami graficznymi.

Wypełnienie ankiety powinno zająć Państwu od 10 do 45 minut – w zależności od

różnorodności zbiorów, które Państwo digitalizują. Ponadto ankieta nie zawiera pytań

opisowych. Uprzejmie proszę o jej wypełnienie do dnia 24 czerwca 2011 r.

Uwaga – proszę o przemyślane odpowiedzi, ponieważ ankieta nie zawiera

mechanizmu powrotu do poprzedniej strony. Gdy Państwo stwierdzicie, że po drodze

mogły wystąpić błędne odpowiedzi, proszę wypełnić ankietę jeszcze raz – pod uwagę

brana będzie wyłącznie ostatnia wersja.

Z góry dziękuję za czas poświęcony na wypełnienie ankiety

Aleksander Trembowiecki

Page 62: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

62

II. Ankieta

Objaśnienie:

wartość warunkowa – jej wybór skutkuje pojawieniem się dodatkowych pytań

o wartość jednokrotnego wyboru (można wskazać tylko jedną w obrębie grupy)

□ wartość wielokrotnego wyboru (można wskazać więcej niż jedną w obrębie grupy)

… pole tekstowe – występujące na ogół, gdy respondent wybrał wartość inną niż

wymienione

RODZAJ DOKUMENTU – grupa zmiennych wraz z wartościami:

<rodzaj_dokumentu>

… Rozdzielczość (ppi)

Tryb i głębia koloru

□ 1 bit (czerń i biel)

□ 8-bitowa skala szarości

□ 16-bitowa skala szarości

□ 24-bitowy kolor

□ 48-bitowy kolor

Wzorce koloru

□ nie dotyczy (dla koloru 1-bitowego)

□ Grey Gamma

□ sRGB

□ Adobe RGB 1998

□ Adobe Wide Gamut RGB

□ ProPhoto RGB

□ Nie wiem

□ Inny wzorzec niż wymienione

… Inny wzorzec niż wymienione

Pierwotny format zapisu

□ TIFF bez kompresji

□ TIFF z kompresją CCITT

□ TIFF z kompresją LZW

□ TIFF z kompresją JPEG

Rodzaj generowanych plików TIFF

□ jednostronicowe

□ wielostronicowe

□ JPEG bez kompresji

□ JPEG z kompresją

□ JPEG 2000 bez kompresji

□ JPEG 2000 z kompresją

□ RAW

Page 63: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

63

□ DNG

□ BMP

□ PNG

□ PDF bez wewnętrznej kompresji grafik

□ PDF z wewnętrzną kompresją bezstratną grafik

□ PDF z wewnętrzną kompresją stratną grafik

□ Inny format

… Inny format

</rodzaj_dokumentu>

Strona 1: Model digitalizacji

Proszę wskazać stosowany w bibliotece model digitalizacji

o Samodzielne skanowanie / fotografowanie dokumentów

o Całkowity outsourcing

o Częściowy outsourcing

Przyczyna zdecydowania się na częściowy outsourcing

□ związana z rodzajem dokumentów

□ związana z formatem dokumentów

□ związana z pozyskaniem funduszy celowych na digitalizację

□ inna przyczyna

… Inna przyczyna

Szacunkowy procent skanów zleconych na zewnątrz w stosunku do wykonywanych

samodzielnie

o do 10%

o 11-25%

o 26-50%

o 51-75%

o powyżej 75%

Strona 2: Parametry digitalizacji

W jaki sposób ustalono parametry skanowania i format zapisu plików archiwalnych dla

poszczególnych typów dokumentów?

□ na podstawie własnych doświadczeń

□ na podstawie cudzych doświadczeń

□ na podstawie krajowych zaleceń

□ na podstawie zagranicznych zaleceń / standardów

□ w inny sposób

… Inny sposób

Jak ustalana jest rozdzielczość skanowania? Pytanie nie dotyczy digitalizacji za pomocą aparatu

cyfrowego (w takim przypadku proszę je pominąć).

□ na podstawie widocznych cech indywidualnych dokumentu

□ na podstawie przynależności dokumentu do określonej grupy, dla której wcześniej przyjęto pewną

stałą rozdzielczość

Page 64: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

64

□ jest obliczana dla każdego dokumentu (grupy dokumentów), np. na podstawie wysokości

najmniejszego znaku

□ w inny sposób

… Inny sposób

Strona 3: Typy digitalizowanych dokumentów – książki

□ Książki – czarno-biała treść

RODZAJ DOKUMENTU

□ Książki monochromatyczne (np. w sepii)

RODZAJ DOKUMENTU

□ Książki zawierające czarno-białe ilustracje

RODZAJ DOKUMENTU

□ Książki zawierające ilustracje w odcieniach szarości

RODZAJ DOKUMENTU

□ Książki zawierające kolorowe ilustracje

RODZAJ DOKUMENTU

Strona 4: Typy digitalizowanych dokumentów – gazety

□ Gazety – czarno-biała treść

RODZAJ DOKUMENTU

□ Gazety monochromatyczne (np. w sepii)

RODZAJ DOKUMENTU

□ Gazety zawierające czarno-białe ilustracje

RODZAJ DOKUMENTU

□ Gazety zawierające ilustracje w odcieniach szarości

RODZAJ DOKUMENTU

□ Gazety zawierające kolorowe ilustracje

RODZAJ DOKUMENTU

Strona 5: Typy digitalizowanych dokumentów – czasopisma

□ Czasopisma – czarno-biała treść

RODZAJ DOKUMENTU

□ Czasopisma monochromatyczne (np. w sepii)

RODZAJ DOKUMENTU

□ Czasopisma zawierające czarno-białe ilustracje

RODZAJ DOKUMENTU

□ Czasopisma zawierające ilustracje w odcieniach szarości

Page 65: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

65

RODZAJ DOKUMENTU

□ Czasopisma zawierające kolorowe ilustracje

RODZAJ DOKUMENTU

Strona 6: Typy digitalizowanych dokumentów – rękopisy

□ Rękopisy – wyraźny kontrast

RODZAJ DOKUMENTU

□ Rękopisy – niewyraźny kontrast

RODZAJ DOKUMENTU

Strona 7: Typy digitalizowanych dokumentów – inkunabuły

□ Inkunabuły

RODZAJ DOKUMENTU

Strona 8: Typy digitalizowanych dokumentów – stare druki

□ Stare druki

RODZAJ DOKUMENTU

Strona 9: Typy digitalizowanych dokumentów – grafiki (w tym m.in. rysunki,

obrazy, plakaty – do formatu A2 włącznie)

□ Grafiki czarno-białe

RODZAJ DOKUMENTU

□ Grafiki monochromatyczne (np. w sepii)

RODZAJ DOKUMENTU

□ Grafiki w odcieniach szarości

RODZAJ DOKUMENTU

□ Grafiki kolorowe

RODZAJ DOKUMENTU

Strona 10: Typy digitalizowanych dokumentów – grafiki wielkoformatowe (w tym

m.in. rysunki, obrazy, plakaty – powyżej formatu A2)

□ Grafiki wielkoformatowe czarno-białe

RODZAJ DOKUMENTU

□ Grafiki wielkoformatowe monochromatyczne (np. w sepii)

RODZAJ DOKUMENTU

□ Grafiki wielkoformatowe w odcieniach szarości

Page 66: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

66

RODZAJ DOKUMENTU

□ Grafiki wielkoformatowe kolorowe

RODZAJ DOKUMENTU

Strona 11: Typy digitalizowanych dokumentów – mapy (do formatu A2 włącznie)

□ Mapy czarno-białe z wyraźnym kontrastem

RODZAJ DOKUMENTU

□ Mapy czarno-białe z niewyraźnym kontrastem

RODZAJ DOKUMENTU

□ Mapy monochromatyczne

RODZAJ DOKUMENTU

□ Mapy w odcieniach szarości

RODZAJ DOKUMENTU

□ Mapy kolorowe

RODZAJ DOKUMENTU

Strona 12: Typy digitalizowanych dokumentów – mapy wielkoformatowe (powyżej

formatu A2)

□ Mapy wielkoformatowe czarno-białe z wyraźnym kontrastem

RODZAJ DOKUMENTU

□ Mapy wielkoformatowe czarno-białe z niewyraźnym kontrastem

RODZAJ DOKUMENTU

□ Mapy wielkoformatowe monochromatyczne

RODZAJ DOKUMENTU

□ Mapy wielkoformatowe w odcieniach szarości

RODZAJ DOKUMENTU

□ Mapy wielkoformatowe kolorowe

RODZAJ DOKUMENTU

Strona 13: Typy digitalizowanych dokumentów – odbitki fotograficzne

□ Odbitki fotograficzne monochromatyczne (np. w sepii)

RODZAJ DOKUMENTU

□ Odbitki fotograficzne w odcieniach szarości

RODZAJ DOKUMENTU

□ Odbitki fotograficzne kolorowe

RODZAJ DOKUMENTU

Page 67: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

67

Strona 14: Typy digitalizowanych dokumentów – negatywy, przezrocza

□ Negatywy, przezrocza monochromatyczne (np. w sepii)

RODZAJ DOKUMENTU

□ Negatywy, przezrocza w odcieniach szarości

RODZAJ DOKUMENTU

□ Negatywy, przezrocza kolorowe

RODZAJ DOKUMENTU

Strona 15: Typy digitalizowanych dokumentów – mikroformy

□ Mikrofilmy

RODZAJ DOKUMENTU

□ Mikrofisze

RODZAJ DOKUMENTU

□ Mikrokarty

RODZAJ DOKUMENTU

Strona 16: Typy digitalizowanych dokumentów – prace licencjackie, magisterskie,

doktorskie

□ Prace – czarno-biała treść

RODZAJ DOKUMENTU

□ Prace zawierające czarno-białe elementy graficzne

RODZAJ DOKUMENTU

□ Prace zawierające elementy graficzne w odcieniach szarości

RODZAJ DOKUMENTU

□ Prace zawierające kolorowe elementy graficzne

RODZAJ DOKUMENTU

Strona 17: Typy digitalizowanych dokumentów – dokumenty urzędowe

□ Dokumenty urzędowe – czarno-biała treść

RODZAJ DOKUMENTU

□ Dokumenty urzędowe zawierające czarno-białe elementy graficzne

RODZAJ DOKUMENTU

□ Dokumenty urzędowe zawierające elementy graficzne w odcieniach szarości

RODZAJ DOKUMENTU

□ Dokumenty urzędowe zawierające kolorowe elementy graficzne

RODZAJ DOKUMENTU

Page 68: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

68

Strona 18: Typy digitalizowanych dokumentów – maszynopisy

□ Maszynopisy z wyraźnym kontrastem

RODZAJ DOKUMENTU

□ Maszynopisy z niewyraźnym kontrastem

RODZAJ DOKUMENTU

Strona 19: Typy digitalizowanych dokumentów – nuty

□ Nuty z wyraźnym kontrastem

RODZAJ DOKUMENTU

□ Nuty z niewyraźnym kontrastem

RODZAJ DOKUMENTU

Strona 20: Typy digitalizowanych dokumentów – rysunki techniczne

□ Rysunki techniczne z wyraźnym kontrastem

RODZAJ DOKUMENTU

□ Rysunki techniczne z niewyraźnym kontrastem

RODZAJ DOKUMENTU

Strona 21: Typy dokumentów inne, niż wskazane wcześniej

□ Inny typ dokumentów

… Proszę podać typ dokumentu

RODZAJ DOKUMENTU

□ Inny typ dokumentów

… Proszę podać typ dokumentu

RODZAJ DOKUMENTU

□ Inny typ dokumentów

… Proszę podać typ dokumentu

RODZAJ DOKUMENTU

□ Inny typ dokumentów

… Proszę podać typ dokumentu

RODZAJ DOKUMENTU

□ Inny typ dokumentów

… Proszę podać typ dokumentu

RODZAJ DOKUMENTU

Strona 22: Pliki archiwalne

Jak postępują Państwo z plikami uzyskanymi w trakcie skanowania / fotografowania?

Page 69: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

69

o Pliki archiwalne objęte są polityką długotrwałego przechowywania

Proszę wybrać stosowaną politykę długotrwałego przechowywania plików

o Outsourcing

o Samodzielne przechowywanie

o Model mieszany

Proszę wskazać stosowane typy nośników, na których docelowo

przechowywane są pliki

□ Pojedyncze dyski optyczne

□ Dyski optyczne obsługiwane przez zmieniarkę

□ Pojedyncze dyski magnetooptyczne

□ Dyski magnetooptyczne obsługiwane przez zmieniarkę

□ Niezorganizowane dyski twarde

□ Macierze dyskowe

□ NAS

□ Nośniki taśmowe

□ Inny typ nośników

… Proszę opisać nośnik używany do LTP

o Pliki archiwalne – po stworzeniu na ich podstawie wersji prezentacyjnych – są kasowane

o Stosowany jest inny model postępowania

… Proszę opisać model postępowania z plikami archiwalnymi

Korekta plików archiwalnych

o Obrazy zapisane w plikach archiwalnych nie są korygowane

o Obrazy zapisane w plikach archiwalnych są korygowane

Sposób przeprowadzania korekty

o Wsadowo

o Ręcznie

o W sposób mieszany

Czynności wykonywane w trakcie korekty

□ Kadrowanie

□ Korekcja kolorów

□ Obrót o kąty będące wielokrotnością 90 st.

□ Zmiana wymiarów obrazów

□ Zmiana rozdzielczości

□ Zmiana głębi bitowej koloru

□ Obrót o dowolny kąt (korekta przekoszenia)

□ Korekcja jasności

□ Korekcja kontrastu

□ Korekcja nasycenia

□ Korekcja ostrości

□ Eliminacja artefaktów i zniekształceń

□ Inne czynności

… Proszę wymienić dodatkowe czynności korekcyjne

Oprogramowanie stosowane do korekty skanów

□ Oprogramowanie dostarczone przez producenta skanera / aparatu

Page 70: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

70

□ Adobe Photoshop

□ Adobe Photoshop Elements

□ GIMP

□ Corel Photo-Paint

□ Corel Paint Shop Pro

□ IrfanView

□ ACDSee

□ Inny program

… Proszę podać nazwę posiadanego oprogramowania

o Korygowane są wyłącznie kopie plików archiwalnych, oryginały przechowywane są w formie

niezmienionej

Sposób postepowania ze skorygowanymi kopiami

o Podobnie jak oryginały – objęte są polityką długotrwałego przechowywania

o Są kasowane po dokonaniu docelowej konwersji na formaty prezentacyjne

o Stosowany jest inny model postępowania

… Proszę opisać model postępowania z kopiami

Strona 23: Pliki prezentacyjne

□ DjVu

Oprogramowanie stosowane do generowania i edycji plików DjVu

□ DocumentExpress Desktop

□ DocumentExpress Professional

□ DocumentExpress Enterprise

□ DjVuLibre

□ PDF2DjVu

□ Inny program

… Proszę podać nazwę posiadanego programu

Proszę zaznaczyć, z których profili Państwo korzystają

□ Normal

□ Electronic

□ Photo

□ Bitonal

□ Manuscript

□ Drawing

□ Map

□ Własny profil

□ Trudno powiedzieć

… Proszę podać przeciętną rozdzielczość stosowaną dla formatu

Czy w wygenerowanych plikach tworzone są systemy zakładek odzwierciedlające strukturę

dokumentu (np. rozdziały)?

o Tak – we wszystkich plikach

o Tak, ale tylko w niektórych plikach

o Nie

Page 71: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

71

W jaki sposób zabezpieczają Państwo pliki DjVu?

□ Wygenerowane pliki nie są zabezpieczone

□ Pliki posiadają znak wodny

□ Pliki są zabezpieczone w inny sposób

… Proszę opisać sposób ochrony plików

Czy poddają Państwo pliki DjVu OCRowi?

o Nie

o Tak – za pomocą mechanizmu wbudowanego w DocumentExpress

o Tak – proces OCR jest realizowany przez zewnętrzne oprogramowanie (np. ABBYY

FineReader)

o Tak – przy zastosowaniu modelu mieszanego (mechanizm wbudowany w

DocumentExpress oraz oprogramowanie zewnętrzne – w zależności od dokumentu/grupy

dokumentów)

Czy posiadają Państwo w swoich repozytoriach pliki DjVu zawierające tekst, lecz

nie poddane OCR?

o Nie

o Tak

Jaki procent wszystkich posiadanych przez Państwa plików DjVu

stanowią „nierozpoznane” pliki DjVu zawierające tekst?

o do 10%

o 11-25%

o 26-50%

o 51-75%

o powyżej 75%

Czy zamierzają Państwo w przyszłości poddać OCRowi

„nierozpoznane” pliki DjVu?

o Nie

o Tak

o Trudno powiedzieć

□ PDF

Oprogramowanie stosowane do generowania i edycji plików PDF

□ Adobe Acrobat Standard

□ Adobe Acrobat Pro

□ ABBYY FineReader

□ Inny program

… Proszę podać nazwę posiadanego programu

Proszę zaznaczyć, które typy PDF Państwo generują

□ Standardowy PDF

□ PDF/X

□ PDF/A

□ PDF/E

□ PDF/VT

□ PDF/UA

□ Trudno powiedzieć

… Proszę podać przeciętną rozdzielczość stosowaną dla formatu

Page 72: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

72

Czy w wygenerowanych plikach tworzone są systemy zakładek odzwierciedlające strukturę

dokumentu (np. rozdziały)?

o Tak – we wszystkich plikach

o Tak, ale tylko w niektórych plikach

o Nie

W jaki sposób zabezpieczają Państwo pliki PDF?

□ Wygenerowane pliki nie są zabezpieczone

□ Pliki posiadają znak wodny

□ Pliki są chronione przed modyfikacją

□ Pliki są chronione przed drukowaniem

□ Pliki są chronione przed kopiowaniem

□ Pliki są zabezpieczone w inny sposób

… Proszę opisać sposób ochrony plików

Czy poddają Państwo pliki PDF OCRowi?

o Nie

o Tak – za pomocą mechanizmu wbudowanego w Adobe Acrobat

o Tak – proces OCR jest realizowany przez zewnętrzne oprogramowanie (np. ABBYY

FineReader)

o Tak – przy zastosowaniu modelu mieszanego (mechanizm wbudowany w Adobe Acrobat

oraz oprogramowanie zewnętrzne – w zależności od dokumentu/grupy dokumentów)

Czy posiadają Państwo w swoich repozytoriach pliki PDF zawierające tekst, lecz

nie poddane OCR?

o Nie

o Tak

Jaki procent wszystkich posiadanych przez Państwa plików PDF

stanowią „nierozpoznane” pliki PDF zawierające tekst?

o do 10%

o 11-25%

o 26-50%

o 51-75%

o powyżej 75%

Czy zamierzają Państwo w przyszłości poddać OCRowi

„nierozpoznane” pliki PDF?

o Nie

o Tak

o Trudno powiedzieć

□ JPEG

Jaki charakter mają wygenerowane pliki JPEG?

o Kompresja stratna

o Kompresja bezstratna

o Kompresja stratna lub bezstratna – w zależności od dokumentu / grupy dokumentów

… Proszę podać przeciętną rozdzielczość stosowaną dla formatu

W jaki sposób zabezpieczają Państwo pliki JPEG?

□ Wygenerowane pliki nie są zabezpieczone

Page 73: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

73

□ Pliki posiadają widoczny znak wodny

□ Pliki posiadają niewidoczny znak wodny

□ Pliki są zabezpieczone w inny sposób

… Proszę opisać wspomniany inny sposób ochrony

□ JPEG 2000

Jaki charakter mają wygenerowane pliki JPEG 2000?

o Kompresja stratna

o Kompresja bezstratna

o Kompresja stratna lub bezstratna – w zależności od dokumentu / grupy dokumentów

… Proszę podać przeciętną rozdzielczość stosowaną dla formatu

W jaki sposób zabezpieczają Państwo pliki JPEG 2000?

□ Wygenerowane pliki nie są zabezpieczone

□ Pliki posiadają widoczny znak wodny

□ Pliki posiadają niewidoczny znak wodny

□ Pliki są zabezpieczone w inny sposób

… Proszę opisać wspomniany inny sposób ochrony

□ PNG

… Proszę podać przeciętną rozdzielczość stosowaną dla formatu

W jaki sposób zabezpieczają Państwo pliki PNG?

□ Wygenerowane pliki nie są zabezpieczone

□ Pliki posiadają widoczny znak wodny

□ Pliki posiadają niewidoczny znak wodny

□ Pliki są zabezpieczone w inny sposób

… Proszę opisać wspomniany inny sposób ochrony

□ GIF

… Proszę podać przeciętną rozdzielczość stosowaną dla formatu

W jaki sposób zabezpieczają Państwo pliki GIF?

□ Wygenerowane pliki nie są zabezpieczone

□ Pliki posiadają widoczny znak wodny

□ Pliki posiadają niewidoczny znak wodny

□ Pliki są zabezpieczone w inny sposób

… Proszę opisać wspomniany inny sposób ochrony

□ Inny format

… Proszę podać nazwę formatu

… Proszę podać przeciętną rozdzielczość stosowaną dla formatu

W jaki sposób zabezpieczają Państwo pliki w tym formacie?

□ Wygenerowane pliki nie są zabezpieczone

□ Pliki posiadają widoczny znak wodny

□ Pliki posiadają niewidoczny znak wodny

□ Pliki są zabezpieczone w inny sposób

… Proszę opisać wspomniany inny sposób ochrony

Page 74: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

74

Strona 24: Głęboka digitalizacja

Czy stosują Państwo głęboką digitalizację, tzn. wyekstrahowanie tekstu za pomocą OCR i następnie

zredagowanie otrzymanych wyników?

o Nie

o Tak

Proszę podać szacunkowy procentowy udział dokumentów poddanych głębokiej

digitalizacji

w stosunku do ogółu zdigitalizowanych dokumentów

o do 10%

o 11-25%

o 26-50%

o 51-75%

o powyżej 75%

Proszę wskazać format archiwalny (przeznaczony do długotrwałego przechowywania), w

jakim zapisywany jest materiał uzyskany w wyniku głębokiej digitalizacji.

□ DOC (DOCX)

□ RTF

□ ODT

□ HTML (XHTML)

□ XML

□ TXT

□ Inny format

… Proszę podać używany format archiwalny

Jakie formaty prezentacyjne tworzone są w wyniku głębokiej digitalizacji?

□ PDF

□ DjVu

□ DOC (DOCX)

□ RTF

□ ODT

□ HTML (XHTML)

□ Inny format

… Proszę podać używany format prezentacyjny

Jak traktowany jest układ treści zawarty w dokumencie oryginalnym, podczas tworzenia

formatu prezentacyjnego?

o Wersja elektroniczna posiada odtworzony oryginalny układ treści (gdy format to

umożliwia)

o Wersja elektroniczna posiada zmieniony układ treści

Strona 25: Metadane

Proszę wskazać sposób wypełniania metadanych EXIF

o Metadane są fabrycznie zdefiniowane i w całości automatycznie generowane przez system

obsługujący skaner / aparat cyfrowy

o Metadane są fabrycznie zdefiniowane i automatycznie generowane przez system obsługujący

skaner / aparat cyfrowy, a następnie automatycznie lub ręcznie modyfikowane

Page 75: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

75

o Zakres i wartości metadanych są z góry definiowane przez osoby zajmujące się digitalizacją

o Trudno powiedzieć

Czy korzystają Państwo z jednego (lub wielu) standardu metadanych administracyjnych,

technicznych lub strukturalnych przy tworzeniu i zarządzaniu cyfrowymi obiektami (nie dotyczy

EXIF)?

□ Nie, metadane są generowane automatycznie, a zarządzanie odbywa się na podstawie fizycznego

lub logicznego umiejscowienia plików archiwalnych

□ Wykorzystywany jest standard danych administracyjnych

… Proszę podać wykorzystywane standardy metadanych administracyjnych.

□ Wykorzystywany jest standard danych technicznych

… Proszę podać wykorzystywane standardy metadanych technicznych

□ Wykorzystywany jest standard danych strukturalnych

… Proszę podać wykorzystywane standardy metadanych strukturalnych

□ Wykorzystywany jest inny rodzaj metadanych

… Proszę podać inne wykorzystywane standardy metadanych

□ Trudno powiedzieć

Strona 26: Ewentualne uwagi

Jeśli mają Państwo uwagi związane z przedmiotem badania niniejszej ankiety bądź z samą ankietą,

bardzo proszę je opisać

2.4. Zaplecze sprzętowo-programowe badania

Zasadniczą kwestią był wybór platformy, która była w stanie spełnić wszystkie

założenia funkcjonalne stawiane ankiecie. Konieczność wykorzystania wielu zmiennych

warunkowych już na wstępie wykluczyła najpopularniejsze komercyjne systemy

prowadzenia sondaży on-line. Inne z kolei posiadały ograniczenia jeśli chodzi

o obszerność serwowanych ankiet. W efekcie postanowiono samodzielnie stworzyć

platformę służącą do przeprowadzenia badania. Zdecydowano się na wykorzystanie

systemu zarządzania treścią5 „Joomla!”

6 wyposażonego w komponent

„BreezingForms”7. Komponent ten teoretycznie pozwalał w bardzo intuicyjny sposób

konstruować nawet zaawansowane formalnie ankiety o dowolnej wielkości

i z nieograniczoną ilością zmiennych warunkowych.

Jak się szybko okazało, faktycznie stworzone ankiety mogą być bardzo

kompleksowe, ale wtedy nie radzą sobie z nimi najpopularniejsze przeglądarki.

5 Inaczej CMS (z ang. Content Management System) – aplikacja internetowa służąca do tworzenia

i obsługi serwisów internetowych.

6 Joomla! [on-line]. Tryb dostępu: http://www.joomla.org [dostęp: 9.05.2011 r.].

7 Joomla!® Extensions [on-line]. Tryb dostępu: http://crosstec.de/en [dostęp: 9.05.2011 r.].

Page 76: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

76

Ponieważ PHP8 (język programowania, w którym napisano „BreezingForms”)

odpowiadał za generowanie wyglądu samego formularza, a za jego zachowanie

i interakcję z respondentem JavaScript9, każda przeglądarka odmawiała posłuszeństwa

już na wczesnym etapie konstruowania ankiety. Wynikało to z faktu, że kod PHP

przetwarzany jest przez serwer, natomiast JavaScript przez przeglądarkę użytkownika –

im więcej pętli i warunków zawierał kod ankiety, tym więcej miał do odebrania

i przetworzenia komputer użytkownika. W tym momencie narodził się pomysł

podzielenia ankiety na strony. Nie można było jednak podzielić faktycznie jednej

ankiety na strony, ponieważ i tak do pamięci przeglądarki respondenta załadowałaby się

od razu jej całość. Należało więc jedną ankietę podzielić na szereg mniejszych

(z których każda miała zawierać taką ilość kodu, która będzie mogła być obsłużona

nawet przez słabsze komputery), a następnie zasymulować ich integralność i stworzyć

system nawigacji między poszczególnymi stronami.

Efekt taki osiągnięto umieszczając na dole każdej strony przycisk „następna

strona”, który odpowiadał nie tyle za przejście na kolejną stronę, ile za wysłanie

wartości wskazanych na tej stronie na wcześniej zadeklarowany adres e-mail, zapisanie

tych wartości w bazie danych i na koniec faktyczne wywołanie następnej ankiety

emulującej kolejną stronę. Rozwiązanie to miało również tę zaletę, że uwzględniało

przypadki niepełnego wypełnienia całej ankiety, o czym będzie mowa w punkcie 2.5.

Komponent „BreezingForms” rejestrował wszystkie IP, z których łączono się z ankietą,

co ułatwiło przefiltrowanie respondentów, o czym również będzie szerzej mowa

w punkcie 2.5. Największym minusem był brak możliwości powrotu do poprzedniej

strony bez jednoczesnej utraty wcześniej wprowadzonych wyników. W zasadzie radziła

sobie z tym tylko jedna przeglądarka (Google Chrome), więc uznano, żeby opcji tej nie

umieszczać w ankiecie. Z tego też względu w tekście wprowadzającym do ankiety

poproszono o rozwagę przy jej wypełnianiu i zaznaczono, że nie będzie możliwości

cofania się do poprzedniej strony. Jako rozwiązanie zastępcze zaproponowano ponowne

wypełnienie ankiety prawidłowymi wartościami – w takim wypadku brana pod uwagę

była zawsze ostatnia wersja udzielonej odpowiedzi. Wszystkie zasady analizy badania

omówiono w punkcie 2.5.

Największym kompromisem, na który trzeba było pójść w trakcie

oprogramowywania ankiety, była rezygnacja z reguł walidujących. Reguły te miałyby

w tym przypadku za zadanie pilnować udzielenia odpowiedzi na wszystkie pytania

8 PHP. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/PHP [dostęp: 10.05.2011 r.].

9 JavaScript. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/JavaScript [dostęp:

10.05.2011 r.].

Page 77: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

77

znajdujące się na stronie; użytkownik nie byłby w stanie przejść do następnej strony bez

odpowiedzenia na wszystkie pytania uznane za obowiązkowe. Niestety, reguły te miały

postać skryptów napisanych w języku JavaScript (czyli obciążających system

respondenta), a ponadto przy wystąpieniu pytań warunkowych działały niestabilnie lub

nie działały w ogóle. W efekcie wśród zwrotów nagminnie występowała sytuacja, gdy

na ważne pytania nie udzielono odpowiedzi lub udzielono niepełnej (przy pytaniu

warunkowym).

Całość pytań logicznie podzielono na 26 stron (ankiet), z czego strony 3-21

zawierały typy digitalizowanych dokumentów – po jednym na każdej stronie.

Dodatkowo na stronach 3-21 w nagłówku umieszczono wykaz numerów stron wraz ze

znajdującym się nich typem dokumentu, żeby respondent mógł z góry sobie

zaplanować, które wybrać.

Na etapie projektowania ankiety brano pod uwagę łatwość jej późniejszej analizy,

co także miało wielkie znaczenie podczas wyboru odpowiedniej platformy. Wybór padł

na „BreezingForms” również dlatego, że wyposażony był w funkcję grupowego

eksportu zadanego zakresu rekordów (wyników badania) m.in. do formatu CSV10

. Po

wyeksportowaniu wystarczyło taki plik zaimportować do programu MS Excel,

uruchomić w nim filtrowanie danych i w ten sposób otrzymano bardzo wygodne

narzędzie do analizowania otrzymanych wyników badania.

2.5. Analiza wyników badania

Ankietę rozesłano do wszystkich respondentów w dniach 10-11 czerwca 2011 r.,

wyznaczając koniec badania na 24 czerwca. Po tym terminie ankieta przestała być

widoczna w Sieci – strona automatycznie uległa zablokowaniu. Zanim zostanie podana

liczba respondentów, należy się na chwilę cofnąć do istotnej informacji, która była

zasygnalizowana w poprzednim punkcie, a mianowicie specyficznej budowy ankiety.

Gdyby on-line umieszczona była jedna bardzo rozbudowana ankieta, jej wyniki

zostałyby zarejestrowane w całości dopiero po kliknięciu przez respondenta przycisku

„Wyślij”. Tymczasem zastosowany model sprawił, że szczątkowe wyniki były

rejestrowane (na dwa sposoby – poprzez wysłanie ich mailem i zapisanie w bazie

danych) przy każdym przejściu respondenta na następną stronę. W efekcie pewien

odsetek ankiet został wypełniony tylko w części. Były też takie przypadki, kiedy

respondenci przejrzeli całą ankietę, ale nie udzielili żadnej odpowiedzi.

10

CSV (format pliku). [W:] Wikipedia [on-line]. Tryb dostępu:

http://pl.wikipedia.org/wiki/CSV_(format_pliku) [dostęp: 10.06.2011 r.].

Page 78: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

78

W związku z tym trzeba było się zdecydować, jak traktować ankiety wypełniono

tylko częściowo. Przyjęto następujące zasady:

postanowiono, że takie ankiety zostaną dopuszczone do analizy w zakresie,

w jakim zostały wypełnione, tzn. jeśli przykładowo udzielono odpowiedzi

tylko na dwóch pierwszych stronach, respondent taki brany był pod uwagę

wyłącznie podczas zliczania zwrotów ze stron 1 i 2 ankiety. Dotyczy to także

przypadków, kiedy system zarejestrował „obejrzenie” z danego adresu IP całej

ankiety, ale odpowiedzi udzielono tylko na początkowych stronach – w takich

przypadkach uznano, że respondent zakończył swój udział w badaniu na

ostatniej wypełnionej przez siebie stronie,

każda ze stron stanowi odrębną całość, więc dla każdej obliczano indywidualną

liczbę zwrotów,

gdy odnotowano kilkakrotne wypełnienie ankiety z jednego adresu IP, brano

pod uwagę tylko ostatnią (chronologicznie) udzieloną wersję odpowiedzi.

Wyjątkiem od tej zasady była sytuacja, gdy podczas takiego ostatniego

wypełnienia (bądź też „obejrzenia”) ankiety na danej stronie nie zaznaczono

żadnej odpowiedzi, podczas gdy w trakcie wcześniejszej sesji taka odpowiedź

się pojawiła. W tym przypadku brano pod uwagę wersję z odpowiedzią,

a ignorowano późniejszą – „pustą”.

Osobnym problemem było odfiltrowanie zwrotów, które nie wzięły udziału

w analizie. Były to:

wspomniane ankiety wypełnione wielokrotnie z tego samego adresu IP, które

zawierały chronologicznie wcześniejsze wersje odpowiedzi,

ankiety, które wypełniono co prawda z różnych adresów IP, lecz

zarejestrowanych na tę samą instytucję. Założono, że był to ten sam

respondent, ale ponowne wypełnienie ankiety nastąpiło z innego komputera.

W takich przypadkach również zastosowano zasadę pozostawienia odpowiedzi

chronologicznie najmłodszych,

przypadki, kiedy ankietę w całości „obejrzano” bez przystąpienia do jej

wypełnienia.

Pomimo powyższych czynności trudno jednoznacznie stwierdzić, czy wśród

pozostawionych respondentów wciąż nie występują „duble”. Na ogół biblioteki

posiadają zarejestrowane na siebie stałe adresy IP, niektóre jednak korzystają

Page 79: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

79

z dynamicznej adresacji. Sytuację dodatkowo komplikowało wypełnianie ankiety przez

pracowników wieczorami, najprawdopodobniej z domowych komputerów,

niejednokrotnie korzystających z łączności mobilnej.

Proces eliminacji zdublowanych i pustych zwrotów oraz ich liczbowy stosunek do

wysłanych zaproszeń do wzięcia udziału w badaniu ilustruje tabela 5.

Tab. 5. Proces ustalania grupy respondentów przed rozpoczęciem analizy wyników badania

Etap Liczba respondentów

Rozesłanie zaproszeń do wzięcia udziału w badaniu 186

Obliczenie zwrotów w momencie zamknięcia badania 111

Usunięcie zwrotów z dodatkowych adresów IP danej instytucji - 10

Usunięcie „pustych” zwrotów - 13

Ustalenie początkowej grupy respondentów objętych badaniem 88

Z tabeli 5 wynika, że w wyniku rozesłania 186 zaproszeń, na stronę z ankietą

zajrzało 111 respondentów, czyli 60% adresatów zaproszenia. Po odjęciu 23

respondentów, do analizy badania zakwalifikowano odpowiedzi 88 respondentów, co

stanowi 47% całej próby badawczej. Należy zauważyć, że adresaci z 75 instytucji nawet

nie zajrzeli na stronę z ankietą, co może się wiązać z m.in. problemem, który

zasygnalizowano w punkcie 2.1, czyli dużą liczbą bibliotek uczestniczących

w bibliotekach cyfrowych w sposób bierny. Na ogół brak w nich pracowników, którzy

byliby w stanie odpowiedzieć na zawarte w ankiecie pytania, które wymagały dużej

wiedzy teoretycznej i praktycznej. Być może jedną z przyczyn był tu e-mail

z zaproszeniem, w którym zasygnalizowano, że badanie będzie wymagało

specjalistycznej wiedzy od osoby wypełniającej ankietę.

Niestety, w grupie wspomnianych 88 respondentów znajdują się nie tylko tacy,

którzy wypełnili ankietę w całości, lecz także respondenci, którzy udzielili odpowiedzi

na pytania zawarte na chociażby pierwszej stronie. Tabela 6 zawiera analizę tej grupy

z podziałem na strony ankiety, po których poszczególni respondenci przerwali badanie.

Page 80: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

80

Tab. 6. Liczba respondentów z podziałem na stron ankiety

Ostatnia wypełniona strona ankiety Liczba respondentów

Strona 1 88

Strona 2 80

Strona 3 62

Strona 4 56

Strony 5-9 55

Strona 10 54

Strony 11-17 53

Strony 18-22 52

Strony 23-26 (cała ankieta) 50

Z tabeli 6 wynika, że na liczbę 88 respondentów, całą ankietę wypełniło raptem

50 bibliotek, czyli 38 zrezygnowało z badania już w trakcie jej wypełniania. Trudno

powiedzieć, czym było to spowodowane w przypadku dalszych stron, natomiast utrata

zainteresowania po dwóch pierwszych pytaniach była tak duża, że istnieje duże

prawdopodobieństwo, że odstraszającym czynnikiem w tym wypadku była

szczegółowość pytań – objawiająca się w pełni dopiero od trzeciej strony.

Dzięki specyficznej budowie ankiety, fakt przerwania jej wypełniania na

dowolnym etapie nie sprawił, że udzielone już odpowiedzi stały się bezwartościowe –

jak wspomniano w poprzednim punkcie, każda strona była traktowana oddzielnie. Przy

omawianiu wyników każdorazowo pojawia się informacja o ilości respondentów

również z tego powodu, że niektórzy po prostu ominęli część pytań.

Poza problemem pytań, na które nie udzielano odpowiedzi, trzeba też było

rozstrzygnąć kwestię pytań, które wymagały od respondentów wpisania pewnej

uśrednionej wartości (na ogół liczby ppi dla danego typu dokumentu / formatu zapisu),

zamiast której odpowiadali oni zakresami wartości przyjętych w danej instytucji.

Celowo nie umieszczono w ankiecie predefiniowanych wartości liczbowych, gdyż

doświadczenie pokazuje (a wyniki badania to potwierdzają), że biblioteki indywidualnie

podchodzą do ppi, w niektórych przypadkach przyjmując wielkości bardzo nietypowe.

Podjęto więc decyzję, że gdy w odpowiedzi zamiast liczby wpisano zakres, traktowany

on był jak dwie skrajne jego wartości. Jeśli więc przykładowo podany był zakres 300-

600 ppi, przyjęto, że dana biblioteka wykorzystuje dwie wartości – 300 i 600 dpi.

Bywało też tak, że podawano kilka wartości (maksymalnie trzy) oddzielone

przecinkami – w takich przypadkach brano pod uwagę wszystkie wymienione wartości.

Page 81: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

81

Bardzo często niestety pojawiała się także sytuacja, gdy w ogóle nie wpisywano

żadnej wartości – zarówno przy ppi, jak i przy wybraniu wariantu odpowiedzi nie

uwzględnionego w predefiniowanych wartościach, co wiązało się z automatycznym

pojawieniem się okienka tekstowego przeznaczonego na wprowadzenie

nieuwzględnionej wartości. Jako jaskrawy przykład można tu wskazać stronę 21

ankiety, gdzie należało wybrać typ dokumentu nie uwzględniony na wcześniejszych

stronach (o ile występował). Zdarzało się, że respondent zaznaczał pole „innego

dokumentu”, ale już nie pisał, co to za dokument i jakie parametry przyjęto przy jego

digitalizacji. Ponieważ wartość informacyjna takich odpowiedzi była zerowa,

pominięto je.

Z uwagi na cel badania (konfrontacja wyników z zaleceniami), analizując

uzyskane wyniki główny nacisk położono na wyłonienie wartości modalnych –

dominant i porównaniu ich ze Standardami (…). Niemniej w przypadku pojawienia się

nietypowych wartości skrajnych, podjęta została próba ich interpretacji w kontekście

odpowiedzi danego respondenta udzielonych na inne pytania.

Page 82: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

82

3. Wyniki badania

W celu zapewnienia przejrzystości podczas prezentacji wyników otrzymanych na

podstawie analizy wypełnionych ankiet, kolejne pytania będą przedstawiane wg

następującego schematu:

treść pytania

rodzaj pytania (jednokrotnego lub wielokrotnego wyboru)

liczba respondentów

wyniki wraz z uwagami i spostrzeżeniami.

W punkcie 3.26 wyłonione dominanty zostaną porównane z zaleceniami

zawartymi w Standardach (…).

Wszystkie wykresy obrazujące rozkład odpowiedzi – ze względu na ich ilość –

zdecydowano się usunąć ze zrębu głównego pracy i przenieść do załącznika nr 1 który

zaczyna się na s. 153. W trakcie omawiania otrzymanych wyników będą się pojawiały

odwołania do odpowiedniego wykresu. Dla ułatwienia w każdym takim przypadku

umieszczony został dodatkowo przypis dolny wraz z odpowiednim numerem strony, na

której ten wykres się znajduje. Wykresy nie uwzględniają wartości, które nie zostały

zaznaczone przez żadnego z respondentów. Ponadto przy pytaniach wielokrotnego

wyboru nie analizowano wszystkich kombinacji wybranych wartości, a jedynie

częstotliwość występowania poszczególnych wartości składowych (za wyjątkiem

przypadków uznanych za najbardziej interesujące lub zaskakujące).

3.1. Model digitalizacji

Pierwsza strona ankiety nie miała bezpośredniego związku z konfrontacją

z zaleceniami ze Standardów (…) – na podstawie otrzymanych odpowiedzi planowano

przede wszystkim uzyskać odpowiedź na pytanie, czy posiadanie własnej pracowni ma

wpływ na parametry tworzenia cyfrowych wtórników, a także jakie względy

odpowiadają za zdecydowanie się na outsourcing.

3.1.1. Proszę wskazać stosowany w bibliotece model digitalizacji

Rodzaj pytania: pytanie jednokrotnego wyboru

Liczba respondentów: 88

Page 83: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

83

Aż 63 respondentów wybrało samodzielne skanowanie. Na częściowy

outsourcing zdecydowało się 18, a całkowity outsourcing – 7 (zał. 1, rys. 1). Wynika

z tego, że w kraju dominuje model samodzielnej kontroli nad każdym aspektem

digitalizacji. Wszystko wskazuje na to, że jest to podejście preferowane przez

Ministerstwo Kultury i Dziedzictwa Narodowego, ponieważ ministerialny program

KULTURA+ expressis verbis stawia na stworzenie „specjalistycznych, dobrze

wyposażonych pracowni digitalizacyjnych (…). W pierwszym etapie (pierwsze dwa lata

realizacji priorytetu) zadanie dotyczyć będzie rozwoju infrastruktury, w kolejnych

latach realizacji Programu główny nacisk położony będzie na sam proces digitalizacji”1.

Na taką pełną samodzielność mogą sobie jednak pozwolić tylko najlepiej wyposażone

pracownie, pozostałe muszą iść na kompromis i korzystać z częściowego outsourcingu.

W przypadku braku własnej pracowni najbardziej racjonalnym wyjściem wydaje się być

całkowity outsourcing.

3.1.2. Przyczyna zdecydowania się na częściowy outsourcing

Rodzaj pytania: pytanie wielokrotnego wyboru

Liczba respondentów: 18

Dominantą jest częściowy outsourcing związany z typem digitalizowanych

dokumentów – 12 respondentów (zał. 1, rys. 2). Może to mieć związek z większymi

wymogami jakościowymi i technicznymi w przypadku digitalizacji niektórych

dokumentów.

Minimalnie mniej popularną przyczyną jest format dokumentów – 10

respondentów. Dobrej jakości skaner A2 kosztuje powyżej pięćdziesięciu tysięcy euro,

a jeśli biblioteka poważnie myśli o samodzielnej digitalizacji większych dokumentów

(np. gazet, grafik, map), powinna dysponować skanerem przynajmniej A1, który jest

ponad dwukrotnie droższy. Rzadko która biblioteka posiada sprzęt tego typu, więc

outsourcing digitalizacji wielkoformatowych dokumentów jeszcze długo będzie

popularnym rozwiązaniem.

Pozyskanie funduszy celowych jako przyczynę wskazało 9 respondentów. Co

ciekawe, dzieje się tak bez względu na fakt, czy dana instytucja posiada własną

pracownię do digitalizacji. Najczęściej chodzi o digitalizację konkretnej kolekcji

dokumentów, która wykracza poza ustalone bieżące plany pracy dla własnej pracowni.

1 Wieloletni program rządowy KULTURA+ [dokument elektroniczny]. Tryb dostępu:

http://bip.mkidn.gov.pl/media/docs/inne_dok/WPR_KULTURA_projekt_20100318.pdf

[dostęp: 21.02.2011 r.], s. 38.

Page 84: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

84

Inną przyczynę częściowego outsourcingu wskazało 3 respondentów, z czego

tylko 1 w rozwinięciu opisał ją jako „brak własnej pracowni”. Prawdopodobnie chodzi

tu o sytuację, gdy biblioteka digitalizuje zbiory, jednocześnie nie posiadając

dedykowanej pracowni; wtedy na ogół skanuje się dokumenty w niewielkim zakresie

(determinowanym przez inne obowiązki osoby skanującej), podstawowy ciężar

digitalizacji przerzucając na wykonawców zewnętrznych.

3.1.3. Szacunkowy procent skanów zleconych na zewnątrz w stosunku do

wykonywanych samodzielnie

Rodzaj pytania: pytanie jednokrotnego wyboru

Liczba respondentów: 17

Spośród 17 respondentów korzystających z częściowego outsourcingu,

największa grupa – 7 (41%) zleca na zewnątrz digitalizację ponad 75% ogółu

digitalizowanych w swojej bibliotece dokumentów (zał. 1, rys. 3). Po 4 respondentów

wskazało przedziały 11-25% i 26-50%, natomiast 2 – do 10%. Wynika z tego, że na

ogół częściowym outsourcingiem objęta jest spora część digitalizowanych dokumentów

(co sprawia wrażenie „systemowości” tego rozwiązania, tzn. stałego przypisania pewnej

grupy dokumentów do digitalizacji na zlecenie), natomiast do rzadkości należą

przypadki, gdy biblioteki niewielką część ogółu swojej „produkcji” obiektów

cyfrowych powierzają firmom trzecim.

3.2. Parametry digitalizacji

Za pomocą pytań znajdujących się na drugiej stronie ankiety próbowano ustalić,

w jaki sposób biblioteki decydują o parametrach, z jakimi digitalizowane są

poszczególne dokumenty / grupy dokumentów.

3.2.1. W jaki sposób ustalono parametry skanowania i format zapisu plików

archiwalnych dla poszczególnych typów dokumentów?

Rodzaj pytania: pytanie wielokrotnego wyboru

Liczba respondentów: 80

Mimo wielokrotnego łączenia poszczególnych modeli przez respondentów,

wartością modalną jest ustalanie parametrów na podstawie własnych doświadczeń – 51

respondentów (zał. 1, rys. 4). Najprawdopodobniej ma to związek z dominującym

modelem samodzielnej digitalizacji – osoby zajmujące się skanowaniem same są

w stanie ocenić, jakie parametry okażą się optymalne.

Page 85: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

85

Drugie miejsce zajęło posiłkowanie się cudzymi doświadczeniami – 31

respondentów. W chwili obecnej nie obserwuje się już podczas konferencji wystąpień

poświęconych technicznym zagadnieniom digitalizacji – temat ten był popularny, gdy

digitalizacja dopiero zaczynała gościć w bibliotekach. Bardzo popularne były wtedy

rozmaite fora dyskusyjne i publikacje próbujące wytypować optymalne parametry dla

digitalizacji poszczególnych typów dokumentów. Jako że, jak już wspomniano, obecnie

raczej nie obserwuje się tego typu publikacji, można się jedynie domyślać, że chodzi

o cudze doświadczenia, z którymi zapoznano się już jakiś czas temu (i które pomogły

opracować własny model) lub z którymi osoby zajmujące się digitalizacją zapoznały się

w sposób nieformalny, np. poprzez kontakty ze specjalistami od digitalizacji z innych

instytucji lub poprzez rozmaite fora internetowe.

Aż 25 respondentów korzysta z krajowych zaleceń, co jest sporą liczbą biorąc pod

uwagę fakt, że pojawiły się stosunkowo niedawno w postaci Standardów (…)

i wydarzeniu temu nie towarzyszył taki rozgłos, jak – przykładowo – wydaniu

Digitalizacji piśmiennictwa2. Oczywiście przy założeniu, że wybierając krajowe

zalecenia respondenci faktycznie mieli na myśli Standardy (…). Co ciekawe, 7 spośród

tych 25 respondentów wskazało krajowe zalecenia jako jedyną politykę ustalania

parametrów skanowania.

Mniej popularne okazało się przyjmowanie rozwiązań zagranicznych –

zdecydowało się na nie 12 respondentów. Trzech respondentów wskazało na inny

sposób ustalania parametrów digitalizacji, lecz tylko jeden z nich go skonkretyzował:

„na podstawie wytycznych głównego koordynatora projektu”.

3.2.2. Jak ustalana jest rozdzielczość skanowania?

Rodzaj pytania: pytanie wielokrotnego wyboru

Liczba respondentów: 80

Największa grupa – 50 respondentów – wybrała ustalanie rozdzielczości

skanowania na podstawie widocznych cech indywidualnych dokumentu (zał. 1, rys. 5).

To najbardziej naturalny sposób decydowania o rozdzielczości i co najwyżej może

zastanawiać casus pozostałych 30 respondentów, którzy nie uwzględnili tej opcji.

Cechy konkretnego dokumentu powinny być zawsze brane pod uwagę, nawet jeśli

wiodącą jest inna polityka dot. rozdzielczości przyjęta w danej instytucji; indywidualne

dobieranie rozdzielczości w niektórych przypadkach wydaje się nieodzowne i powinno

być traktowane komplementarnie z innymi metodami.

2 Digitalizacja piśmiennictwa. Pod red. D. Paradowskiego. Warszawa: Biblioteka Narodowa, 2010.

Page 86: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

86

Trzydziestu czterech respondentów definiuje rozdzielczość na podstawie

przynależności danego dokumentu do określonej grupy, dla której wcześniej przyjęto

pewną stałą wartość. Jest to bardzo rozsądne podejście, ponieważ znacznie przyspiesza

proces skanowania. Oczywiście z zastrzeżeniem omówionym w poprzednim akapicie.

W ramach każdej większej grupy zawsze trafi się jakiś egzemplarz, który wymaga

trochę innego podejścia, żeby optymalnie wydobyć z niego wszystkie możliwe do

cyfrowego uwiecznienia cechy.

Nie zaskakuje niestety mała liczba respondentów (3), którzy rozdzielczość

obliczają dla każdego dokumentu (grupy dokumentów), np. na podstawie wysokości

najmniejszego znaku. Zaprezentowana w punkcie 1.4.3 pierwszego rozdziału formuła

opracowana w Cornell University jest na tyle mało popularna, że zapewne niewielu

specjalistów od digitalizacji zatrudnionych w bibliotekach w ogóle się z nią zetknęło.

Pozostaje mieć nadzieję, że w przyszłości takie matematyczne (a tym samym bardziej

obiektywne) podejście znajdzie więcej zwolenników.

Siedmiu respondentów wskazało na inny – niż wspomniane wyżej – sposób

obliczania rozdzielczości, z czego 6 rozwinęło swój wybór:

1) stała rozdzielczość

2) z góry, wcześniej, ustalona jest rozdzielczość, jaka ma być stosowana przy

skanowaniu

3) przeznaczenie skanów

4) rozdzielczość stała 300 dpi

5) niektóre obiekty traktowane są indywidualnie, większość zgodnie ze

standardami na podstawie norm

6) nie jest obliczana

Odpowiedzi 1 i 4 sugerują, że dla wszystkich typów dokumentów stosowana jest

jednakowa rozdzielczość (i rzeczywiście reszta odpowiedzi respondenta, który określił

stałą rozdzielczość jako 300 ppi, konsekwentnie to potwierdza). Dziwić może ustalanie

rozdzielczości w zależności od przeznaczenia skanów (odpowiedź 3) – w końcu

niezależnie od celów prowadzonej digitalizacji należy tak ją organizować, żeby nie było

konieczności wracania do już raz zeskanowanych dokumentów. Można się tylko

domyślać, że chodzi o skanowanie ad hoc od razu do formatów prezentacyjnych

z zamiarem udostępnienia pierwotnych skanów. Niestety trudno zweryfikować tę tezę,

ponieważ respondent po drugiej stronie przerwał wypełnianie ankiety.

Page 87: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

87

Odpowiedź 5 jest o tyle ciekawa, że powołuje się na standardy ustalone na bazie

norm. W poprzednim rozdziale ustalono, że w Polsce nie ma jeszcze opracowanych

obowiązujących standardów (są zalecenia), a tym bardziej norm. Chyba, że respondent

miał na myśli zagraniczne standardy i normy. Niemniej odpowiedź mieści się bardziej

w zakresie objętym pytaniem omawianym w punkcie 3.2.1. Odpowiedzi 2 i 6 są na tyle

enigmatyczne, że ciężko je zinterpretować, choćby nawet w przybliżeniu.

3.3. Typy digitalizowanych dokumentów – książki

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 62

Poczynając od tego punktu, aż do punktu 3.20 analizowane będą typy

digitalizowanych dokumentów. Należy jednak z całą mocą zaznaczyć, że punkt

ciężkości przy konstruowaniu ankiety nie został położony na uzyskaniu odpowiedzi na

pytanie „co biblioteki digitalizują?”, lecz „jak biblioteki digitalizują?”. Pozornie

nadmierna szczegółowość pytań i zaawansowany mechanizm pytań warunkowych

mogły sprawiać wrażenie, że w istocie jest na odwrót, lecz nie widziano innej

możliwości uzyskania danych potrzebnych do skonfrontowania aktualnej praktyki

z zaleceniami.

Stąd też na kolejnych stronach ankiety znalazły się prawie wszystkie typy

dokumentów wyczerpujące katalog umieszczony w Standardach (…), a wraz z nimi

wszystkie zmienne razem z wartościami pozwalającymi na dokładne stwierdzenie, jakie

są parametry digitalizacji wspomnianych dokumentów. Należy jednak zaznaczyć, że

pominięto obiekty o charakterze muzealnym, wymienione w grupach F i G3, a plakaty

i obrazy zakwalifikowano do jednego typu – grafik. Rozszerzono również katalog

dokumentów uwzględnionych w grupie E o mikrokarty. Początkowo brano pod uwagę

podział dokumentów wg grup zdefiniowanych w Standardach (…), a następnie

stworzenie ankiety skoncentrowanej na uzyskaniu parametrów digitalizacji dla każdej

grupy, jednak z uwagi na bogactwo typów i rodzajów dokumentów wchodzących w

skład poszczególnych grup (a tym samym potencjalne bogactwo podejść do ich

digitalizacji), zdecydowano się – kosztem znacznego zwiększenia objętości ankiety –

podzielić pytania wg typów tych dokumentów.

Żeby ułatwić respondentom wypełnianie ankiety, starano się przy rodzajach

dokumentów (w ramach danego typu) do minimum ograniczyć ilość zmiennych

3 Zob. tabela 4, s. 42.

Page 88: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

88

i wartości poprzez zastosowanie tego samego schematu, niezależnie od typu i rodzaju

dokumentu. Tak więc identyczny katalog pytań zastosowany był zarówno do czarno-

białych książek bez ilustracji, jak i do kolorowych grafik wielkoformatowych.

W wyniku tego zabiegu ankieta mogła momentami sprawiać osobliwe wrażenie (np.

w przypadku wspomnianych czarno-białych książek, kiedy to respondent miał

w katalogu możliwych odpowiedzi m.in. 48-bitową głębię koloru i wzorzec ProPhoto

RGB). Po raz kolejny jednak rzeczywistość przerosła oczekiwania i respondenci

wskazywali naprawdę zaskakujące kombinacje parametrów. Co prawda w każdym

przypadku mające charakter wartości granicznych, niemniej zasługujące na komentarz,

ponieważ – mimo swojej oryginalności – są to rozwiązania przyjęte

i praktykowane w niektórych polskich bibliotekach.

Wspomniany stały katalog pytań obejmował (po zaznaczeniu danego rodzaju

dokumentu)4:

rozdzielczość w ppi

tryb i głębię koloru – od 1 bita do 48-bitowego koloru

wzorce koloru – od braku wzorca do ProPhoto RGB

pierwotny format zapisu

oraz – w przypadku wskazania TIFF – wybór jednostronicowej lub

wielostronicowej wersji tego formatu.

Liczbę bibliotek digitalizujących poszczególne rodzaje książek ukazuje rys.

6 (zał. 1). Dominantą są książki zawierające czarno-białą treść – wskazało je

49 respondentów. Na przyczynę ich popularności mogą składać się m.in. relatywnie

największa ilość tego rodzaju dokumentów znajdująca się w zbiorach, niewielkie

wymagania techniczne stawiane urządzeniom i najmniej kłopotliwa kwestia doboru

odpowiednich parametrów dla cyfrowych matryc wzorca. Po wnikliwej analizie także

innych rodzajów książek wskazanych przez respondentów stwierdzono, że wspomniane

niewielkie wymagania techniczne wydają się jednak nie mieć w tym przypadku

zastosowania. Każdy z respondentów, który zaznaczył ten rodzaj książek, wskazał także

przynajmniej jeden z pozostałych ich rodzajów, mających niewątpliwie większe

wymagania sprzętowe.

Kłopotów mógł przysporzyć podział książek na zawierające czarno-białe

ilustracje (38 respondentów) oraz na zawierające ilustracje w odcieniach szarości

4 Katalog wszystkich wartości dla poszczególnych pytań znajduje się w schemacie ankiety –

pkt 2.3, s. 61.

Page 89: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

89

(30 respondentów) – uwaga ta zresztą nie dotyczy wyłącznie książek, lecz wszystkich

typów dokumentów, gdzie ma miejsce analogiczny podział. Z technicznego punktu

widzenia zdecydowana większość książek posiadająca wyłącznie ilustracje pozornie

wydrukowane w odcieniach szarości, tak naprawdę posiada ilustracje czarno białe,

a wszelkie odcienie uzyskuje się poprzez manipulację rastrem drukarskim. Gdy raster

jest wystarczająco niewielki, wymaga podczas digitalizacji bardzo zbliżonych (lub

takich samych) zabiegów, jak ilustracje w odcieniach szarości – stąd zasadność

rozgraniczenia.

Digitalizowanie książek zawierających kolorowe ilustracje zadeklarowało

38 respondentów (ex aequo z książkami zawierającymi czarno-białe ilustracje),

a książek monochromatycznych – 14. W przypadku wielu typów dokumentów, ich

monochromatyczny rodzaj jest na ogół najmniej popularny. Bierze się to stąd, że

o monochromatyczności na ogół decyduje kolor nośnika (papieru), czyli przynależność

dokumentu do takiej grupy determinuje jego wiek lub specjalny zabieg wydawniczy, co

automatycznie znacznie zawęża procent udziału takich dokumentach w stosunku do

reszty zbiorów.

3.3.1. Książki – czarno-biała treść

Dominantą dla rozdzielczości skanowania okazało się w tym przypadku 300 ppi –

wartości tej używało 25 spośród 29 respondentów (zał. 1, rys. 7). Wyniki całego

badania ukazują, że 300 ppi jest najpopularniejszą, najbardziej uniwersalną

rozdzielczością, niezależnie od typu i rodzaju dokumentów. I faktycznie – 300 ppi

zalecane jest zarówno przy OCR, przy wszelkiego rodzaju wydrukach, składzie

komputerowym i nawet przy konwersji np. do DjVu.

Poza tym pojedynczy respondenci podali takie wartości jak 150, 200, 400 i 600

ppi. O ile 600 ppi jest nawet wskazane przy skanowaniu w trybie 1-bitowym, o tyle 150

ppi wręcz gwarantuje niedokładne odwzorowanie oryginału, niezależnie od przyjętej

głębi koloru.

W trakcie konstruowania ankiety obawiano się, że zastosowanie jednakowego

schematu charakterystyk dla każdego rodzaju dokumentu doprowadzi do osobliwych

sytuacji, kiedy to respondent będzie miał np. do wyboru dla czarno-białych

dokumentów nawet 48-bitową głębię koloru i model ProPhoto RGB, co może zaważyć

na niskiej ocenie kompetencji autora ankiety. Tymczasem już analiza pierwszego

rodzaju dokumentu rozwiała obawy o zasadność wspomnianych obaw. W przypadku

stosowanej głębi koloru dla książek zawierających wyłącznie czarno-biały tekst, z 42

Page 90: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

90

repondentów najwięcej, bo 16, wskazało 24-bitowy kolor (zał. 1, rys. 8). Druga

w kolejności była 8-bitowa skala szarości (10), następnie tryb 1-bitowy (9), 16-bitowa

skala szarości (5) i… 48-bitowy kolor (aż 4 respondentów).

Obrazu całości dopełnia analiza stosowanych wzorców koloru. Na 40

respondentów najwięcej (14) zadeklarowało, że nie wie, jakie wzorce są stosowane

przez ich bibliotekę. Jedenastu wskazało sRGB, po 7 – brak wzorca (dotyczący koloru

1-bitowego) i Grey Gamma, 3 – Adobe RGB 1998 i po 1 – ProPhoto RGB oraz inny

model, niż predefiniowany (zał. 1, rys. 9). W tym ostatnim przypadku jako inny model

respondent wpisał „nie używamy do skali szarości dla zwykłej książki”, co trudno

zinterpretować.

Warto przez chwilę zastanowić się nad przytoczonymi wynikami w zakresie głębi

koloru i użytych wzorców. Jeszcze kilka lat temu najprawdopodobniej

bezkonkurencyjny byłby 1-bitowy kolor, w najlepszym wypadku 8-bitowa skala

szarości w kombinacji z Grey Gamma. Przyczyn należy upatrywać we wciąż

taniejących nośnikach danych, które nie wymagają już tak skrupulatnego liczenia się

z miejscem zajmowanym przez pliki archiwalne. Obecnie można zaobserwować

tendencję używania 24-bitowej głębi koloru do prawie wszystkich zastosowań,

podobnie jak miało to miejsce w przypadku 300 dpi. Jest to niewątpliwie zaleta,

ponieważ kolor niesie ze sobą dodatkowe informacje, które giną przy uboższych

trybach.

Powstaje pytanie czy faktycznie warto generować tak duże pliki zawierające

nominalnie tylko czarno-białą treść. W przypadku jakiejkolwiek korekty takich plików

(np. w celu konwersji do innego formatu) najwygodniej najpierw je przekonwertować

do odcieni szarości lub czerni i bieli, ponieważ wtedy można lepiej zapanować nad

wszelkimi nieoczywistymi artefaktami i zniekształceniami widocznymi na skanach.

Również w przypadku konwersji do najpopularniejszego obecnie w polskich

bibliotekach cyfrowych formatu DjVu, kolor tekstu jest na ogół zmieniany na jednolicie

czarny, a wszystkie wielobarwne elementy są przesuwane do warstwy tła

i niepotrzebnie zwiększają rozmiar pliku. Jak widać nie zawsze dodatkowa informacja

niesiona przez kolor jest tak naprawdę pożądana. Mowa tu była o typowej, 24-bitowej

głębi koloru. Skoro już ona może budzić wątpliwości, jak więc traktować głębię

48-bitową, która wiąże się z dwukrotnie większymi plikami (w porównaniu do 24

bitów)? Trudno tu znaleźć jakieś logiczne uzasadnienie.

Analogicznie sytuacja wygląda w przypadku wzorców koloru. Wzorzec sRGB

jest domyślnie ustawiany przez producentów skanerów i programów graficznych, nic

Page 91: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

91

więc dziwnego, że jest najpopularniejszy (niezależnie od typu i rodzaju dokumentów),

na ogół idąc w parze z 24-bitowym kolorem. Każdy, kto się decyduje na bardziej

zaawansowany wzorzec, powinien posiadać solidne przygotowanie teoretyczne,

praktyczne i do tego posiadać coś, co w skrócie można określić jako „fotograficzna

wrażliwość”, tzn. umiejętność wynajdywania kolorystycznych niuansów

w obserwowanych obrazach. Dzieje się tak dlatego, że niewłaściwe użycie Adobe RGB

1998 (lub ProPhoto RGB) może wręcz skutkować pogorszeniem jakości obrazu. Mowa

tu o zakresie odwzorowania kolorów, którego w przypadku książek zawierających

wyłącznie czarno-białą treść po prostu nie ma. I znowu – jeśli już sRGB wydaje się

nadmiarowy, jak odnieść się do pomysłu digitalizowania takich dokumentów

z zastosowaniem bardziej zaawansowanych wzorców?

Osobną kwestią jest wysoki procent respondentów, którzy zadeklarowali brak

wiedzy odnośnie używanych wzorców koloru. Świadczyć on może zarówno o braku

teoretycznego przygotowania respondentów, jak i o małej wadze, jaką przykładają do

tego parametru. Zwykło się uważać, że o jakości skanu (poza właściwościami samego

urządzenia) decyduje jego rozdzielczość i głębia koloru. I w większości przypadków tak

faktycznie jest. Jeśli uznać za prawdziwe domniemanie, że najpopularniejszym

ustawieniem fabrycznym dla koloru jest sRGB, taki wzorzec na ogół jest wystarczający.

Sprawa się komplikuje przy digitalizacji dokumentów kolorowych, gdzie kolor jest

głównym nośnikiem informacji, czyli np. zdjęć, map, plakatów. Wtedy wybór

odpowiedniego wzorca może stać się kluczowy. Na szczęście praktyka pokazuje, że

jeśli już ktoś digitalizuje tego typu wymagające dokumenty, posiada odpowiednio

wysokie ku temu kwalifikacje i świadomość zakresów odwzorowań oferowanych przez

poszczególne wzorce.

Jako pierwotny format zapisu najwięcej – 32 z 45 respondentów – wskazało TIFF

(zał. 1, rys.10). Następne w kolejności są ex aequo bezstratny JPEG i PDF bez

wewnętrznej kompresji grafik – po 5 respondentów. TIFF z kompresją LZW stosowany

jest przez 3 respondentów, a TIFF z kompresją JPEG, stratny JPEG, PNG, PDF

z wewnętrzną bezstratną kompresją grafik oraz inny format niż wcześniej zdefiniowane

– zaznaczyło po 1 respondencie.

We wszystkich światowych standardach i wymaganiach stawianych digitalizacji,

TIFF wskazywany jest jako podstawowy, referencyjny format zapisu dla matryc

wzorca. Jego jedyną wadą jest wielkość generowanych plików, poza tym ma same

zalety – dlatego i w niniejszym badaniu zajmuje pierwsze miejsce wśród najczęściej

wskazywanych pierwotnych formatów zapisu skanów. PDF bez wewnętrznej kompresji

Page 92: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

92

grafik to najczęściej plik PDF potraktowany jako kontener dla pojedynczych plików

TIFF, czyli alternatywa dla wielostronicowej wersji TIFF.

Z 27 respondentów, którzy wybrali jedną z odmian TIFF, 26 używa wersji

jednostronicowej, a 1 – wspomnianej w poprzednim akapicie wielostronicowej (zał. 1,

rys. 11). Z dwóch rozwiązań grupujących pojedyncze pliki TIFF żadne nie wydaje się

być pozbawione wad. W przypadku PDF żeby cokolwiek zrobić z danym skanem,

najpierw trzeba go wyekstrahować. Tak więc jako pojemnik na pliki graficzne PDF

sprawdza się całkiem dobrze, ale już w przypadku potencjalnej konwersji do innych

formatów pojawia się kłopot, ponieważ dochodzi dodatkowy etap. Natomiast

wielostronicowe wersje TIFF są zarówno problematyczne w obsłudze przez programy

graficzne, jak i sprawiają problemy przy konwersji. Obydwa rozwiązania są też

kłopotliwe z czysto logistycznego punktu widzenia – generują bardzo duże rozmiary

pojedynczych plików. Ma to duże znaczenie w przypadku uszkodzenia nośnika, na

którym są zapisane – łatwiej odratować kilkadziesiąt mniejszych plików, niż jeden

spory.

Powyższe rozważania dotyczą nie tylko czarno-białych książek, ale mają

charakter bardziej ogólny, więc należy je mieć na uwadze podczas analizy wyników

badania opisywanych w dalszych punktach.

3.3.2. Książki monochromatyczne

Z 7 respondentów, 7 wskazało rozdzielczość 300 ppi, a 1 – 600 ppi (zał. 1, rys.

12). W przypadku tego rodzaju dokumentów, gdy monochromatyczność najczęściej

wynika z barwy samego papieru, 300 ppi jest rozsądną wielkością, ponieważ pozwala

oddać niuanse wizualne skanowanego oryginału.

Przy głębi koloru nastąpił rozkład dwumodalny – z 13 respondentów po 6

wybrało 8-bitową skalę szarości i 24-bitowy kolor (zał. 1, rys. 13). Po 1 wybrało

natomiast 16-bitową skalę szarości i 48-bitowy kolor.

Wśród wzorców koloru znów dominantą został sRGB – wybrało go 6 spośród

11 respondentów (zał. 1, rys. 14). Po 2 respondentów wybrało Grey Gamma i Adobe

RGB 1998, a 1 – ProPhoto RGB. 1 osoba zaznaczyła, że nie wie, który wzorzec jest

używany.

Najpopularniejszym formatem zapisu został TIFF – 8 na 13 respondentów

wybrało jego wersję standardową, a 2 z kompresją LZW (zał. 1, rys. 15). Wśród

pojedynczych odpowiedzi padły: TIFF z kompresją JPEG, bezstratny JPEG oraz inny

format. Co ciekawe, ten dodatkowy format został określony jako DjVu. Czyli format

Page 93: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

93

stricte prezentacyjny został potraktowany w tym przypadku jako format archiwalny.

W pierwszej chwili takie rozwiązanie może się to wydawać co najmniej mało

praktyczne, ale warto rozważyć pewną teoretyczną sytuację: zakładając, że format

JPEG 2000 zostanie w którymś momencie powszechnie uznany za mogący konkurować

na polu LTP z TIFF, DjVu (ze swoim profilem photo) stanie się znaczącą alternatywą

dla JPEG 2000, ponieważ obydwa formaty używają bardzo podobnego faletkowego

algorytmu kompresji5. Można zaryzykować stwierdzenie, że DjVu stanie się wtedy dla

JPEG 2000 tym, czym PDF jest dla TIFF, czyli pojemnikiem na pojedyncze obrazy.

Oczywiście jest to tylko teoria, która bazuje na domniemaniu, że biorąca udział

w badaniu biblioteka stosująca DjVu jako format służący do LTP używa profilu photo.

W przypadkach korzystania z innych profili, skanowany obraz ulega tak poważnym

transformacjom, że trudno wtedy traktować poważnie DjVu jako platformę LTP.

Dość rzadko spotykanym rozwiązaniem jest też TIFF z kompresją JPEG. W tym

wypadku w pliku TIFF osadzony jest obraz JPEG, czyli TIFF stanowi tak naprawdę

kontener dla obrazu (bądź obrazów) JPEG. Najważniejszą zaletą takiego rozwiązania

wydaje się być potencjalna wielostronicowość połączona z natywną obsługą przez

oprogramowanie graficzne (ale oczywiście tylko takie, które radzi sobie z taką odmianą

plików TIFF).

Najwyraźniej jednak inna cecha zaważyła na wyborze tej odmiany TIFF

w przypadku respondenta, który wskazał to rozwiązanie, ponieważ jednocześnie

zaznaczył, że w jego bibliotece produkowana jest jednostronicowa wersja TIFF. Tak

samo odpowiedziało pozostałych 9 respondentów, tym samym nikt nie wybrał

odpowiedzi uwzględniającej wielostronicową wersję TIFF (zał. 1, rys. 16). W kolejnych

punktach wersja wielostronicowa będzie pojawiała się relatywnie rzadko, zazwyczaj

wszyscy respondenci wskazywali jednostronicową odmianę.

3.3.3. Książki zawierające czarno-białe ilustracje

Podobnie jak w przypadku książek zawierających wyłącznie czarno-biały tekst,

także i tutaj dominuje szeroka rozpiętość stosowanych rozdzielczości. Na

19 respondentów 16 wskazało 300 ppi, pozostałe jednostkowe przypadki to 200, 400,

450 i 600 ppi (zał. 1, rys. 17). Czyli dolna wartość graniczna została nieznacznie

podniesiona, najprawdopodobniej ze względu na większe wymagania elementów

graficznych.

5 JPEG 2000. [W:] Wikipedia [on-line]. Tryb dostępu: http://en.wikipedia.org/wiki/JPEG_2000

[dostęp: 5.04.2011 r.].

Page 94: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

94

Najwięcej, bo 13 z 35 respondentów wybrało 24-bitowy kolor. 11 używa

8-bitowej skali szarości, 6 – 16-bitowej skali szarości, 4 – 1-bitowego koloru i 3 –

48-bitowego koloru (zał. 1, rys. 18).

Spośród wzorców koloru najwięcej respondentów wybrało sRGB – 12 z 31

respondentów (zał. 1, rys. 19). Następne w kolejności były Grey Gamma – 5, Adobe

RGB 1998 – 4, ProPhoto RGB i brak wzorca (dla 1-bitowego koloru) – po 2. 1 osoba

zaznaczyła inny wzorzec, ale niestety nie określiła jego nazwy. W 10 przypadkach

zadeklarowano brak wiedzy w zakresie stosowanego wzorca.

Najpopularniejszym pierwotnym formatem zapisu okazał się TIFF – z 36

respondentów, 27 wybrało jego standardową wersję, 2 – z kompresją LZW i 1 –

z kompresją JPEG (zał. 1, rys. 20). Tylko 1 osoba zaznaczyła, że generowane są

wielostronicowe pliki TIFF, 27 wybrało popularną jednostronicową (zał. 1, rys. 21).

Inne wybrane formaty to bezstratny JPEG – 2 oraz bezstratny JPEG 2000, PNG i PDF

bez wewnętrznej kompresji grafik – po 1. Znów w jednym przypadku pojawił się też

dodatkowy format – DjVu.

W kontekście całego badania zastanawia mała popularność PNG, który został tak

zaprojektowany, żeby łączyć zalety JPEG (odwzorowanie szerokiej palety barw

i niewielkie rozmiary plików) i GIF (obsługa transparentności).

3.3.4. Książki zawierające ilustracje w odcieniach szarości

Trzynastu z siedemnastu respondentów podało jako rozdzielczość skanowania

300 ppi, wzrósł też procentowy udział rozdzielczości 600 ppi – 3 respondentów (zał. 1,

rys. 22). Pojedynczy respondenci wpisali 400 i 450 ppi. Przyczyn zwiększenia liczby

przypadków stosowania 600 ppi należy upatrywać w powiązaniu z zapisem

w odcieniach szarości – wartość ta gwarantuje bardzo dobre odwzorowanie szczegółów

bez jednoczesnego drastycznego wzrostu rozmiaru plików.

Głębię koloru zdominował 24-bitowy kolor – wskazało go 12 na 29 respondentów

(zał. 1, rys. 23). Minimalnie mniej – 11 respondentów – wybrało 8-bitową skalę

szarości, 8 – 16-bitową skalę szarości, i po 1 – tryb 1-bitowy i 48-bitowy kolor.

Niepokoić może dolna wartość graniczna; stosowanie 1-bitowego trybu do zapisu

odcieni szarości, nawet przy zastosowaniu wysokiej rozdzielczości, prowadzi do utraty

cennych danych i zniekształcania obrazu oryginalnego dokumentu. Jedynym wyjątkiem

może tu być wcześniej wspomniany przypadek skanowania dokumentów, gdzie raster

tylko symuluje odcienie szarości.

Page 95: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

95

Najpopularniejszym wzorcem koloru okazał się sRGB – wybrało go 12 spośród

27 respondentów (zał. 1, rys. 24). W 6 przypadkach wskazano Grey Gamma,

w 2 Adobe RGB 1998 i ProPhoto RGB, w 1 – brak wzorca i wzorzec inny niż

wymienione (chociaż nie wpisano jego nazwy). Ośmiu respondentów nie wiedziało,

który wzorzec jest używany.

Dwudziestu z dwudziestu dziewięciu respondentów wybrała standardowy TIFF

jako pierwotny format zapisu, 4 wskazało TIFF z kompresją LZW, 1 z kompresją

JPEG, a pozostałe pojedyncze przypadki uwzględniały stratny i bezstratny JPEG, PNG

oraz inny format, którym ponownie okazał się DjVu (zał. 1, rys. 25). W 24 z 25

przypadków używano jednostronicowej wersji TIFF, tylko 1 osoba zadeklarowała

wersję wielostronicową (zał. 1, rys. 26).

3.3.5. Książki zawierające kolorowe ilustracje

Szesnastu z dwudziestu dwóch respondentów zadeklarowało używanie do

digitalizacji książek z kolorowymi ilustracjami rozdzielczości 300 ppi, 2 – 600 ppi,

a 1 – 400 ppi (zał. 1, rys. 27). O ile 600 ppi w przypadku dokumentów w odcieniach

szarości wydaję się optymalną wielkością, dla standardowych dokumentów kolorowych

taką wielkością jest 300 ppi. Zapewnia bardzo dobry stosunek odwzorowania

szczegółów oryginału do wielkości generowanych plików. 600 ppi teoretycznie

przenosi dwa razy więcej informacji, ale na ogół są to informacje nadmiarowe,

ponieważ nawet współczesne maszyny poligraficzne rzadko kiedy drukują z taką

jakością (oczywiście nie dotyczy to wydawnictw albumowych i ozdobnych, które

rządzą się swoimi prawami). Niemniej jeśli biblioteka dysponuje dużą ilości wolnej

przestrzeni na swoich nośnikach i może pozwolić sobie na stosowanie 600 ppi

w stosunku do omawianych dokumentów, powinna jak najbardziej z tej możliwości

korzystać, ponieważ trudno przewidzieć, jakie wymagania będą miały przyszłe formaty

prezentacyjne.

W zakresie stosowanej głębi kolorów, 27 z 35 respondentów wskazało 24-bitowy

kolor, 7 – 48-bitowy kolor, a 8-bitową i 16-bitową skalę szarości – po 1 respondencie

(zał. 1, rys. 28). W tym miejscu nie można się powstrzymać od negatywnego

komentarza; stosowanie odcieni szarości do kolorowych dokumentów może i jest mniej

wymagające od strony sprzętowej i generuje mniejsze rozmiary plików, ale jest też

krótkowzroczne. Nie powinno się apriorycznie ograniczać informacji niesionych przez

cyfrowe matryce wzorca, ponieważ kłóci się to z ideą digitalizacji.

Page 96: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

96

Najczęściej wykorzystywanym wzorcem koloru okazał się sRGB – 15 z 33

respondentów (zał. 1, rys. 29). 5 osób zaznaczyło Adobe RGB 1998, 3 – ProPhoto

RGB, 2 – Grey Gamma (zapewne mający związek z wcześniej omawianymi odcieniami

szarości) i 1 – inny niż wymienione (lecz nie opisany). 11 respondentów nie wiedziało,

który wzorzec jest wykorzystywany.

TIFF po raz kolejny okazał się najpopularniejszym pierwotnym formatem zapisu

– używało go 27 z 37 respondentów (zał. 1, rys. 30). Pozostałe odpowiedzi to:

bezstratny JPEG – 4 respondentów, TIFF z LZW – 3, stratny JPEG, PDF bez

wewnętrznej kompresji i format inny niż wymienione (DjVu) – 2 oraz PNG – 1. Na 27

respondentów 25 używało jednostronicowej wersji TIFF, 2 – wielostronicowej (zał. 1,

rys. 31).

3.4. Typy digitalizowanych dokumentów – gazety

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 56

Modalną wśród rodzajów digitalizowanych gazet zostały gazety zawierające

kolorowe ilustracje – 20 respondentów (zał. 1, rys. 32). Nieznacznie mniej

respondentów zadeklarowało digitalizację gazet zawierających wyłącznie czarno-białą

treść oraz czarno-białe ilustracje – po 19. Gazety w odcieniach szarości digitalizuje 18

przebadanych bibliotek, a gazety monochromatyczne – 8.

Biorąc pod uwagę specyfikę gazet, można było oczekiwać większego udziału ich

monochromatycznej odmiany (wystarczy poprzeglądać w polskich bibliotekach

cyfrowych gazety z ostatnich kilkudziesięciu lat). Być może – mimo zażółcenia papieru

– zaliczono je do jednego z pozostałych rodzajów.

3.4.1. Gazety – czarno-biała treść

Z 10 respondentów najwięcej – bo 6 – używa rozdzielczości 300 ppi (zał. 1, rys.

33). Dwóch respondentów korzysta z 600 ppi, a po 1 – z 200 i 400 ppi. W zakresie głębi

koloru dominantą jest 24-bitowy kolor (8 z 17 respondentów), 16-bitowa skala szarości

jest przyjęta w 4 bibliotekach, a tryb 1-bitowy i 8-bitowa skala szarości – w 3 (zał. 1,

rys. 34). W 1 przypadku odnotowano 48-bitowy kolor. Najczęściej wykorzystywanym

wzorcem koloru jest sRGB (7 z 16 respondentów), 3 biblioteki nie używają go w ogóle

(z racji na tryb 1-bitowy), a Grey Gamma i Adobe RGB 1998 znalazło zastosowania

w pojedynczych przypadkach (zał. 1, rys. 35). Pięciu respondentów nie wiedziało, jaki

wzorzec koloru jest wykorzystywany.

Page 97: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

97

W przypadku gazet zawierających czarno-białą treść wykorzystuje się dość

bogaty wachlarz pierwotnych formatów zapisu (zał. 1, rys. 36): najwięcej respondentów

(12 z 19) używa podstawowej wersji TIFF. Pozostałe formaty, czyli TIFF z kompresją

LZW, TIFF z kompresją JPEG, JPEG bez kompresji, JPEG z kompresją, PDF bez

wewnętrznej kompresji grafik, PDF z wewnętrzną bezstratną kompresją grafik oraz

DjVu – wskazali pojedynczy respondenci. Jedenaście z dwunastu przypadków

wykorzystania formatu TIFF bazuje na jego jednostronicowej odmianie, 1 – na

wielostronicowej (zał. 1, rys. 37).

3.4.2. Gazety monochromatyczne

Na 4 respondentów, którzy odpowiedzieli na pytanie o przyjętą rozdzielczość,

wszyscy podali wartość 300 ppi, a jeden dodatkowo 600 ppi (zał. 1, rys. 38).

W przypadku głębi koloru, 5 z 8 respondentów wybrało 24-bitowy kolor, 4 – 8-bitową

skalę szarości, a 2 – tryb 1-bitowy (zał. 1, rys. 39). Jest to więc kolejny przypadek, gdy

z góry zakłada się celowe pominięcie pewnych cech dokumentu w jego cyfrowej

postaci, ponieważ monochromatyczny w tym przypadku nie oznacza czarno-biały (co

wyraźnie było zaznaczone w ankiecie). Najczęściej wykorzystywanym wzorcem koloru

był sRGB – 4 z 8 respondentów (zał. 1, rys. 40). Po 2 respondentów wybrało brak

wzorca i Grey Gamma, a 1 – ProPhoto RGB. 2 osoby nie wiedziały, który wzorzec jest

używany.

Najpopularniejszym formatem zapisu był TIFF – z 8 respondentów 4 wskazało

jego standardową wersję, a 2 wersję z kompresją LZW (zał. 1, rys. 41). Pojedyncze

przypadki obejmowały bezstratny JPEG, PDF bez wewnętrznej kompresji grafik oraz

format dodatkowy – DjVu. Pięciu spośród sześciu respondentów wykorzystuje

jednostronicową wersję TIFF, a 1 – wielostronicową (zał. 1, rys. 42).

3.4.3. Gazety zawierające czarno-białe ilustracje

Wśród 10 respondentów 8 korzystało z rozdzielczości 300 ppi, a po jednym z 200,

400 i 600 ppi (zał. 1, rys. 43). Najpopularniejszą głębią koloru został 24-bitowy kolor –

8 z 18 respondentów, 5 wskazało 8-bitową skalę szarości, 3 – 48-bitowy kolor, po

2 tryb 1-bitowy i 16-bitową skalę szarości (zał. 1, rys. 44). Wśród wzorców koloru

najczęściej wskazywano sRGB (9 z 18 respondentów), w dalszej kolejności Grey

Gamma – 2 przypadki i brak wzorca oraz Adobe RGB 1998 – po 1 osobie (zał. 1,

rys. 45). Siedmiu respondentów nie wiedziało, jaki wzorzec jest używany.

Page 98: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

98

Dominantą dla pierwotnego formatu zapisu został TIFF – 14 na 19 respondentów

wykorzystuje jego wersję standardową, 2 – z kompresją LZW, pojedyncze przypadki

objęły bezstratny JPEG, PDF bez wewnętrznej kompresji, oraz jako dodatkowy format

– DjVu (zał. 1, rys. 46). Piętnastu z szesnastu respondentów używa jednostronicowej

wersji TIFF, 1 – wielostronicowej (zał. 1, rys. 47).

3.4.4. Gazety zawierające ilustracje w odcieniach szarości

Spośród 10 respondentów 8 wpisało jako używaną rozdzielczość 300 ppi, 2 – 600

ppi, a 1 – 400 ppi (zał. 1, rys. 48). Pytanie o głębię koloru zdominował 24-bitowy kolor

(9 z 18 respondentów), 5 razy wymieniono 8-bitową i 16-bitową skalę szarości, a po

razie tryb 1-bitowy i 48-bitowy kolor (zał. 1, rys. 49). Z wzorców koloru najczęściej

wymieniano sRGB – 9 z 17 respondentów, 2 wskazało Grey Gamma, a brak wzorca,

Adobe RGB 1998 i ProPhoto RGB – po 1 respondencie (zał. 1, rys. 50). Pięć osób nie

wiedziało, który wzorzec koloru jest używany.

Pierwotny format zapisu zdominowany został przez TIFF – 10 z 17 respondentów

używa jego wersji standardowej, a 4 z kompresją LZW (zał. 1, rys. 51). Tylko

w 2 przypadkach była to wielostronicowa odmiana, w 12 – jednostronicowa (zał. 1,

rys. 52). Inne formaty, które wybrali pojedynczy respondenci, to JPEG w wersji stratnej

i bezstratnej, PDF bez wewnętrznej kompresji grafik i dodatkowy format – DjVu.

3.4.5. Gazety zawierające kolorowe ilustracje

W przypadku gazet z kolorowymi ilustracjami wskazywano tylko dwie

rozdzielczości – 300 ppi, której używa 7 z 10 respondentów oraz 600 ppi – 4

respondentów (zał. 1, rys. 53). 24-bitowy kolor ponownie zdominował odpowiedzi na

pytanie o stosowaną głębię koloru – używa go 15 z 20 respondentów (zał. 1, rys. 54).

Wśród pozostałych odpowiedzi znalazł się 48-bitowy kolor (3 respondentów)

i – niestety – 16-bitowa (2) i 8-bitowa skala szarości (1).

W przypadku książek z kolorowymi ilustracjami skanowanie w odcieniach

szarości trudno usprawiedliwić. W przypadku gazet w grę wchodzić może ich duży

format. W polskich bibliotekach cyfrowych gazety ilościowo dominują wśród innych

obiektów cyfrowych, zatem zaoszczędzenie kilkunastu MB na jednej stronie (przy

formatach A3 i większych) bardzo szybko generuje bardzo duże oszczędności w skali

całego repozytorium. Inną przyczyną zdecydowania się na skalę szarości może być

sprzęt – skaner wielkoformatowy nie obsługujący koloru jest zdecydowanie tańszy od

jego „kolorowego” odpowiednika. W takich przypadkach odpowiedź na pytanie „czy

Page 99: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

99

kupić tańszy skaner i digitalizować, czy też nie kupić skanera w ogóle i nie

digitalizować” wydaje się dość prosta.

Z drugiej jednak strony to właśnie gazety ulegają największej degradacji poprzez

„zaczytywanie” i użyty do ich produkcji kwaśny papier, więc za kilka lat może się

okazać, że jedyne istniejące egzemplarze to te cyfrowe, pozbawione koloru. Chociaż

patrząc z jeszcze innego, bardziej praktycznego punktu widzenia, można sobie zadać

pytanie o to, ile z tych najstarszych, najbardziej zniszczonych gazet posiada kolorowe

ilustracje? Kolor w przypadku gazet to domena kilku ostatnich lat, więc może nie ma

powodu, żeby demonizować (obecnie) ich skanowanie w odcieniach szarości? Lecz

znowu – takie podejście zakłada, że w przyszłości ktoś zeskanuje je ponownie – tym

razem w kolorze. A przecież dobrze przeprowadzona digitalizacja to taka, której nie

trzeba powtarzać.

W odniesieniu do powyższych rozważań, bardzo zaskakują odpowiedzi na pytanie

o stosowany wzorzec koloru. 11 z 19 respondentów wskazało sRGB, 2 – Adobe RGB

1998, a 1 – ProPhoto RGB (zał. 1, rys. 55). 6 respondentów nie wiedziało, który

wzorzec jest stosowany w ich bibliotece. Wśród odpowiedzi brak jest wzorca

odpowiedniego dla skali szarości (Grey Gamma). Szczegółowa analiza odpowiedzi

ujawniła, że respondenci używający skali szarości jako wzorzec wskazali sRGB bądź

zaznaczyli, że nie wiedzą, jaki wzorzec jest używany. O ile ten drugi przypadek zanadto

nie dziwi6, o tyle sRGB jako wzorzec dla skali szarości to ewidentna pomyłka. Pytanie

tylko, kiedy respondent się pomylił: wskazując głębię, czy też wzorzec koloru.

Wśród odpowiedzi udzielonych przez 20 respondentów na pytanie o pierwotny

format zapisu, 11 wskazało na TIFF standardowy, a 2 – z kompresją LZW, ponadto po

1 razie wystąpiły: stratny JPEG, PDF bez wewnętrznej kompresji grafik, PDF

z wewnętrzną kompresją grafik stratną i bezstratną oraz DjVu jako dodatkowy format

(zał. 1, rys. 56). Na 13 respondentów, 2 używa TIFF w wersji wielostronicowej,

pozostali – jednostronicowej (zał. 1, rys. 57).

3.5. Typy digitalizowanych dokumentów – czasopisma

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 55

Najpopularniejszym digitalizowanym rodzajem czasopism są czasopisma

zawierające czarno-białe ilustracje – digitalizuje je 18 z 55 respondentów (zał. 1,

6 Zob. pkt 3.3.1.

Page 100: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

100

rys. 58). 17 zaznaczyło czasopisma zawierające czarno-biały tekst oraz czasopisma

zawierające kolorowe ilustracje. Czasopisma zawierające ilustracje w odcieniach

szarości wskazało 13 respondentów, a monochromatyczne – 6.

3.5.1. Czasopisma – czarno-biała treść

Jako rozdzielczość skanowania 9 z 10 respondentów wpisało 300 ppi, a 1 – 400

ppi (zał. 1, rys. 59). W przypadku pytania o głębię koloru najczęściej wybierano

24-bitowy kolor (7 z 16 respondentów), w dalszej kolejności pojawiła się 8-bitowa (5)

i 16-bitowa skala szarości (3), tryb 1-bitowy (2) i 48-bitowy kolor (zał. 1, rys. 60).

W zakresie wzorców koloru 6 z 15 respondentów wskazało sRGB, a po 2 – brak

wzorca, Grey Gamma i Adobe RGB 1998 (zał. 1, rys. 61). Brak wiedzy w kwestii

wzorca zadeklarowało 5 respondentów.

Najczęściej stosowanym pierwotnym formatem zapisu został TIFF – na

17 respondentów 12 wskazało jego wersję standardową, a 2 – z kompresją LZW (zał. 1,

rys. 62). Tylko 1 z nich korzysta z formatu w wersji wielostronicowej, 13 wybrało

jednostronicową (zał. 1, rys. 63). Poza TIFF, pojedynczy respondenci używali także

JPEG bez kompresji, PDF bez wewnętrznej kompresji grafik i DjVu.

3.5.2. Czasopisma monochromatyczne

Przy pytaniu o rozdzielczość skanowania, wszyscy respondenci (5) wpisali 300

ppi, a 1 z nich dodatkowo jeszcze 600 ppi (zał. 1, rys. 64). Najczęściej stosowaną

głębią koloru był 24-bitowy kolor – 4 z 6 respondentów, następnie 8-bitowa skala

szarości – 3, tryb 1-bitowy – 2 i 16-bitowa skala szarości – 1 (zał. 1, rys. 65).

Najpopularniejszym wzorcem koloru był sRGB – 5 z 6 respondentów, 2 wybrało brak

wzorca, a po 1 – Grey Gamma, Adobe RGB 1998 i ProPhoto RGB (zał. 1, rys. 66). Był

to jeden z nielicznych przypadków, kiedy żaden z respondentów nie zadeklarował braku

informacji o stosowanym wzorcu koloru.

Wśród używanych pierwotnych formatów zapisu dominował TIFF – 3 z 6

respondentów używało jego wersji standardowej, a 2 – wersji z kompresją CCITT

(zał. 1, rys. 67). Wszyscy respondenci korzystali z jednostronicowej odmiany tego

formatu (zał. 1, rys. 68). Spośród innych formatów 1 respondent podał tylko DjVu.

3.5.3. Czasopisma zawierające czarno-białe ilustracje

W przypadku rozdzielczości, po raz kolejny 300 ppi ugruntowało swoją pozycję

najbardziej wszechstronnego lidera – używa jej 9 na 10 respondentów (zał. 1, rys. 69).

Page 101: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

101

Poza tym po 1 razie wystąpiły 400 i 600 ppi. Podobna sytuacja miała miejsce przy głębi

koloru – tu również liderem był jak dotąd najpopularniejszy 24-bitowy kolor – 7 z 16

respondentów (zał. 1, rys. 70). Mniej popularne były: 8-bitowa skala szarości (5),

16-bitowa skala szarości (3), 48-bitowy kolor (2) i tryb 1-bitowy (1). Wśród wzorców

koloru najczęściej wskazywano sRGB (8 z 17 respondentów), następnie Grey Gamma

i Adobe RGB 1998 (3) oraz brak wzorca (2) – rys. 71 (zał. 1). Znowu można

zaobserwować brak konsekwencji w udzielaniu odpowiedzi; tylko raz zaznaczono tryb

1-bitowy, ale brak wzorca stosowany przy tym formacie pojawił się 2 razy. Po analizie

tych dwóch przypadków stwierdzono, że w jednym dane są spójne (tryb 1-bitowy +

brak wzorca), natomiast w drugim w ogóle nie podano głębi koloru, tylko sam wzorzec

(a raczej jego brak). Niestety, takie sytuacje były nie do uniknięcia bez reguł

walidacyjnych, których nie dało się zastosować bez jednoczesnego zachwiania

bezproblemowego funkcjonowania ankiety w starszych przeglądarkach7.

Najpopularniejszy pierwotny format zapisu tu również nie sprawił niespodzianki

– był nim TIFF – na 18 respondentów 14 używa jego standardowej wersji, 2 – wersji

z kompresją LZW i 1 – wersji standardowej, ale umieszczanej w strukturze PDF, czyli

PDF bez wewnętrznej kompresji grafik (zał. 1, rys. 72). Z 15 respondentów tylko

1 zaznaczył, że używa TIFF w wersji wielostronicowej (zał. 1, rys. 73). Poza

wspomnianymi odmianami TIFF, 1 respondent wskazał DjVu jako pierwotny format.

3.5.4. Czasopisma zawierające ilustracje w odcieniach szarości

Najpopularniejszą rozdzielczością przy tego rodzaju czasopismach zostało 300

ppi – wskazało ją 8 z 9 respondentów (zał. 1, rys. 74). Pozostałe rozdzielczości to 600

ppi (2) i 400 ppi. Należy w tym miejscu zaznaczyć, że 600 ppi w obydwu przypadkach

podawane było w parze z 300 ppi, co wskazuje na indywidualne podejście tych

respondentów do poszczególnych egzemplarzy.

Jeśli chodzi o głębię koloru, nastąpił rozkład dwumodalny – na 13 respondentów

po 6 wskazało kolor 24-bitowy i 8-bitową skalę szarości (zał. 1, rys. 75). Rzadziej

używane opcje to tryb 1-bitowy (2) – dość ryzykowny i mogący dać zadowalające

rezultaty wyłącznie przy zastosowaniu wysokiej rozdzielczości (mowa o dokumentach

z elementami skali szarości uzyskanej za pomocą rastra, a nie wygenerowanej za

pomocą barwników drukarskich), 16-bitowa skala szarości (2) oraz 48-bitowy kolor (1).

Najpopularniejszym wzorcem koloru był sRGB – wybrało go 8 z 13 respondentów

7 Zob. pkt 2.4.

Page 102: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

102

(zał. 1, rys. 76). Po 2 respondentów wskazało brak wzorca, Grey Gamma i Adobe RGB

1998. Dwie osoby nie wiedziały, który wzorzec jest stosowany.

W odniesieniu do pierwotnego formatu zapisu ma miejsce sytuacja analogiczna

do czasopism z czarno-białymi ilustracjami, czyli dominują 3 odmiany TIFF: 9 z 13

respondentów używa wersji standardowej, 2 – z kompresją LZW, a 1 – wersji

obudowanej formatem PDF (zał. 1, rys. 77). Żaden z 11 respondentów nie używał

wielostronicowej wersji formatu (zał. 1, rys. 78). Poza wspomnianymi formatami

pojawił się też DjVu (1).

3.5.5. Czasopisma zawierające kolorowe ilustracje

Dla omawianego rodzaju czasopism najczęściej występującą rozdzielczością

skanowania było 300 ppi – używa jej 7 z 9 respondentów (zał. 1, rys. 79). 600 ppi

pojawiło się w odpowiedziach 3-krotnie, a 450 ppi – 1-krotnie. Co ciekawe, 600 ppi

w dwóch przypadkach występuje jako druga, wyższa wartość, a w jednym jako wartość

autonomiczna, co oznacza, że w danej instytucji wszystkie czasopisma z kolorowymi

elementami skanowane są w tej bardzo bezkompromisowej rozdzielczości. Po

dokładniejszym przeanalizowaniu wszystkich odpowiedzi tego respondenta okazało się,

że wysoką rozdzielczość skanów kompensuje relatywnie niewielkimi (w porównaniu

z TIFF) rozmiarami plików poprzez bazowanie na stratnej wersji JPEG.

W przypadku stosowanych głębi koloru, najpopularniejszy był 24-bitowy kolor –

wybrało go 12 z 16 respondentów (zał. 1, rys. 80). W dalszej kolejności znajduje się

48-bitowy kolor (4) oraz 16-bitowa (2) i 8-bitowa skala szarości (1). Ponieważ pod

względem formalnym gazety i czasopisma są do siebie zbliżone, także tutaj mają

zastosowanie uwagi odnośnie skanowania kolorowych dokumentów w odcieniach

szarości, poczynione przy okazji gazet zawierających kolorowe ilustracje8. Wśród

wzorców koloru najwięcej respondentów (11 z 16) wskazało sRGB, następnie Adobe

RGB 1998 (3) i ProPhoto RGB (1) – zał. 1, rys. 81.

Czasopisma z kolorowymi ilustracjami zgromadziły największy wachlarz

wskazanych wartości wśród pierwotnych formatów zapisu. Najwięcej, bo 11 z 16

respondentów stosuje standardowy TIFF, 2 – TIFF z kompresją LZW, stratny JPEG

i DjVu, a pojedynczy respondenci – bezstratny JPEG i PDF bez wewnętrznej kompresji

grafik (zał. 1, rys. 82). W 2 z 13 przypadkach stosuje się wielostronicową odmianę

TIFF, w pozostałych – jednostronicową (zał. 1, rys. 83).

8 Zob. pkt 3.4.5.

Page 103: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

103

3.6. Typy digitalizowanych dokumentów – rękopisy

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 55

Poczynając od niniejszego punktu, aż do punktu 3.8 opisane zostaną bardzo

specyficzne typy dokumentów. Ich specyfika – poza cechami czysto fizycznymi –

przejawia się w ich unikatowości. Bardzo często są to jedyne występujące egzemplarze,

stąd ich digitalizacja powinna charakteryzować się wyjątkowo rygorystycznymi

parametrami, które pozwolą odwzorować maksymalnie dużą ilość cech możliwych do

odwzorowania w postaci cyfrowej. Ma to też związek z ochroną tych dokumentów –

dobre cyfrowe kopie pozwalają ograniczyć do absolutnego minimum udostępnianie

oryginałów.

Rękopisy podzielono na dwa rodzaje – z wyraźnym (16 respondentów)

i niewyraźnym kontrastem (12 respondentów), ponieważ (teoretycznie) każdy z tych

rodzajów wymaga innego podejścia i innego parametryzowania procesu digitalizacji

(zał. 1, rys. 84). Celowo nie dzielono rękopisów na czarno-białe, monochromatyczne,

w skali szarości i kolorowe, ponieważ założenie było takie, że każdy rękopis ze swej

natury jest kolorowy, nawet jeśli jest sporządzony czarnym atramentem na białym

papierze. Wszelkie pozornie nieistotne niuanse z grafologicznego punktu widzenia

mogą mieć duże znaczenie.

3.6.1. Rękopisy – wyraźny kontrast

Pytanie o rozdzielczość podzieliło grupę 8 respondentów na pół – po 4 wskazało

300 i 600 ppi (zał. 1, rys. 85). W zakresie głębi koloru dominował 24-bitowy kolor –

10 z 14 respondentów, w dalszej kolejności 48-bitowy kolor (4) i 16-bitowa skala

szarości (2) – rys. 86 (zał. 1). Podczas skanowania najczęściej korzystano z wzorca

sRGB (10 z 14 respondentów), w 2 przypadkach z Adobe RGB 1998, a w 1 –

z ProPhoto RGB (zał. 1, rys. 87). Dwie osoby nie wiedziały, który wzorzec jest

wykorzystywany.

W kontekście uwag zamieszczonych w punkcie 3.6 może zaskakiwać korzystanie

z 16-bitowej skali szarości. Po szczegółowej analizie odpowiedzi na pozostałe pytania

respondentów, którzy zadeklarowali skanowanie w tym trybie okazuje się, że

przynajmniej w jednym przypadku takie postępowanie wydaje się być przemyślaną

strategią i zależy od indywidualnych cech danego rękopisu. Wynika to z faktu, że

respondent ten oprócz skali szarości zaznaczył też 24-bitowy i 48-bitowy kolor, więc

Page 104: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

104

zdecydowanie się na skalę szarości na pewno determinowane jest racjonalnymi i dobrze

przemyślanymi przesłankami. Drugi przypadek trudno wytłumaczyć, ponieważ po

pierwsze respondent zaznaczył 16-bitową skalę szarości jako jedyną używaną do tego

rodzaju rękopisów głębię koloru, a po wtóre jako wzorzec koloru zaznaczył sRGB,

przez co jego odpowiedź przestała być spójna.

12 z 16 respondentów jako pierwotny format zapisu podało standardowy TIFF

(zał. 1, rys. 88). Pozostałe wybierane formaty, czyli TIFF z kompresją LZW, stratny

i bezstratny JPEG, PDF bez wewnętrznej kompresji, RAW i DjVu – pojawiały się

w zestawieniu tylko jednokrotnie. Wątpliwości budzi pomysł wykorzystania do tak

unikatowych zbiorów JPEG w stratnej wersji. Warto tu też zaznaczyć, że wśród

dotychczas badanych sposobów digitalizacji rozmaitych dokumentów, po raz pierwszy

pojawił się format RAW, stosowany do zapisu obrazów wykonanych cyfrowym

aparatem. Tylko 1 respondent na 12 zaznaczył, że korzysta z wielostronicowej odmiany

TIFF (zał. 1, rys. 89).

3.6.2. Rękopisy – niewyraźny kontrast

Podobnie jak w poprzednim punkcie, tak i tutaj dominanta rozłożyła się na 300

i 600 ppi (rozdzielczość taką podało po 3 z 7 osób), oprócz tego 1 respondent wpisał

400 ppi (zał. 1, rys. 90). Dominującą głębią koloru był 24-bitowy kolor – wskazało go 8

z 10 respondentów (zał. 1, rys. 91). Poza tym po 2 respondentów wskazało 16-bitową

skalę szarości i 48-bitowy kolor. Jako wzorzec koloru 8 z 10 respondentów wybrało

sRGB, 1 – Adobe RGB 1998, a 2 nie wiedziało, który wzorzec jest stosowany (zał.

1, rys. 92). W odniesieniu do skanowania rękopisów z niewyraźnym kontrastem w skali

szarości, po przeanalizowaniu obydwu przypadków okazało się, że byli to ci sami

respondenci, co w poprzednim punkcie i zaznaczyli dokładnie te same opcje, co

wcześniej.

Rozkład odpowiedzi przy pierwotnym formacie zapisu uległ niewielkiej zmianie,

w przeciwieństwie do zakresu samych wartości. Tradycyjnie najpopularniejsza jest

standardowa wersja TIFF – 8 z 12 respondentów, po 2 respondentów wybrało stratny

JPEG i DjVu, a pojedyncze przypadki objęły TIFF z kompresją LZW, bezstratny JPEG,

RAW i PDF bez wewnętrznej kompresji grafik (zał. 1, rys. 93). Na 7 respondentów

wszyscy korzystali z jednostronicowej wersji TIFF (zał. 1, rys. 94).

Page 105: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

105

3.7. Typy digitalizowanych dokumentów – inkunabuły

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 55

W punkcie 3.6 wspomniano już o wyjątkowości inkunabułów. Są tak rzadkie

i drogocenne, że dobrą praktyką jest digitalizowanie każdego z istniejących

egzemplarzy, nawet jeśli miałoby to doprowadzić do dublowania się tytułów. Przy ich

digitalizacji należy dysponować odpowiednim sprzętem, warunkami i kwalifikacjami

personelu. Tym bardziej więc zaskakuje, że ten typ dokumentów wskazało aż 8

respondentów (zał. 1, rys. 95). 2 z 3 używa przy tym rozdzielczości 300 ppi, a 1 – 600

ppi (zał. 1, rys. 96). Mając na uwadze unikalność inkunabułów, 300 ppi nie wydaje się

wartością za niską, niemniej warto się w takich przypadkach pokusić o 400 lub więcej

ppi. Cyfrowe matryce zajmą więcej miejsca, ale przecież będzie ich relatywnie

niewiele.

W świetle otrzymanych wyników nie niska rozdzielczość niepokoi najbardziej,

lecz skanowanie inkunabułów w 16-bitowej skali szarości, do czego przyznało się

dwóch respondentów (zał. 1, rys. 97). Co prawda z wszystkich 7, którzy odpowiedzieli

na pytanie o głębię kolorów, większość (4) używa 24-bitowego koloru, a 1 –

48-bitowego koloru, lecz fakt pozostaje faktem – używanie skali szarości w przypadku

inkunabułów jest ewidentnym błędem. Błędem, który w przyszłości być może już nie

będzie miał szansy naprawienia.

Wzorca sRGB używa 3 z 7 respondentów, po 1 – Adobe RGB 1998 i ProPhoto

1998, a 2 nie wiedziało, który wzorzec jest stosowany (zał. 1, rys. 98). Ze standardowej

wersji TIFF korzysta 4 z 7 respondentów, a po 1 z TIFF z kompresją LZW, JPEG bez

kompresji, RAW i PDF bez wewnętrznej kompresji grafik (zał. 1, rys. 99). W 4 na 5

przypadków używano formatu TIFF w wersji jednostronicowej, w 1 – wielostronicowej

(zał. 1, rys. 100).

3.8. Typy digitalizowanych dokumentów – stare druki

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 55

Digitalizacja starych druków nie musi mieć już tak restrykcyjnego charakteru jak

w przypadku inkunabułów, ponieważ i sam typ dokumentu nie jest już tak wyjątkowy

(mimo, że wciąż są to zbiory bardzo cenne i delikatne). Prawdopodobnie dlatego stare

druki są skanowane w prawie trzykrotnie większej liczbie przypadków – na 55

Page 106: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

106

wskazało je 21 respondentów, co jest całkiem imponującym wynikiem (zał. 1, rys. 101).

Z 13 respondentów 8 digitalizuje je z rozdzielczością 300 ppi, 4 – z 600 ppi, a 1 z 400

ppi (zał. 1, rys. 102). Na 19 przypadków w 14 stosuje się 24-bitowy kolor, w 4 –

16-bitową skalę szarości, w 2 – 8-bitową skalę szarości i 48-bitowy kolor (zał. 1,

rys. 103). Wykorzystywane wzorce koloru zdominował sRGB – 9 z 18 respondentów,

oprócz tego w pojedynczych przypadkach pojawił się Adobe RGB 1998 i ProPhoto

RGB (zał. 1, rys. 104). Zaskakująco wielu (bo aż 7) respondentów nie wiedziało,

z którego wzorca korzysta ich biblioteka.

Wybór pierwotnego formatu zapisu w większości przypadków nie budzi

zastrzeżeń – z 21 respondentów 15 wybrało TIFF, po 2 – TIFF z kompresją LZW,

bezstratny i stratny JPEG, a pojedyncze osoby zaznaczyły RAW, PDF bez wewnętrznej

kompresji grafik i DjVu (zał. 1, rys. 105). Wspomniane zastrzeżenia może budzić

używanie stratnej wersji JPEG, która – być może – nieźle by się sprawdziła jako format

prezentacyjny, ale nie jako format bazowy. Wybór ten jest efektem beztroski lub źle

pojmowanej oszczędności miejsca na nośnikach. Tylko 1 osoba z 16 zaznaczyła, że

wykorzystuje wielostronicową wersję TIFF (zał. 1, rys. 106).

3.9. Typy digitalizowanych dokumentów – grafiki

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 55

Grafiki potraktowano podczas konstruowania ankiety jako wspólny mianownik

dla rysunków, obrazów, plakatów i innych dokumentów o zbliżonym charakterze. Ze

względu na ich zróżnicowane formaty, zdecydowano się na podział do formatu A2

włącznie i powyżej A2 (grafiki wielkoformatowe – pkt 3.10). Analogiczny zabieg ma

miejsce w punktach 3.11 i 3.12, gdzie omówiono wyniki badania w odniesieniu do map

i map wielkoformatowych.

Podział ten wynika z faktu, że skanowanie dużych formatów niejednokrotnie

pociąga za sobą kompromisy w kwestii doboru parametrów. Pojedynczy skan może

osiągnąć wielkość kilkuset megabajtów, co czyni go wiernym wobec wzorca, ale

jednocześnie sprawia, że jest bardzo niepraktyczny przy konwersji i obróbce.

Rozgraniczenia dokonano z nadzieją, że wszelkie wspomniane kompromisy uwidocznią

się w przypadku dokumentów wielkoformatowych i jednocześnie ułatwią respondentom

wskazanie trafniejszych parametrów digitalizacji, jeśli stosowane są podwójne

standardy – zależne od formatu oryginału.

Page 107: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

107

Najczęściej digitalizowanym rodzajem grafik do formatu A2 włącznie okazały się

grafiki kolorowe (17 respondentów), następnie czarno-białe (14), w odcieniach szarości

(13) i monochromatyczne (6) – zał. 1, rys. 107.

3.9.1. Grafiki czarno-białe

Na 7 respondentów 6 skanuje czarno-białe grafiki z rozdzielczością 300 ppi, a 1 –

600 ppi (zał. 1, rys. 108). W przypadku głębi koloru po raz pierwszy podczas analizy

ankiety pojawił się rozkład trójmodalny – na 13 respondentów po 4 wskazało 8-bitową

i 16-bitową skalę szarości oraz 24-bitowy kolor (zał. 1, rys. 109). Pojedyncze przypadki

objęły także tryb 1-bitowy i 48-bitowy kolor. Niespodzianki nie sprawił za to

najpopularniejszy wzorzec koloru, ponieważ po raz kolejny został nim sRGB – używa

go 7 z 13 respondentów (zał. 1, rys. 110). Oprócz niego wymieniono także Adobe RGB

1998 (3), Grey Gamma i brak wzorca (po 1). Trzy osoby nie wiedziały, który wzorzec

jest używany.

Pierwotny format zapisu prawie w całości został zdominowany przez TIFF:

11 z 14 respondentów stosowało jego standardową wersję, a po 1 – wersję z kompresją

LZW i z kompresją JPEG (zał. 1, rys. 111). Poza TIFF pojedynczy respondenci

wskazali także bezstratny JPEG i DjVu. Żaden z 11 respondentów nie korzysta

z wielostronicowej odmiany TIFF (zał. 1, rys. 112).

3.9.2. Grafiki monochromatyczne

Biorąc pod uwagę stosunkowo niewielką grupę respondentów deklarujących

digitalizowanie monochromatycznych grafik (6 bibliotek), dobór parametrów cechował

się dużą różnorodnością, która mogła wskazywać na brak ujednoliconego podejścia do

skanowania tego rodzaju dokumentów. I tak przy rozdzielczości nastąpił rozkład

dwumodalny – na 4 respondentów po 2 wpisało 300 i 600 ppi (zał. 1, rys. 113).

Z 6 respondentów 3 stosowało 24-bitową głębię koloru, a po 2 – 8-bitową i 16-bitową

skalę szarości (zał. 1, rys. 114). W przypadku wzorców koloru, sRGB i Adobe RGB

1998 otrzymało po 2 głosy (na 5 respondentów) – rys. 115. 2 respondentów nie

wiedziało, który wzorzec koloru jest stosowany.

Bogactwo pierwotnych formatów zapisu wzięło się stąd, że prawie każdy z 6

respondentów używa więcej niż jednego formatu – prawdopodobnie w zależności od

potrzeb i konkretnego dokumentu. Najwięcej, bo 3 korzysta z TIFF, po 2 z TIFF

z kompresją LZW i bezstratnego JPEG, a pojedynczy respondenci – z TIFF z kompresją

CCITT (co jest o tyle dziwne, że przy pytaniu o głębię koloru nikt nie zaznaczył trybu

Page 108: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

108

1-bitowego, który jako jedyny jest w stanie skorzystać z algorytmów CCITT9), stratny

JPEG i DjVu (zał. 1, rys. 116). Wszyscy z 5 respondentów używają jednostronicowej

odmiany TIFF (zał. 1, rys. 117).

3.9.3. Grafiki w odcieniach szarości

Grafiki w odcieniach szarości 4 z 6 respondentów skanuje z rozdzielczością 300

ppi, a 2 – w 600 ppi (zał. 1, rys. 118). W odpowiedziach dominował 24-bitowy kolor –

6 z 13 respondentów, ale niewiele rzadziej pojawiła się 16-bitowa (5) i 8-bitowa skala

szarości (4) – rys. 119. Na 13 respondentów, 6 korzystało z wzorca sRGB, 3 z Adobe

RGB 1998, a 2 – z Grey Gamma (zał. 1, rys. 120). W 4 przypadkach nie wiedziano,

który wzorzec koloru jest stosowany.

Najpopularniejszym pierwotnym formatem zapisu okazał się TIFF – w grupie

13 respondentów wskazano go 10 razy (zał. 1, rys. 121). Po 2 razy zaznaczano TIFF

z kompresją LZW, bezstratny i stratny JPEG i DjVu, 1 respondent zaznaczył TIFF

z kompresją CCITT, ale znów nie wiadomo, jak traktować tę odpowiedź, skoro

wcześniej przy pytaniu o głębię koloru nie pojawił się 1-bitowy kolor. Na

11 respondentów wszyscy używali jednostronicowej odmiany TIFF (zał. 1, rys. 122).

3.9.4. Grafiki kolorowe

W odniesieniu do dokumentów kolorowych po raz pierwszy pojawił się

przypadek, kiedy rozdzielczość skanowania została zdominowana przez tak wysoką

wartość – 600 ppi (4 z 7 respondentów), a do tej pory najpopularniejsza, czyli 300 ppi,

zajęła drugą pozycję (3 respondentów) – zał. 1, rys. 123. Takie wyjątkowe

potraktowanie grafik może wywołać pozytywne zaskoczenie, które potrwa jednak tylko

do chwili, gdy podda się analizie odpowiedzi na pytanie o głębię koloru. Co prawda 12

z 17 respondentów zaznaczyło 24-bitowy kolor, a 4 – 48-bitowy kolor, ale aż 3 –

16-bitową skalę szarości (zał. 1, rys. 124). Po bardziej szczegółowym przeanalizowaniu

odpowiedzi wspomnianych 3 respondentów okazuje się, że tylko 1 z nich oprócz

wspomnianej 16-bitowej skali szarości wskazał też 24-bitowy kolor. Pozostałe 2 osoby

używają do kolorowych grafik wyłącznie skali szarości, a 1 z nich dodatkowo

praktykuje to w połączeniu z rozdzielczością 300 ppi. Najpopularniejszym wzorcem

koloru okazał się sRGB (9 z 17 respondentów), poza tym zaznaczano Adobe RGB

1998 (4) i ProPhoto RGB (1) – zał. 1, rys. 125. Sześciu respondentów nie potrafiło

wskazać stosowanego wzorca koloru.

9 Zob. pkt 1.4.1.

Page 109: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

109

Zgodnie z wcześniejszymi podejrzeniami, respondenci (17) podczas

odpowiadania na pytanie o pierwotny format zapisu zaznaczyli rekordowy zakres

odpowiedzi. Najwięcej osób tradycyjnie wybrało TIFF (12), następny w kolejności był

bezstratny JPEG (3), TIFF z kompresją LZW i stratny JPEG (2) oraz TIFF z kompresją

CCITT, RAW, PNG, PDF bez wewnętrznej kompresji grafik i DjVu (1) – zał. 1, rys.

126. Tylko 1 z 13 respondentów wykorzystuje wielostronicową odmianę TIFF (zał. 1,

rys. 127).

3.10. Typy digitalizowanych dokumentów – grafiki wielkoformatowe

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 54

W przypadku digitalizacji dokumentów, które w nazwie typu mają przymiotnik

„wielkoformatowe”, spodziewano się przede wszystkim mniejszego udziału wysokich

rozdzielczości i większego udziału formatów innych niż standardowy TIFF.

W szczególności mowa o RAW, który jest natywnym formatem zapisu dla aparatów

cyfrowych, często stosowanych właśnie do digitalizowania dokumentów o sporych

wymiarach. Jak się okaże w kolejnych punktach, przewidywania potwierdziły się tylko

częściowo.

Najwięcej, bo 9 respondentów zadeklarowało digitalizację kolorowych grafik

wielkoformatowych, 6 – czarno-białych, 5 – w odcieniach szarości i 2 –

monochromatycznych (zał. 1, rys. 128).

3.10.1. Grafiki wielkoformatowe czarno-białe

Przy pytaniu o stosowaną rozdzielczość, wśród 4 odpowiedzi pojawiła się tylko

jedna wartość – 300 ppi (zał. 1, rys. 129). W 3 z 6 przypadków grafiki skanuje się

w 24-bitowym kolorze, w 2 – w 16-bitowej skali szarości i tylko jeden respondent

zaznaczył tryb 1-bitowy (zał. 1, rys. 130). Wśród wzorców koloru dominował sRGB –

4 z 6 respondentów, poza tym w pojedynczych przypadkach wskazywano brak wzorca,

Grey Gamma i Adobe RGB 1998 (zał. 1, rys. 131). Wśród pierwotnych formatów

zapisu pojawił się tylko TIFF (5 z 6 respondentów) i stratny JPEG (1) – zał. 1, rys. 132.

We wszystkich 5 przypadkach używano TIFF w wersji jednostronicowej (zał. 1,

rys. 133).

Page 110: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

110

3.10.2. Grafiki wielkoformatowe monochromatyczne

Podobnie jak w przypadku czarno-białych wielkoformatowych grafik, tutaj też

pojawia się wyłącznie rozdzielczość 300 ppi – używali jej podczas skanowania

2 respondenci (czyli wszyscy, którzy zaznaczyli ten rodzaj grafik) – zał. 1, rys. 134.

Każdy z nich wskazał inną głębię koloru – 16-bitową skalę szarości i 24-bitowy kolor

(zał. 1, rys. 135), natomiast obydwaj zaznaczyli sRGB (co niestety w jednym przypadku

jest niespójne z wcześniejszą odpowiedzią) – zał. 1, rys. 136. Jako pierwotny format

zapisu jeden respondent stosuje TIFF (jednostronicowy – zał. 1, rys. 138), a drugi

stratną wersję JPEG (zał. 1, rys. 137).

3.10.3. Grafiki wielkoformatowe w odcieniach szarości

Na 4 respondentów, wszyscy jako rozdzielczość skanowania wpisali 300 ppi,

a 1 dodatkowo wpisał jeszcze 600 ppi (zał. 1, rys. 139). 3 z 5 respondentów jako głębię

koloru stosuje 16-bitową skalę szarości, 2 – 24-bitowy kolor, a 1 – 8-bitową skalę

szarości (zał. 1, rys. 140). Trzech z grupy 5 respondentów używa wzorca sRGB (3),

pozostali – Grey Gamma (zał. 1, rys. 141). Czterech z nich jako pierwotny format

zapisu wybrało TIFF jednostronicowy (zał. 1, rys. 143), a jeden – stratną wersję JPEG

(zał. 1, rys. 142).

3.10.4. Grafiki wielkoformatowe kolorowe

Kolorowe grafiki wielkoformatowe charakteryzowały się najszerszym zakresem

rozdzielczości stosowanych przez grupę 7 respondentów: 300 ppi – 5 oraz 200, 240

i 600 ppi – po 1 respondencie (zał. 1, rys. 144). Dość nietypową wielkością jest 240 ppi

i może zastanawiać wybór akurat takiej a nie innej rozdzielczości, ale jest to natywna

rozdzielczość, którą charakteryzują się niektóre aparaty cyfrowe. Z 9 respondentów 5

digitalizuje w 24-bitowym kolorze, a po 2 – w 16-bitowej skali szarości i 48-bitowym

kolorze (zał. 1, rys. 145). Była już o tym wcześniej mowa, ale trudno zaakceptować fakt

skanowania kolorowych grafik dużego formatu w odcieniach szarości. Przecież dla tego

rodzaju dokumentów kolor ma kluczowe znaczenie i jeśli biblioteka nie dysponuje

odpowiednim sprzętem, powinna ich digitalizację zlecić na zewnątrz. Celowo argument

oszczędzania na przestrzeni dyskowej (taśmowej) nie jest brany pod uwagę – na

pytanie, czy lepiej kolorową wielkoformatową grafikę zeskanować w skali szarości czy

w ogóle, odpowiedź wcale nie jest oczywista.

Wzorce koloru zostały zdominowane przez sRGB – wskazało je 7 z 9

respondentów, 1 wybrał ProPhoto RGB, a 1 nie wiedział, który wzorzec jest stosowany

Page 111: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

111

(zał. 1, rys. 146). Najwięcej, bo 5 osób z 9 korzysta z formatu TIFF, 2 ze stratnej wersji

JPEG, a po 1 z TIFF z kompresją LZW i bezstratnej wersji JPEG (zał. 1, rys. 147).

Wszyscy z 6 respondentów stosują jednostronicową wersję TIFF (zał. 1, rys. 148).

3.11. Typy digitalizowanych dokumentów – mapy

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 53

Mapy mają wiele wspólnego z grafikami. Główna różnica polega na tym, że

w przypadku map punkt ciężkości z odwzorowania koloru przenosi się na

odwzorowanie detali; niejednokrotnie znajdujące się na nich drobne nazwy

geograficznie i legenda wymagają odpowiednio dobranej rozdzielczości, którą najlepiej

obliczyć na podstawie najmniejszego znajdującego się na mapie znaku. Ponieważ

w zbiorach biblioteki posiadają liczne czarno-białe mapy znajdujące się w różnym

stanie, podjęto decyzję o rozbiciu tego rodzaju map na grupy z wyraźnym

i niewyraźnym kontrastem – i to zarówno w przypadku map do formatu A2 włącznie,

jak i wielkoformatowych.

Podobnie jak w przypadku grafik, tak i tutaj najwięcej respondentów zaznaczyło

mapy kolorowe (13), następnie czarno-białe z wyraźnym kontrastem (6), w odcieniach

szarości (5), czarno-białe z niewyraźnym kontrastem (3) i monochromatyczne (2) –

zał. 1, rys. 149.

3.11.1. Mapy czarno-białe z wyraźnym kontrastem

Zdecydowana większość, bo 4 z 5 respondentów, którzy udzielili odpowiedzi na

to pytanie, jako średnią rozdzielczość przyjętą dla tego rodzaju dokumentów podało 300

ppi, a 1 – 600 ppi (zał. 1, rys. 150). Mapy skanowane są w 24-bitowym kolorze

(3 z 6 respondentów), 16-bitowej (2) i 8-bitowej skali szarości (1) – rys. 151. Połowa

z 6 respondentów używa jako wzorca koloru sRGB, 2 – Grey Gamma, a w 1 przypadku

respondent nie wiedział, który wzorzec jest stosowany w jego bibliotece (zał. 1,

rys. 152). Pierwotnym formatem zapisu w 5 z 6 przypadków jest TIFF

(jednostronicowy – zał. 1, rys. 154), a w 1 – stratny JPEG (zał. 1, rys. 153). Stosowanie

JPEG (i to z kompresją) w przypadku map nie jest najlepszym pomysłem, chyba, że

w połączeniu z wysoką rozdzielczością – w innym przypadku nawet jeśli stopień

kompresji jest niewielki, mogą powstać zniekształcenia obrazu skutecznie

uniemożliwiające odczytanie detali. Na szczęście w tym konkretnym przypadku JPEG

Page 112: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

112

zapisywany był z rozdzielczością 600 ppi, co powinno zneutralizować większość

zniekształceń związanych ze stratną kompresją.

3.11.2. Mapy czarno-białe z niewyraźnym kontrastem

Spośród 3 respondentów, którzy odpowiedzieli na to pytanie, wszyscy wpisali

jako rozdzielczość skanowania 300 ppi (zał. 1, rys. 155). Dwóch z nich wybrało

24-bitowy kolor, a pojedyncze przypadki objęły 8-bitową i 16-bitową skalę szarości

(zał. 1, rys. 156). Dwóch z 3 respondentów używa wzorca sRGB, a 1 nie wiedział, który

wzorzec jest stosowany (zał. 1, rys. 157). Wszyscy trzej jako pierwotny format zapisu

stosują bezstratny TIFF (zał. 1, rys. 158) w wersji jednostronicowej (zał. 1, rys. 159).

3.11.3. Mapy monochromatyczne

Ponieważ tylko 2 respondentów zadeklarowało digitalizację tego rodzaju map,

zakres wskazanych wartości jest symboliczny: w obydwu przypadkach stosowana jest

rozdzielczość 300 ppi (zał. 1, rys. 160), każdy z respondentów skanuje z inną głębią

koloru – jeden w 16-bitowej skali szarości, drugi – w 24-bitowym kolorze (zał. 1, rys.

161), w obydwu przypadkach stosowanym wzorcem jest sRGB (zał. 1, rys. 162) i jako

pierwotny format zapisu – bezstratny TIFF (zał. 1, rys. 163) w wersji jednostronicowej

(zał. 1, rys. 164).

Porównanie parametrów digitalizacji opisanych w punktach 3.11.2 i 3.11.3

przyniosło dość interesujące rezultaty: w zasadzie brak jest widocznych różnic

w podejściu do map w zależności od ich kontrastu. Z drugiej strony w obydwu

przypadkach stosowane ustawienia są tak przyzwoite, że na pewno zapewnią wysoką

jakość docelowych cyfrowych matryc.

3.11.4. Mapy w odcieniach szarości

Na 4 respondentów 3 razy podano rozdzielczość 300 ppi, 2 razy 600 ppi, a 1 raz

400 ppi (zał. 1, rys. 165). W przypadku głębi koloru, 16-bitową skalę szarości

i 24-bitowy kolor wybrało po 2 respondentów z 5, a 1 wskazał 8-bitową skalę szarości

(zał. 1, rys. 166). Dominującym wzorcem był sRGB (3 z 5 respondentów), 1 raz

wskazano Grey Gamma, a 1 osoba nie wiedziała, który wzorzec koloru jest stosowany

(zał. 1, rys. 167). TIFF w swojej nieskompresowanej wersji wykorzystywany jest przez

4 z 5 respondentów, a w postaci skompresowanej algorytmem LZW – przez 1

respondenta (zał. 1, rys. 168). We wszystkich 5 przypadkach jest to jednostronicowa

odmiana tego formatu (zał. 1, rys. 169).

Page 113: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

113

3.11.5. Mapy kolorowe

5 z 8 respondentów digitalizuje kolorowe mapy z rozdzielczością 300 ppi (zał. 1,

rys. 170). Rozdzielczość 600 ppi pojawiła się w odpowiedziach 3 razy, a 240 i 400 ppi –

po 1 razie. Tym razem skala szarości nie wystąpiła w odpowiedziach na pytanie

o głębię koloru – 10 z 12 respondentów wybrało 24-bitowy kolor, a 48-bitowy kolor

pojawił się w 3 przypadkach (zał. 1, rys. 171). Szczęśliwie dobór wzorców koloru nie

zaburzył integralności udzielonych odpowiedzi – 9 na 12 respondentów stosuje sRGB,

a pojedyncze przypadki obejmują Adobe RGB 1998 i ProPhoto RGB (zał. 1, rys. 172).

Brak wiedzy odnośnie stosowanego wzorca zaznaczyło 2 respondentów.

Najpopularniejszym pierwotnym formatem zapisu został standardowy TIFF – używa go

10 z 13 respondentów (zał. 1, rys. 173). Pojedynczy respondenci zaznaczyli również

TIFF z kompresją LZW, stratny JPEG i RAW. We wszystkich 11 wystąpieniach TIFF

była to wersja jednostronicowa (zał. 1, rys. 174).

3.12. Typy digitalizowanych dokumentów – mapy wielkoformatowe

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 53

Z uwagi na horrendalny koszt urządzeń mogących sprostać dużym formatom przy

zachowaniu wysokiej jakości cyfrowego odwzorowania, wielkoformatowe mapy są

digitalizowane w nielicznych przypadkach. Najwięcej respondentów (8) digitalizuje

mapy kolorowe, w dalszej kolejności czarno-białe z wyraźnym kontrastem

i w odcieniach szarości (3), czarno-białe z niewyraźnym kontrastem (2)

i monochromatyczne (1) – zał. 1, rys. 175.

3.12.1. Mapy wielkoformatowe czarno-białe z wyraźnym kontrastem

Na 2 respondentów, którzy odpowiedzieli na pytanie o rozdzielczość

digitalizowanych map, obydwaj podali 300 ppi (zał. 1, rys. 176). W przypadku głębi

kolorów, 2 na 3 respondentów używa 16-bitowej skali szarości, a 1 – 24-bitowego

koloru (zał. 1, rys. 177), stosując odpowiednio wzorzec Grey Gamma (2) i sRGB (1) –

zał. 1, rys. 178. We wszystkich 3 przypadkach pierwotnym formatem zapisu jest TIFF

(zał. 1, rys. 179) w wersji jednostronicowej (zał. 1, rys. 180).

Page 114: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

114

3.12.2. Mapy wielkoformatowe czarno-białe z niewyraźnym kontrastem

W przypadku map z niewyraźnym kontrastem parametry są w zasadzie niemal

identyczne jak te podane w punkcie 3.12.1, czyli 2 respondentów używało 300 ppi

(zał. 1, rys. 181), z czego jeden skanował w 16-bitowej skali szarości, a drugi

w 24-bitowym kolorze (zał. 1, rys. 182), używając odpowiednio Grey Gamma i sRGB

(zał. 1, rys. 183). W obydwu przypadkach pierwotnym formatem zapisu jest TIFF

(zał. 1, rys. 184) w wersji jednostronicowej (zał. 1, rys. 185).

3.12.3. Mapy wielkoformatowe monochromatyczne

Omawiany rodzaj map digitalizował tylko 1 z respondentów. Używa w tym celu

rozdzielczości 300 ppi (zał. 1, rys. 186), 24-bitowego koloru (zał. 1, rys. 187) i wzorca

sRGB (zał. 1, rys. 188), a rezultat zapisuje w formacie TIFF (zał. 1, rys. 189) w wersji

jednostronicowej (zał. 1, rys. 190).

3.12.4. Mapy wielkoformatowe w odcieniach szarości

Z 3 respondentów, 2 podczas skanowania map ustawia rozdzielczość 300 ppi,

a 1 – 600 ppi (zał. 1, rys. 191); 2 stosuje 24-bitowy kolor i wzorzec sRGB, 1 –

16-bitową skalę szarości i wzorzec Grey Gamma (zał. 1, rys. 192, 193). Wszyscy trzej

korzystają z formatu TIFF – 2 ze standardowego, 1 – z kompresją LZW (zał. 1,

rys. 194), we wszystkich 3 przypadkach jest to wersja jednostronicowa (zał. 1,

rys. 195).

3.12.5. Mapy wielkoformatowe kolorowe

Na 5 respondentów, 4 skanuje najbardziej wymagający rodzaj map

wielkoformatowych w 300 ppi, a 1 nawet w 600 ppi (zał. 1, rys. 196). Żaden

z 7 respondentów nie poszedł na kompromis i dlatego wskazano wyłącznie 24-bitowy

(5) i 48-bitowy kolor (2), nie stwierdzono stosowania skali szarości – zał. 1, rys. 197.

Pięciu z 8 respondentów korzysta z wzorca sRGB, po 1 z Adobe RGB 1998 i ProPhoto

RGB, w 1 przypadku respondent nie potrafił podać, który wzorzec jest stosowany przez

jego bibliotekę (zał. 1, rys. 198). Wszyscy z 8 respondentów zapisywali matryce

w formacie TIFF – 7 w jego wersji nieskompresowanej, a 1 – z kompresją LZW (zał. 1,

rys. 199), przy czym wszyscy używali jednostronicowej odmiany formatu (zał. 1,

rys. 200).

Page 115: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

115

3.13. Typy digitalizowanych dokumentów – odbitki fotograficzne

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 53

Odbitki fotograficzne pomimo pozornego podobieństwa do grafik, znacznie

różnią się od nich formalnie. Mniej zróżnicowany jest nośnik, na którym są utrwalone,

na ogół ich format jest niewielki. Tyle, że – podobnie jak w przypadku grafik – kluczem

do ich właściwej digitalizacji jest możliwie wierne odwzorowanie kolorystyki

i szczegółów, co niejednokrotnie pociąga za sobą skanowanie w bardzo wysokich

rozdzielczościach. Najpopularniejszym rodzajem odbitek wśród respondentów były

odbitki w odcieniach szarości (15), następnie kolorowe (14) i monochromatyczne (8) –

zał. 1, rys. 201.

Celowo nie wyodrębniono odbitek czarno-białych, gdyż z uwagi na charakter ich

powstawania, takowe po prostu nie istnieją. Oczywiście mogą zdarzyć się pojedyncze

egzemplarze, gdzie – z różnych względów – pojawi się tylko czerń i biel, jednak za

dokumenty czarno-białe przyjęto takie, gdzie użyto czarnego barwnika naniesionego na

białe tło.

3.13.1. Odbitki fotograficzne monochromatyczne

5 z 7 respondentów stosuje do digitalizowania tego rodzaju odbitek rozdzielczość

300 ppi, 2 – 600 ppi, a w jednym przypadku dodatkowo pojawiło się nawet 1.200 ppi

(zał. 1, rys. 202). W porównaniu do wszystkich wcześniej omawianych dokumentów są

to – zgodnie z przewidywaniami – spore wielkości. W dużej mierze wynikają one

z niewielkiego formatu konkretnych odbitek; użycie rozdzielczości 600 ppi i wyższej

umożliwia późniejsze znaczne powiększenie obrazu bez widocznych pikseli. Po

bardziej szczegółowej analizie pozostałych odpowiedzi respondenta używającego 1200

ppi dodatkowo okazało się, że rozdzielczość ta nie była „równoważona” niewielką

głębią barwną, ponieważ szła w parze z 24-bitowym kolorem, którego używało również

5 innych respondentów (na 9, którzy udzielili odpowiedzi na pytanie o głębię koloru) –

zał. 1, rys. 203. Reszta przypadków objęła 16-bitową (3) i 8-bitową skalę szarości (1).

Najczęściej stosowanym wzorcem koloru był sRGB (7 z 9 respondentów), dodatkowo 1

raz wskazano Adobe RGB 1998 (zał. 1, rys. 204), a 2 respondentów nie wiedziało,

który wzorzec jest używany.

Najwięcej respondentów (4 z 9) zapisuje matryce w nieskompresowanym

formacie TIFF, 3 – w TIFF z kompresją LZW, 2 – bezstratnym JPEG, a pojedynczy

Page 116: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

116

respondenci używają TIFF z kompresją CCITT (chociaż brak w odpowiedziach

informacji o trybie 1-bitowym), stratny JPEG i RAW (zał. 1, rys. 205).

Z 6 respondentów, którzy odpowiedzieli na pytanie o odmianę TIFF, wszyscy wskazali

wersję jednostronicową (zał. 1, rys. 206).

3.13.2. Odbitki fotograficzne w odcieniach szarości

W przypadku rozdzielczości, odpowiedzi 10 respondentów rozłożyły się po

połowie: 5 stosuje 300 ppi, a pozostałych 5 – 600 ppi (zał. 1, rys. 207). Bardziej

zróżnicowany jest zakres wartości głębi koloru: na 15 respondentów 7 używa

24-bitowego koloru, 5 – 16-bitowej skali szarości, 3 – 8-bitowej skali szarości, a 1 –

48-bitowego koloru (zał. 1, rys. 208). Najczęściej wskazywanym wzorcem koloru był

sRGB – 9 z 15 respondentów, Grey gamma i Adobe RGB 1998 zaznaczone zostały po 2

razy (zał. 1, rys. 209). Cztery osoby nie wiedziały, który wzorzec jest stosowany.

Wśród formatów zapisu dominantą został standardowy TIFF, którego używa 11

z 15 respondentów, znacznie wyprzedzając TIFF z kompresją LZW i stratny JPEG (po

2) oraz TIFF z kompresją CCITT, bezstratny JPEG i RAW (po 1 przypadku) – zał. 1,

rys. 210. Na 11 respondentów wszyscy zaznaczyli TIFF jednostronicowy (zał. 1,

rys. 211).

3.13.3. Odbitki fotograficzne kolorowe

Najbardziej wymagający (pod względem kompetencji personelu digitalizującego)

rodzaj odbitek najczęściej skanowany jest z rozdzielczością 300 ppi (5 z 8

respondentów), minimalnie rzadziej w 600 ppi (4) – zał. 1, rys. 212. Co prawda

w przypadku głębi koloru dominuje 24-bitowy kolor (11 z 14 respondentów), ale wśród

pozostały odpowiedzi pojawia się także 48-bitowy kolor (3) oraz – niestety – 16-bitowa

skala szarości (1) – zał. 1, rys. 213. Na dodatek nie jest to głębia dodatkowa, używana

wyłącznie w wyjątkowych sytuacjach, ale jedyna, z jaką ten respondent skanuje

kolorowe odbitki. Trudno oprzeć się wrażeniu, że taka digitalizacja to zwykła strata

czasu. Przecież całkiem niezłej jakości skanery, potrafiące nie najgorzej odwzorować

kolory, mieszczą się w kwocie 500 zł, więc trudno znaleźć tu jakiekolwiek sensowne

usprawiedliwienie takiej praktyki. Bo na pewno nie jest nim duży format odbitek, który

rzadko przekracza A5.

Dominującym wzorcem został sRGB (10 z 14 respondentów), jako wzorzec

dodatkowy dwukrotnie zaznaczono Adobe RGB 1998, a 4 respondentów zaznaczyło

brak informacji o używanym wzorcu (zał. 1, rys. 214). 8 z 14 respondentów jako

Page 117: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

117

pierwotny format zapisu wskazało TIFF bez kompresji, 3 – TIFF z kompresją LZW

i JPEG bez kompresji, 2 – JPEG z kompresją, a 1 – TIFF z kompresją CCITT (zał. 1,

rys. 215). Jako ciekawostkę należy zauważyć brak w zestawieniu formatu RAW.

Okazuje się, że respondent używający tego formatu zaznaczył tylko odbitki

monochromatyczne i w odcieniach szarości (digitalizując je w 24-bitowym kolorze),

z pominięciem odbitek kolorowych. Sytuacja ma zabarwienie paradoksalne, ale może

się wiązać z brakiem kolorowych odbitek w zbiorach danej biblioteki. Wszyscy z 10

respondentów deklarujących bazowanie na formacie TIFF używają jego

jednostronicowej odmiany (zał. 1, rys. 216).

3.14. Typy digitalizowanych dokumentów – negatywy, przezrocza

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 53

Negatywy i przezrocza – mimo, że tak mocno związane z odbitkami

fotograficznymi – wymagają całkiem innego podejścia oraz, przede wszystkim, całkiem

innego sprzętu. Cena dobrej jakości skanera do negatywów zdecydowanie przewyższa

cenę porządnego skanera formatu A3, co automatycznie redukuje liczbę potencjalnych

respondentów. Kolejną przyczyną niewielkiej popularności tego typu dokumentów jest

ich rzadkie występowanie w zbiorach. I tak na 53 respondentów, raptem 7 digitalizuje

negatywy i przezrocza w odcieniach szarości, 4 – monochromatyczne, a tylko 3 –

kolorowe (zał. 1, rys. 217). Jest to pierwszy do tej pory przypadek, kiedy kolorowa

odmiana typu dokumentu jest najrzadziej digitalizowana.

3.14.1. Negatywy, przezrocza monochromatyczne

Niestety, w przypadku negatywów i przezroczy (niezależnie od rodzaju)

respondenci wyjątkowo wybiórczo potraktowali badanie i rzadko który udzielał

odpowiedzi na szczegółowe pytania. Z tego powodu nieznana jest rozdzielczość, z jaką

skanowane są monochromatyczne negatywy, ponieważ żaden respondent jej nie wpisał.

W przypadku głębi koloru po jednej osobie wskazało tryb 1-bitowy, 16-bitową skalę

szarości i 24-bitowy kolor (zał. 1, rys. 218). Tylko 1 odpowiedź pojawiła się przy

pytaniu o wzorzec koloru i był to sRGB (zał. 1, rys. 219). Największą frekwencją

w przypadku omawianego rodzaju dokumentów cieszył się pierwotny format zapisu –

wszyscy 4 respondenci wskazali bezstratny TIFF (w wersji jednostronicowej – zał. 1,

rys. 221), oraz dodatkowo w pojedynczych przypadkach – PNG i PDF bez wewnętrznej

kompresji grafik (zał. 1, rys. 220).

Page 118: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

118

3.14.2. Negatywy, przezrocza w odcieniach szarości

Na pytanie o rozdzielczość odpowiedziały 2 osoby – jedna wskazała 300 ppi,

a druga 4000 (zał. 1, rys. 222). Druga ze wspomnianych wartości nie jest miarą

rozdzielczości, a długością większego wymiaru wyrażoną w pikselach,

charakterystyczną dla cyfrowych aparatów fotograficznych, które posługują się

rozdzielczością obiektową, a nie liniową.

W przypadku głębi koloru, po 2 z 5 respondentów wybrało 16-bitową skalę

szarości i 24-bitowy kolor, a po 1 – 8-bitową skalę szarości i 48-bitowy kolor (zał. 1,

rys. 223). Wśród wzorców koloru pojawiły się sRGB (3 z 5 respondentów) i Adobe

RGB 1998 (1), a 2 osoby nie wiedziały, który wzorzec wskazać (zał. 1, rys. 224).

Pierwotny format zapisu zdominował TIFF – nieskompresowany (5 z 6 respondentów)

w wersji jednostronicowej (zał. 1, rys. 226) i z kompresją LZW (zał. 1, rys. 225).

3.14.3. Negatywy, przezrocza kolorowe

Tylko 1 respondent udzielił odpowiedzi na pytanie o rozdzielczość i podał 4000

pikseli dla większego wymiaru (zał. 1, rys. 227). W kwestii przyjętej głębi koloru, 3

respondenci zgodnie wskazali 24-bitowy kolor (zał. 1, rys. 228) w połączeniu

z wzorcem sRGB (zał. 1, rys. 229). Jednocześnie każdy z tych respondentów podał inny

pierwotny format zapisu i były to: TIFF bez kompresji i z kompresją LZW oraz JPEG

bez kompresji (zał. 1, rys. 230). W obydwu wspomnianych przypadkach TIFF był

w wersji jednostronicowej (zał. 1, rys. 231).

3.15. Typy digitalizowanych dokumentów – mikroformy

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 53

W punkcie 3.14 wspomniano, że do digitalizacji negatywów i przezroczy

wymagane są specjalistyczne skanery. Jeszcze bardziej zaawansowane urządzenia

wykorzystywane są przy mikroformach. Właściwie każda większa biblioteka wciąż

posiada jakiś rodzaj mikroform, jakkolwiek na ogół leżą one półkach. Wynika to z tego,

że albo czytniki służące do ich przeglądania już od lat nie działają, albo po prostu młode

pokolenie czytelników nie jest nimi zainteresowane. Stąd jeśli biblioteki posiadają

wartościowe mikroformy, bardzo często decydują się na ich skanowanie (głównie

w drodze outsourcingu) – nawet w przypadkach, kiedy obok tych mikroform mają

oryginalne dokumenty, które na nich zostały uwiecznione. Dzieje się tak głównie ze

Page 119: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

119

względu na wygodę, szybkość i niższe koszty, chociaż takie rozwiązanie niesie również

za sobą pewne mankamenty10

.

W zaleceniach umieszczonych w Standardach (…) podano tylko 2 rodzaje

mikroform – mikrofilmy i mikrofisze11

. Żeby uzupełnić typologię, podczas

konstruowania ankiety dodano także mikrokarty. Okazało się jednak, że jest to tak mało

popularna mikroforma, że nie zaznaczył jej żaden z respondentów. Digitalizacja

mikrofisz również jest rzadko spotykana, gdyż prowadzi ją tylko 1 biblioteka, za to aż 8

respondentów zaznaczyło mikrofilmy (zał. 1, rys. 232).

3.15.1. Mikrofilmy

W przypadku mikrofilmów przy rozdzielczości pojawiła się tylko 1 odpowiedź –

300 ppi (zał. 1, rys. 233). Być może wynika to z zasady, że rozdzielczość skanowania

mikrofilmów ustalana jest na podstawie typu uwiecznionego na nich dokumentu

oryginalnego. Więcej respondentów (6) wypowiedziało się przy okazji głębi koloru –

po 2 z nich używa 16-bitowej skali szarości i 24-bitowego koloru, a po 1 – 8-bitowej

skali szarości i 48-bitowego koloru (zał. 1, rys. 234). 2 z 5 respondentów stosuje

wzorzec sRGB, a po 1 – brak wzorca i Adobe RGB 1998 (zał. 1, rys. 235). Dwóch

respondentów nie wiedziało, który wzorzec jest stosowany w ich bibliotekach.

Wśród pierwotnych formatów zapisu najpopularniejszy jest nieskompresowany

TIFF (5 z 7 respondentów), ponadto pojedyncze przypadki objęły TIFF z kompresją

LZW, JPEG bez kompresji, RAW i PDF bez wewnętrznej kompresji grafik (zał. 1,

rys. 236).

Na 6 wspomnianych przypadków stosowania formatu TIFF, tylko w 1 jest to

odmiana wielostronicowa (zał. 1, rys. 237).

3.15.2. Mikrofisze

Jak już wspomniano, tylko 1 respondent zadeklarował digitalizację mikrofisz

i używa do tego następujących parametrów: rozdzielczość 300 ppi (zał. 1, rys. 238),

8-bitowa skala szarości (zał. 1, rys. 239), wzorzec Grey Gamma (zał. 1, rys. 240)

i format zapisu TIFF (zał. 1, rys. 241) w wersji jednostronicowej (zał. 1, rys. 242).

10

A. Trembowiecki: Digitalizacja zbiorów bibliotecznych : teoria i praktyka. Warszawa: Centrum

Edukacji Bibliotekarskiej, Informacyjnej i Dokumentacyjnej, 2006, s. 30-31.

11 Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego. Pod red. G. Płoszajskiego

[dokument elektroniczny]. Warszawa: Biblioteka Główna Politechniki Warszawskiej, 2008, s. 205.

Tryb dostępu: http://bcpw.bg.pw.edu.pl/dlibra/doccontent?id=1262&dirids=1 [dostęp: 17.08.2010 r.].

Page 120: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

120

3.16. Typy digitalizowanych dokumentów – prace licencjackie, magisterskie

i doktorskie

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 53

W przeciwieństwie do wszystkich wcześniej omawianych typów dokumentów,

które w zasadzie były niezależne od rodzaju biblioteki, prace licencjackie, magisterskie

i doktorskie związane są głównie z bibliotekami uczelnianymi, co oczywiście zawęża

grupę respondentów. Dodatkowo niektóre z tych bibliotek nie digitalizują prac w ogóle,

umieszczając na swoich serwerach (najczęściej intranetowych) wyłącznie prace nowsze,

dostarczone od razu w formie elektronicznej (born-digital), do czego od pewnego czasu

zobowiązują studentów uczelniane przepisy.

Różnice w ilości respondentów digitalizujących poszczególne rodzaje prac były

stosunkowo niewielkie, lecz bardziej dziwi fakt, że w ogóle się pojawiły. Trudno

stwierdzić, jak je interpretować. Czy skoro respondent nie zaznaczył prac z elementami

w odcieniach szarości, to znaczy, że jego biblioteka ich nie digitalizuje, nawet jeśli

występują w zbiorach na równi z innymi rodzajami (a występują na pewno)? Wśród

badanych respondentów 8 digitalizuje prace z kolorowymi elementami graficznymi, 6 –

z czarno białymi elementami graficznymi i po 5 – prace zawierające wyłącznie czarno-

białą treść i prace z elementami w odcieniach szarości (zał. 1, rys. 243).

3.16.1. Prace licencjackie, magisterskie i doktorskie – czarno-biała treść

Na pytanie o rozdzielczość skanowania odpowiedziało 2 respondentów, w obu

przypadkach podając 300 ppi (zał. 1, rys. 244). 2 z 5 respondentów jako głębi koloru

używa 16-bitowej skali szarości, a pojedynczy respondenci wskazali tryb 1-bitowy,

8-bitową skalę szarości i 24-bitowy kolor (zał. 1, rys. 245). Wśród wzorców koloru

Grey Gamma i sRGB stosowane są przez 2 (z 5) respondentów, a brak wzorca i Adobe

RGB 1998 padły w odpowiedziach jednokrotnie (zał. 1, rys. 246). W 4 z 5 przypadków

używany jest TIFF bez kompresji, a w 1 – TIFF z kompresją LZW i PDF z wewnętrzną

kompresją bezstratną grafik (zał. 1, rys. 247). Wszyscy respondenci (5) stosują TIFF

w wersji jednostronicowej (zał. 1, rys. 248).

3.16.2. Prace licencjackie, magisterskie i doktorskie zawierające czarno-białe elementy

graficzne

Wszyscy 3 respondenci skanują ten rodzaj prac w rozdzielczości 300 ppi,

a 1 dodatkowo w 600 ppi (zał. 1, rys. 249). Wśród głębi koloru przeważał 24-bitowy

Page 121: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

121

kolor (3 z 6 respondentów), poza nim w odpowiedziach padała także 8-bitowa skala

szarości (2), tryb 1-bitowy i 16-bitowa skala szarości (1) – zał. 1, rys. 250. Połowa z 6

respondentów stosuje przy tym wzorzec sRGB, po 2 osoby – Grey Gamma i Adobe

RGB 1998 oraz 1 – tryb 1-bitowy (zał. 1, rys. 251). 1 osoba nie wiedziała, który

wzorzec jest stosowany w jej bibliotece. Wyniki w odniesieniu do pierwotnego formatu

zapisu są bardzo zbliżone do punktu 3.16.1 – 5 z 6 respondentów korzysta

z nieskompresowanej wersji TIFF, a po 1 – TIFF z kompresją LZW i PDF

z wewnętrzną kompresją bezstratną grafik (zał. 1, rys. 252). We wszystkich

6 przypadkach stosowania formatu TIFF, była to odmiana jednostronicowa (zał. 1,

rys. 253).

3.16.3. Prace licencjackie, magisterskie i doktorskie zawierające elementy graficzne

w odcieniach szarości

Odpowiedzi udzielone na pytanie o rozdzielczość skanowania są identyczne jak

w punkcie 3.16.2, czyli na 3 respondentów wszyscy używają 300 ppi, a 1 dodatkowo

600 ppi (zał. 1, rys. 254). Pozycją lidera wśród najczęściej używanej głębi koloru

24-bitowy kolor podzielił się z 8-bitową skalą szarości (po 2 z 5 respondentów),

pojedyncze wartości obejmowały też 16-bitową skalę szarości i 48-bitowy kolor (zał. 1,

rys. 255). Najpopularniejszym wzorcem koloru wybrano Grey Gamma (3 z 5

respondentów), następnie sRGB (2) i Adobe RGB 1998 oraz ProPhoto RGB (1), a 1

osoba nie wiedziała, który wzorzec wskazać (zał. 1, rys. 256). 4 z 5 respondentów

zapisuje matryce w formacie TIFF, a pojedyncze przypadki obejmują TIFF z kompresją

LZW i PDF z wewnętrzną kompresją bezstratną grafik (zał. 1, rys. 257). Każdy z 4

respondentów korzysta z jednostronicowej odmiany TIFF (zał. 1, rys. 258).

3.16.4. Prace licencjackie, magisterskie i doktorskie zawierające kolorowe elementy

graficzne

Po raz trzeci w przypadku rozdzielczości powtórzyły się wyniki znane z punktów

3.16.2 i 3.16.3 – na 3 respondentów wszyscy skanują w 300 ppi, a 1 dodatkowo w 600

ppi (zał. 1, rys. 259). Zakres wartości przy głębi koloru zmniejszył się do 24-bitowego

(7 z 8 respondentów) i 48-bitowego koloru (1) – zał. 1, rys. 260. Stosowane wzorce

niestety nie do końca współgrają ze wspomnianymi wartościami głębi koloru – co

prawda z 8 respondentów 4 wskazało sRGB, ale wśród pojedynczych przypadków

pojawia się Adobe RGB 1998, ProPhoto RGB i nie pasujący tu Grey Gamma (zał. 1,

Page 122: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

122

rys. 261). 3 respondentów nie wiedziało, który wzorzec jest używany w ich

bibliotekach.

Pierwotny format zapisu zdominowany został po raz kolejny przez

nieskompresowany TIFF (5 z 8 respondentów), dwukrotnie zaznaczono bezstratny

JPEG, a po 1 razie TIFF z kompresją LZW i PDF z wewnętrzną bezstratną kompresją

grafik (zał. 1, rys. 262). Wszyscy spośród 6 respondentów korzystają

z jednostronicowej odmiany TIFF (zał. 1, rys. 263).

3.17. Typy digitalizowanych dokumentów – dokumenty urzędowe

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 53

O ile omawiane wcześniej prace licencjackie, magisterskie i doktorskie są domeną

bibliotek uczelnianych, o tyle dokumenty urzędowe najczęściej spotkać można

w bibliotekach publicznych, gdzie są gromadzone w charakterze dokumentów życia

społecznego. Najczęściej digitalizowane są dokumenty z kolorowymi elementami

graficznymi (11), następnie te zawierające wyłącznie czarno-białą treść (10) oraz

zawierające elementy graficzne w czerni i bieli, a także w odcieniach szarości (po 5) –

zał. 1, rys. 264.

3.17.1. Dokumenty urzędowe – czarno-biała treść

4 z 5 respondentów skanuje ten rodzaj dokumentów z rozdzielczością 300 ppi,

a 1 – z 200 ppi (zał. 1, rys. 265). W zakresie głębi koloru 6 z 9 respondentów wskazało

24-bitowy kolor, 2 – tryb 1-bitowy, a pojedynczy respondenci – 8-bitową i 16-bitową

skalę szarości (zał. 1, rys. 266). Dominującym wzorcem był sRGB (5 z 9

respondentów), w dalszej kolejności zaznaczano tryb 1-bitowy (2), Grey Gamma

i Adobe RGB 1998 (1) – zał. 1, rys. 267. 1 osoba nie wiedziała, który wzorzec jest

wykorzystywany do tego rodzaju dokumentów. Najwięcej respondentów (6 z 9)

zapisuje pliki matrycowe w nieskompresowanym formacie TIFF, następnie w PDF bez

wewnętrznej kompresji grafik (2), bezstratnej i stratnej wersji JPEG oraz DjVu (1) –

zał. 1, rys. 268. Na 6 przypadków stosowania TIFF, zawsze była to jego

jednostronicowa odmiana (zał. 1, rys. 269).

3.17.2. Dokumenty urzędowe zawierające czarno-białe elementy graficzne

Na 3 respondentów, 2 skanuje dokumenty z rozdzielczością 300 ppi, a 1 – 200 ppi

(zał. 1, rys. 270). Z 4 respondentów połowa stosuje 24-bitowy kolor, a pozostali

Page 123: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

123

8-bitową i 16-bitową skalę szarości (zał. 1, rys. 271), wykorzystując przy tym wzorzec

sRGB (3 z 4 respondentów) i Grey Gamma (1) – rys. 272. Zagadkową kwestią

pozostaje sposób, w jaki 1 z respondentów łączy wzorzec sRGB z 16-bitową skalą

szarości. Wszyscy 4 respondenci zapisują matryce w formacie TIFF, a 1 z nich

dodatkowo w DjVu (zał. 1, rys. 273). Przy pytaniu o odmianę formatu TIFF,

odpowiedzi udzieliło 3 respondentów – każdy z nich wykorzystuje odmianę

jednostronicową (zał. 1, rys. 274).

3.17.3. Dokumenty urzędowe zawierające elementy graficzne w odcieniach szarości

W odpowiedzi na pytanie o ustawianą rozdzielczość, padła tylko jedna wartość:

300 ppi – używa jej 4 respondentów (zał. 1, rys. 275). W przypadku głębi koloru, 2 z 4

respondentów zaznaczyło 24-bitowy kolor, a pozostali 8-bitową i 16-bitową skalę

szarości (zał. 1, rys. 276), przy czym 3 z nich używa wzorca sRGB, a 1 – Grey Gamma

(zał. 1, rys. 277). 3 z 4 respondentów jako pierwotny formatu zapisu wykorzystuje

standardowy format TIFF (jednostronicowy – zał. 1, rys. 279), a pojedyncze przypadki

obejmują także TIFF z kompresją LZW oraz format DjVu (zał. 1, rys. 278).

3.17.4. Dokumenty urzędowe zawierające kolorowe elementy graficzne

Podobnie jak w poprzednim punkcie – w odpowiedziach 7 respondentów pojawiła

się tylko jedna rozdzielczość – 300 ppi (zał. 1, rys. 280). Głębia koloru zdominowana

została przez 24-bitowy kolor (8 z 10 respondentów), ale relatywnie często stosowany

jest też 48-bitowy kolor (3) – zał. 1, rys. 281. Najpopularniejszym wzorcem jest sRGB

(8 z 10 respondentów), poza tym pojedyncze zaznaczenia uwzględniały Adobe RGB

1998 i ProPhoto RGB (zał. 1, rys. 282). Jedna osoba nie wiedziała, który wzorzec

wskazać.

Wśród pierwotnych formatów zapisu najczęściej stosowany jest

nieskompresowany TIFF (8 z 10 respondentów), pozostałe formaty, tzn. TIFF

z kompresją LZW, stratny JPEG i DjVu, zaznaczyło po 1 respondencie (zał. 1,

rys. 283). Na 9 przypadków korzystania z TIFF, tylko w 1 był to TIFF wielostronicowy

(zał. 1, rys. 284).

3.18. Typy digitalizowanych dokumentów – maszynopisy

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 52

Page 124: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

124

Maszynopisy są nietypowe ze względu na ich dość niecodzienną pozycję wśród

innych dokumentów; ich dystynktywną cechą jest narzędzie, za pomocą którego

opatrzono je treścią. Jeszcze w latach 80. XX wieku maszyny do pisania były tak

popularne, że stanowiły podstawowe urządzenie utrwalające tekst wszelkiego typu

dokumentów urzędowych, prac magisterskich i doktorskich, a nawet niskonakładowych

publikacji. Wśród respondentów mógł więc powstać dylemat, do której grupy

dokumentów maszynopisy zaliczyć – czy np. do jednej z wcześniej wymienionych

(czyli ze względu na rodzaj niesionych treści), czy po prostu do maszynopisów. Dla

potrzeb badania maszynopisy podzielone zostały na dwa rodzaje – z wyraźnym

(8 respondentów) i niewyraźnym kontrastem (9 respondentów) – zał. 1, rys. 285.

3.18.1. Maszynopisy – wyraźny kontrast

Na 5 respondentów wszyscy skanują maszynopisy w rozdzielczości 300 ppi,

a 1 dodatkowo w 600 ppi (zał. 1, rys. 286). 5 z 8 respondentów jako podstawowej głębi

koloru używa 24-bitowego koloru, po 2 – trybu 1-bitowego i 16-bitowej skali szarości,

a 1 – 8-bitowej skali szarości (zał. 1, rys. 287). Najpopularniejszym wzorcem jest sRGB

(5 z 8 respondentów), następnie brak wzorca i Grey Gamma (po 2) oraz Adobe RGB

1998 (1). Jedna osoba nie wiedziała, który wzorzec jest używany (zał. 1, rys. 288).

Wszystkich 8 respondentów wskazało jako główny format zapisu nieskompresowany

TIFF (w wersji jednostronicowej – zał. 1, rys. 290), a 1 dodatkowo DjVu (zał. 1,

rys. 289).

3.18.2. Maszynopisy – niewyraźny kontrast

W przypadku rozdzielczości tych dokumentów, wyjątkowo rzuca się w oczy

różnica w podejściu do ich digitalizowania w zależności od kontrastu zawartości z tłem

strony. Pięciu respondentów wyłoniło 2 dominanty – 300 i 600 ppi, poza tym pojawiły

się pojedynczo wartości 400 i 450 ppi (zał. 1, rys. 291). 24-bitowy kolor zdominował

głębię koloru (5 z 9 respondentów), poza nim zaznaczano 16-bitową skalę szarości (3),

tryb 1-bitory i 8-bitową skalę szarości (1) – zał. 1, rys. 292. 6 z 9 respondentów jako

głównego wzorca używa sRGB, 2 – Grey Gamma, a 1 – nie stosuje wzorca (zał. 1,

rys. 293). Jeden respondent nie potrafił wskazać wzorca. TIFF po raz kolejny został

najpopularniejszych pierwotnym formatem zapisu – zaznaczyło go 8 z 9 respondentów

(we wszystkich przypadkach była to odmiana jednostronicowa – rys. 295), pozostałe

pojedynczo występujące formaty to stratny JPEG i DjVu (zał. 1, rys. 294).

Page 125: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

125

3.19. Typy digitalizowanych dokumentów – nuty

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 52

Nuty są stosunkowo rzadko digitalizowanym typem dokumentów, co zapewne po

części wynika z niewielkiego procentowego ich udziału w stosunku do reszty

bibliotecznych zbiorów. Podobnie jak w przypadku maszynopisów, podzielono je na

2 rodzaje ze względu na wyraźny (5 respondentów) i niewyraźny kontrast (3) – zał. 1,

rys. 296.

3.19.1. Nuty – wyraźny kontrast

Każdy z 3 respondentów, którzy odpowiedzieli na to pytanie, używa podczas

digitalizacji rozdzielczości 300 ppi (zał. 1, rys. 297). W kwestii głębi koloru zwraca

uwagę brak trybu 1-bitowego i skali szarości; 3 z 4 respondentów stosuje 24-bitowy, a 1

nawet 48-bitowy kolor (zał. 1, rys. 298). Wzorzec sRGB zaznaczyła połowa z 4

respondentów, poza tym w 1 przypadku zaznaczono ProPhoto RGB, a w 1 – brak

informacji o przyjętym wzorcu (zał. 1, rys. 299). Najczęściej wymienianym formatem

zapisu został TIFF (3 z 5 respondentów) w wersji jednostronicowej (zał. 1, rys. 301),

poza tym pojedynczo wskazane formaty to bezstratny JPEG i RAW (zał. 1, rys. 300).

3.19.2. Nuty – niewyraźny kontrast

Dwóch respondentów, którzy odpowiedzieli na pytanie o rozdzielczość ustawianą

podczas digitalizacji, wpisało 300 ppi (zał. 1, rys. 302), obydwaj wybrali także

24-bitowy kolor (zał. 1, rys. 303), przy wzorcu jeden wskazał sRGB, a drugi zaznaczył

brak informacji o używanym wzorcu koloru (zał. 1, rys. 304). W przypadku nut

o niewyraźnym kontraście brak dominującego formatu zapisu, ponieważ każdy z 3

respondentów zaznaczył inny format, czyli TIFF (jednostronicowy – zał. 1, rys. 306),

JPEG bez kompresji i RAW (zał. 1, rys. 305).

3.20. Typy digitalizowanych dokumentów – rysunki techniczne

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 52

Rysunki techniczne były ostatnim predefiniowanym typem dokumentu, który

został przedstawiony respondentom do wyboru. Analogicznie do punktów 3.18 i 3.19,

Page 126: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

126

rysunki techniczne podzielono na te z wyraźnym (4 respondentów) i niewyraźnym

kontrastem (3) – zał. 1, rys. 307.

3.20.1. Rysunki techniczne – wyraźny kontrast

Na pytanie o rozdzielczość odpowiedziało 2 respondentów, w obu przypadkach

wpisując 300 ppi, a w 1 dodatkowo 600 ppi (zał. 1, rys. 308). Pomimo skromnej ilości

respondentów (4), przy pytaniu o głębię koloru pojawiła się duża rozpiętość

stosowanych rozwiązań: 16-bitowa skala szarości (2), tryb 1-bitowy, 8-bitowa skala

szarości i 24-bitowy kolor (1) – zał. 1, rys. 309. W przypadku stosowanego wzorca

koloru 3 z 4 respondentów zaznaczyło Grey Gamma, a po 1 – brak wzorca i sRGB

(zał. 1, rys. 310). Wszyscy 4 respondenci jako pierwotny format zapisu wskazali

jednostronicowy TIFF (zał. 1, rys. 312), a 1 dodatkowo zaznaczył PDF z wewnętrzną

bezstratną kompresją grafik (zał. 1, rys. 311).

3.20.2. Rysunki techniczne – niewyraźny kontrast

Na podstawie odpowiedzi udzielonych na pytanie o rozdzielczość skanowania

niestety nie da się wyznaczyć modalnej, ponieważ każdy z 2 respondentów wpisał inną

rozdzielczość (300 i 400 ppi), a 1 dodatkowo podał 600 ppi (zał. 1, rys. 313). 2 z 3

respondentów zaznaczyło 24-bitowy kolor, poza którym po 1 razie pojawiły się także

8-bitowa i 16-bitowa skala szarości (zał. 1, rys. 314), co wiązało się z korzystaniem

z wzorca Grey Gamma (2 z 4 respondentów) i sRGB (2) – zał. 1, rys. 315. Na 3

respondentów, wszyscy używają TIFF (w wersji jednostronicowej – zał. 1, rys. 317),

a 1 dodatkowo PDF z wewnętrzną bezstratną kompresją grafik (zał. 1, rys. 316).

3.21. Typy digitalizowanych dokumentów inne, niż wskazane wcześniej

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: brak

Jako uzupełnienie dla typów dokumentów opisanych w punktach 3.3 – 3.20, jedną

stronę ankiety przeznaczono na 5 typów dokumentów, które nie zostały ujęte wcześniej.

Niestety, mimo wyraźnego zaznaczenia w zaproszeniu do wzięcia udziału w badaniu, że

ankieta nie dotyczy dokumentów audio-wizualnych, na 21 stronie ankiety pojawiły się

wyłącznie dokumenty tego typu lub dokumenty, których nazwy nie wpisano (co było

równoznaczne z nieudzieleniem odpowiedzi). Ponieważ wartość tych odpowiedzi

z punktu widzenia celów badania była zerowa, postanowiono całkowicie je pominąć.

Page 127: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

127

3.22. Pliki archiwalne

Na podstawie danych zebranych w punktach 3.3 – 3.20 powstała charakterystyka

stosowanych w polskich bibliotekach formatów służących do przechowywania plików

archiwalnych wraz z podziałem na typy dokumentów, więc celem serii pytań zawartych

w podpunktach 3.22.1 – 3.22.10 było określenie sposobów postępowania

z wygenerowanymi plikami archiwalnymi, z naciskiem na ich przechowywanie

i obróbkę.

3.22.1. Jak postępują Państwo z plikami uzyskanymi w trakcie skanowania /

fotografowania?

Rodzaj pytania: pytanie jednokrotnego wyboru

Liczba respondentów: 51

47 (92%) respondentów zadeklarowało, że wszystkie pliki archiwalne objęte są

polityką długotrwałego przechowywania, 2 – że pliki archiwalne, po stworzeniu na ich

podstawie wersji prezentacyjnych, są kasowane i 2 – że stosowany jest inny model

postępowania (zał. 1, rys. 318). Tylko w jednym z tych dwóch przypadków opisano

wspomniany inny model postępowania: „kopia na nośniku optycznym oraz na serwerze

backupu (po wyczerpaniu miejsca na dyskach, jeśli w budżecie nie będzie możliwości

rozbudowy, pozostanie okresowo kontrolowana kopia na nośnikach optycznych)”.

Trudno nie oprzeć się wrażeniu, że – pomimo zadeklarowania tego modelu jako nie

mieszczącego się w zakresie wyznaczonym przez dwie wcześniej przytoczone

predefiniowane wartości – model ten jednak mieści się w polityce długotrwałego

przechowywania, ponieważ wyeliminowanie redundantnego elementu LTP nie sprawia,

że całość LTP automatycznie przestaje mieć miejsce.

Stosowanie polityki długotrwałego przechowywania masterów wydaje się

logicznym następstwem digitalizacji, jednak 2 respondentów zaznaczyło, że

digitalizacja służy wyłącznie wytworzeniu plików prezentacyjnych, tym samym

pozbawiona jest całej swojej sfery archiwistycznej. I chociaż nasuwa się pytanie, czym

może być podyktowany taki model postępowania, trudno znaleźć jakąś sensowną

odpowiedź, tym bardziej, że argument wysokich kosztów LTP w świetle obecnych cen

nośników optycznych wydaje się być już tylko mitem. Przechowywanie cyfrowych

matryc chociażby z czysto praktycznego punktu widzenia jest przede wszystkim

wygodne, gdyż ułatwia wszelkie przyszłościowe konwersje i eliminuje potencjalne

ponowne angażowanie dokumentów oryginalnych.

Page 128: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

128

3.22.2. Proszę wybrać stosowaną politykę długotrwałego przechowywania plików

Rodzaj pytania: pytanie jednokrotnego wyboru

Liczba respondentów: 49

Najwięcej, bo 46 (94%) respondentów samodzielnie przechowuje mastery,

z częściowego outsourcingu korzysta 2, a 1 zdecydował się na całościowy outsourcing

(zał. 1, rys. 319). Sytuacja ta w ciągu najbliższych lat najprawdopodobniej ulegnie

radykalnej zmianie w związku z wymogami Wieloletniego Programu Rządowego

Kultura +, który na swoich beneficjentów nakłada obowiązek „przekazania do

podmiotów wskazanych przez Operatora egzemplarza kopii wzorcowej

zdigitalizowanych obiektów (…) przy użyciu nośników magnetycznych (tj. dyski

twarde lub taśmy magnetyczne)”12

. Zatem udział modelu samodzielnego LTP zostanie

zmniejszony kosztem jednego z dwóch pozostałych modeli, co na pewno należy

traktować jako pozytywne zjawisko. Niemal zawsze samodzielne przechowywanie

masterów wiąże się z trzymaniem ich w budynku biblioteki, nawet jeśli prowadzona jest

celowa redundancja kopii rozmieszczonych w różnych częściach tego budynku.

Najbezpieczniejszy model LTP zakłada przynajmniej 2 odległe od siebie miejsca

przechowywania kopii, co w tym przypadku będzie szczególnie ułatwione.

Jeszcze kilka lat temu firmy będące potentatami na rynku krajowej digitalizacji

energicznie przygotowywały ofertę odpłatnego przechowywania masterów (co niosło za

sobą bardzo zaawansowane technologicznie zabezpieczenia), ale najwyraźniej polskie

biblioteki wciąż nie są gotowe na model opierający się na outsourcingu. Powód jest

prozaiczny – zakup nawet sporej ilości dysków optycznych (na ogół dokonywany ad-

hoc) jest bez porównania tańszy od stałej opłaty za hostowanie plików matrycowych.

3.22.3. Proszę wskazać stosowane typy nośników, na których docelowo

przechowywane są pliki

Rodzaj pytania: pytanie wielokrotnego wyboru

Liczba respondentów: 48

W treści pytania celowo zaznaczono, że chodzi o „docelowe” przechowywanie,

żeby wykluczyć możliwe wątpliwości respondentów, ponieważ w trakcie digitalizacji

twarde dyski / macierze dyskowe zawsze są pierwotnym miejscem zapisu. Wśród

predefiniowanych wartości umieszczono nie tylko najczęściej spotykane rozwiązania,

12

Regulamin Programu Wieloletniego KULTURA+: Priorytet „Digitalizacja” [dokument

elektroniczny]. Tryb dostępu:

http://www.nina.gov.pl/files/Regulamin_WPR_Kultura_Priorytet_Digitalizacja.pdf

[dostęp: 8.03.2011 r.].

Page 129: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

129

ale też te stosunkowo rzadkie, opisywane na ogół przez specjalistów. Nie było żadnym

zaskoczeniem, że najpopularniejszym sposobem archiwizowania masterów wciąż

okazuje się wypalanie ich na dyskach optycznych (30 respondentów), przechowywanie

na luźnych dyskach twardych (19) lub w macierzach dyskowych (16). W dalszej

kolejności stosuje się NAS (czyli systemy dysków twardych podłączane bezpośrednio

do sieci logicznej)13

i nośniki taśmowe (6), dyski magnetooptyczne obsługiwane przez

zmieniarkę (1) oraz 3 rozwiązania nie uwzględnione podczas konstruowania ankiety,

z czego w 2 przypadkach opisano je jako stosowanie nośników Blu-ray (zał. 1,

rys. 320). Należy tu nadmienić, że Blu-ray, pomimo dużej pojemności i stosunkowo

młodej technologii, są dyskami optycznymi, więc można je było zaliczyć do bardziej

odpowiedniej kategorii.

Dominacja dysków optycznych nie dziwi – są niedrogie i nawet te specjalistyczne

bardzo wysokiej jakości nie przekraczają kilku złotych za sztukę. Do niedawna ceny

dysków twardych również były na tak niskim poziomie (w przeliczeniu na zł za 1 GB),

że niejednokrotnie bardziej opłacało się kupić jeden duży dysk twardy zamiast wielu

optycznych. Wskutek katastrofy naturalnej w Tajlandii, która miała miejsce

w październiku 2011 r., uległy zniszczeniu fabryki największych światowych

dostawców dysków twardych14

, co spowodowało, że z dnia na dzień ich ceny uległy

nawet podwojeniu. Okazało się wtedy, że mimo tak zaporowych cen, popyt zmalał

tylko nieznacznie, więc nie przewiduje się powrotu poziomu cen sprzed katastrofy, co z

kolei w dalszej perspektywie może sprawić, że pojedyncze dyski twarde nie będą już

tak chętnie wykorzystywane w archiwizacji masterów.

Macierze dyskowe są optymalnym rozwiązaniem przy wszelkich

zaawansowanych systemach archiwizacji – są elastyczne i zdecydowanie lepiej chronią

dane niż wcześniej omawiane popularniejsze rozwiązania. Ich największymi wadami są

cena i – w przypadku rozbudowy – dostęp do modeli dysków identycznych z już

posiadanymi. Na zastanawiającą ciekawostkę zakrawa fakt, że pomimo dużej liczby

respondentów korzystających z macierzy (16), we wszystkich przypadkach nie było to

rozwiązanie autonomiczne, lecz zawsze połączone z innymi – najczęściej

z pojedynczymi dyskami optycznymi.

13

Network Attached Storage. [W:] Wikipedia [on-line]. Tryb dostępu:

http://pl.wikipedia.org/wiki/Network_Attached_Storage [dostęp: 9.05.2011 r.].

14 Powódź winduje ceny. W Polsce drożeją dyski twarde. [W:] wyborcza.biz [on-line]. Tryb dostępu:

http://wyborcza.biz/biznes/1,100896,10537080,Powodz_winduje_ceny__W_Polsce_drozeja_dyski_

twarde.html [dostęp: 26.10.2011 r.].

Page 130: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

130

Typowe rozwiązania NAS (które należy odróżnić od kompleksowych macierzy

NAS, zaliczanych podczas badania do macierzy dyskowych) są stosunkowo drogie,

nieelastyczne i na ogół kojarzone raczej z multimedialnymi zastosowaniami.

Rozwiązania taśmowe z kolei, poza wysokimi cenami urządzeń i samych nośników, są

problematyczne w obsłudze. Wszelkiego typu systemy zmieniarek do dysków

optycznych lub magnetooptycznych to rozwiązania bardzo kosztowne, które –

zestawione z alternatywnym darmowym „ręcznym” podawaniem nośników – na ogół

nie są nawet brane pod uwagę.

3.22.4. Korekta plików archiwalnych

Rodzaj pytania: pytanie jednokrotnego

wyboru Liczba respondentów: 51

Było to pierwsze z pytań, które skupiły się na postępowaniu z masterami,

a konkretnie na ich korygowaniu. Brak ingerencji w plik matrycowy powstały

bezpośrednio w efekcie zeskanowania / sfotografowania dokumentu zadeklarowało

30 respondentów (zał. 1, rys. 321). Jest to sposób postępowania zalecany przez

specjalistów, ponieważ pozwala uniknąć negatywnych skutków źle przeprowadzonej

korekty, czy to związanych ze źle skalibrowanym sprzętem, czy też z tzw. „czynnikiem

ludzkim”.

Jedenastu respondentów zamiast modyfikować mastery, ogranicza się wyłącznie

do korygowania ich kopii, co ma na celu polepszenie jakości obrazu w docelowych

plikach prezentacyjnych. Rzadko udaje się zeskanować dokument w taki sposób, żeby

nie wymagał korekty przekoszenia albo drobnych czynności mających uwypuklić

jasność, kontrast, nasycenie itp. Najrozsądniejszym kompromisem wydaje się wtedy

pozostawienie matryc w takiej postaci, w jakiej je pierwotnie wygenerowano

i dokonanie wszelkich zmian właśnie na ich kopiach.

Dziesięciu respondentów wybrało bezpośrednie korygowanie źródłowych plików

matrycowych, co ma tę zaletę, że w przypadku ponownej konwersji do innego formatu

nie trzeba będzie zaczynać od powtórnego skorygowania konwertowanych skanów. Jest

to zaleta i oszczędność czasu, ale tylko wtedy, kiedy faktycznie jakość obrazu

zawartego na skanie uległa obiektywnej poprawie. Pozostaje jeszcze kwestia

przeprowadzonych czynności, gdyż niektóre są na tyle inwazyjne, że bardzo głęboko

ingerują w strukturę całego obrazu, zmuszając oprogramowanie graficzne do

przeliczenia wartości każdego piksela, niejednokrotnie z pomocą mechanizmu

interpolacji. Wtedy nawet jeśli jakość odwzorowanego obrazu lepiej się prezentuje, to

Page 131: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

131

zachodzi ryzyko, że w trakcie korekty mogły ulec zniszczeniu lub zniekształceniu jakieś

istotne detale.

3.22.5. Sposób postepowania ze skorygowanymi kopiami

Rodzaj pytania: pytanie jednokrotnego wyboru

Liczba respondentów: 11

W przypadku korzystania z modelu zakładającego korygowanie wyłącznie kopii

masterów, powstaje pytanie, co następnie dzieje się z tymi skorygowanymi kopiami.

Siedmiu z 11 respondentów obejmuje je – podobnie jak same mastery – programem

LTP (zał. 1, rys. 322). Dzięki temu w przyszłości zapewniony będzie łatwy dostęp

zarówno do pierwotnego pliku, jak i jego poprawionej wersji, co wydaje się

optymalnym, chociaż zasobożernym rozwiązaniem.

Trzech respondentów po wykonaniu docelowej konwersji usuwa skorygowane

kopie, a w 1 przypadku stosowany jest inny model, przez respondenta nazwany

„modelem mieszanym”, w którym zapewne decyzja o kasowaniu lub archiwizowaniu

skorygowanych kopii podyktowana jest dodatkowymi czynnikami.

3.22.6. Sposób przeprowadzania korekty

Rodzaj pytania: pytanie jednokrotnego wyboru

Liczba respondentów: 21

Celem tego pytania było uzyskanie informacji w zakresie stopnia

zautomatyzowania procesu korekty skanów w polskich bibliotekach. Okazuje się, że 12

respondentów bazuje na ręcznym modyfikowaniu skanów. Takie indywidualne

podejście jest czasochłonne i mało efektywne, ale pozwala optymalnie skorygować

każdy plik. 8 respondentów wybrało opcję trybu mieszanego, czyli korekty ręcznej

połączonej w pewnych warunkach z wsadową. Tyko w 1 przypadku zaznaczono

całkowite poleganie na korekcie wsadowej, co jest wielce ryzykownym modelem,

chociaż pozwalającym wyeliminować najczęstsze „wąskie gardło” digitalizacji, czyli

długotrwałość ręcznego poprawiania plików (zał. 1, rys. 323).

3.22.7. Czynności wykonywane w trakcie korekty

Rodzaj pytania: pytanie wielokrotnego wyboru

Liczba respondentów: 21

Wykaz najpopularniejszych przekształceń, którym mogą ulegać mastery,

umieszczono

Page 132: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

132

w punktach 12.4.2.1-12.4.2.3 Digitalizacji piśmiennictwa15

. Przy konstruowania ankiety

wzięto częściowo pod uwagę podział przekształceń tam zawarty (w zakresie

przekształceń bezstratnych) i na tej podstawie zdefiniowano wartości przedstawione

respondentom do wyboru.

Wśród przekształceń bezstratnych, najpopularniejszym zabiegiem jest kadrowanie

– stosują je wszyscy respondenci (zał. 1, rys. 324). Następne w kolejności są korekcja

kolorów – 13 respondentów i obrót o kąt będący wielokrotnością 90° – 10.

Najpopularniejszą inwazyjną czynnością podczas korygowania jest obrót

o dowolny kąt (korekta przekoszenia) – 18 respondentów. Podczas „obracania” grafiki

algorytmy nadają nową wartość praktycznie każdemu pikselowi, co prowadzi do

bezpowrotnej utraty pewnych informacji zawartych w oryginale. Pozostałe zaznaczane

czynności to: korekcja jasności i kontrastu (14), ostrości – co najmniej tak radykalna dla

obrazu, jak korekta przekoszenia (11), nasycenia (10), eliminacja artefaktów

i zniekształceń (9), zmiana wymiarów obrazów (8), zmiana rozdzielczości (6), zmiana

głębi bitowej koloru oraz – w 1 przypadku – dodatkowe czynności nie ujęte

w predefiniowanych odpowiedziach. Niestety, respondent nie określił, jakie to

czynności.

Gdy spojrzy się na ilość bardzo istotnych przekształceń, którym poddawane są

mastery, tym bardziej doniosły wydaje się postulat ich nienaruszalności i pracy na

kopiach. Algorytmy czołowych programów graficznych ulegają ciągłej ewolucji i stają

się coraz doskonalsze. Czynność, która obecnie zniekształca korygowany obraz

(polepszając jego walory wizualne), w przyszłości może przynieść zamierzony efekt

przy jednoczesnym znacznym zminimalizowaniu inwazyjności w informacje

zakodowane w tym obrazie.

3.22.8. Oprogramowanie stosowane do korekty skanów

Rodzaj pytania: pytanie wielokrotnego wyboru

Liczba respondentów: 21

Pytanie o stosowane oprogramowanie jest o tyle istotne, że praktycznie każdy

program dysponuje innymi algorytmami na wykonywanie podobnych czynności. Może

to prowadzić do sytuacji, gdzie taka sama korekta tego samego pliku zastosowana

z takimi samymi parametrami, w rezultacie da różniące się jakościowo wyniki.

Przeprowadzając analizę porównawczą jakości algorytmów w najpopularniejszych

15

Digitalizacja…, op. cit., s. 123-126.

Page 133: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

133

programach graficznych stosowanych w bibliotekach, możemy uzyskać informację

o orientacyjnej jakości wynikowych plików.

Najczęściej używanym przez respondentów oprogramowaniem służącym do

korygowania skanów jest Adobe Photoshop – 10 respondentów (zał. 1, rys. 325). Jest to

najbardziej zaawansowany program graficzny znajdujący się na rynku, którego

możliwości wykraczają daleko poza podstawowe poprawianie obrazów. Niestety, jest to

okupione bardzo wysokimi kosztami. W dalszej kolejności zaznaczano

oprogramowanie dostarczone przez producenta skanera / aparatu oraz program nie

występujący na predefiniowanej liście (9). O programach spoza listy mowa będzie w

następnym akapicie. Po 6 respondentów zaznaczyło GIMP i IrfanView, 5 – Corel

Photo-Paint, 2 – Corel Paint Shop Pro i 1 – Adobe Photoshop Elemenents.

Respondenci wśród programów nie ujętych w ankiecie podawali XnView (5),

FastStone Image Viewer (2), FastStone Image Resizer, Picasa, Paint .NET i...

DocumentExpress Editor (1). W przypadku ostatniego programu zapisanie go w poczet

programów graficznych jest o tyle niefortunne, że nie zezwala on na manipulowanie

właściwościami grafiki, lecz co najwyżej na manipulowanie sposobami jej konwersji do

formatu DjVu.

3.23. Pliki prezentacyjne

Rodzaj pytania: wielokrotnego wyboru

Liczba respondentów: 50

Pliki prezentacyjne determinują formę, w jakiej użytkownik ma kontakt ze

zdigitalizowanym dokumentem. Ich rola może nie jest tak fundamentalna jak masterów,

ale trudno oprzeć się wrażeniu, że mimo wszystko są deprecjowane. Rozmaite

standardy, zalecenia i normy skupiają się głównie na formatach służących do LTP,

a tymczasem to właśnie prawidłowe generowanie i konwersja do formatów

prezentacyjnych jest wyznacznikiem jakości obcowania użytkownika z cyfrowymi

obiektami i – chociaż wielu specjalistom trudno to zaakceptować – w szerszej

perspektywie z punktu widzenia użytkownika ma większe znaczenie. Dlaczego więc

wciąż tak mało się o nich mówi i pisze? Na to pytanie niniejsza praca nie odpowie.

Odpowie za to na kilka innych, które być może pomogą w nakreśleniu modelu

korzystania przez polskie biblioteki z możliwości oferowanych przez pliki

prezentacyjne.

Nie jest tajemnicą, że w polskich bibliotekach cyfrowych króluje format DjVu (40

z 50 respondentów), w dalszej kolejności PDF (26), JPEG (14), PNG (2) i JPEG 2000

Page 134: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

134

(1) – zał. 1, rys. 326. 3 respondentów zaznaczyło format inny niż podany na liście, ale

w polu przeznaczonym na jego nazwę wpisano wyłącznie formaty przeznaczone do

zapisu materiałów audio-wizualnych (tzn. MP3, FLV, WMV), w związku z czym

podczas dalszych rozważań nie wzięto ich pod uwagę. W kolejnych podpunktach

przybliżone zostaną szczegółowe parametry generowania formatów prezentacyjnych,

które rzucą światło na ich potencjalną jakość i stopień „przyjazności” dla

użytkowników.

3.23.1. DjVu

DjVu jest jednym z dwóch najpopularniejszych formatów hybrydowych (drugim

jest PDF). Mimo oszałamiającej kariery, jaką ze względu na swoje unikalne

właściwości16

zrobił w polskich bibliotekach cyfrowych, wciąż poza Polską jest

formatem dość egzotycznym. W efekcie nie jest wspierany przez najpopularniejsze

czytniki e-booków17

, a rynek oprogramowania do jego generowania i edycji ogranicza

się w zasadzie do produktów właściciela formatu, czyli obecnie firmy Caminova.

Najczęściej wykorzystywanym programem do obsługi formatu jest

DocumentExpress Professional (15 z 34 respondentów), dalsze pozycje zajmują

DocumentExpress Enterprise (9), DjVu Libre (8), DocumentExpress Desktop

i PDF2DjVu (4) oraz inne oprogramowanie (3), gdzie w 2 przypadkach był to DjVu

Solo, a w 1… DocumentExpress Editor (zał. 1, rys. 327). Popularność DE Professional

wynika zarówno z tego, że jest to jedyny „kompletny” pakiet do obsługi DjVu, jak

i z tego, że jest sprzedawany w komplecie z wersją Enterprise. Enterprise to wersja

nastawiona na bardzo duże projekty (dlatego kosztuje ok. 20 razy drożej niż

Professional), ponieważ jej siła tkwi w obsłudze zadań wsadowych i „gorących

folderów”, a także możliwości jej indywidualnego oprogramowania w celu dalszej

automatyzacji procesu konwersji. Największą wadą wszystkich wersji

DocumentExpress jest wbudowany moduł OCR, którego działanie pozostawia wiele do

życzenia, a efektów tego działania nie da się korygować. Wyłącznie Enterprise pozwala

na skorzystanie z zewnętrznego oprogramowania OCR, a i to w sposób wielce

niewygodny18

.

16

A. Trembowiecki: Digitalizacja…, op. cit., s. 74-80.

17 Comparison of e-book readers. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Comparison_of_e-book_readers [dostęp: 11.02.2012 r.].

18 A. Trembowiecki: Polskie biblioteki cyfrowe A.D. 2010: kształtowanie paradygmatu. W: Cyfrowy

świat dokumentu: wydawnictwa, biblioteki, muzea, archiwa. Pod red. H. Hollendra. Warszawa:

Centrum Promocji Informatyki Sp. z o.o., 2011, s. 28-29.

Page 135: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

135

DE Desktop to „odchudzona” (a tym samym tańsza) wersja Professional,

pozbawiona m.in. opcji OCR. DjVu Libre jest bezpłatnym, wzorowanym na

funkcjonalności DE Enterprise, zestawem bibliotek i programów. Żeby w pełni

wykorzystać możliwości tego pakietu, należy samemu napisać odpowiednią aplikację,

lub obsługiwać go z wiersza poleceń np. za pomocą plików wsadowych. Największą

wadą DjVu Libre jest całkowity brak mechanizmu OCR dla konwertowanych map

bitowych. PDF2DjVu jest darmowym programem stworzonym na bazie DjVu Libre

i – jak sama nazwa wskazuje – służy do konwersji plików PDF do DjVu, wraz

z zachowaniem niewidzialnej warstwy tekstowej oryginału. Jest on bardzo przydatny,

gdyż w kombinacji z popularnym programem do OCR (ABBYY FineReader) pozwala

otrzymywać dokumenty DjVu z wysokiej jakości OCRem, co niejednokrotnie eliminuje

konieczność posiadania zaporowo drogiego DE Enterprise. Twórcy PDF2DjVu wciąż

rozwijają ten program, ponieważ posiada on jeszcze wiele błędów (np. w niektórych

przypadkach nieprawidłowo rozpoznaje polskie znaki diakrytyczne).

DjVu Solo to chronologicznie najstarszy generator DjVu firmy LizardTech

(wcześniejszego właściciela formatu DjVu), który obecnie już nie jest oficjalnie

dystrybuowany i co najwyżej znaleźć go można w rozmaitych serwisach hostujących

oprogramowanie. Jego funkcje ograniczone są do absolutnego minimum, ale jest za to

darmowy.

Pytanie o stosowany profil konwersji miało na celu przybliżenie dominującego

charakteru plików DjVu. Najwięcej, bo 20 z 34 respondentów korzysta z profilu

„normal”, który jest domyślnie ustawiony w programach DocumentExpress Desktop

i Professional (zał. 1, rys. 328). W zupełności wystarcza do większości zastosowań,

sprawnie rozdzielając wierzchnią wektorową warstwę od bitmapowego tła. W 17

przypadkach stosowany jest profil „photo”, który nie tworzy warstwy wektorowej, ale

za to bardzo dokładnie kompresuje całą konwertowaną bitmapę algorytmem zbliżonym

do JPEG 2000. Dzięki operacjom na warstwach możliwym w DE Enterprise i DjVu

Libre, można ten profil wzbogacić dodatkowo o niewidzialną warstwę tekstowa, dzięki

czemu powstaje plik prezentacyjny bardzo wysokiej jakości z przeszukiwalnym

tekstem. W dalszej kolejności wymieniano profil samodzielnie stworzony (9),

„electronic” (5), „manuscript” (4), „bitonal” i „drawing” (2), oraz „map” (1).

7 respondentów nie potrafiło odpowiedzieć, który profil jest stosowany.

W przypadku przeciętnej rozdzielczości przyjętej dla DjVu, 21 z 23 respondentów

zostaje przy domyślnych 300 ppi, a pojedyncze odpowiedzi obejmują także 150, 200

i 600 ppi (zał. 1, rys. 329). Gdy chodzi o podawanie rozdzielczości DjVu, niemal

Page 136: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

136

zawsze jest mowa o rozdzielczości wydzielonej warstwy tekstowej. Stąd powszechnie

panujące „marketingowe” przekonanie, że im wyższa rozdzielczość dokumentu

źródłowego, tym bardziej wielkość pliku DjVu może ulec zmniejszeniu, co w pewnych

warunkach może rzeczywiście być zgodne z rzeczywistością. Należy mieć jednak na

uwadze, że format DjVu to także tło, którego rozdzielczość np. w przypadku profilu

„normal” równa jest 1/3 rozdzielczości warstwy tekstowej. Żeby jednak zbytnio nie

komplikować i tak już bardzo rozbudowanej ankiety, poprzestano wyłącznie na

najbardziej rozpowszechnionym znaczeniu rozdzielczości dla DjVu.

Kolejną kwestią, na którą należy zwrócić uwagę jest fakt, że o ile w przypadku

profilu „normal” domyślna wielkość 300 ppi nie robi wrażenia, o tyle w profilu

„photo”, gdzie występuje tylko jedna warstwa, 300 ppi to naprawdę sporo.

Następne pytanie koncentrowało się na wewnętrznej strukturze plików DjVu, tzn.

wzbogacaniu ich o systemy zakładek pozwalających wygodniej poruszać się po treści

wielostronicowych publikacji. Okazuje się, że na 35 respondentów, 22 w ogóle nie

stosuje tego typu „wartości dodanej” (zał. 1, rys. 330). Powodem może być

nieintuicyjny i niewygodny sposób edycji zakładek w plikach DjVu (mowa

o oprogramowaniu firmy Caminova) lub po prostu używanie formatu DjVu głównie

w przypadku niewielkich objętościowo dokumentów (np. gazet), które zakładek nie

potrzebują. Jeszcze innym powodem może być brak czasu na takie szczegółowe

pochylanie się nad każdym dokumentem w sytuacji, gdy biblioteka wytwarza ich wiele

tysięcy.

11 respondentów zaznaczyło, że dodaje systemy zakładek, ale tylko w niektórych

przypadkach, natomiast 2 zadeklarowało, że zakładki są tworzone we wszystkich

plikach DjVu.

Kwestią wspólną dla wszystkich analizowanych formatów prezentacyjnych jest

ich sposób ochrony. Biblioteki z różnych względów decydują się na ograniczenie

wtórnego „obrotu” zdigitalizowanymi dokumentami, ew. odgórne zdefiniowanie

katalogu czynności, których użytkownik nie będzie mógł wykonać z danym plikiem.

Potencjalny zestaw zabezpieczeń jest inny dla niemal każdego formatu. W przypadku

DjVu 24 z 30 respondentów w ogóle nie zabezpiecza plików, 3 zaznaczyło

zabezpieczanie znakiem wodnym, a 4 – zabezpieczanie w inny sposób, z czego

wymieniono: „zabezpieczenie hasłem”, „dystrybucję WWW” i „archiwizowanie”

(zał. 1, rys. 331). Pomijając 2 ostatnie sposoby, które trudno sensownie zinterpretować,

powstaje pytanie o ideę zabezpieczania plików DjVu hasłami. Po co digitalizować

dokumenty i umieszczać je on-line, gdy nie można ich otworzyć bez podania hasła?

Page 137: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

137

Najprawdopodobniej były ku temu jakieś racjonale powody, niestety respondent ich nie

uwzględnił w swojej odpowiedzi.

Szalenie ważną sprawą związaną nie tylko z formatem DjVu, ale z digitalizacją

w ogóle, jest OCR. Od jakości rozpoznania tekstu niejednokrotnie zależy w ogóle

możliwość wyszukania danego dokumentu. Uwaga ta jest szczególnie doniosła

w przypadku gazet, dla których nawet najlepszy i najbardziej szczegółowy opis

bibliograficzny jest z punktu widzenia czytelnika nieprzydatny. 18 z 35 respondentów

wzbogaca pliki DjVu o OCR za pomocą mechanizmu wbudowanego

w DocumentExpress, 7 w ogóle nie dodaje warstwy OCR, 7 innych stosuje w tym celu

bardziej wyrafinowany silnik autorstwa innej firmy, a 3 korzysta z modelu mieszanego,

tzn. modułu OCR oferowanego przez DocumentExpress oraz – w zależności od

konkretnego dokumentu / grupy dokumentów – programu do OCR innej firmy (zał. 1,

rys. 332). Jak już wspomniano – mechanizm OCR wbudowany w DocumentExpress

jest bardzo niedokładny, ale z prostymi dokumentami radzi sobie całkiem dobrze.

W przypadku układów wielokolumnowych korzystanie z niego całkowicie traci sens,

gdyż na ogół zwraca przypadkowe ciągi znaków. Wykorzystanie bardziej

zaawansowanego programu zewnętrznego wymaga albo posiadania DE Enterprise, albo

DjVu Libre / PDF2DjVu (oraz dużej ilości czasu i cierpliwości).

Gdy respondent wybrał jeden z modeli uwzględniających poddawanie OCRowi

plików DjVu, pojawiało się pytanie o posiadanie w swoich repozytoriach plików DjVu

nie poddanych OCRowi (czyli np. utworzonych w przeszłości, gdy format DjVu nie

umożliwiał jeszcze generowania warstwy OCR). Na 26 respondentów połowa takie

pliki wciąż posiada (zał. 1, rys. 333), więc kolejne pytanie dotyczyło procentu takich

nierozpoznanych plików w stosunku do ogółu posiadanych plików DjVu. U większości

respondentów (5) stanowią one do 10% wszystkich plików, 2 respondentów zaznaczyło

przedział 11-25%, a po 3 – 26-50% i 51-75%, (zał. 1, rys. 334). Ostatnie pytanie

odnośnie nierozpoznanej części plików dotyczyło ewentualnych szans poddania ich

OCRowi w przyszłości. 7 z 13 respondentów nie potrafiło jednoznacznie odpowiedzieć,

4 zadeklarowało wzbogacenie ich o warstwę OCR, a 2 wykluczyło wracanie do tych

plików (zał. 1, rys. 335).

Page 138: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

138

3.23.2. PDF

PDF mimo, że starszy od DjVu, wciąż jest bardzo popularny – a poza granicami

Polski na pewno zdecydowanie popularniejszy od swojego konkurenta. Wspierają go

czytniki e-booków, a od niedawna wtyczkę służącą do jego obsługi zaczęto integrować

z nowymi przeglądarki internetowymi, dzięki czemu jest w niezbędnym zakresie

obsługiwany przez cienkiego klienta (w czym DjVu nie może się z nim równać, gdyż

wciąż wymaga ręcznego zainstalowania odpowiedniej aplikacji). Chociaż

z dokumentami born-digital radzi sobie lepiej niż DjVu, w przypadku map bitowych

ustępuje pola rywalowi, co jest bezpośrednim powodem dominacji DjVu w polskich

bibliotekach cyfrowych. Mimo wszystko wciąż jest stosowany w digitalizacji i nic nie

zapowiada, żeby miało to się kiedykolwiek zmienić.

Pierwsze pytanie dotyczyło oprogramowania, za pomocą którego pliki są

generowane i edytowane. W tym miejscu miała miejsce spora niespodzianka, ponieważ

najwięcej respondentów (11 z 25) używa do tego celu ABBYY FineReader, czyli

zaawansowanego programu OCR, a nie jednego z produktów właściciela formatu, firmy

Adobe (zał. 1, rys. 336). Pojawiły się one dopiero w dalszej kolejności; 10

respondentów korzysta z Adobe Acrobat Standard, 7 – z Adobe Acrobat Pro, a 6

z innego programu. Wśród wspomnianych innych programów wymieniono 3: ABBYY

PDF Transformer, PDF Creator (czyli wirtualna drukarka wyłącznie generująca pliki

PDF, lecz nie dająca możliwości ich późniejszej edycji) oraz CorelDraw X4 (pakiet

graficzny, posiadający możliwość eksportu do formatu PDF, ale – podobnie jak PDF

Creator – nie obsługujący edycji wygenerowanych plików).

Odpowiednikami profili DjVu są typy plików PDF. Respondentom dano do

wyboru wszystkie popularne typy, lecz na 25 osób aż 24 zaznaczyły standardowy PDF,

2 dodatkowo PDF/A (odmianę archiwalną), a 1 nie wiedziała, który typ jest

generowany w jej bibliotece (zał. 1, rys. 337).

W przypadku PDF kwestia rozdzielczości nie jest tak złożona, jak przy DjVu –

jeśli zadeklarowano pewną wartość, to dotyczy ona wprost grafik osadzonych w

dokumencie. Dlatego też 300 ppi wykorzystywane przez 14 na 16 respondentów to

bardzo przyzwoity wynik, zapewniający wysoką jakość grafik (zał. 1, rys. 338). Inne

wartości, które podali pojedynczy respondenci to 144, 150, 200, 400 i 600 ppi.

Jeśli chodzi o wzbogacanie plików systemem zakładek, 11 z 23 respondentów ich

nie dodaje, 7 – robi to we wszystkich wygenerowanych plikach, a 5 – tylko

w niektórych (zał. 1, rys. 339).

Page 139: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

139

Kwestia zabezpieczeń PDF jest bardziej rozbudowana niż we wszystkich

pozostałych formatach razem wziętych. Na przestrzeni lat PDF ulegał rozmaitym

modyfikacjom i ulepszeniom, co zaowocowało bardzo prostymi w implementacji

mechanizmami zabezpieczeń, pozwalającymi szczegółowo decydować o sposobie,

w jaki użytkownik będzie korzystał z danego dokumentu. 17 z 26 respondentów

w ogóle nie używa zabezpieczeń, natomiast wśród bibliotek je stosujących

najpopularniejsze są: ochrona przed modyfikacją (9), ochrona przed drukowaniem

i kopiowaniem (4) oraz znak wodny (3). W 1 przypadku jako dodatkowy sposób

ochrony podano wewnętrzny mechanizm platformy dLibra, obsługującej większość

polskich bibliotek cyfrowych (zał. 1, rys. 340). I znowu – można zrozumieć biblioteki

chcące uchronić wytworzone przez siebie PDFy przed modyfikowaniem i dalszym

umieszczaniem ich w Internecie (być może w zmodyfikowanej formie), ale czym

umotywować wyłączenie możliwości wydruku? Przecież wielu użytkowników dłuższe

teksty czyta nie bezpośrednio z monitora, ale w formie tradycyjnej, po uprzednim ich

wydrukowaniu.

Podobnie jak w przypadku PDF, także i tutaj duży nacisk położono na

zagadnienia związane z OCRem. Okazuje się, że 10 z 25 bibliotek w ogóle nie stosuje

OCR, 8 robi to z zastosowaniem oprogramowania nie będącego produktem firmy

Adobe, 4 – za pomocą mechanizmu (wielce niedoskonałego) wbudowanego w Adobe

Acrobat, a 2 – wykorzystując model mieszany (Adobe Acrobat + oprogramowanie do

OCR) – zał. 1, rys. 341. Dziesięć z 16 bibliotek poddających pliki OCRowi posiada

w swoich repozytoriach pliki nie rozpoznane (zał. 1, rys. 342), które w 7 przypadkach

nie przekraczają 10% całych zasobów PDF, w 1 – jest ich 11-25%, a w 2 – powyżej

75%, co jest bardzo wysokim odsetkiem (zał. 1, rys. 343). Odnośnie rozpoznania tych

plików w przyszłości – 4 respondentów nie potrafiło udzielić odpowiedzi czy to nastąpi,

a po 3 zadeklarowało przeprowadzenie OCR i pozostawienie już istniejących plików

bez zmian (zał. 1, rys. 344). Do ciekawostek należy zaliczyć fakt, że wśród

respondentów planujących rozpoznać w przyszłości pliki PDF jest również ten, który

zaznaczył, że nierozpoznane pliki stanowią ponad 76% wszystkich zasobów PDF

znajdujących się w repozytorium jego biblioteki.

3.23.3. JPEG

Rola JPEG jako formatu prezentacyjnego na przestrzeni lat uległa radykalnej

zmianie. Początkowo używany był przy dowolnego typu dokumentach (czego

Page 140: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

140

najlepszym przykładem jest Polska Biblioteka Internetowa19

), by wraz z upływem czasu

wyspecjalizować się w dokumentach jednokartkowych o charakterze graficznym. Siła

JPEG polega na jego powszechności, elastyczności i niewielkich rozmiarach plików.

Może być wygenerowany za pomocą dowolnego programu graficznego (osobną kwestią

jest zróżnicowana jakość służących do tego algorytmów) i otwierany na dowolnym

cienkim kliencie.

JPEG występuje w dwóch podstawowych odmianach: stratnej oraz – mniej

popularnej – bezstratnej. 8 z 15 respondentów zaznaczyło stosowanie obu tych odmian

– w zależności od potrzeb, 5 wykorzystuje wyłącznie wersję stratną, a 2 – bezstratną

(zał. 1, rys. 345). Najczęściej wykorzystywaną rozdzielczością jest 300 ppi (połowa z 8

respondentów), co jest wysoką wartością biorąc pod uwagę fakt, że w przypadku grafik

umieszczanych na stronach internetowych dominującą rozdzielczością jest 72-96 ppi

(zał. 1, rys. 346). Pojedyncze przypadki obejmowały również 100, 150, 200 i 400 ppi.

Jedyne zabezpieczenie, jakie oferuje sam format, to osadzenie widocznego lub

niewidocznego znaku wodnego. 12 z 14 respondentów nie zabezpiecza JPEG, chociaż

część z nich w niektórych przypadkach decyduje się na widoczny znak wodny (4) –

zał. 1, rys. 347. W 1 przypadku respondent jako inny sposób zabezpieczenia podał

bardzo ciekawy mechanizm: „pojedyncza strona dzielona jest na fragmenty przesyłane

do przeglądarki w losowej kolejności”.

3.23.4. PNG

Format PNG, który z założenia miał być kompromisem między GIF a JPEG,

pomimo wielu lat funkcjonowania na rynku, wciąż nie osiągnął takiej popularności, na

jaką wydaje się zasługiwać. Z 2 osób, które stosują go przy udostępnianiu on-line, tylko

jedna odpowiedziała na pytanie o rozdzielczość i wpisała 150 ppi (zał. 1, rys. 348).

Obydwaj respondenci zabezpieczają pliki – jeden za pomocą widzialnego, a drugi

niewidzialnego znaku wodnego (zał. 1, rys. 349).

19

Polska Biblioteka Internetowa | Strona główna. [W:] Polska Biblioteka Internetowa [on-line]. Tryb

dostępu: http://www.pbi.edu.pl/index.html [dostęp: 25.02.2012 r.].

Page 141: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

141

3.24. Głęboka digitalizacja

Jeszcze kilka lat temu głęboka digitalizacja była zjawiskiem występującym

niezmiernie rzadko. Nastąpił prawdziwy boom na digitalizowanie wszystkiego, co się

tylko da i liczyła się przede wszystkim ilość, która zazwyczaj wiązała się z wartością

zadeklarowaną w danym projekcie o dofinansowanie. Z każdym dniem biblioteki

jednak zbliżają się do chwili, kiedy skończą się zbiory, które można i – przede

wszystkim – warto digitalizować. Co wtedy? Specjaliści twierdzą, że nastąpi era

przeniesienia punktu ciężkości na digitalizowanie materiałów audio-wizualnych

i przestrzennych. Lecz biorąc pod uwagę rozwój rynku książki i ewolucję nawyków

czytelniczych, istnieje duże prawdopodobieństwo, że kolejnym etapem (który nie

będzie oderwany od rzeczywistych potrzeb użytkowników) może okazać się głęboka

digitalizacja już zdigitalizowanych zbiorów.

W chwili obecnej obiekty cyfrowe zgromadzone w polskich bibliotekach

cyfrowych nie przedstawiają dla właścicieli czytników e-booków (których popularność

lawinowo rośnie) praktycznie żadnej wartości. Albo są zapisane w formacie DjVu, albo

w PDF, który służy za kontener dla skanów. W żadnym z tych przypadków nie da się w

sensowny sposób wykorzystać czytnika zbudowanego w oparciu o technologię E-Ink20

,

który przecież z założenia powinien do tego służyć. Jedynym sensownym wyjściem

z tej sytuacji jest pozyskanie warstwy tekstowej z już zdigitalizowanych dokumentów

(w głównej mierze chodzi tu o książki), poddanie jej redakcji, a następnie zapisanie

w możliwie dużej liczbie formatów przeznaczonych do czytania na urządzeniach

przenośnych. Czasy prostego zeskanowania i automatycznego rozpoznania

mechanizmem OCR bezpowrotnie mijają i należy już dziś mieć tego świadomość.

Z tych względów w ankiecie jedną stronę dedykowano sprawdzeniu, jak popularna jest

obecnie w Polsce głęboka digitalizacja.

Niszowość głębokiej digitalizacji w kraju potwierdzona została przez raptem 6 (na

50) respondentów, którzy ją stosują (zał. 1, rys. 350). W 4 z 5 przypadków procentowy

udział dokumentów poddanych głębokiej digitalizacji w stosunku do ogółu

zdigitalizowanych dokumentów nie przekroczył 10%, a w 1 zamknął się w przedziale

11-25% (zał. 1, rys. 351), co jest zaskakująco wysokim odsetkiem. Największą

wartością dokumentów utworzonych w wyniku głębokiej digitalizacji jest rozpoznany

i zredagowany tekst, więc oczywiście mastery w jej przypadku nie mogą mieć postaci

plików bitmapowych. Połowa z 4 respondentów jako podstawowy format archiwalny

20

E Ink. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/E_Ink

[dostęp: 5.04.2011 r.].

Page 142: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

142

wskazała DOC / DOCX, czyli format związany z program MS Word, który pozwala

przechowywać dowolne dane i świetnie sprawdza się jako platforma wyjściowa dla

rozmaitych konwersji (zał. 1, rys. 352). Pozostałe 2 przypadki objęły formaty

XML i TXT.

Kolejne pytanie dotyczyło generowanych formatów prezentacyjnych, gdzie wśród

5 respondentów po 3 razy zaznaczono PDF i DjVu (zał. 1, rys. 353), co tylko dowodzi,

że w przypadku born-digital, a taki charakter mają dokumenty poddane głębokiej

digitalizacji, PDF sprawdza się przynajmniej tak samo dobrze (o ile nie lepiej) niż

DjVu. Można wysnuć teorię, że przypadki zastosowania DjVu bardziej wiążą się tu

z przyjętą w danej bibliotece konwencją generowania głównie plików tego jednego

typu, niż jakimiś bardziej racjonalnymi przesłankami.

Ostatnie pytanie wiązało się z ułożeniem treści w docelowych plikach

prezentacyjnych. Jedno podejście zakłada wierne odtworzenie układu treści i elementów

graficznych tak, jak w oryginalnym dokumencie, drugie natomiast – bardziej liberalne –

oderwane jest od oryginału, ponieważ wygląd stron determinowany jest przez

właściwości urządzenia, na którym dokument jest otwarty. Okazuje się, że żadna z tych

opcji nie ma przewagi wśród 4 respondentów – głosy podzieliły się po połowie (zał. 1,

rys. 354).

3.25. Metadane

W nawiązaniu do punktu 1.4.3 niniejszej pracy, gdzie opisana została publikacja

Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego, postanowiono

sprawdzić, na ile metadane istotne są w praktyce digitalizacyjnej polskich bibliotek. Jak

już wspomniano, w publikacji tej metadane przedstawiono jako sprawę kluczową dla

utworzenia sprawnego, jednolitego ogólnokrajowego systemu cyfrowych repozytoriów.

Na podstawie 2 prostych pytań spróbowano ocenić świadomość istnienia różnego typu

metadanych i – być może – umiejętność ich efektywnego wykorzystania w bibliotekach.

3.25.1. Proszę wskazać sposób wypełniania metadanych EXIF

Rodzaj pytania: pytanie jednokrotnego wyboru

Liczba respondentów: 50

Pierwsze pytanie dotyczyło sposobu, w jaki wypełniane są metadane EXIF

(zaszytych w plikach zapisanych w formacie TIFF i JPEG). Sygnałem, że metadane

w przypadku bibliotecznej digitalizacji niekoniecznie są traktowane priorytetowo, jest

największy odsetek respondentów (19 osób), który nie potrafił na nie odpowiedzieć

Page 143: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

143

(zał. 1, rys. 355). Czternastu respondentów zaznaczyło, że zakres i wartości metadanych

są z góry definiowane, 13 – że metadane są fabrycznie zdefiniowane i w całości

automatycznie generowane przez system obsługujący skaner / aparat cyfrowy, a 4 – że

metadane są fabrycznie zdefiniowane i automatycznie generowane przez system

obsługujący skaner / aparat cyfrowy, a następnie automatycznie lub ręcznie

modyfikowane.

3.25.2. Czy korzystają Państwo z jednego (lub wielu) standardu metadanych

administracyjnych, technicznych lub strukturalnych przy tworzeniu

i zarządzaniu cyfrowymi obiektami (nie dotyczy EXIF)?

Rodzaj pytania: pytanie wielokrotnego wyboru

Liczba respondentów: 47

Ponownie największa grupa respondentów (25) nie potrafiła udzielić odpowiedzi

(zał. 1, rys. 356). 18 razy zadeklarowano, że metadane są generowane automatycznie,

a zarządzanie odbywa się na podstawie fizycznego lub logicznego umiejscowienia

plików archiwalnych, czyli w praktyce na podstawie wykazu nośników i zapisanych na

nich masterów. Tylko w nielicznych wypadkach zaznaczono korzystanie z metadanych

administracyjnych (3), technicznych (1) lub innych (2). Niestety, ani razu nie podano

nazwy używanego standardu, co najwyżej w przypadku „innego standardu” wpisano

„wewnętrzne ustalenia biblioteki”, co również niewiele mówi.

3.26. Zestawienie otrzymanych wyników z zaleceniami

Podstawowym celem niniejszej pracy było naszkicowanie aktualnego obrazu

najczęściej używanych w polskich bibliotekach parametrów stosowanych przy

digitalizacji rozmaitych zbiorów oraz porównanie tego obrazu z zaleceniami zawartymi

w Standardach (…). Zestawienie ma charakter tabeli (stanowiącej załącznik nr 2), gdzie

zalecenia skonfrontowano z wartościami modalnymi otrzymanymi w wyniku badania.

Wyniki podzielono na grupy zdefiniowane w Standardach (…) i przytoczone w punkcie

1.4.3. (tabela 421

).

Największy problem stanowiło zaliczenie pewnych rodzajów dokumentów do

konkretnych grup. Na potrzeby badania katalog rodzajów dokumentów został

rozszerzony w stosunku do tego umieszczonego w zaleceniach, więc należało w miarę

precyzyjnie je porozmieszczać. W tym momencie z całą mocą wypłynęła kwestia, która

nie rzucała się w oczy podczas wcześniejszej analizy zaleceń umieszczonych

21

Zob. s. 42.

Page 144: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

144

w Standardach (…). Jeśli omawia się możliwe typy dokumentów bibliotecznych

i parametry, które powinny towarzyszyć ich digitalizacji w oderwaniu od konkretnych

przypadków dokumentów, mogą umknąć aspekty bardziej zasadnicze niż dobór

odpowiedniej rozdzielczości i głębi koloru. W tym przypadku wadliwy okazuje się –

niestety – już sam podział na grupy i wszystkie konsekwencje, które z nim się wiążą.

Mankament ten najwyraźniej widać, gdy staramy się do właściwej grupy

przyporządkować dwa przykładowe rodzaje dokumentów: dokumenty urzędowe

z kolorowymi elementami graficznymi i kolorowe odbitki fotograficzne. Pierwszy

przypadek wymaga na pewno podstawowego wzorca i głębi koloru połączonego

z niewygórowaną rozdzielczością, drugi – najlepiej wzorca Adobe RGB 1998 (lub

lepszego), 48-bitowego koloru i minimum 300 ppi. W obydwu przypadkach mamy do

czynienia z kolorem, ale każdy z nich wymaga całkiem innego podejścia. Tymczasem

okazuje się, że w zaleceniach dla wszystkich kolorowych dokumentów (z pewnymi

wyjątkami) przewidziano tylko grupę F, gdzie proponowane parametry w zasadzie są

bardziej odpowiednie dla odbitek fotograficznych niż prostej poligrafii. Kolejną

poważną wadą zaleceń jest dedykowanie jednej grupy wyłącznie dla dokumentów

wielkoformatowych – niezależnie od rodzaju tych dokumentów. Czy naprawdę mapę

wielkoformatową czarno-białą i kolorową powinno się digitalizować z takimi samymi

ustawieniami? Zarówno zdrowy rozsądek, jak i praktyka przyjęta w bibliotekach

podpowiadają, że niekoniecznie. Niemniej, żeby nie wprowadzać drastycznych

przetasowań między grupami, pozostawiono wszystkie dokumenty wielkoformatowe

w grupie G.

Kłopoty sprawiły też dokumenty monochromatyczne, które przecież nie są

tożsame z czernią i bielą, a bardziej kojarzą się z sepią (co potwierdza przykładowy

wykaz dokumentów w grupie F). Tymczasem w ramach jednego zestawienia

monochromatyczność była traktowana niejednolicie, co utrudniło przydzielenie

dokumentów do odpowiednich grup. Założono więc, że monochromatyczność – nie

będąca ani czernią i bielą, ani skalą szarości (ponieważ posiadają one własne grupy) –

potraktowana zostanie jako kolor, stąd obecność dokumentów monochromatycznych

w grupie F.

Analiza zestawienia zaleceń z wynikami badania w przypadku grupy A na

pierwszy rzut oka może sprawiać druzgocące wrażenie, że polskie biblioteki nie wiedzą,

jak dobrać tak podstawowy parametr, jakim jest rozdzielczość. Problem jest jednak

bardziej skomplikowany – w zaleceniach proponowane parametry należy traktować

łącznie, czyli w przypadku grupy A zalecenie nie brzmi: „z dostępnych formatów

Page 145: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

145

najlepiej używać TIFF, rozdzielczość ustawić minimum na 400 ppi, a optymalny tryb

dla grupy A to 1 bit na piksel”. Należy je raczej odczytywać: „mastery powinny być

w najgorszym przypadku zapisywane w formacie TIFF przy jedoczesnej minimalnej

rozdzielczości 400 ppi ustawionej dla 1-bitowego trybu”. Różnica pozornie niewielka,

ale pozwala spojrzeć na zestawienia z innego punktu widzenia; biblioteki co prawda na

ogół nie stosują trybu 1-bitowego i 400 ppi (lub więcej), ale za to przyjęły w to miejsce

24-bitowy kolor, przy którym rozdzielczość 300 ppi jest wystarczająca (dla

dokumentów z grupy A).

Powstaje więc zasadnicze pytanie: czy digitalizowanie czarno-białych

dokumentów w kolorze jest postępowaniem wbrew zaleceniom, czy tylko przejawem

zastosowania parametrów jakościowo wyższych? Warto zwrócić uwagę, że jedyną

wartością nominalnie niższą od zalecanych jest rozdzielczość, której – jak wcześniej

wspomniano – nie można porównywać w przypadku 1-bitowego i 24-bitowego koloru.

Ponownie zdroworozsądkowe rozumowanie nakazuje przychylić się do drugiej

możliwości, co automatycznie determinuje wniosek, że w przypadku każdego rodzaju

dokumentów z grupy A stosowane w bibliotekach parametry zapewniają zdecydowanie

wyższą jakość masterów niż nawet zalecane w Standardach (…).

Przyczyn takiego stanu rzeczy można upatrywać w omawianych wcześniej

niskich cenach pamięci masowych, może w normalizacji parametrów digitalizacji

w ogóle, a może po prostu w większej świadomości, która przychodzi wraz

z doświadczeniem.

W przypadku grupy B, która skupia w sobie dokumenty nieco bardziej złożone

wizualnie, miejsce ma analogiczna sytuacja jak w grupie A – w zdecydowanej

większości bibliotek zamiast zalecanej skali szarości dominuje kolor. Tym razem

jednak nie ma wątpliwości co do rozdzielczości – we wszystkich rodzajach

dokumentów zadeklarowano co najmniej 300 ppi. Biorąc pod uwagę, że sugerowane

300 ppi w zaleceniach zestawione było ze skalą szarości, ponownie stosowane

rozwiązania przewyższyły wartości proponowane.

Grupa C zawiera dokumenty o charakterze stricte graficznym, z wyłączeniem ich

kolorowych (i monochromatycznych) rodzajów. Ponownie wartości modalne

przewyższyły zalecane, miejscami nawet bardzo znacznie (np. 600 ppi, sRGB i Adobe

RGB 1998 zamiast sugerowanych 400 ppi, 16-bitowej skali szarości i Grey Gamma).

Grupa D odnosi się do wąskiego zakresu dokumentów: negatywów i przezroczy.

Tym razem modalne nie do końca sprostały wartościom zalecanym. Obecność

bezstratnej wersji JPEG przy kolorowych negatywach i przezroczach (zamiast TIFF)

Page 146: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

146

można wytłumaczyć tym, że na pytanie o format zapisu odpowiedziało tylko 2

respondentów i każdy co prawda zaznaczył TIFF, ale 1 dodatkowo skazał także JPEG.

Trudno powiedzieć, który z tych formatów jest wiodący, lecz można zaryzykować

stwierdzenie, że w tym konkretnym przypadku warunek zgodności z zaleceniami jest

spełniony, gdyż każdy z respondentów używa TIFF. Przy głębi koloru ma miejsce

podobna sytuacja – dla negatywów i przezroczy monochromatycznych 1 respondent

podał tryb 1-bitowy. Niestety, ponownie wiąże się to z małą liczbą respondentów, która

ma tendencje promowania rozmaitych wartości granicznych. W trakcie omawiania

poszczególnych dokumentów wskazywano co bardziej jaskrawe anomalie, których

trudno uniknąć przy takiej liczbie badanych. Na ogół ginęły one jednak przy

modalnych, co wyjątkowo w tym wypadku nie miało miejsca.

O ile w zakresie formatu zapisu i głębi koloru można wytłumaczyć wartości

niższe od zalecanych, o tyle w przypadku wzorców koloru sprawa jest jasna – przy

żadnym z rodzajów negatywów i przezroczy nie osiągnięto nawet wymagań

minimalnych, które zakładały dla koloru wzorzec Adobe RGB 1998, podczas gdy

respondenci tradycyjnie bazują na sRGB.

Grupa E, mimo tego, że zawiera wyłącznie mikroformy, sprawiła najwięcej

problemów. Podczas opracowywania ankiety brano pod uwagę zrobienie wyjątku dla

mikroform i zastosowanie odmiennego, niż we wszystkich innych typach dokumentów,

schematu pytań o parametry. Zalecenia np. nie przewidują tu konkretnej rozdzielczości,

a jedynie odsyłają do rozdzielczości stosowanej dla utrwalonego typu dokumentu.

Podobnie problematyczny był dobór wzorca. Ostatecznie jednak podjęto decyzję o nie

wychodzeniu poza przyjęty schemat pytań, co przyniosło pozytywne rezultaty w postaci

konkretnych wartości, których jednak częściowo nie da się skonfrontować

z zaleceniami. Pozostałe modalne (format zapisu i głębia koloru) spełniają wymagania

Standardów (…).

W przypadku najliczniejszej grupy F skupiającej kolorowe typy dokumentów

(poza dokumentami wielkoformatowymi) trudno mówić o jakichś niespodziankach.

Najpopularniejsza w wynikach całego badania kombinacja formatu TIFF, 300 ppi,

24-bitowego koloru i wzorca sRGB także i tutaj zdominowała wszystkie modalne. Za

każdym razem deklarowano używanie zalecanego formatu TIFF w wersji

nieskompresowanej. We wszystkich wypadkach podano rozdzielczość minimum 300

ppi, czyli równą minimalnej, a w 4 nawet 600 ppi, czyli o 200 ppi więcej od zalecanej.

Głębia koloru również nie osiągnęła wartości gorszych niż minimalne. Dla porządku

należy dodać, że w 2 przypadkach oprócz 24-bitowego koloru stosowano także

Page 147: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

147

16-bitową skalę szarości – w obydwu przypadkach dotyczyło to dokumentów

monochromatycznych. W zakresie wzorca koloru tylko w 1 przypadku została

osiągnięta wartość minimalna, czyli Adobe RGB 1998, która dodatkowo wystąpiła

w przypadku dwumodalnym, razem z sRGB.

O wątpliwościach w przydzielaniu dokumentów do grupy G pisano już wcześniej.

Jest to jedyna grupa, w której czynnikiem decydującym był wyłącznie duży format.

Z tych względów znalazły się w niej dokumenty wielkoformatowe, niezależnie od ich

charakteru i rodzaju, co od samego początku budziło zastrzeżenia i nieuchronnie

prowadziło do powstania nieprawidłowości przy konfrontacji z zaleceniami.

Przy formacie zapisu wszystko było jasne – wszędzie występuje TIFF, a jedynie

w przypadku grafik monochromatycznych respondent zaznaczył stratną wersję JPEG

jako jedyny stosowany przez siebie format. Ponieważ na pytanie w tym konkretnym

przypadku odpowiedziało tylko 2 respondentów i drugi podał TIFF, siłą rzeczy stratny

JPEG wszedł do zestawienia jako część wartości dwumodalnej. Wyjątkowo zgodnie

wypadły wyniki porównania rozdzielczości – we wszystkich przypadkach modalna

równa była wartości minimalnej i zalecanej, czyli 300 ppi. Nieprawidłowości, które

wspomniano w poprzednim akapicie pojawiły się już przy okazji głębi koloru.

Z wspomnianych wcześniej względów w grupie znalazły się nie tylko kolorowe

dokumenty, więc pomimo minimalnej wartości równej 24-bitowemu kolorowi, wśród

modalnych znalazła się m.in. 16-bitowa skala szarości, lecz wyłącznie przy grafikach

monochromatycznych i w odcieniach szarości oraz przy czarno-białych mapach.

Pomijając dyskusyjne grafiki monochromatyczne, czy błędem jest stosowanie

16-bitowej skali szarości do grafik czarno-białych i w odcieniach szarości? Tym samym

trudno uznać, że w tych konkretnych przypadkach wartości minimalne nie zostały

osiągnięte, a wręcz przeciwnie – użycie skali szarości w aż 16-bitowej wersji uznać

należy za bardzo dobrą praktykę. Analogicznie sytuacja wygląda przy wzorcach – ze

skalą szarości związany jest Grey Gamma, który wymyka się sklasyfikowaniu jako

będący tu poniżej wartości minimalnej. Odnośnie pozostałych przypadków – żaden nie

sprostał nawet minimalnej wartości, ponieważ wszędzie zaznaczono stosowanie sRGB.

3.27. Uwagi końcowe

Zestawienie wyników badania z zaleceniami pozwoliło zaobserwować kilka

szalenie interesujących zjawisk. Przede wszystkim udowodniło, że w niepamięć odeszły

czasy, kiedy liczono się z każdym zapisanym gigabajtem danych. Przytłaczająca

większość dokumentów skanowana jest przede wszystkim w kolorze w wysokiej

Page 148: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

148

rozdzielczości 300 ppi, gwarantującej optymalny stosunek szczegółowości zapisanych

obrazów do wielkości plików, a to wszystko zapisane w nieskompresowanej wersji

formatu TIFF, który świetnie nadaje się zarówno do LTP, jak i do wszelkiego typu

konwersji.

Z drugiej jednak strony bardzo mało bibliotek używa 48-bitowego koloru, który

pozwala utrwalić zdecydowanie pełniejszą informację o barwach, za pomocą których

opisany jest skan. Być może pokutuje tu kwestia przyzwyczajeń; wielu specjalistów od

digitalizacji zajmuje się nią już od co najmniej kilku lat, kiedy to 24-bitowy kolor

określany był wręcz jako true color (z j. ang. „prawdziwy kolor”) i uważany za w pełni

oddający barwy oryginalnego dokumentu. Na dobrą sprawę niewprawne oko nie

zauważy różnicy między skanem wykonanym z 48-bitową głębią i jego 24-bitowym

odpowiednikiem, za to na pewno każdy zauważy różnicę w wielkości plików –

w przypadku nieskompresowanej wersji TIFF, 48-bitowy kolor generuje dwa razy

większe rozmiary.

Inną przyczyną małej popularności 48-bitowej głębi koloru jest duża popularność

skanerów średniej klasy, którym obce są niuanse kolorystyczne, które są z kolei domeną

urządzeń z najwyższej półki cenowej. W wypadku skanowania z 48-bitową głębią za

pomocą przeciętnej jakości skanerów, jedyną zaświadczającą o tym cechą będzie

rozmiar plików. Chciałoby się w tym miejscu przytoczyć slogan reklamowy jednego

z proszków do prania: skoro nie widać różnicy, to po co przepłacać? Nieuzasadnione

przejście z 24-bitowego na 48-bitowy kolor to przecież gotowy przepis na podwojenie

wydatków na LTP.

Kolejnym ciekawym zjawiskiem jest problem wzorców kolorystycznych.

Zadziwiająco wielu respondentów odpowiedziało, że po prostu nie wie, który

z wzorców jest wykorzystywany. Świadczyć to może o powszechności bardziej

„rzemieślniczego”, a mniej „fotograficznego” podejścia do digitalizacji. Dla kogoś, kto

nie ma specjalistycznego przygotowania z zakresu teorii koloru i cyfrowego

odwzorowania barw, wzorzec lepszy niż sRGB może być jednoznaczny

z przysporzeniem sobie kłopotów.

Jak więc w wielkim skrócie wygląda aktualny obraz digitalizacji sensu stricto?

Wygląda bardzo obiecująco. Skończyły się dni panowania odcieni szarości, wszędzie

dominuje kolor, z czego tylko należy się cieszyć. Niestety jednocześnie uwypuklił się

problem kwalifikacji personelu zajmującego się digitalizacją. Na podstawie wyników

badania da się wyczuć potrzebę organizowania zakrojonych na szeroką skalę

specjalistycznych kursów pozwalających na upowszechnienie się wspomnianego

Page 149: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

149

fotograficznego podejścia do dokumentów. Wtedy nie dość, że wzrośnie jakość

cyfrowych obiektów umieszczanych on-line (która na dzień dzisiejszy jest szalenie

zróżnicowana), to wzrośnie też świadomość personelu w kwestii możliwości

operowania światłem i kolorem w celu uzyskiwania optymalnych skanów

i ograniczenia do minimum późniejszej korekty. A wtedy upowszechnienie się wzorców

lepszych niż sRGB nastąpi już samoczynnie.

Page 150: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

150

Zakończenie

Może nasunąć się pytanie, czemu miała służyć konfrontacja zaleceń ze stanem

faktycznym przedstawiającym „produkcję” obiektów cyfrowych w polskiej digitalizacji

bibliotecznej. Przede wszystkim Standardy w procesie digitalizacji obiektów

dziedzictwa kulturowego są, ze względów wspomnianych w pierwszym rozdziale,

najistotniejszą krajową publikacją w tej dziedzinie. Można zaryzykować stwierdzenie,

że dążą do uzyskania statusu dokumentu określającego prawdziwe (a nie tylko

postulowane) standardy dla digitalizacji i tym samym wyznaczającego kierunek jej

rozwoju. Żeby jednak mówić o rozwoju, trzeba najpierw poznać stan aktualny, który

w przyszłości będzie punktem odniesienia dla pomiaru dynamiki tego rozwoju.

Dotychczasowe badania i ankiety dotyczyły spraw bardziej globalnych,

związanych z „makrodigitalizacją”. Czyli przede wszystkim – gdzie się digitalizuje i co

się digitalizuje. Kwestia „jak się digitalizuje” w zasadzie nie istnieje w publikacjach,

a jeśli już, to dotyka tylko spraw najbardziej podstawowych, skupiając się – podobnie

jak Standardy (…) – na formacie i rozdzielczości masterów. O faktycznie używanych

formatach prezentacyjnych, ich odmianach i zabezpieczeniach nie mówi się w zasadzie

nic. To samo dotyczy kwestii OCR – do tej pory nikt nie był w stanie określić, czy

udostępniane obiekty cyfrowe na ogół są poddawane temu procesowi, a jeśli tak to czy

wszystkie i jakiej jakości jest to OCR. Istotne pytania, na które nikt wcześniej nie

usiłował uzyskać tak kompleksowej odpowiedzi, można mnożyć. W niniejszej pracy

spróbowano odpowiedzieć przynajmniej na część z nich.

Zgromadzony materiał badawczy celowo jest nadmiarowy w takim sensie, że

zasygnalizowano tylko najważniejsze kwestie, które z niego wynikają. Sama gruntowna

analiza relacji łączących poszczególne aspekty digitalizacji, które poruszono

w ankiecie, pozwoliłaby sporządzić niejedno wartościowe opracowanie,

prawdopodobnie obfitujące w zaskakujące obserwacje. Żeby potencjalnym

zainteresowanym umożliwić samodzielną analizę materiału źródłowego, załącznik nr 3

do niniejszej pracy stanowi nośnik elektroniczny z dokumentami w formacie MS Excel,

zawierającymi wszystkie zmienne i ich wartości, na podstawie których przygotowano

zestawienia i wykresy zawarte w trzecim rozdziale. Arkusz, w którym znajdują się

wszystkie udzielone przez respondentów odpowiedzi, zaopatrzony jest w odpowiednie

filtry oraz objaśnienia dla wszystkich zmiennych, których nazwy z racji użycia ich

w kodzie ankiety musiały zostać zapisane w skrótowej formie.

Page 151: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

151

Obraz polskiej digitalizacji sensu stricto wyłaniający się z zawartych we

wcześniejszych rozdziałach rozważań jest optymistyczny. Nie poparty żadnymi

odgórnymi (znaczącymi) strategiami, potencjalnie ograniczany przez nienadążającą za

realiami legislaturę i usilnie kształtowany lekko oderwanymi od rzeczywistości

publikacjami, prezentuje się jednak zadziwiająco jednolicie i spójnie. To prawda – jest

zachowawczy i wszelkiego typu nowinki i trendy nabierające za granicą dużego

znaczenia, najprawdopodobniej jeszcze kilka lat będą musiały w naszym kraju poczekać

na swoją kolej, ale już w pojedynczych przypadkach się pojawiają i można się z tego

tylko cieszyć.

Specjalistyczne kursy dla pracowników bibliotek zajmujących się digitalizacją,

czyli coś, co w innych krajach jest powszechnie praktykowane, w Polsce wciąż jeszcze

nie ma racji bytu. Ze szkoleń organizowanych przez Bibliotekę Narodową można

wynieść podstawową wiedzę z zakresu jak skanować, co skanować i skąd brać na to

pieniądze. Kształtowania umiejętności przykładowego odróżnienia skanu

prześwietlonego od niedoświetlonego i świadomego doboru optymalnego wzorca

koloru dla konkretnego dokumentu bibliotekarz tam nie znajdzie. Taki stan rzeczy jest

główną przyczyną zachowawczości krajowych rozwiązań, więc istnieje duża szansa, że

wspomniana w punkcie 3.27 konieczność wprowadzenia szkoleń kierowanych do

zaawansowanych operatorów sprzętu reprograficznego byłaby w stanie znacznie

przyspieszyć ewolucję digitalizacji w Polsce w kierunku wyznaczonym przez

Standardy (…).

Podobnie sytuacja wygląda w odniesieniu do metadanych innych niż opisowe

(które muszą się pojawić chociażby na etapie umieszczania obiektów cyfrowych on-

line). Najczęściej personel digitalizujący zbiory albo wie o nich niewiele, albo po prostu

ich nie używa, ponieważ nie zdaje sobie z prawy, jakie korzyści mogą z tego płynąć.

Paradoksalnie brak bazowania na metadanych w zarządzaniu masterami jest sytuacją

lepszą, niż mnogość już istniejących rozwiązań. Specjaliści z centrów kompetencji mają

tu duże pole do popisu; mogą spróbować zaprojektować spójną (i realistyczną) strategię

ogólnokrajowego systemu wymiany danych między repozytoriami właśnie na bazie

któregoś ze standardów metadanych. Wyłącznie w takim przypadku informacje, które

zajmują ponad połowę objętości Standardów (…), zaczną mieć jakiekolwiek znaczenie

i przestaną być jedynie przyczynkiem do akademickiej dyskusji o rodzajach i roli

metadanych w digitalizacji.

Chyba największym zaskoczeniem, które miało miejscu po przeanalizowaniu

wyników badania, był całkowicie marginalny udział formatu JPEG 2000 – zarówno

Page 152: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

152

jako formatu archiwalnego, jak i prezentacyjnego. Jego największą zaletą, oczywiście

poza relatywnie niewielkimi rozmiarami plików i pozornie bezstratną prezentacją

dokumentu oryginalnego, jest niesamowita elastyczność. Wystarczy zeskanować

dokument (mowa o dokumentach jednostronicowych), zapisać w formacie JPEG 2000

i ten sam plik może od razu służyć za plik archiwalny, jak i być prezentowany on-line,

bez dodatkowych konwersji. Lecz znowu – wymagałoby to przedstawienia

bibliotecznym specjalistom ds. digitalizacji zalet nowego formatu, a centra kompetencji

(które takie działania mają w swojej gestii) zajmują się bardziej doniosłymi działaniami.

Kolejne interesujące zagadnienie, które wypłynęło w trakcie analizy wyników

badania to kwestia OCR. Jeszcze w styczniu 2011 r. na XVII edycji seminarium z cyklu

„Digitalizacja: Problemy cyfryzacji dokumentów piśmienniczych w bibliotekach,

muzeach, archiwach” przedstawiciel Poznańskiego Centrum Superkomputerowo-

Sieciowego (twórcy platformy dLibra) na pytanie o możliwość wyposażenia jego

produktu w mechanizm jednoczesnego przeszukiwania pełnotekstowego we wszystkich

bibliotekach cyfrowych zbudowanych na dLibrze odparł, że nie widzi takiej potrzeby.

Swoją odpowiedź uzasadnił rzekomo niewielkim procentem ogółu dokumentów

poddawanych OCR-owi. Wyniki badania wskazują natomiast na całkiem inny stan

rzeczy – OCR stosowany jest w ponad ¾ obiektów, które dają taką możliwość (mowa

o formatach PDF i DjVu). Mało tego, niewykluczone, że w wielu przypadkach

dokumenty do tej pory nierozpoznane zostaną w przyszłości poddane temu procesowi.

Na koniec warto jeszcze wspomnieć o potencjalnej przyszłości digitalizacji

w Polsce. Na myśl przychodzi od razu jedno słowo: zmiany. Polska digitalizacja będzie

potrzebowała – prędzej czy później – głębokich zmian. I to zmian tak fundamentalnych,

jak podejście do dokumentu. W tej chwili digitalizowany dokument to coś, co trzeba

zeskanować, przekonwertować, umieścić on-line i zabrać się za następny. Przyszłość

i postęp technologiczny wymusi na bibliotekach rewizję tego podejścia i bardziej

drobiazgowe pochylenie się nad każdym dokumentem – w szczególności mowa tu

o książkach. OCR stanie się tylko punktem wyjścia, dojdzie redakcja otrzymanych

wyników i konwersja nie do jednego, ale kilku formatów – przyjaznych dla

najpopularniejszych na rynku czytników e-booków. Obecnie biblioteki cyfrowe

narzucają użytkownikom konkretny format, lecz najprawdopodobniej w przyszłości role

te się odwrócą i jeśli biblioteki będą chciały rzeczywiście zawalczyć o nowych

użytkowników w zerojedynkowej rzeczywistości, będą musiały nauczyć się słuchać

tych użytkowników i podążać za ich czytelniczymi nawykami.

Page 153: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

153

Załącznik nr 1

Wykresy

Rys. 1. Model digitalizacji stosowany w bibliotece

Rys. 2. Przyczyna korzystania z częściowego outsourcingu

Rys. 3. Szacunkowy procent skanów zleconych na zewnątrz w stosunku do wykonywanych

samodzielnie

63; 72%

7; 8%

18; 20%

Samodzielne skanowanie / fotografowaniedokumentów

Całkowity outsourcing

Częściowy outsourcing

12

10

9

3

związana z rodzajem dokumentów

związana z formatem dokumentów

związana z pozyskaniem funduszy celowych na digitalizację

inna przyczyna

2; 12%

4; 23%

4; 24%

7; 41% do 10%

11 - 25%

26 - 50%

powyżej 75%

Page 154: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

154

Rys. 4. Sposób ustalania parametrów skanowania i formatu zapisu plików archiwalnych

Rys. 5. Sposób ustalania rozdzielczości skanowania

Rys. 6. Liczba respondentów digitalizujących książki

Rys. 7. Książki – czarno-biała treść: rozdzielczość

51

31

25

12

3

na podstawie własnych doświadczeń

na podstawie cudzych doświadczeń

na podstawie krajowych zaleceń

na podstawie zagranicznych zaleceń / standardów

w inny sposób

50

34

3

7

na podstawie widocznych cech indywidualnych dokumentu

na podstawie przynależności dokumentu do określonej grupy,dla której wcześniej przyjęto pewną stałą rozdzielczość

jest obliczana dla każdego dokumentu (grupy dokumentów),np. na podstawie wysokości najmniejszego znaku

w inny sposób

49

14

38

30

38

Książki - czarno-biała treść

Książki monochromatyczne

Książki zawierające czarno-białe ilustracje

Książki zawierające ilustracje w odcieniach szarości

Książki zawierające kolorowe ilustracje

1

1

25

1

1

150 ppi

200 ppi

300 ppi

400 ppi

600 ppi

Page 155: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

155

Rys. 8. Książki – czarno-biała treść: tryb i głębia koloru

Rys. 9. Książki – czarno-biała treść: wzorce koloru

Rys. 10. Książki – czarno-biała treść: pierwotny format zapisu

Rys. 11. Książki – czarno-biała treść: rodzaj generowanych plików TIFF

9

10

5

16

4

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

7

7

11

3

1

14

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

Inny wzorzec niż wymienione

32

3

1

5

1

1

5

1

1

TIFF bez kompresji

TIFF z kompresją LZW

TIFF z kompresją JPEG

JPEG bez kompresji

JPEG z kompresją

PNG

PDF bez wewnętrznej kompresji grafik

PDF z wewnątrzną kopresją bezstratną grafik

Inny format

26; 96%

1; 4%

jednostronicowe

wielostronicowe

Page 156: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

156

Rys. 12. Książki monochromatyczne: rozdzielczość

Rys. 13. Książki monochromatyczne: tryb i głębia koloru

Rys. 14. Książki monochromatyczne: wzorce koloru

Rys. 15. Książki monochromatyczne: pierwotny format zapisu

Rys. 16. Książki monochromatyczne: rodzaj generowanych plików TIFF

7

1

300 ppi

600 ppi

6

1

6

1

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

2

6

2

1

2

Grey Gamma

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

8

2

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

TIFF z kompresją JPEG

JPEG bez kompresji

Inny format

10; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 157: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

157

Rys. 17. Książki zawierające czarno-białe ilustracje: rozdzielczość

Rys. 18. Książki zawierające czarno-białe ilustracje: tryb i głębia koloru

Rys. 19. Książki zawierające czarno-białe ilustracje: wzorce koloru

Rys. 20. Książki zawierające czarno-białe ilustracje: pierwotny format zapisu

1

16

1

1

1

200 ppi

300 ppi

400 ppi

450 ppi

600 ppi

4

11

6

13

3

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

2

5

12

4

2

10

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

Inny wzorzec niż wymienione

27

2

1

2

1

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

TIFF z kompresją JPEG

JPEG bez kompresji

JPEG 2000 bez kompresji

PNG

PDF bez wewnętrznej kompresji grafik

Inny format

Page 158: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

158

Rys. 21. Książki zawierające czarno-białe ilustracje: rodzaj generowanych plików TIFF

Rys. 22. Książki zawierające ilustracje w odcieniach szarości: rozdzielczość

Rys. 23. Książki zawierające ilustracje w odcieniach szarości: tryb i głębia koloru

Rys. 24. Książki zawierające ilustracje w odcieniach szarości: wzorce koloru

27; 96%

1; 4%

jednostronicowe

wielostronicowe

13

1

1

3

300 ppi

400 ppi

450 ppi

600 ppi

1

11

8

12

1

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

1

6

12

2

2

8

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

Inny wzorzec niż wymienione

Page 159: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

159

Rys. 25. Książki zawierające ilustracje w odcieniach szarości: pierwotny format zapisu

Rys. 26. Książki zawierające ilustracje w odcieniach szarości: rodzaj generowanych plików TIFF

Rys. 27. Książki zawierające kolorowe ilustracje: rozdzielczość

Rys. 28. Książki zawierające kolorowe ilustracje: tryb i głębia koloru

20

4

1

1

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

TIFF z kompresją JPEG

JPEG bez kompresji

JPEG z kompresją

PNG

Inny format

24; 96%

1; 4%

jednostronicowe

wielostronicowe

16

2

6

300 ppi

400 ppi

600 ppi

1

1

27

7

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

Page 160: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

160

Rys. 29. Książki zawierające kolorowe ilustracje: wzorce koloru

Rys. 30. Książki zawierające kolorowe ilustracje: pierwotny format zapisu

Rys. 31. Książki zawierające kolorowe ilustracje: rodzaj generowanych plików TIFF

Rys. 32. Liczba respondentów digitalizujących gazety

2

15

5

3

11

1

Grey Gamma

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

Inny wzorzec niż wymienione

26

3

4

2

1

2

2

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

PNG

PDF bez wewnętrznej kompresji grafik

Inny format

25; 93%

2; 7%

jednostronicowe

wielostronicowe

19

8

19

18

20

Gazety - czarno-biała treść

Gazety monochromatyczne

Gazety zawierające czarno-białe ilustracje

Gazety zawierające ilustracje w odcieniach szarości

Gazety zawierające kolorowe ilustracje

Page 161: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

161

Rys. 33. Gazety – czarno-biała treść: rozdzielczość

Rys. 34. Gazety – czarno-biała treść: tryb i głębia koloru

Rys. 35. Gazety – czarno-biała treść: wzorce koloru

Rys. 36. Gazety – czarno-biała treść: pierwotny format zapisu

1

6

1

2

200 ppi

300 ppi

400 ppi

600 ppi

3

3

4

8

1

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

3

1

7

1

5

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

12

1

1

1

1

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

TIFF z kompresją JPEG

JPEG bez kompresji

JPEG z kompresją

PDF bez wewnętrznej kompresji grafik

PDF z wewnątrzną kopresją bezstratną grafik

Inny format

Page 162: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

162

Rys. 37. Gazety – czarno-biała treść: rodzaj generowanych plików TIFF

Rys. 38. Gazety monochromatyczne: rozdzielczość

Rys. 39. Gazety monochromatyczne: tryb i głębia koloru

Rys. 40. Gazety monochromatyczne: wzorce koloru

Rys. 41. Gazety monochromatyczne: pierwotny format zapisu

11; 92%

1; 8%

jednostronicowe

wielostronicowe

4

1

300 ppi

600 ppi

2

4

5

1 bit (czerń i biel)

8-bitowa skala szarości

24-bitowy kolor

2

2

4

1

2

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

ProPhoto RGB

Nie wiem

4

2

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

PDF bez wewnętrznej kompresji grafik

Inny format

Page 163: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

163

Rys. 42. Gazety monochromatyczne: rodzaj generowanych plików TIFF

Rys. 43. Gazety zawierające czarno-białe ilustracje: rozdzielczość

Rys. 44. Gazety zawierające czarno-białe ilustracje: tryb i głębia koloru

Rys. 45. Gazety zawierające czarno-białe ilustracje: wzorce koloru

Rys. 46. Gazety zawierające czarno-białe ilustracje: pierwotny format zapisu

5; 83%

1; 17%

jednostronicowe

wielostronicowe

1

8

1

1

200 ppi

300 ppi

400 ppi

600 ppi

2

5

2

8

3

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

1

2

9

1

7

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

14

2

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

PDF bez wewnętrznej kompresji grafik

Inny format

Page 164: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

164

Rys. 47. Gazety zawierające czarno-białe ilustracje: rodzaj generowanych plików TIFF

Rys. 48. Gazety zawierające ilustracje w odcieniach szarości: rozdzielczość

Rys. 49. Gazety zawierające ilustracje w odcieniach szarości: tryb i głębia koloru

Rys. 50. Gazety zawierające ilustracje w odcieniach szarości: wzorce koloru

15; 94%

1; 6%

jednostronicowe

wielostronicowe

8

1

2

300 ppi

400 ppi

600 ppi

1

5

5

9

1

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

1

2

9

1

1

5

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

Page 165: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

165

Rys. 51. Gazety zawierające ilustracje w odcieniach szarości: pierwotny format zapisu

Rys. 52. Gazety zawierające ilustracje w odcieniach szarości: rodzaj generowanych plików TIFF

Rys. 53. Gazety zawierające kolorowe ilustracje: rozdzielczość

Rys. 54. Gazety zawierające kolorowe ilustracje: tryb i głębia koloru

Rys. 55. Gazety zawierające kolorowe ilustracje: wzorce koloru

10

4

1

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

PDF bez wewnętrznej kompresji grafik

Inny format

12; 86%

2; 14%

jednostronicowe

wielostronicowe

7

4

300 ppi

600 ppi

1

2

15

3

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

11

2

1

6

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

Page 166: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

166

Rys. 56. Gazety zawierające kolorowe ilustracje: pierwotny format zapisu

Rys. 57. Gazety zawierające kolorowe ilustracje: rodzaj generowanych plików TIFF

Rys. 58. Liczba respondentów digitalizujących czasopisma

Rys. 59. Czasopisma – czarno-biała treść: rozdzielczość

11

2

2

1

1

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

PDF bez wewnętrznej kompresji grafik

PDF z wewnątrzną kopresją bezstratną grafik

PDF z wewnętrzną kompresją stratną grafik

Inny format

11; 85%

2; 15%

jednostronicowe

wielostronicowe

17

6

18

13

17

Czasopisma - czarno-biała treść

Czasopisma monochromatyczne

Czasopisma zawierające czarno-białe ilustracje

Czasopisma zawierające ilustracje w odcieniachszarości

Czasopisma zawierające kolorowe ilustracje

9

1

300 ppi

400 ppi

Page 167: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

167

Rys. 60. Czasopisma – czarno-biała treść: tryb i głębia koloru

Rys. 61. Czasopisma – czarno-biała treść: wzorce koloru

Rys. 62. Czasopisma – czarno-biała treść: pierwotny format zapisu

Rys. 63. Czasopisma – czarno-biała treść: rodzaj generowanych plików TIFF

2

5

3

7

1

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

2

2

6

2

5

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

12

2

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

PDF bez wewnętrznej kompresji grafik

Inny format

13; 93%

1; 7%

jednostronicowe

wielostronicowe

Page 168: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

168

Rys. 64. Czasopisma monochromatyczne: rozdzielczość

Rys. 65. Czasopisma monochromatyczne: tryb i głębia koloru

Rys. 66. Czasopisma monochromatyczne: wzorce koloru

Rys. 67. Czasopisma monochromatyczne: pierwotny format zapisu

Rys. 68. Czasopisma monochromatyczne: rodzaj generowanych plików TIFF

5

1

300 ppi

600 ppi

2

3

1

4

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

2

1

5

1

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

ProPhoto RGB

3

2

1

TIFF bez kompresji

TIFF z kompresją CCITT

Inny format

5; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 169: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

169

Rys. 69. Czasopisma zawierające czarno-białe ilustracje: rozdzielczość

Rys. 70. Czasopisma zawierające czarno-białe ilustracje: tryb i głębia koloru

Rys. 71. Czasopisma zawierające czarno-białe ilustracje: wzorce koloru

Rys. 72. Czasopisma zawierające czarno-białe ilustracje: pierwotny format zapisu

Rys. 73. Czasopisma zawierające czarno-białe ilustracje: rodzaj generowanych plików TIFF

9

1

1

300 ppi

400 ppi

600 ppi

1

5

3

7

2

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

2

3

8

3

4

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

14

2

1

1

TIFF bez kompresji

TIFF z kompresją LZW

PDF bez wewnętrznej kompresji grafik

Inny format

14; 93%

1; 7%

jednostronicowe

wielostronicowe

Page 170: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

170

Rys. 74. Czasopisma zawierające ilustracje w odcieniach szarości: rozdzielczość

Rys. 75. Czasopisma zawierające ilustracje w odcieniach szarości: tryb i głębia koloru

Rys. 76. Czasopisma zawierające ilustracje w odcieniach szarości: wzorce koloru

Rys. 77. Czasopisma zawierające ilustracje w odcieniach szarości: pierwotny format zapisu

Rys. 78. Czasopisma zawierające ilustracje w odcieniach szarości: rodzaj generowanych plików TIFF

8

1

2

300 ppi

400 ppi

600 ppi

2

6

2

6

1

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

2

2

8

2

2

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

9

2

1

1

TIFF bez kompresji

TIFF z kompresją LZW

PDF bez wewnętrznej kompresji grafik

Inny format

11; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 171: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

171

Rys. 79. Czasopisma zawierające kolorowe ilustracje: rozdzielczość

Rys. 80. Czasopisma zawierające kolorowe ilustracje: tryb i głębia koloru

Rys. 81. Czasopisma zawierające kolorowe ilustracje: wzorce koloru

Rys. 82. Czasopisma zawierające kolorowe ilustracje: pierwotny format zapisu

Rys. 83. Czasopisma zawierające kolorowe ilustracje: rodzaj generowanych plików TIFF

7

1

3

300 ppi

450 ppi

600 ppi

1

2

12

4

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

11

3

1

3

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

11

2

1

2

1

2

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

PDF bez wewnętrznej kompresji grafik

Inny format

11; 85%

2; 15%

jednostronicowe

wielostronicowe

Page 172: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

172

Rys. 84. Liczba respondentów digitalizujących rękopisy

Rys. 85. Rękopisy – wyraźny kontrast: rozdzielczość

Rys. 86. Rękopisy – wyraźny kontrast: tryb i głębia koloru

Rys. 87. Rękopisy – wyraźny kontrast: wzorce koloru

Rys. 88. Rękopisy – wyraźny kontrast: pierwotny format zapisu

16

12

Rękopisy - wyraźny kontrast

Rękopisy - niewyraźny kontrast

4

4

300 ppi

600 ppi

2

10

4

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

10

2

1

2

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

12

1

1

1

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

RAW

PDF bez wewnętrznej kompresji grafik

Inny format

Page 173: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

173

Rys. 89. Rękopisy – wyraźny kontrast: rodzaj generowanych plików TIFF

Rys. 90. Rękopisy – niewyraźny kontrast: rozdzielczość

Rys. 91. Rękopisy – niewyraźny kontrast: tryb i głębia koloru

Rys. 92. Rękopisy – niewyraźny kontrast: wzorce koloru

Rys. 93. Rękopisy – niewyraźny kontrast: pierwotny format zapisu

11; 92%

1; 8%

jednostronicowe

wielostronicowe

3

1

3

300 ppi

400 ppi

600 ppi

2

8

2

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

8

1

2

sRGB

Adobe RGB 1998

Nie wiem

8

1

1

2

1

1

2

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

RAW

PDF bez wewnętrznej kompresji grafik

Inny format

Page 174: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

174

Rys. 94. Rękopisy – niewyraźny kontrast: rodzaj generowanych plików TIFF

Rys. 95. Liczba respondentów digitalizujących inkunabuły

Rys. 96. Inkunabuły: rozdzielczość

Rys. 97. Inkunabuły: tryb i głębia koloru

Rys. 98. Inkunabuły: wzorce koloru

7; 100%

0; 0%

jednostronicowe

wielostronicowe

8 Inkunabuły

2

1

300 ppi

600 ppi

2

4

1

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

3

1

1

2

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

Page 175: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

175

Rys. 99. Inkunabuły: pierwotny format zapisu

Rys. 100. Inkunabuły: rodzaj generowanych plików TIFF

Rys. 101. Liczba respondentów digitalizujących stare druki

Rys. 102. Stare druki: rozdzielczość

Rys. 103. Stare druki: tryb i głębia koloru

4

1

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

RAW

PDF bez wewnętrznej kompresji grafik

4; 80%

1; 20%

jednostronicowe

wielostronicowe

21 Stare druki

8

1

4

300 ppi

400 ppi

600 ppi

2

4

14

2

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

Page 176: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

176

Rys. 104. Stare druki: wzorce koloru

Rys. 105. Stare druki: pierwotny format zapisu

Rys. 106. Stare druki: rodzaj generowanych plików TIFF

Rys. 107. Liczba respondentów digitalizujących grafiki

Rys. 108. Grafiki czarno-białe: rozdzielczość

9

1

1

7

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

15

2

2

2

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

RAW

PDF bez wewnętrznej kompresji grafik

Inny format

15; 94%

1; 6%

jednostronicowe

wielostronicowe

14

6

13

17

Grafiki czarno-białe

Grafiki monochromatyczne

Grafiki w odcieniach szarości

Grafiki kolorowe

6

1

300 ppi

600 ppi

Page 177: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

177

Rys. 109. Grafiki czarno-białe: tryb i głębia koloru

Rys. 110. Grafiki czarno-białe: wzorce koloru

Rys. 111. Grafiki czarno-białe: pierwotny format zapisu

Rys. 112. Grafiki czarno-białe: rodzaj generowanych plików TIFF

Rys. 113. Grafiki monochromatyczne: rozdzielczość

1

4

4

4

1

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

1

1

7

3

3

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

11

1

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

TIFF z kompresją JPEG

JPEG bez kompresji

Inny format

11; 100%

0; 0%

jednostronicowe

wielostronicowe

2

2

300 ppi

600 ppi

Page 178: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

178

Rys. 114. Grafiki monochromatyczne: tryb i głębia koloru

Rys. 115. Grafiki monochromatyczne: wzorce koloru

Rys. 116. Grafiki monochromatyczne: pierwotny format zapisu

Rys. 117. Grafiki monochromatyczne: rodzaj generowanych plików TIFF

2

2

3

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

2

2

2

sRGB

Adobe RGB 1998

Nie wiem

3

1

2

2

1

1

TIFF bez kompresji

TIFF z kompresją CCITT

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

Inny format

5; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 179: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

179

Rys. 118. Grafiki w odcieniach szarości: rozdzielczość

Rys. 119. Grafiki w odcieniach szarości: tryb i głębia koloru

Rys. 120. Grafiki w odcieniach szarości: wzorce koloru

Rys. 121. Grafiki w odcieniach szarości: pierwotny format zapisu

Rys. 122. Grafiki w odcieniach szarości: rodzaj generowanych plików TIFF

4

2

300 ppi

600 ppi

4

5

6

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

2

6

3

4

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

10

1

2

2

2

2

TIFF bez kompresji

TIFF z kompresją CCITT

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

Inny format

11; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 180: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

180

Rys. 123. Grafiki kolorowe: rozdzielczość

Rys. 124. Grafiki kolorowe: tryb i głębia koloru

Rys. 125. Grafiki kolorowe: wzorce koloru

Rys. 126. Grafiki kolorowe: pierwotny format zapisu

3

4

300 ppi

600 ppi

3

12

4

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

9

4

1

6

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

12

1

2

3

2

1

1

1

1

TIFF bez kompresji

TIFF z kompresją CCITT

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

RAW

PNG

PDF bez wewnętrznej kompresji grafik

Inny format

Page 181: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

181

Rys. 127. Grafiki kolorowe: rodzaj generowanych plików TIFF

Rys. 128. Liczba respondentów digitalizujących grafiki wielkoformatowe

Rys. 129. Grafiki wielkoformatowe czarno-białe: rozdzielczość

Rys. 130. Grafiki wielkoformatowe czarno-białe: tryb i głębia koloru

Rys. 131. Grafiki wielkoformatowe czarno-białe: wzorce koloru

12; 92%

1; 8%

jednostronicowe

wielostronicowe

6

2

5

9

Grafiki wielkoformatowe czarno-białe

Grafiki wielkoformatowe monochromatyczne

Grafiki wielkoformatowe w odcieniach szarości

Grafiki wielkoformatowe kolorowe

4 300 ppi

1

2

3

1 bit (czerń i biel)

16-bitowa skala szarości

24-bitowy kolor

1

1

4

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Page 182: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

182

Rys. 132. Grafiki wielkoformatowe czarno-białe: pierwotny format zapisu

Rys. 133. Grafiki wielkoformatowe czarno-białe: rodzaj generowanych plików TIFF

Rys. 134. Grafiki wielkoformatowe monochromatyczne: rozdzielczość

Rys. 135. Grafiki wielkoformatowe monochromatyczne: tryb i głębia koloru

Rys. 136. Grafiki wielkoformatowe monochromatyczne: wzorce koloru

Rys. 137. Grafiki wielkoformatowe monochromatyczne: pierwotny format zapisu

5

1

TIFF bez kompresji

JPEG z kompresją

5; 100%

0; 0%

jednostronicowe

wielostronicowe

2 300 ppi

1

1

16-bitowa skala szarości

24-bitowy kolor

2 sRGB

1

1

TIFF bez kompresji

JPEG z kompresją

Page 183: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

183

Rys. 138. Grafiki wielkoformatowe monochromatyczne: rodzaj generowanych plików TIFF

Rys. 139. Grafiki wielkoformatowe w odcieniach szarości: rozdzielczość

Rys. 140. Grafiki wielkoformatowe w odcieniach szarości: tryb i głębia koloru

Rys. 141. Grafiki wielkoformatowe w odcieniach szarości: wzorce koloru

Rys. 142. Grafiki wielkoformatowe w odcieniach szarości: pierwotny format zapisu

1; 100%

0; 0%

jednostronicowe

wielostronicowe

4

1

300 ppi

600 ppi

1

3

2

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

2

3

Grey Gamma

sRGB

4

1

TIFF bez kompresji

JPEG z kompresją

Page 184: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

184

Rys. 143. Grafiki wielkoformatowe w odcieniach szarości: rodzaj generowanych plików TIFF

Rys. 144. Grafiki wielkoformatowe kolorowe: rozdzielczość

Rys. 145. Grafiki wielkoformatowe kolorowe: tryb i głębia koloru

Rys. 146. Grafiki wielkoformatowe kolorowe: wzorce koloru

Rys. 147. Grafiki wielkoformatowe kolorowe: pierwotny format zapisu

4; 100%

0; 0%

jednostronicowe

wielostronicowe

1

1

5

1

200 ppi

240 ppi

300 ppi

600 ppi

2

5

2

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

7

1

1

sRGB

ProPhoto RGB

Nie wiem

5

1

1

2

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

Page 185: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

185

Rys. 148. Grafiki wielkoformatowe kolorowe: rodzaj generowanych plików TIFF

Rys. 149. Liczba respondentów digitalizujących mapy

Rys. 150. Mapy czarno-białe z wyraźnym kontrastem: rozdzielczość

Rys. 151. Mapy czarno-białe z wyraźnym kontrastem: tryb i głębia koloru

Rys. 152. Mapy czarno-białe z wyraźnym kontrastem: wzorce koloru

6; 100%

0; 0%

jednostronicowe

wielostronicowe

6

3

2

5

13

Mapy czarno-białe z wyraźnym kontrastem

Mapy czarno-białe z niewyraźnym kontrastem

Mapy monochromatyczne

Mapy w odcieniach szarości

Mapy kolorowe

4

1

300 ppi

600 ppi

1

2

3

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

2

3

1

Grey Gamma

sRGB

Nie wiem

Page 186: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

186

Rys. 153. Mapy czarno-białe z wyraźnym kontrastem: pierwotny format zapisu

Rys. 154. Mapy czarno-białe z wyraźnym kontrastem: rodzaj generowanych plików TIFF

Rys. 155. Mapy czarno-białe z niewyraźnym kontrastem: rozdzielczość

Rys. 156. Mapy czarno-białe z niewyraźnym kontrastem: tryb i głębia koloru

Rys. 157. Mapy czarno-białe z niewyraźnym kontrastem: wzorce koloru

Rys. 158. Mapy czarno-białe z niewyraźnym kontrastem: pierwotny format zapisu

5

1

TIFF bez kompresji

JPEG z kompresją

5; 100%

0; 0%

jednostronicowe

wielostronicowe

3 300 ppi

1

1

2

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

2

1

sRGB

Nie wiem

3 TIFF bez kompresji

Page 187: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

187

Rys. 159. Mapy czarno-białe z niewyraźnym kontrastem: rodzaj generowanych plików TIFF

Rys. 160. Mapy monochromatyczne: rozdzielczość

Rys. 161. Mapy monochromatyczne: tryb i głębia koloru

Rys. 162. Mapy monochromatyczne: wzorce koloru

Rys. 163. Mapy monochromatyczne: pierwotny format zapisu

Rys. 164. Mapy monochromatyczne: rodzaj generowanych plików TIFF

3; 100%

0; 0%

jednostronicowe

wielostronicowe

2 300 ppi

1

1

16-bitowa skala szarości

24-bitowy kolor

2 sRGB

2 TIFF bez kompresji

2; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 188: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

188

Rys. 165. Mapy w odcieniach szarości: rozdzielczość

Rys. 166. Mapy w odcieniach szarości: tryb i głębia koloru

Rys. 167. Mapy w odcieniach szarości: wzorce koloru

Rys. 168. Mapy w odcieniach szarości: pierwotny format zapisu

Rys. 169. Mapy w odcieniach szarości: rodzaj generowanych plików TIFF

3

1

2

300 ppi

400 ppi

600 ppi

1

2

2

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

1

3

1

Grey Gamma

sRGB

Nie wiem

4

1

TIFF bez kompresji

TIFF z kompresją LZW

5; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 189: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

189

Rys. 170. Mapy kolorowe: rozdzielczość

Rys. 171. Mapy kolorowe: tryb i głębia koloru

Rys. 172. Mapy kolorowe: wzorce koloru

Rys. 173. Mapy kolorowe: pierwotny format zapisu

Rys. 174. Mapy kolorowe: rodzaj generowanych plików TIFF

1

5

1

3

240 ppi

300 ppi

400 ppi

600 ppi

10

3

24-bitowy kolor

48-bitowy kolor

9

1

1

2

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

10

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG z kompresją

RAW

11; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 190: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

190

Rys. 175. Liczba respondentów digitalizujących mapy wielkoformatowe

Rys. 176. Mapy wielkoformatowe czarno-białe z wyraźnym kontrastem: rozdzielczość

Rys. 177. Mapy wielkoformatowe czarno-białe z wyraźnym kontrastem: tryb i głębia koloru

Rys. 178. Mapy wielkoformatowe czarno-białe z wyraźnym kontrastem: wzorce koloru

Rys. 179. Mapy wielkoformatowe czarno-białe z wyraźnym kontrastem: pierwotny format zapisu

Rys. 180. Mapy wielkoformatowe czarno-białe z wyraźnym kontrastem: rodzaj generowanych plików

TIFF

3

2

1

3

8

Mapy wielkoformatowe czarno-białe z wyraźnym kontrastem

Mapy wielkoformatowe czarno-białe z niewyraźnymkontrastem

Mapy wielkoformatowe monochromatyczne

Mapy wielkoformatowe w odcieniach szarości

Mapy wielkoformatowe kolorowe

2 300 ppi

2

1

16-bitowa skala szarości

24-bitowy kolor

2

1

Grey Gamma

sRGB

3 TIFF bez kompresji

3; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 191: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

191

Rys. 181. Mapy wielkoformatowe czarno-białe z niewyraźnym kontrastem: rozdzielczość

Rys. 182. Mapy wielkoformatowe czarno-białe z niewyraźnym kontrastem: tryb i głębia koloru

Rys. 183. Mapy wielkoformatowe czarno-białe z niewyraźnym kontrastem: wzorce koloru

Rys. 184. Mapy wielkoformatowe czarno-białe z niewyraźnym kontrastem: pierwotny format zapisu

Rys. 185. Mapy wielkoformatowe czarno-białe z niewyraźnym kontrastem: rodzaj generowanych plików

TIFF

Rys. 186. Mapy wielkoformatowe monochromatyczne: rozdzielczość

Rys. 187. Mapy wielkoformatowe monochromatyczne: tryb i głębia koloru

2 300 ppi

1

1

16-bitowa skala szarości

24-bitowy kolor

1

1

Grey Gamma

sRGB

2 TIFF bez kompresji

2; 100%

0; 0%

jednostronicowe

wielostronicowe

1 300 ppi

1 24-bitowy kolor

Page 192: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

192

Rys. 188. Mapy wielkoformatowe monochromatyczne: wzorce koloru

Rys. 189. Mapy wielkoformatowe monochromatyczne: pierwotny format zapisu

Rys. 190. Mapy wielkoformatowe monochromatyczne: rodzaj generowanych plików TIFF

Rys. 191. Mapy wielkoformatowe w odcieniach szarości: rozdzielczość

Rys. 192. Mapy wielkoformatowe w odcieniach szarości: tryb i głębia koloru

Rys. 193. Mapy wielkoformatowe w odcieniach szarości: wzorce koloru

1 sRGB

1 TIFF bez kompresji

1; 100%

0; 0%

jednostronicowe

2

1

300 ppi

600 ppi

1

2

16-bitowa skala szarości

24-bitowy kolor

1

2

Grey Gamma

sRGB

Page 193: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

193

Rys. 194. Mapy wielkoformatowe w odcieniach szarości: pierwotny format zapisu

Rys. 195. Mapy wielkoformatowe w odcieniach szarości: rodzaj generowanych plików TIFF

Rys. 196. Mapy wielkoformatowe kolorowe: rozdzielczość

Rys. 197. Mapy wielkoformatowe kolorowe: tryb i głębia koloru

Rys. 198. Mapy wielkoformatowe kolorowe: wzorce koloru

Rys. 199. Mapy wielkoformatowe kolorowe: pierwotny format zapisu

2

1

TIFF bez kompresji

TIFF z kompresją LZW

3; 100%

0; 0%

jednostronicowe

wielostronicowe

4

1

300 ppi

600 ppi

5

2

24-bitowy kolor

48-bitowy kolor

5

1

1

1

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

7

1

TIFF bez kompresji

TIFF z kompresją LZW

Page 194: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

194

Rys. 200. Mapy wielkoformatowe kolorowe: rodzaj generowanych plików TIFF

Rys. 201. Liczba respondentów digitalizujących odbitki fotograficzne

Rys. 202. Odbitki fotograficzne monochromatyczne: rozdzielczość

Rys. 203. Odbitki fotograficzne monochromatyczne: tryb i głębia koloru

Rys. 204. Odbitki fotograficzne monochromatyczne: wzorce koloru

8; 100%

0; 0%

jednostronicowe

wielostronicowe

9

15

14

Odbitki fotograficzne monochromatyczne

Odbitki fotograficzne w odcieniach szarości

Odbitki fotograficzne kolorowe

5

2

1

300 ppi

600 ppi

1200 ppi

1

3

6

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

7

1

2

sRGB

Adobe RGB 1998

Nie wiem

Page 195: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

195

Rys. 205. Odbitki fotograficzne monochromatyczne: pierwotny format zapisu

Rys. 206. Odbitki fotograficzne monochromatyczne: rodzaj generowanych plików TIFF

Rys. 207. Odbitki fotograficzne w odcieniach szarości: rozdzielczość

Rys. 208. Odbitki fotograficzne w odcieniach szarości: tryb i głębia koloru

4

1

3

2

1

1

TIFF bez kompresji

TIFF z kompresją CCITT

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

RAW

6; 100%

0; 0%

jednostronicowe

wielostronicowe

5

5

300 ppi

600 ppi

3

5

7

1

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

Page 196: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

196

Rys. 209. Odbitki fotograficzne w odcieniach szarości: wzorce koloru

Rys. 210. Odbitki fotograficzne w odcieniach szarości: pierwotny format zapisu

Rys. 211. Odbitki fotograficzne w odcieniach szarości: rodzaj generowanych plików TIFF

Rys. 212. Odbitki fotograficzne kolorowe: rozdzielczość

Rys. 213. Odbitki fotograficzne kolorowe: tryb i głębia koloru

2

9

2

4

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

11

1

2

1

2

1

TIFF bez kompresji

TIFF z kompresją CCITT

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

RAW

11; 100%

0; 0%

jednostronicowe

wielostronicowe

5

4

300 ppi

600 ppi

1

11

3

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

Page 197: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

197

Rys. 214. Odbitki fotograficzne kolorowe: wzorce koloru

Rys. 215. Odbitki fotograficzne kolorowe: pierwotny format zapisu

Rys. 216. Odbitki fotograficzne kolorowe: rodzaj generowanych plików TIFF

Rys. 217. Liczba respondentów digitalizujących negatywy i przezrocza

Rys. 218. Negatywy, przezrocza monochromatyczne: tryb i głębia koloru

10

2

4

sRGB

Adobe RGB 1998

Nie wiem

8

1

3

3

2

TIFF bez kompresji

TIFF z kompresją CCITT

TIFF z kompresją LZW

JPEG bez kompresji

JPEG z kompresją

10; 100%

0; 0%

jednostronicowe

wielostronicowe

4

7

3

Negatywy, przezrocza monochromatyczne

Negatywy, przezrocza w odcieniach szarości

Negatywy, przezrocza kolorowe

1

1

1

1 bit (czerń i biel)

16-bitowa skala szarości

24-bitowy kolor

Page 198: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

198

Rys. 219. Negatywy, przezrocza monochromatyczne: wzorce koloru

Rys. 220. Negatywy, przezrocza monochromatyczne: pierwotny format zapisu

Rys. 221. Negatywy, przezrocza monochromatyczne: rodzaj generowanych plików TIFF

Rys. 222. Negatywy, przezrocza w odcieniach szarości: rozdzielczość

Rys. 223. Negatywy, przezrocza w odcieniach szarości: tryb i głębia koloru

1 sRGB

4

1

1

TIFF bez kompresji

PNG

PDF bez wewnętrznej kompresji grafik

4; 100%

0; 0%

jednostronicowe

wielostronicowe

1

1

600 ppi

4000

1

2

2

1

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

Page 199: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

199

Rys. 224. Negatywy, przezrocza w odcieniach szarości: wzorce koloru

Rys. 225. Negatywy, przezrocza w odcieniach szarości: pierwotny format zapisu

Rys. 226. Negatywy, przezrocza w odcieniach szarości: rodzaj generowanych plików TIFF

Rys. 227. Negatywy, przezrocza kolorowe: rozdzielczość

Rys. 228. Negatywy, przezrocza kolorowe: tryb i głębia koloru

Rys. 229. Negatywy, przezrocza kolorowe: wzorce koloru

3

1

2

sRGB

Adobe RGB 1998

Nie wiem

5

1

TIFF bez kompresji

TIFF z kompresją LZW

5; 100%

0; 0%

jednostronicowe

wielostronicowe

1 4000

3 24-bitowy kolor

3 sRGB

Page 200: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

200

Rys. 230. Negatywy, przezrocza kolorowe: pierwotny format zapisu

Rys. 231. Negatywy, przezrocza kolorowe: rodzaj generowanych plików TIFF

Rys. 232. Liczba respondentów digitalizujących mikroformy

Rys. 233. Mikrofilmy: rozdzielczość

Rys. 234. Mikrofilmy: tryb i głębia koloru

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

2; 100%

0; 0%

jednostronicowe

wielostronicowe

8

1

Mikrofilmy

Mikrofisze

1 300 ppi

1

2

2

1

1 bit (czerń i biel)

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

Page 201: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

201

Rys. 235. Mikrofilmy: wzorce koloru

Rys. 236. Mikrofilmy: pierwotny format zapisu

Rys. 237. Mikrofilmy: rodzaj generowanych plików TIFF

Rys. 238. Mikrofisze: rozdzielczość

Rys. 239. Mikrofisze: tryb i głębia koloru

1

2

1

2

nie dotyczy (dla koloru 1-bitowego)

sRGB

Adobe RGB 1998

Nie wiem

5

1

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

RAW

PDF bez wewnętrznej kompresji grafik

5; 83%

1; 17%

jednostronicowe

wielostronicowe

1 300 ppi

1 8-bitowa skala szarości

Page 202: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

202

Rys. 240. Mikrofisze: wzorce koloru

Rys. 241. Mikrofisze: pierwotny format zapisu

Rys. 242. Mikrofisze: rodzaj generowanych plików TIFF

Rys. 243. Liczba respondentów digitalizujących prace licencjackie, magisterskie i doktorskie

Rys. 244. Prace licencjackie, magisterskie, doktorskie – czarno-biała treść: rozdzielczość

Rys. 245. Prace licencjackie, magisterskie, doktorskie – czarno-biała treść: tryb i głębia koloru

1 Grey Gamma

1 TIFF bez kompresji

1; 100%

0; 0%

jednostronicowe

wielostronicowe

5

6

5

8

Prace - czarno-biała treść

Prace zawierające czarno-białe elementy graficzne

Prace zawierające elementy graficzne w odcieniach szarości

Prace zawierające kolorowe elementy graficzne

2 300 ppi

1

1

2

1

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

Page 203: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

203

Rys. 246. Prace licencjackie, magisterskie, doktorskie – czarno-biała treść: wzorce koloru

Rys. 247. Prace licencjackie, magisterskie, doktorskie – czarno-biała treść: pierwotny format zapisu

Rys. 248. Prace licencjackie, magisterskie, doktorskie – czarno-biała treść: rodzaj generowanych plików

TIFF

Rys. 249. Prace licencjackie, magisterskie, doktorskie zawierające czarno-białe elementy graficzne:

rozdzielczość

Rys. 250. Prace licencjackie, magisterskie, doktorskie zawierające czarno-białe elementy graficzne:

tryb i głębia koloru

1

2

2

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

4

1

1

TIFF bez kompresji

TIFF z kompresją LZW

PDF z wewnątrzną kompresją bezstratną grafik

5; 100%

0; 0%

jednostronicowe

wielostronicowe

3

1

300 ppi

600 ppi

1

2

1

3

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

Page 204: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

204

Rys. 251. Prace licencjackie, magisterskie, doktorskie zawierające czarno-białe elementy graficzne:

wzorce koloru

Rys. 252. Prace licencjackie, magisterskie, doktorskie zawierające czarno-białe elementy graficzne:

pierwotny format zapisu

Rys. 253. Prace licencjackie, magisterskie, doktorskie zawierające czarno-białe elementy graficzne:

rodzaj generowanych plików TIFF

Rys. 254. Prace licencjackie, magisterskie, doktorskie zawierające elementy graficzne w odcieniach

szarości: rozdzielczość

1

2

3

2

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

5

1

1

TIFF bez kompresji

TIFF z kompresją LZW

PDF z wewnątrzną kompresją bezstratną grafik

6; 100%

0; 0%

jednostronicowe

wielostronicowe

3

1

300 ppi

600 ppi

Page 205: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

205

Rys. 255. Prace licencjackie, magisterskie, doktorskie zawierające elementy graficzne w odcieniach

szarości: tryb i głębia koloru

Rys. 256. Prace licencjackie, magisterskie, doktorskie zawierające elementy graficzne w odcieniach

szarości: wzorce koloru

Rys. 257. Prace licencjackie, magisterskie, doktorskie zawierające elementy graficzne w odcieniach

szarości: pierwotny format zapisu

Rys. 258. Prace licencjackie, magisterskie, doktorskie zawierające elementy graficzne w odcieniach

szarości: rodzaj generowanych plików TIFF

2

1

2

1

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

48-bitowy kolor

3

2

1

1

1

Grey Gamma

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

4

1

1

TIFF bez kompresji

TIFF z kompresją LZW

PDF z wewnątrzną kompresją bezstratną grafik

4; 100%

0; 0%

jednostronicowe

wielostronicowe

Page 206: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

206

Rys. 259. Prace licencjackie, magisterskie, doktorskie zawierające kolorowe elementy graficzne:

rozdzielczość

Rys. 260. Prace licencjackie, magisterskie, doktorskie zawierające kolorowe elementy graficzne:

tryb i głębia koloru

Rys. 261. Prace licencjackie, magisterskie, doktorskie zawierające kolorowe elementy graficzne:

wzorce koloru

Rys. 262. Prace licencjackie, magisterskie, doktorskie zawierające kolorowe elementy graficzne:

pierwotny format zapisu

3

1

300 ppi

600 ppi

7

1

24-bitowy kolor

48-bitowy kolor

1

4

1

1

3

Grey Gamma

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

5

1

2

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG bez kompresji

PDF z wewnątrzną kompresją bezstratną grafik

Page 207: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

207

Rys. 263. Prace licencjackie, magisterskie, doktorskie zawierające kolorowe elementy graficzne:

rodzaj generowanych plików TIFF

Rys. 264. Liczba respondentów digitalizujących dokumenty urzędowe

Rys. 265. Dokumenty urzędowe – czarno-biała treść: rozdzielczość

Rys. 266. Dokumenty urzędowe – czarno-biała treść: tryb i głębia koloru

6; 100%

0; 0%

jednostronicowe

wielostronicowe

10

5

5

11

Dokumenty - czarno-biała treść

Dokumenty zawierające czarno-białe elementy graficzne

Dokumenty zawierające elementy graficzne w odcieniachszarości

Dokumenty zawierające kolorowe elementy graficzne

1

4

200 ppi

300 ppi

2

1

1

6

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

Page 208: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

208

Rys. 267. Dokumenty urzędowe – czarno-biała treść: wzorce koloru

Rys. 268. Dokumenty urzędowe – czarno-biała treść: pierwotny format zapisu

Rys. 269. Dokumenty urzędowe – czarno-biała treść: rodzaj generowanych plików TIFF

Rys. 270. Dokumenty urzędowe zawierające czarno-białe elementy graficzne: rozdzielczość

Rys. 271. Dokumenty urzędowe zawierające czarno-białe elementy graficzne: tryb i głębia koloru

2

1

5

1

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

6

1

1

2

1

TIFF bez kompresji

JPEG bez kompresji

JPEG z kompresją

PDF bez wewnętrznej kompresji grafik

Inny format

6; 100%

0; 0%

jednostronicowe

wielostronicowe

1

2

200 ppi

300 ppi

1

1

2

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

Page 209: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

209

Rys. 272. Dokumenty urzędowe zawierające czarno-białe elementy graficzne: wzorce koloru

Rys. 273. Dokumenty urzędowe zawierające czarno-białe elementy graficzne: pierwotny format zapisu

Rys. 274. Dokumenty urzędowe zawierające czarno-białe elementy graficzne: rodzaj generowanych

plików TIFF

Rys. 275. Dokumenty urzędowe zawierające elementy graficzne w odcieniach szarości: rozdzielczość

Rys. 276. Dokumenty urzędowe zawierające elementy graficzne w odcieniach szarości: tryb i głębia

koloru

Rys. 277. Dokumenty urzędowe zawierające elementy graficzne w odcieniach szarości: wzorce koloru

1

3

Grey Gamma

sRGB

4

1

TIFF bez kompresji

Inny format

3; 100%

0; 0%

jednostronicowe

wielostronicowe

4 300 ppi

1

1

2

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

1

3

Grey Gamma

sRGB

Page 210: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

210

Rys. 278. Dokumenty urzędowe zawierające elementy graficzne w odcieniach szarości: pierwotny format

zapisu

Rys. 279. Dokumenty urzędowe zawierające elementy graficzne w odcieniach szarości: rodzaj

generowanych plików TIFF

Rys. 280. Dokumenty urzędowe zawierające kolorowe elementy graficzne: rozdzielczość

Rys. 281. Dokumenty urzędowe zawierające kolorowe elementy graficzne: tryb i głębia koloru

Rys. 282. Dokumenty urzędowe zawierające kolorowe elementy graficzne: wzorce koloru

3

1

1

TIFF bez kompresji

JPEG z kompresją

Inny format

3; 100%

0; 0%

jednostronicowe

wielostronicowe

7 300 ppi

8

3

24-bitowy kolor

48-bitowy kolor

8

1

1

1

sRGB

Adobe RGB 1998

ProPhoto RGB

Nie wiem

Page 211: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

211

Rys. 283. Dokumenty urzędowe zawierające kolorowe elementy graficzne: pierwotny format zapisu

Rys. 284. Dokumenty urzędowe zawierające kolorowe elementy graficzne: rodzaj generowanych

plików TIFF

Rys. 285. Liczba respondentów digitalizujących maszynopisy

Rys. 286. Maszynopisy – wyraźny kontrast: rozdzielczość

Rys. 287. Maszynopisy – wyraźny kontrast: tryb i głębia koloru

8

1

1

1

TIFF bez kompresji

TIFF z kompresją LZW

JPEG z kompresją

Inny format

8; 89%

1; 11%

jednostronicowe

wielostronicowe

8

9

Maszynopisy - wyraźny kontrast

Maszynopisy - niewyraźny kontrast

5

1

300 ppi

600 ppi

2

1

2

5

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

Page 212: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

212

Rys. 288. Maszynopisy – wyraźny kontrast: wzorce koloru

Rys. 289. Maszynopisy – wyraźny kontrast: pierwotny format zapisu

Rys. 290. Maszynopisy – wyraźny kontrast: rodzaj generowanych plików TIFF

Rys. 291. Maszynopisy – niewyraźny kontrast: rozdzielczość

2

2

5

1

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Adobe RGB 1998

Nie wiem

8

1

TIFF bez kompresji

Inny format

8; 100%

0; 0%

jednostronicowe

wielostronicowe

2

1

1

2

300 ppi

400 ppi

450 ppi

600 ppi

Page 213: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

213

Rys. 292. Maszynopisy – niewyraźny kontrast: tryb i głębia koloru

Rys. 293. Maszynopisy – niewyraźny kontrast: wzorce koloru

Rys. 294. Maszynopisy – niewyraźny kontrast: pierwotny format zapisu

Rys. 295. Maszynopisy – niewyraźny kontrast: rodzaj generowanych plików TIFF

Rys. 296. Liczba respondentów digitalizujących nuty

1

1

3

5

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

1

2

6

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

Nie wiem

8

1

1

TIFF bez kompresji

JPEG z kompresją

Inny format

8; 100%

0; 0%

jednostronicowe

wielostronicowe

5

3

Nuty - wyraźny kontrast

Nuty - niewyraźny kontrast

Page 214: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

214

Rys. 297. Nuty – wyraźny kontrast: rozdzielczość

Rys. 298. Nuty – wyraźny kontrast: tryb i głębia koloru

Rys. 299. Nuty – wyraźny kontrast: wzorce koloru

Rys. 300. Nuty – wyraźny kontrast: pierwotny format zapisu

Rys. 301. Nuty – wyraźny kontrast: rodzaj generowanych plików TIFF

Rys. 302. Nuty – niewyraźny kontrast: rozdzielczość

3 300 ppi

3

1

24-bitowy kolor

48-bitowy kolor

2

1

1

sRGB

ProPhoto RGB

Nie wiem

3

1

1

TIFF bez kompresji

JPEG bez kompresji

RAW

3; 100%

0; 0%

jednostronicowe

wielostronicowe

2 300 ppi

Page 215: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

215

Rys. 303. Nuty – niewyraźny kontrast: tryb i głębia koloru

Rys. 304. Nuty – niewyraźny kontrast: wzorce koloru

Rys. 305. Nuty – niewyraźny kontrast: pierwotny format zapisu

Rys. 306. Nuty – niewyraźny kontrast: rodzaj generowanych plików TIFF

Rys. 307. Liczba respondentów digitalizujących rysunki techniczne

Rys. 308. Rysunki techniczne – wyraźny kontrast: rozdzielczość

2 24-bitowy kolor

1

1

sRGB

Nie wiem

1

1

1

TIFF bez kompresji

JPEG bez kompresji

RAW

1; 100%

0; 0%

jednostronicowe

wielostronicowe

4

3

Rysunki techniczne - wyraźny kontrast

Rysunki techniczne - niewyraźny kontrast

2

1

300 ppi

600 ppi

Page 216: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

216

Rys. 309. Rysunki techniczne – wyraźny kontrast: tryb i głębia koloru

Rys. 310. Rysunki techniczne – wyraźny kontrast: wzorce koloru

Rys. 311. Rysunki techniczne – wyraźny kontrast: pierwotny format zapisu

Rys. 312. Rysunki techniczne – wyraźny kontrast: rodzaj generowanych plików TIFF

Rys. 313. Rysunki techniczne – niewyraźny kontrast: rozdzielczość

1

1

2

1

1 bit (czerń i biel)

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

1

3

1

nie dotyczy (dla koloru 1-bitowego)

Grey Gamma

sRGB

4

1

TIFF bez kompresji

PDF z wewnątrzną kopresją bezstratną grafik

4; 100%

0; 0%

jednostronicowe

wielostronicowe

1

1

1

300 ppi

400 ppi

600 ppi

Page 217: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

217

Rys. 314. Rysunki techniczne – niewyraźny kontrast: tryb i głębia koloru

Rys. 315. Rysunki techniczne – niewyraźny kontrast: wzorce koloru

Rys. 316. Rysunki techniczne – niewyraźny kontrast: pierwotny format zapisu

Rys. 317. Rysunki techniczne – niewyraźny kontrast: rodzaj generowanych plików TIFF

Rys. 318. Sposób postępowania z plikami uzyskanymi w trakcie skanowania / fotografowania

1

1

2

8-bitowa skala szarości

16-bitowa skala szarości

24-bitowy kolor

2

2

Grey Gamma

sRGB

3

1

TIFF bez kompresji

PDF z wewnątrzną kopresją bezstratną grafik

3; 100%

0; 0%

jednostronicowe

wielostronicowe

47; 92%

2; 4% 2; 4%

Pliki archiwalne objęte są politykądługotrwałego przechowywania

Pliki archiwalne - po stworzeniu na ichpodstawie wersji prezentacyjnych - sąkasowane

Stosowany jest inny modelpostępowania

Page 218: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

218

Rys. 319. Model polityki długotrwałego przechowywania plików

Rys. 320. Typy nośników, na których docelowo przechowywane są pliki

Rys. 321. Korekta plików archiwalnych

1; 2%

46; 94%

2; 4%

Outsourcing

Samodzielne przechowywanie

Model mieszany

30

1

19

16

6

6

3

Pojedyncze dyski optyczne

Dyski magnetooptyczne obsługiwane przez zmieniarkę

Niezorganizowane dyski twarde

Macierze dyskowe

NAS

Nośniki taśmowe

Inny typ nośników

30; 59% 10; 20%

11; 21% Obrazy zapisane w plikacharchiwalnych nie są korygowane

Obrazy zapisane w plikacharchiwalnych są korygowane

Korygowane są wyłącznie kopieplików archiwalnych, oryginałyprzechowywane są w formieniezmienionej

Page 219: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

219

Rys. 322. Sposób postępowania ze skorygowanymi kopiami

Rys. 323. Sposób przeprowadzania korekty

Rys. 324. Czynności wykonywane w trakcie korekty

7; 64%

3; 27%

1; 9%

Podobnie jak oryginały - objęte sąpolityką długotrwałegoprzechowywania

Są kasowane po dokonaniudocelowej konwersji na formatyprezentacyjne

Stosowany jest inny modelpostępowania

1; 5%

12; 57%

8; 38% Wsadowo

Ręcznie

W sposób mieszany

21

13

10

8

6

2

18

14

14

10

11

9

1

Kadrowanie

Korekcja kolorów

Obrót o kąty będące wielokrotnością 90 st.

Zmiana wymiarów obrazów

Zmiana rozdzielczości

Zmiana głębi bitowej koloru

Obrót o dowolny kąt (korekta przekoszenia)

Korekcja jasności

Korekcja kontrastu

Korekcja nasycenia

Korekcja ostrości

Eliminacja artefaktów i zniekształceń

Inne czynności

Page 220: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

220

Rys. 325. Oprogramowanie stosowane do korekty skanów

Rys. 326. Rodzaje generowanych plików prezentacyjnych

Rys. 327. Oprogramowanie stosowane do generowania i edycji plików DjVu

9

10

1

6

5

2

6

9

Oprogramowanie dostarczone przez producenta skanera /aparatu

Adobe Photoshop

Adobe Photoshop Elements

GIMP

Corel Photo-Paint

Corel Paint Shop Pro

IrfanView

Inny program

40

26

14

1

2

3

DjVu

PDF

JPEG

JPEG 2000

PNG

Inny format

4

15

9

8

4

3

DocumentExpress Desktop

DocumentExpress Professional

DocumentExpress Enterprise

DjVuLibre

PDF2DjVu

Inny program

Page 221: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

221

Rys. 328. Stosowane profile DjVu

Rys. 329. Przeciętna rozdzielczość stosowana dla DjVu

Rys. 330. Generowanie systemu zakładek odzwierciedlających strukturę dokumentu w plikach DjVu

20

5

17

2

4

2

1

9

7

Normal

Electronic

Photo

Bitonal

Manuscript

Drawing

Map

Własny profil

Trudno powiedzieć

1

1

21

1

150 ppi

200 ppi

300 ppi

600 ppi

2; 6%

11; 31%

22; 63%

Tak - we wszystkich plikach

Tak, ale tylko w niektórych plikach

Nie

Page 222: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

222

Rys. 331. Sposoby zabezpieczania plików DjVu

Rys. 332. Realizowanie OCR w plikach DjVu

Rys. 333. Istniejące pliki DjVu bez OCR

Rys. 334. Procent plików DjVu bez OCR w stosunku do wszystkich posiadanych plików DjVu

24

3

4

Wygenerowane pliki nie są zabezpieczone

Pliki posiadają znak wodny

Pliki są zabezpieczone w inny sposób

7; 20%

18; 51%

7; 20%

3; 9% Nie

Tak - za pomocą mechanizmu wbudowanego wDocumentExpress

Tak - proces OCR jest realizowany przezzewnętrzne oprogramowanie (np. ABBYYFineReader)

Tak - przy zastosowaniu modelu mieszanego(mechanizm wbudowany w DocumentExpressoraz oprogramowanie zewnętrzne - wzależności od dokumentu/grupy dokumentów)

13; 50% 13; 50% Nie

Tak

5; 39%

2; 15%

3; 23%

3; 23%

do 10%

11-25%

26-50%

51-75%

Page 223: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

223

Rys. 335. Poddanie w przyszłości OCRowi „nierozpoznanych” plików DjVu

Rys. 336. Oprogramowanie stosowane do generowania i edycji plików PDF

Rys. 337. Generowane typy PDF

Rys. 338. Przeciętna rozdzielczość stosowana dla PDF

2; 15%

4; 31%

7; 54%

Nie

Tak

Trudno powiedzieć

10

7

11

6

Adobe Acrobat Standard

Adobe Acrobat Pro

ABBYY FineReader

Inny program

24

2

1

Standardowy PDF

PDF/A

Trudno powiedzieć

1

1

1

14

1

1

144 ppi

150 ppi

200 ppi

300 ppi

400 ppi

600 ppi

Page 224: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

224

Rys. 339. Generowanie systemu zakładek odzwierciedlających strukturę dokumentu w plikach PDF

Rys. 340. Sposoby zabezpieczania plików PDF

Rys. 341. Realizowanie OCR w plikach PDF

7; 30%

5; 22%

11; 48%

Tak - we wszystkich plikach

Tak, ale tylko w niektórychplikach

Nie

17

3

9

4

4

1

Wygenerowane pliki nie są zabezpieczone

Pliki posiadają znak wodny

Pliki są chronione przed modyfikacją

Pliki są chronione przed drukowaniem

Pliki są chronione przed kopiowaniem

Pliki są zabezpieczone w inny sposób

10; 42%

4; 17%

8; 33%

2; 8%

Nie

Tak - za pomocą mechanizmu wbudowanegow Adobe Acrobat

Tak - proces OCR jest realizowany przezzewnętrzne oprogramowanie (np. ABBYYFineReader)

Tak - przy zastosowaniu modelu mieszanego(mechanizm wbudowany w Adobe Acrobatoraz oprogramowanie zewnętrzne - wzależności od dokumentu/grupydokumentów)

Page 225: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

225

Rys. 342. Istniejące pliki PDF bez OCR

Rys. 343. Procent plików PDF bez OCR w stosunku do wszystkich posiadanych plików PDF

Rys. 344. Poddanie w przyszłości OCR-owi „nierozpoznanych” plików PDF

6; 37%

10; 63%

Nie

Tak

7; 70%

1; 10%

2; 20%

do 10%

11-25%

powyżej 75%

3; 30%

3; 30%

4; 40% Nie

Tak

Trudno powiedzieć

Page 226: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

226

Rys. 345. Generowane odmiany JPEG

Rys. 346. Przeciętna rozdzielczość stosowana dla JPEG

Rys. 347. Sposoby zabezpieczania plików JPEG

Rys. 348. Przeciętna rozdzielczość stosowana dla PNG

Rys. 349. Sposoby zabezpieczania plików PNG

5; 34%

2; 13%

8; 53%

Kompresja stratna

Kompresja bezstratna

Kompresja stratna lub bezstratna -w zależności od dokumentu / grupydokumentów

1

1

1

4

1

100 ppi

150 ppi

200 ppi

300 ppi

400 ppi

12

4

1

Wygenerowane pliki nie są zabezpieczone

Pliki posiadają widoczny znak wodny

Pliki są zabezpieczone w inny sposób

1 150 ppi

1

1

Pliki posiadają widoczny znak wodny

Pliki posiadają niewidoczny znak wodny

Page 227: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

227

Rys. 350. Procent respondentów stosujących głęboką digitalizację

Rys. 351. Procentowy udział dokumentów poddanych głębokiej digitalizacji w stosunku do ogółu

zdigitalizowanych dokumentów

Rys. 352. Format archiwalny, w jakim zapisywany jest materiał uzyskany w wyniku głębokiej

digitalizacji

Rys. 353. Formaty prezentacyjne tworzone w wyniku głębokiej digitalizacji

6; 12%

44; 88%

Głęboka digitalizacja

Standardowa digitalizacja

4; 80%

1; 20%

do 10%

11-25%

2

1

1

DOC (DOCX)

XML

TXT

3

3

PDF

DjVu

Page 228: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

228

Rys. 354. Polityka traktowania układu treści zawartego w dokumencie oryginalnym podczas tworzenia

formatu prezentacyjnego

Rys. 355. Sposób wypełniania metadanych EXIF

Rys. 356. Wykorzystanie standardów metadanych administracyjnych, technicznych lub strukturalnych

przy tworzeniu i zarządzaniu cyfrowymi obiektami (nie dotyczy EXIF)

2; 50% 2; 50%

Wersja elektroniczna posiadaodtworzony oryginalny układ treści(gdy format to umożliwia)

Wersja elektroniczna posiadazmieniony układ treści

13; 26%

4; 8%

14; 28%

19; 38%

Metadane są fabrycznie zdefiniowane i w całościautomatycznie generowane przez systemobsługujący skaner / aparat cyfrowy

Metadane są fabrycznie zdefiniowane iautomatycznie generowane przez systemobsługujący skaner / aparat cyfrowy, a następnieautomatycznie lub ręcznie modyfikowane

Zakres i wartości metadanych są z górydefiniowane przez osoby zajmujące siędigitalizacją

Trudno powiedzieć

18

3

1

2

25

Metadane są generowane automatycznie, azarządzanie odbywa się na podstawie fizycznego lub

logicznego umiejscowienia plików archiwalnych

Wykorzystywany jest standard danychadministracyjnych

Wykorzystywany jest standard danych technicznych

Wykorzystywany jest inny rodzaj metadanych

Trudno powiedzieć

Page 229: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

Załącznik nr 2

minimalne zalecane minimalne zalecane minimalne zalecane minimalne zalecane

1 2 3 4 5 6 7 8 9 10 11 12 13

Książki - czarno-biały tekst (pkt 3.3.1) TIFF 300 ppi 24-bit RGB sRGB

Książki zawierające czarno-białe ilustracje (pkt 3.3.3) TIFF 300 ppi 24-bit RGB sRGB

Gazety - czarno-biały tekst (pkt 3.4.1) TIFF 300 ppi 24-bit RGB sRGB

Gazety zawierające czarno-białe ilustracje (pkt 3.4.3) TIFF 300 ppi 24-bit RGB sRGB

Czasopisma - czarno-biały tekst (pkt 3.5.1) TIFF 300 ppi 24-bit RGB sRGB

Czasopisma zawierające czarno-białe ilustracje (pkt

3.5.3)TIFF 300 ppi 24-bit RGB sRGB

Mapy czarno-białe z wyraźnym kontrastem (pkt

3.11.1)TIFF 300 ppi 24-bit RGB sRGB

Prace licencjackie, magisterskie, doktorskie - czarno-

biała treść (pkt 3.16.1)TIFF 300 ppi

16-bitowa skala

szarości

Grey Gamma /

sRGB

Prace licencjackie, magisterskie, doktorskie

zawierające czarno-białe elementy graficzne (pkt

3.16.2)

TIFF 300 ppi 24-bit RGB sRGB

Dokumenty urzędowe - czarno-biała treść (pkt 3.17.1) TIFF 300 ppi 24-bit RGB sRGB

Dokumenty urzędowe zawierające czarno-białe

elementy graficzne (pkt 3.17.2)TIFF 300 ppi 24-bit RGB sRGB

Maszynopisy z wyraźnym kontrastem (pkt 3.18.1) TIFF 300 ppi 24-bit RGB sRGB

Nuty z wyraźnym kontrastem (pkt 3.19.1) TIFF 300 ppi 24-bit RGB sRGB

Rysunki techniczne z wyraźnym kontrastem (pkt

3.20.1)TIFF 300 ppi

16-bitowa skala

szarościGrey Gamma

modalna

Format

wymaganiamodalna

wymaganiamodalna

Rozdzielczość

GRUPA A

Tab. 7. Parametry digitalizacji stosowane w polskich bibliotekach – zestawienie wartości zalecanych z modalnymi otrzymanymi w drodze analizy wyników badania

TIFF 6.0

z kompresją

CCITT Group4

TIFF 6.0

z kompresją

CCITT Group4400 ppi 600 ppi 1 1 nie dotyczy nie dotyczy

Bity na piksel

wymaganiamodalna

Typ / rodzaj dokumentu*

Wzorce szarości / koloru

wymagania

Page 230: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

1 2 3 4 5 6 7 8 9 10 11 12 13

Książki zawierające ilustracje w odcieniach szarości

(pkt 3.3.4)TIFF 300 ppi 24-bit RGB sRGB

Gazety zawierające ilustracje w odcieniach szarości

(pkt 3.4.4)TIFF 300 ppi 24-bit RGB sRGB

Czasopisma zawierające ilustracje w odcieniach

szarości (pkt 3.5.4)TIFF 300 ppi

8-bitowa skala

szarości / 24-bit

RGB

sRGB

Mapy czarno-białe z niewyraźnym kontrastem (pkt

3.11.2)TIFF 300 ppi 24-bit RGB sRGB

Prace licencjackie, magisterskie, doktorskie

zawierające elementy graficzne w odcieniach szarości

(pkt 3.16.3)

TIFF 300 ppi

8-bitowa skala

szarości / 24-bit

RGB

Grey Gamma

Dokumenty urzędowe zawierające elementy graficzne

w docieniach szarości (pkt 3.17.3)TIFF 300 ppi 24-bit RGB sRGB

Maszynopisy z niewyraźnym kontrastem (pkt 3.18.2) TIFF300 ppi /

600 ppi24-bit RGB sRGB

Nuty z niewyraźnym kontrastem (pkt 3.19.2)TIFF / JPEG /

RAW300 ppi 24-bit RGB sRGB

Rysunki techniczne z niewyraźnym kontrastem (pkt

3.20.2)TIFF

300 ppi /

400 ppi /

600 ppi

24-bit RGBGrey Gamma /

sRGB

GRUPA B

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

300 ppi 400 ppi8-bitowa skala

szarości

16-bitowa skala

szarości

Grey Gamma

2.2.

Grey Gamma

2.2.

Page 231: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

1 2 3 4 5 6 7 8 9 10 11 12 13

Grafiki czarno-białe (pkt 3.9.1) TIFF 300 ppi

8-bitowa skala

szarości / 16-

bitowa skala

szarości / 24-bit

RGB

sRGB

Grafiki w odcieniach szarości (pkt 3.9.3.) TIFF300 ppi /

600 ppi24-bit RGB

sRGB / Adobe

RGB 1998

Mapy w odcieniach szarości (pkt 3.11.4) TIFF 300 ppi

16-bitowa skala

szarości / 24-bit

RGB

sRGB

Odbitki fotograficzne w docieniach szarości (pkt

3.13.2)TIFF

300 ppi /

600 ppi24-bit RGB sRGB

Negatywy, przezrocza monochromatyczne (pkt

3.14.1)TIFF b.d.

1 bit / 16-bitowa

skala szarości /

24-bit RGB

sRGB

Negatywy, przezrocza w odcieniach szarości (pkt

3.14.2)TIFF

300 ppi /

4000 pikseli

na dłuższym

wymiarze

16-bitowa skala

szarości / 24-bit

RGB

sRGB

Negatywy, przezrocza kolorowe (pkt 3.14.3)

TIFF / TIFF z

kompresją LZW

/ bezstratny

JPEG

4000 pikseli

na dłyższym

wymiarze

24-bit RGB sRGB

Mikrofilmy (pkt 3.15.1) TIFF 300 ppi

16-bitowa skala

szarości / 24-bit

RGB

sRGB

Mikrofisze (pkt 3.15.2) TIFF 300 ppi8-bitowa skala

szarościGrey Gamma

GRUPA E

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

jak dla

mikrofilmowa-

nego oryginału

w granicach

przenoszenia

jego cech przez

mikrofilm

jak dla

mikrofilmowa-

nego oryginału

w granicach

przenoszenia

jego cech przez

mikrofilm

8 bitów na kolor

24-bit RGB

albo 8-bitowa

skala szarości

8 bitów na kolor

24-bit RGB

albo 8-bitowa

skala szarości

nie dotyczy nie dotyczy

GRUPA C

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

300 ppi, lecz nie

mniej niż 3000

pikseli na

dłuższym

wymiarze

400 ppi, lecz nie

mniej niż 5000

pikseli na

dłuższym

wymiarze

8-bitowa skala

szarości

16-bitowa skala

szarości

Grey Gamma

2.2.

Grey Gamma

2.2.

GRUPA D

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

300 ppi, lecz nie

mniej niż 3000

pikseli na

dłuższym

wymiarze

600 ppi, lecz nie

mniej niż 5000

pikseli na

dłuższym

wymiarze

8 bitów na kolor

24-bit RGB

albo 8-bitowa

skala szarości

8 bitów na kolor

24-bit RGB

albo 8-bitowa

skala szarości

Adobe RGB

1998

Gamma 2.2.

albo Adobe RGB

1998 lub lepszy

Page 232: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

1 2 3 4 5 6 7 8 9 10 11 12 13

Książki monochromatyczne (pkt 3.3.2) TIFF 300 ppi

8-bitowa skala

szarości / 24-bit

RGB

sRGB

Książki zawierające kolorowe ilustracje (pkt 3.3.5) TIFF 300 ppi 24-bit RGB sRGB

Gazety monochromatyczne (pkt 3.4.2) TIFF 300 ppi 24-bit RGB sRGB

Gazety zawierające kolorowe ilustracje (pkt 3.4.5) TIFF 300 ppi 24-bit RGB sRGB

Czasopisma monochromatyczne (pkt 3.5.2) TIFF 300 ppi 24-bit RGB sRGB

Czasopisma zawierające kolorowe ilustracje (pkt

3.5.5.)TIFF 300 ppi 24-bit RGB sRGB

Rękopisy - wyraźny kontrast (pkt 3.6.1) TIFF300 ppi /

600 ppi24-bit RGB sRGB

Rękopisy - niewyraźny kontrast (pkt 3.6.2) TIFF300 ppi /

600 ppi24-bit RGB sRGB

Inkunabuły (pkt 3.7) TIFF 300 ppi 24-bit RGB sRGB

Stare druki (pkt 3.8) TIFF 300 ppi 24-bit RGB sRGB

Grafiki monochromatyczne (pkt 3.9.2) TIFF300 ppi /

600 ppi24-bit RGB

sRGB / Adobe

RGB 1998

Grafiki kolorowe (pkt 3.9.4) TIFF 600 ppi 24-bit RGB sRGB

Mapy monochromatyczne (pkt 3.11.3) TIFF 300 ppi

16-bitowa skala

szarości / 24-bit

RGB

sRGB

Mapy kolorowe (pkt 3.11.5) TIFF 300 ppi 24-bit RGB sRGB

Odbitki fotograficzne monochromatyczne (pkt 3.13.1) TIFF 300 ppi 24-bit RGB sRGB

Odbitki fotograficzne kolorowe (pkt 3.13.3) TIFF 300 ppi 24-bit RGB sRGB

Prace licencjackie, magisterskie, doktorskie

zawierające kolorowe elementy graficzne (pkt. 3.16.4)TIFF 300 ppi 24-bit RGB sRGB

Dokumenty urzędowe zawierające kolorowe elementy

graficzne (pkt 3.17.4)TIFF 300 ppi 24-bit RGB sRGB

300 ppi, lecz nie

mniej niż 3000

pikseli na

dłuższym

wymiarze

400 ppi, lecz nie

mniej niż 5000

pikseli na

dłuższym

wymiarze

8 bitów na kolor

24-bit RGB

GRUPA F

16 bitów na

kolor

48-bit RGB

Adobe RGB

1998

Adobe RGB

1998 lub lepszy

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

Page 233: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

1 2 3 4 5 6 7 8 9 10 11 12 13

Grafiki wielkoformatowe czarno-białe (pkt 3.10.1) TIFF 300 ppi 24-bit RGB sRGB

Grafiki wielkoformatowe monochromatyczne (pkt

3.10.2)

TIFF / stratny

JPEG300 ppi

16-bitowa skala

szarości / 24-

bit RGB

sRGB

Grafiki wielkoformatowe w odcieniach szarości (pkt

3.10.3)TIFF 300 ppi

16-bitowa skala

szarościsRGB

Grafiki wielkoformatowe kolorowe (pkt 3.10.4) TIFF 300 ppi 24-bit RGB sRGB

Mapy wielkoformatowe czarno-białe z wyraźnym

kontrastem (pkt 3.12.1)TIFF 300 ppi

16-bitowa skala

szarościGrey Gamma

Mapy wielkoformatowe czarno-białe z niewyraźnym

kontrastem (pkt 3.12.2)TIFF 300 ppi

16-bitowa skala

szarości / 24-

bit RGB

Grey Gamma /

sRGB

Mapy wielkoformatowe monochromatyczne (pkt

3.12.3)TIFF 300 ppi 24-bit RGB sRGB

Mapy wielkoformatowe w odcieniach szarości (pkt

3.12.4)TIFF 300 ppi 24-bit RGB sRGB

Mapy wielkoformatowe kolorowe (pkt 3.12.5) TIFF 300 ppi 24-bit RGB sRGB

GRUPA G

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

TIFF 6.0

dopuszcza się

kompresję

bezstratną LZW

300 ppi 300 ppi

8 bitów na

kolor

24-bit RGB

16 bitów na

kolor

48-bit RGB

Adobe RGB

1998

Adobe RGB

1998 lub lepszy

Page 234: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska
Page 235: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

235

Bibliografia

Dokumenty drukowane:

1. BABBIE, Earl: Badania społeczne w praktyce. Warszawa: Wydawnictwo

Naukowe PWN, 2004.

2. Cyfryzacja (digitalizacja). [W:] Encyklopedia PWN w trzech tomach. T. 1. Pod.

red. A. Dyczkowskiego. Warszawa: Wydawnictwo Naukowe PWN, 1999.

3. DEFERT-WOLF, Lidia: Jak posługiwać się biblioteką cyfrową? [W:] Cyfrowy

świat dokumentu: wydawnictwa, biblioteki, muzea, archiwa. Pod red.

H. Hollendra. Warszawa: Centrum Promocji Informatyki Sp. z o.o., 2011.

4. Digitalizacja piśmiennictwa. Pod red. D. Paradowskiego. Warszawa: Biblioteka

Narodowa, 2010.

5. FRANKE, Jerzy: Digitalizacja dokumentów piśmienniczych – strategie rozwoju.

[W:] Cyfrowy świat dokumentu: wydawnictwa, biblioteki, muzea, archiwa. Pod

red. H. Hollendra. Warszawa: Centrum Promocji Informatyki Sp. z o.o., 2011,

s. 124-187.

6. KOWALSKA, Małgorzata: Dygitalizacja zbiorów bibliotek polskich. Warszawa:

Wydawnictwo SBP, 2007.

7. NAHOTKO, Marek: Komunikacja naukowa w środowisku cyfrowym: globalna

biblioteka cyfrowa w informatycznej infrastrukturze nauki. Warszawa:

Wydawnictwo Stowarzyszenia Bibliotekarzy Polskich, 2010.

8. Rozporządzenie Ministra Spraw Wewnętrznych i Administracji w sprawie

niezbędnych elementów struktury dokumentów elektronicznych z dnia 30.10.2006

r. Dz. U. Nr 206 z 2006 r., poz. 1517.

9. Rozporządzenie Rady Ministrów w sprawie minimalnych wymagań dla systemów

teleinformatycznych z dnia 11.10.2005 r. Dz. U. Nr 212 z 2005 r., poz. 1766.

10. TREMBOWIECKI, Aleksander: Digitalizacja zbiorów bibliotecznych : teoria

i praktyka. Warszawa: Centrum Edukacji Bibliotekarskiej, Informacyjnej

i Dokumentacyjnej, 2006.

11. TREMBOWIECKI, Aleksander: Polskie biblioteki cyfrowe A.D. 2010:

kształtowanie paradygmatu. W: Cyfrowy świat dokumentu: wydawnictwa,

biblioteki, muzea, archiwa. Pod red. H. Hollendra. Warszawa: Centrum Promocji

Informatyki Sp. z o.o., 2011, s. 20-33.

12. Ustawa o informatyzacji działalności podmiotów realizujących zadania publiczne

z dnia 17.02.2005 r. Dz. U. Nr 64 z 2005 r., poz. 565 z późniejszymi zmianami.

13. Ustawa o zmianie ustawy o informatyzacji działalności podmiotów realizujących

zadania publiczne z dnia 12.02.2010 r. Dz. U. Nr 40 z 2010 r., poz. 230.

14. WAŁEK, Anna: Biblioteki cyfrowe na platformie dLibra. Warszawa:

Wydawnictwo Stowarzyszenia Bibliotekarzy Polskich, 2009.

Page 236: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

236

Dokumenty elektroniczne:

15. Biblioteka Narodowa – Centrum Kompetencji. [W:] Biblioteka Narodowa

[on-line]. Tryb dostępu: http://www.bn.org.pl/aktualnosci/96-biblioteka-

narodowa-%E2%80%93-centrum-kompetencji.html [dostęp: 10.01.2011 r.].

16. Biblioteka Narodowa - Centrum Kompetencji w zakresie digitalizacji materiałów

bibliotecznych [on-line]. Tryb dostępu: http://www.bn.org.pl/programy-i-

uslugi/centrum-kompetencji-w-zakresie-digitalizacji-materialow-bibliotecznych

[dostęp: 28.02.2011 r.].

17. Canon 7D: sRGB vs. Adobe RGB (1998) Color Space. [W:] foto-biz.com

[on-line]. Tryb dostępu: http://www.foto-biz.com/Canon/Srgb-vs-adobe-rgb-

color-space [dostęp: 5.04.2011 r.].

18. Comparison of e-book readers. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Comparison_of_e-book_readers

[dostęp: 11.02.2012 r.].

19. CSV (format pliku). [W:] Wikipedia [on-line]. Tryb dostępu:

http://pl.wikipedia.org/wiki/CSV_(format_pliku) [dostęp: 10.06.2011 r.].

20. DOC (computing). [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/DOC_(computing) [dostęp: 20.12.2010 r.].

21. E Ink. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/E_Ink

[dostęp: 5.04.2011 r.].

22. Exchangeable image file format. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Exchangeable_image_file_format [dostęp:

14.03.2011 r.].

23. GeoTIFF. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Geotiff [dostęp: 10.01.2011 r.].

24. GIF. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/GIF

[dostęp: 20.12.2010 r.].

25. Historia projektu. [W:] Polska Biblioteka Internetowa [on-line]. Tryb dostępu:

http://www.pbi.edu.pl/opbi_historia_projektu.html [dostęp: 22.10.2010 r.].

26. Informacja Instytutu Książki i Czytelnictwa Biblioteki Narodowej o działalności

bibliotek publicznych w 2010 r. (Opracowano na podstawie danych Głównego

Urzędu Statystycznego) [W:] Biblioteka Narodowa – Biblioteki Publiczne

w Liczbach [on-line]. Tryb dostępu:

http://www.bn.org.pl/download/document/1311762794.pdf [dostęp: 1.02.2012 r.].

27. Informacje na temat projektu. [W:] Wielkopolska Biblioteka Cyfrowa [on-line].

Tryb dostępu: http://www.wbc.poznan.pl/dlibra/text?id=library-desc [dostęp:

22.10.2010 r.].

28. JavaScript. [W:] Wikipedia [on-line]. Tryb dostępu:

http://pl.wikipedia.org/wiki/JavaScript [dostęp: 10.05.2011 r.].

Page 237: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

237

29. Joomla! [on-line]. Tryb dostępu: http://www.joomla.org [dostęp: 9.05.2011 r.].

30. Joomla!® Extensions [on-line]. Tryb dostępu: http://crosstec.de/en [dostęp:

9.05.2011 r.].

31. JPEG. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/JPEG

[dostęp: 22.12.2010 r.].

32. JPEG 2000. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/JPEG_2000 [dostęp: 5.04.2011 r.].

33. Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych [on-line].

Tryb dostępu: http://www.nina.gov.pl/files/Katalog_Dobrych_Praktyk_

digitalizacji_dla_obiektow_bibliotecznych.doc [dostęp: 8.03.2011 r.].

34. KOLASA, Władysław Marek: Formaty hybrydowe w bibliotekach cyfrowych

[on-line]. Tryb dostępu: http://issuu.com/mefrox/docs/fromaty [dostęp:

21.12.2010 r.].

35. Komunikat z dnia 28.11.2005 r. [W:] Ministerstwo Spraw Wewnętrznych

i Administracji [on-line]. Tryb dostępu:

http://www.mswia.gov.pl/index.php?dzial=2&id=3607

[dostęp: 3.11.2010 r.].

36. Network Attached Storage. [W:] Wikipedia [on-line]. Tryb dostępu:

http://pl.wikipedia.org/wiki/Network_Attached_Storage [dostęp: 9.05.2011 r.].

37. Office Open XML. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Office_Open_XML [dostęp: 10.01.2011 r.].

38. OpenDocument (computing). [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Open_Document [dostęp: 20.12.2010 r.].

39. PBI. Niestety to znowu o pieniądzach: krytyka wydatków na Polską Bibliotekę

Internetową. [W:] 7thGuard.net [on-line]. Tryb dostępu:

http://7thguard.net/news.php?id=3661 [dostęp: 23.10.2010 r.].

40. PHP. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/PHP

[dostęp: 10.05.2011 r.].

41. PNG. [W:] Wikipedia [on-line]. Tryb dostępu: http://pl.wikipedia.org/wiki/Png

[dostęp: 20.12.2010 r.].

42. Polska Biblioteka Internetowa | Strona główna. [W:] Polska Biblioteka

Internetowa [on-line]. Tryb dostępu: http://www.pbi.edu.pl/index.html

[dostęp: 25.02.2012 r.].

43. Portable Document Format. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Pdf [dostęp: 21.12.2010 r.].

44. Powódź winduje ceny. W Polsce drożeją dyski twarde. [W:] wyborcza.biz

[on-line]. Tryb dostępu:

http://wyborcza.biz/biznes/1,100896,10537080,Powodz_winduje_ceny__

W_Polsce_drozeja_dyski_twarde.html [dostęp: 26.10.2011 r.].

Page 238: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

238

45. Projekt rozporządzenia Rady Ministrów w sprawie Krajowych Ram

Interoperacyjności, minimalnych wymagań dla rejestrów publicznych i wymiany

informacji w formie elektronicznej oraz minimalnych wymagań dla systemów

teleinformatycznych [on-line]. Tryb dostępu:

http://bip.mswia.gov.pl/download.php?s=4&id=8282 [dostęp: 15.02.2011 r.].

46. Regulamin Programu Wieloletniego KULTURA+: Priorytet „Digitalizacja”

[on-line]. Tryb dostępu: http://www.nina.gov.pl/files/Regulamin_WPR_Kultura_

Priorytet_Digitalizacja.pdf [dostęp: 8.03.2011 r.].

47. Rich Text Format. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Rich_Text_Format [dostęp: 20.12.2010 r.].

48. Rusza Wieloletni Program Rządowy Kultura+. [W:] DOM KULTURY+ [on-line].

Tryb dostępu: http://www.domkulturyplus.pl/art,pl,aktualnosci,95985.html

[dostęp: 21.02.2011 r.].

49. Scalable Vector Graphics [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Svg [dostęp: 22.12.2010 r.].

50. sRGB. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/SRGB [dostęp: 5.04.2011 r.].

51. Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego. Pod red.

G. Płoszajskiego [on-line]. Warszawa: Biblioteka Główna Politechniki

Warszawskiej, 2008. Tryb dostępu:

http://bcpw.bg.pw.edu.pl/dlibra/doccontent?id=1262&dirids=1

[dostęp: 17.08.2010 r.].

52. ŚLASKA Katarzyna, POTĘGA Joanna: Cyfrowa Biblioteka Narodowa Polona.

[W:] Biuletyn EBIB, nr 11/2006 [on-line]. Tryb dostępu:

http://www.ebib.info/2006/81/a.php?slaska_potega [dostęp: 16.11.2010 r.].

53. Tagged Image File Format. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Tagged_Image_File_Format [dostęp: 22.12.2010 r.].

54. Text file. [W:] Wikipedia [on-line]. Tryb dostępu:

http://en.wikipedia.org/wiki/Text_file [dostęp: 21.12.2010 r.].

55. TIFF to JPEG 2000? Preservation Planning at the Bavarian State Library Using

a Collection of Digitized 16th Century Printings. [W:] D-Lib Magazine [on-line].

Tryb dostępu: http://www.dlib.org/dlib/november09/kulovits/11kulovits.html

[dostęp: 20.01.2011 r.].

56. What is the docx format? [W:] Docx File Extension (.docx) [on-line]. Tryb

dostępu: http://www.docx.net/what-is-the-docx-format [dostęp: 10.01.2011 r.].

57. Wieloletni program rządowy KULTURA+ [on-line]. Tryb dostępu:

http://bip.mkidn.gov.pl/media/docs/inne_dok/WPR_KULTURA_projekt_

20100318.pdf [dostęp: 21.02.2011 r.].

58. Witaj na stronie projektu dLibra! [W:] dLibra [on-line]. Tryb dostępu:

http://dlibra.psnc.pl [dostęp: 23.10.2010 r.].

Page 239: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

239

59. XML. [W:] Wikipedia [on-line]. Tryb dostępu: http://en.wikipedia.org/wiki/Xml

[dostęp: 21.12.2010 r.].

60. Zestawienie polskich bibliotek cyfrowych. [W:] Federacja Bibliotek Cyfrowych

[on-line]. Tryb dostępu: http://fbc.pionier.net.pl/owoc/list-libs

[dostęp: 5.06.2011 r.].

Page 240: Algorytmy generowania cyfrowych wtórników dokumentów ...bbc.uw.edu.pl/Content/719/trembowiecki.pdf · Analiza i ocena zastosowania praktycznego w polskich bibliotekach Praca magisterska

240

Spis tabel

Tabela 1. Formaty danych zapewniające dostęp do zasobów informacji

udostępnianych za pomocą systemów teleinformatycznych

używanych do realizacji zadań publicznych ................................................ 22

Tabela 2. Formaty danych oraz standardy zapewniające dostęp do zasobów

informacji udostępnianych za pomocą systemów teleinformatycznych

używanych do realizacji zadań publicznych ................................................ 28

Tabela 3. Techniczne wymagania Wieloletniego Programu Rządowego

KULTURA+, stawiane digitalizacji prowadzonej

w ramach dofinansowania ............................................................................ 32

Tabela 4. Zestawienie wymagań dotyczących plików archiwalnych rastrowych ....... 42

Tabela 5. Proces ustalania grupy respondentów przed rozpoczęciem analizy

wyników badania ......................................................................................... 79

Tabela 6. Liczba respondentów z podziałem na stron ankiety .................................... 80

Tabela 7. Parametry digitalizacji stosowane w polskich bibliotekach –

zestawienie wartości zalecanych z modalnymi otrzymanymi

w drodze analizy wyników badania ........................................................... 229