(Przeszukujac Internet)

5
 C z´sto nazywa si´ Internet Êwiatowà bibliotekà epoki cy- frowej. To okreÊlenie nie wy- trzymuje jednak nawet pobie˝nej ana- lizy. Internet – a szczególn ie jego zbiór multimedialnych zasobów zna- ny jako World Wide Web – nie zostastworz ony z myÊlà o uporzà dkowa - niu publikacji dajàcym mo˝liwoÊç wyszuki wania ich tak jak w bibliotece.  Jego rozwój doprowadzido czegoÊ, co da si´ porównaç do bezadnego zbioru efektów pracy cyfrowych „maszyn dru- karskich” na caym Êwiecie. Ten maga- zyn informacji zawiera nie tylko ksià˝- ki i dokument y, ale równie˝ dane naukowe, przepisy, reklamy, notatki ze spotka ƒ, nagrania audio i wideo , zapi- sy interaktywnych konwersacji. Rzeczy efemeryczne przemieszane sà z pracami o wartoÊ ci niepr zemij ajàcej. Mówiàc krótko, Internet nie jest cy- frowà bibliotekà. Ale jeÊli jego rozwój nie straci n a tempie i doprowadzi do uczynienia zeƒ nowego Êrodka komu- nikacji, zajdzie potrzeba zorganizowania czegoÊ bardzo podobnego do tradycyj- nych usug bibliotecznych. B´dzie si´ to wiàzao z koniecznoÊcià uporzàdkowa - nia, udost´pn iania i archiwizo wania in- formacji zgromadzonych w Sieci. Na- wet wtedy Internet nie musi jednak przypominaç tradycyjnej biblioteki, po- niewa˝ jego zawartoÊç jest znacznie bar- dziej rozproszona. Umiej´tnoÊci klasy- fikac ji i selek cji, którymi dyspon ujà  bibliotekarze, trzeba b´dzie uzup eniç umiej´tnoÊciami informatyka – auto- matycznego indeksowania i przecho- wywania informacji. Tylko synteza obu profesji pozwoli nowemu me- dium zachowaç ˝ywotnoÊç. DziÊ prawie caa odpowiedzialnoÊç za uporzàdkowanie informacji w In- ternecie spoczywa na technice kom- puterowej. W teorii oprogramowa- nie, które klasyfi kuje i indeksuje zbiory danych cyfrowych, powinno poradziç sobie z zalewem info rmacji zgromadzo- nej w Sieci, co przekracza mo ˝liwoÊci  bibliote karzy i archiw istów. Do au to- matycznego przetwarzania informac ji  b´dà su˝coraz szybsze i coraz taƒ- sze komputery; pozwoli to uniknàç wy- sokich kosztó w i opóênieƒ zwiàzanych z indeksowan iem wykony wanym przez czowieka. Ale jak wie ka˝dy, kto kiedykolwiek przeszukiwaSieç, automaty kategory- zujà informacje inaczej ni˝ ludzie. W RAPORT SPECJALNY PRZESZUKUJÑC INTERNET Czy p oàczenie umi ej´tnoÊci bibliotekarza i komputerowego guru pomo˝ e w opano waniu anarchii w Internecie? Clifford Lynch PRZESZUKIWARKA odwiedza („przec zesuje”) ró˝ne miejsca w World Wide Web, po- kazane tu jako niebieskie kule . ˚óte i niebiesk ie linie oznaczajà dane wejÊci owe i wyjÊci o- we serwera przeszukiwarki (czerwona wie˝a)  , gdzi e strony WWW sà wgrywane. Opro- gramowanie serwera tworzy indeks (be˝owa kartka)  , do którego ma dost´p u˝ytkownik.     J     E     F     F     B     R     I     C     E     B     R     Y     A     N     C     H     R     I     S     T     I     E

description

artykuł

Transcript of (Przeszukujac Internet)

  • Czsto nazywa si Internetwiatow bibliotek epoki cy-frowej. To okrelenie nie wy-trzymuje jednak nawet pobienej ana-lizy. Internet a szczeglnie jegozbir multimedialnych zasobw zna-ny jako World Wide Web nie zostastworzony z myl o uporzdkowa-niu publikacji dajcym moliwowyszukiwania ich tak jak w bibliotece.Jego rozwj doprowadzi do czego, coda si porwna do bezadnego zbioruefektw pracy cyfrowych maszyn dru-karskich na caym wiecie. Ten maga-zyn informacji zawiera nie tylko ksi-ki i dokumenty, ale rwnie danenaukowe, przepisy, reklamy, notatki zespotka, nagrania audio i wideo, zapi-sy interaktywnych konwersacji. Rzeczyefemeryczne przemieszane s z pracamio wartoci nieprzemijajcej.

    Mwic krtko, Internet nie jest cy-frow bibliotek. Ale jeli jego rozwj

    nie straci na tempie i doprowadzi douczynienia ze nowego rodka komu-nikacji, zajdzie potrzeba zorganizowaniaczego bardzo podobnego do tradycyj-nych usug bibliotecznych. Bdzie si towizao z koniecznoci uporzdkowa-nia, udostpniania i archiwizowania in-formacji zgromadzonych w Sieci. Na-wet wtedy Internet nie musi jednakprzypomina tradycyjnej biblioteki, po-niewa jego zawarto jest znacznie bar-dziej rozproszona. Umiejtnoci klasy-fikacji i selekcji, ktrymi dysponujbibliotekarze, trzeba bdzie uzupeni

    umiejtnociami informatyka auto-matycznego indeksowania i przecho-wywania informacji. Tylko syntezaobu profesji pozwoli nowemu me-dium zachowa ywotno.

    Dzi prawie caa odpowiedzialnoza uporzdkowanie informacji w In-ternecie spoczywa na technice kom-puterowej. W teorii oprogramowa-

    nie, ktre klasyfikuje i indeksuje zbiorydanych cyfrowych, powinno poradzisobie z zalewem informacji zgromadzo-nej w Sieci, co przekracza moliwocibibliotekarzy i archiwistw. Do auto-matycznego przetwarzania informacjibd suy coraz szybsze i coraz ta-sze komputery; pozwoli to unikn wy-sokich kosztw i opnie zwizanychz indeksowaniem wykonywanym przezczowieka.

    Ale jak wie kady, kto kiedykolwiekprzeszukiwa Sie, automaty kategory-zuj informacje inaczej ni ludzie. W

    RAPORT SPECJALNY

    PRZESZUKUJC INTERNETCzy poczenie umiejtnoci bibliotekarza i komputerowego guru

    pomoe w opanowaniu anarchii w Internecie?

    Clifford Lynch

    PRZESZUKIWARKA odwiedza (przeczesuje) rne miejsca w World Wide Web, po-kazane tu jako niebieskie kule. te i niebieskie linie oznaczaj dane wejciowe i wyjcio-we serwera przeszukiwarki (czerwona wiea), gdzie strony WWW s wgrywane. Opro-gramowanie serwera tworzy indeks (beowa kartka), do ktrego ma dostp uytkownik.

    JEFF

    BR

    ICE

    BR

    YA

    N C

    HR

    ISTI

    E

  • WIAT NAUKI Maj 1997 31

    pewnym sensie praca wykonywanaprzez rozmaite narzdzia indeksujcei katalogujce znane jako przeszukiwar-ki jest wysoce demokratyczna. Maszynaujednolica podejcie do kadej informa-cji. W praktyce ten elektroniczny egali-taryzm ma rwnie ze strony. Internau-ci, ktrzy formuuj zapytanie, otrzy-muj czsto w odpowiedzi listy zawie-rajce tysice pozycji. Na listach tychznajduj czsto odnoniki do nie zwi-zanych z tematem miejsc, brak na nichnatomiast innych, ktre kieruj domateriaw istotnych.

    Roboty sieci

    Mechanizm elektronicznego indekso-wania zrozumiemy, analizujc, jak sie-ciowe przeszukiwarki, takie jak Lycosczy AltaVista, tworz za pomoc progra-mw indeksy i znajduj informacje,o ktre pyta uytkownik. Co pewien czasuruchamiaj one programy (bdziemyje nazywa robotami indeksujcymi crawlers, spiders, indexing robots) od-wiedzajce kade miejsce w Sieci, ktrepotrafi znale. Miejsce zawiera zbirdokumentw zwanych stronami inter-netowymi. Robot indeksujcy przegl-da strony i stara si uzyska informacje,ktre mog posuy do ich opisu. Procesten nieco inny w szczegach w r-nych przeszukiwarkach polega na zlo-kalizowaniu wikszoci sw pojawiaj-cych si na stronach internetowych lubprzeprowadzeniu zaawansowanej anali-zy w celu identyfikacji kluczowych swczy fraz. Nastpnie zostaj one umiesz-czone w bazie danych przeszukiwarkiwraz z adresem dokumentu, z ktregopochodz, zwanym URL (uniform re-source locator). Uytkownik, korzysta-jc z przegldarki takiej jak popularnyNetscape, wysya pytania do bazy prze-szukiwarki. W odpowiedzi otrzymuje li-st zasobw internetowych wraz z ichadresami; klika na nie, gdy chce po-czy si z danym miejscem.

    Internetowe przeszukiwarki odpo-wiadaj na miliony pyta dziennie. Sta-je si jasne, e nie s one idealnym na-rzdziem do przeszukiwania corazwikszych zasobw informacyjnychzgromadzonych w Sieci. Inaczej ni lu-dzie trudnicy si archiwizacj automa-tyczne programy miewaj trudnociz identyfikacj charakteru dokumentu,jego oglnej tematyki lub rodzaju naprzykad nie odrniaj powieci lubpoematu od reklamy.

    Co wicej, w Internecie cigle braku-je standardw, ktre by uatwiay auto-

    matyczne indeksowa-nie. Dokumenty wSieci nie maj struktu-ry pozwalajcej pro-gramom wyuska wsposb niezawodnynajprostszych infor-macji, ktre czowiekuzyskuje, przeglda-jc dokument na ekra-nie nazwisko autora,dat publikacji, du-go tekstu, jego te-matyk (informacje ta-kie nazywaj si me-tadanymi). Interneto-wy robot moe zna-le poszukiwany ar-tyku Jana Kowalskie-go, ale rwnie tysi-ce innych dokumen-tw, w ktrych to po-pularne imi i na-zwisko pada w tekcie lub w przypisachbibliograficznych.

    Czasami ta nieselektywno automa-tycznego indeksowania jest wykorzy-stywana. Kto moe spowodowa, bydany dokument by wybierany czciej,powtarzajc w nim kilkakrotnie sowowystpujce w wielu zapytaniach, naprzykad seks. Przeszukiwarka poka-zuje bowiem na pocztku te dokumen-ty, w ktrych szukane sowo pojawiasi najczciej. Wykonujcy t sam pra-c ludzie nie daliby si nabra na takienaiwne sztuczki.

    Dla profesjonalisty sporzdzajcegoindeks fakt, e czci skadowe doku-mentu s rnego rodzaju (od tekstu pofilm wideo) nie przedstawia trudnoci potrafi je przypisa do okrelonych ka-tegorii tematycznych. Fotografie z woj-ny secesyjnej mog na przykad stano-wi cz zbioru, ktry zawiera rwniemuzyk z tamtego okresu czy wspo-mnienia onierzy. Archiwista czowiekpotrafi opisa, jak zbir zosta zorgani-zowany w miejscu, w ktrym magazy-nuje si na przykad programy dlakomputerw Mackintosh. Historia da-nego miejsca internetowego, cel jego po-wstania oraz charakter jest natomiastpoza zasigiem programu przeszuku-jcego Sie.

    Inn wad automatycznego indekso-wania jest to, e wikszo przeszukiwa-rek rozpoznaje tylko tekst. Wielkie zain-teresowanie wiatow Pajczyn wziosi jednak std, e pozwala ona rwniena wywietlanie zdj, rysunkw czy wi-deo. Badania nad rozpoznawaniem kolo-rw i wzorw na ilustracjach przyniosy

    ju pewne rezultaty. aden program niepotrafi jednak wydedukowa ukrytychznacze i konotacji kulturowych (nie od-gadnie na przykad, e obraz, na ktrymgrupa mczyzn si posila, przedstawiaOstatni Wieczerz).

    Jednoczenie cigle zmienia si struk-tura sieciowej informacji i czsto indek-sujcy robot nie umie tej informacji od-czyta. Wiele stron internetowych to junie statyczne pliki, ktre daj si anali-zowa i indeksowa za pomoc obecniestosowanych programw. Coraz czciejinformacja wywietlana w dokumenciejest tworzona w czasie jej wyszukiwania modyfikowana zgodnie z daniemuytkownika. Serwer potrafi przygoto-wa map, tabel czy tekst, wykorzystu-jc informacje z rnych obszarw swo-jej bazy danych. Wydawca gazety wInternecie moe pozwoli czytelnikowina okrelenie osobistych preferencji; takawersja pisma bdzie wywietlaa wycz-nie artykuy o interesujcej go tematyce,na przykad dotyczce przemysu nafto-wego. Baza danych, z ktrej pochodzte artykuy, nie jest dostpna dla robotaindeksujcego odwiedzajcego t zindy-widualizowan gazet.

    Coraz czciej prowadzi si badaniazmierzajce do eliminacji niektrychproblemw zwizanych z automatycz-nymi metodami klasyfikacji. Jedno zproponowanych podej polega na do-dawaniu metadanych do dokumentw,tak aby systemy indeksujce mogy teinformacje gromadzi. Najlepsze wyni-ki w tej dziedzinie maj projekty specy-fikacji Dublin Core Metadata i zwiza-ny z nim Warwick Framework nazwa

    PRZYPUSZCZALNALICZBA

    SERWERW WWW

    SERWERY .com(PROCENT WSZYSTKICH SERWERW)

    CZERWIEC 1993GRUDZIE` 1993CZERWIEC 1994GRUDZIE` 1994CZERWIEC 1995

    STYCZE` 1996CZERWIEC 1996

    STYCZE` 1997

    130620

    274010 00023 500

    100 000230 000650 000

    0

    25

    1418

    3150

    6863

    10 20 30 40 50 60 70

    STYCZE` 1993STYCZE` 1994STYCZE` 1995STYCZE` 1996

    LIPIEC 1996 12.9

    0 2 4 6 8 10 12

    LICZBA KOMPUTERW BAZOWYCH(MILIONY)

    1.32.2

    4.99.5

    ROZWJ I ZMIANY w Internecie oddaje zwikszajca si licz-ba serwerw World Wide Web, komputerw bazowych i komer-cyjnych serwerw, czyli tych, ktre znajduj si w domenie .com

    Na

    pods

    taw

    ie d

    anyc

    h M

    athe

    w K

    . Gra

    ya: B

    RY

    AN

    CH

    RIS

    TIE

    RAPORT SPECJALNY

  • 32 WIAT NAUKI Maj 1997

    Internet wyszed na swoje kilka lat temu, gdy pojawia si WorldWide Web z szerok palet fotografii, animacji, rysunkw, dwi-ku i wideo, zawierajcych wszystko od wybitnych dzie sztukipo czyst pornografi. Pomimo ogromnej liczby materiaw mul-timedialnych znalezienie tych, ktre interesuj uytkownika nasetkach tysicy serwerw internetowych, cigle jeszcze wyma-ga wyszukiwania w indeksach sw lub liczb.

    Kto, kto wpisze sowa polska flaga do popularnej przeszuki-warki AltaVista, ma szans dotrze do obrazu polskiej flagi tylkowtedy, gdy jest ona tymi sowami opisana. Ale co ma zrobi kto,kto pamita kolory flagi, ale nie wie, z jakiego kraju ona pochodzi?

    Najlepiej byoby, gdyby przeszukiwarka pozwolia uytkowniko-wi narysowa lub zeskanowa prostokt, ktrego grna poowa by-aby biaa, a dolna czerwona, i nastpnie odnalaza podobne ob-razy wrd milionw ilustracji umieszczonych na serwerachinternetowych. W ostatnich latach techniki czce indeksowaniesw i analiz obrazu zaczynaj przeciera szlak pierwszym ma-szynom wyszukujcym grafik.

    Dziki tym prototypowym rozwizaniom mona ju dzi docenimoliwoci indeksowania informacji wizualnej, przy okazji widajednak rwnie, e obecne narzdzia s jeszcze prymitywne i eszukajc obrazw, cigle musimy polega na tekcie. Jeden z pro-jektw WebSEEk stworzony w Columbia University pozwalaprzeledzi, jak pracuje przeszukiwarka grafiki. WebSEEk zaczy-na od cignicia plikw znalezionych w Sieci. Nastpnie wyszu-kuje wrd nich te, ktre w nazwach maj rozszerzenia, takie jakGIF czy MPEG, oznaczajce, e zawieraj grafik lub filmy wi-deo. Ponadto szuka w nazwach plikw sw identyfikujcych ichtre. Gdy program znajdzie obraz, bada, jakie przewaaj w nimkolory i jakie jest ich rozoenie. Dziki tym informacjom moerozrni fotografie, grafik, ilustracje biao-czarne lub w rnychodcieniach szaroci. Program rwnie kompresuje kady obra-zek i wywietla go w postaci ikony, a w przypadku wideo wybie-ra kilka charakterystycznych klatek z rnych scen.

    Uytkownik zaczyna wyszukiwanie od wy-brania z menu kategorii na przykad koty.WebSEEk pokazuje wybrane ikony nalecedo tej kategorii. By ograniczy zakres wyszu-kiwania, uytkownik klika na dowoln ikonpokazujc czarnego kota. Wykorzystujc prze-prowadzon uprzednio analiz kolorw, prze-szukiwarka dobiera obrazki o podobnej cha-rakterystyce kolorystycznej. Nastpna grupaikon moe pokazywa czarne koty, ale rw-nie na przykad koty rude lece na czarnychpoduszkach. Go WebSEEka jeszcze bar-dziej ucila wyszukiwanie, okrelajc, jakiekolory musi lub jakich nie powinien zawieraszukany obraz. Wyczajc na przykad kolorczerwony i ty, pozbdzie si kotw rudych.Moe to uczyni jeszcze prociej, wskazujc te ikony, na ktrychnie ma czarnych kotw. Do tej pory WebSEEk skopiowa i zain-deksowa ju ponad 650 tys. obrazkw z dziesitkw tysicy ser-werw internetowych.

    Nad projektami wyszukiwania grafiki prowadzone s rwnieprace w University of Chicago, University of California w San Die-go, Carnegie Mellon University, w Media Lab MIT i w Universityof California w Berkeley. Liczne firmy komercyjne, w tym IBM i Vi-rage, stworzyy oprogramowanie, ktre moe by uywane doprzeszukiwania zbiorczych sieci czy baz danych. Dwie inne fir-my Excalibur Technologies i Interpix Software poczyy swo-je wysiki, by stworzy oprogramowanie dla Yahoo i Infoseeka.

    Jeden z najstarszych programw, Query by Image Content (QBIC)powstay w IBM, dysponuje bardziej wyszukanymi metodami dopa-sowywania cech obrazu ni, powiedzmy, WebSEEk. Potrafi nie tyl-ko odrnia kolory, ale rwnie kontrast (biae i czarne paski zebry),pynno linii (odamki skalne i otoczaki) oraz ich kierunkowo (sup-ki ogrodzenia i rozoone na wszystkie strony patki kwiatw). Zada-

    Jak znale obraz w SieciGary Stix

    INDEKSOWANIEAUTOMATYCZNE

    INDEKSOWANIEPRZEZ CZOWIEKA

    STRONA

    AUTOMATYCZNE INDEKSOWANIE Sie-ci przez robota analizuje stron (z lewej)przez oznaczenie wikszoci sw jako ter-minw indeksujcych (porodku u gry) lubgrupowanie sw w proste wyraenia (po-rodku na dole). Indeksowanie wykonaneprzez czowieka (z prawej) dziki dodatko-wym informacjom pozwala pozna kontekstuytych wyrazw.

    BR

    YA

    N C

    HR

    ISTI

    E

    RAPORT SPECJALNY

    pierwszego pochodzi od Dublina w sta-nie Ohio, drugiego natomiast od War-wick w Wielkiej Brytanii. Zatrudnioneprzy nich zespoy zdefinioway zestawmetadanych, ktre s prostsze ni w tra-dycyjnych katalogach bibliotecznych,oraz opracoway sposoby ich wczaniado stron internetowych.

    Klasyfikacja metadanych miaaby obej-mowa rne kategorie: od tytuu i auto-ra do typu dokumentu (np. tekst czy wi-deo). Ich wyszukiwaniem mogliby sizajmowa zarwno ludzie, jak i progra-my indeksujce. Tak zdobyte metadane

  • doczane s do strony internetowej, abyautomat przeszukujcy potrafi je odczy-ta. Precyzyjne komentarze napisaneprzez czowieka pozwol w przyszocina stworzenie bardziej szczegowej cha-rakterystyki strony ni sporzdzonaprzez program indeksujcy.

    Jeli wysokie koszty s uzasadnione,do tworzenia bibliografii niektrychmiejsc w Sieci angauje si ludzi. Jest tobardzo pracochonne zajcie. Baza da-nych Yahoo, przedsiwzicie komercyj-ne, grupuje internetowe miejsca w dorozlege bloki tematyczne. Projekt ba-dawczy prowadzony w University ofMichigan natomiast stanowi jedn z kil-ku prb stworzenia bardziej formal-nych opisw tych stron, ktre zawiera-j materiay interesujce pod wzgldemnaukowym.

    W jakim stopniu ludzkie umiejtnociklasyfikacji czy strategie automatyczne-go indeksowania i wyszukiwania stan

    si potrzebne, bdzie zaleao od uyt-kownikw Internetu i oceny opacalno-ci przedsiwzicia przez wydawcw.Dla wielu spoecznoci naukowych mo-del zorganizowanego zbioru danych cyfrowa biblioteka cigle wydaje siodpowiedni. Dla innych pozbawionekontroli, demokratyczne medium mo-e by najlepszym mechanizmem roz-prowadzania informacji. Niektrymuytkownikom, od analitykw finanso-wych do szpiegw, potrzebny jest do-stp do baz zawierajcych dane suro-we, nie kontrolowane oraz nie reda-gowane. Dla nich standardowe prze-szukiwarki s najlepszym narzdziemwanie dlatego, e nie selekcjonujinformacji.

    To nie tylko biblioteka

    Rnorodno materiau w Sieci jestznacznie wiksza ni w tradycyjnej bi-

    bliotece, w ktrej nie klasyfikuje si zaso-bw pod wzgldem wartoci. Poniewailo informacji zgromadzonych w Siecijest ogromna, jej uytkownicy potrzebu-j wskazwek, na co powici ten ogra-niczony czas, ktry przeznaczaj na okre-lon dziedzin. Zainteresowani spoznaniem trzech najlepszych doku-mentw dotyczcych tematu i otrzyma-niem tej informacji darmo, bez ponosze-nia kosztw zatrudnienia ludzi doanalizy i oceny tysicy internetowychmiejsc. Jednym z rozwiza, ktre jed-nak znw wymaga udziau czowieka,jest dzielenie si opiniami o tym, co jestwarte zachodu, a co nie. Systemy ocenzaczynaj ju opisywa uytkownikomwarto tych miejsc internetowych, kt-re odwiedzaj [patrz: Paul Resnick, Fil-trowanie informacji, strona 40].

    Narzdzia programistyczne przeszu-kuj Internet oraz oddzielaj dobre ma-teriay od zych. Mog by jednak po-

    WIAT NAUKI Maj 1997 33

    nie: rowa kropka na zielonym tle, powoduje znalezienie przezprogram fotografii kwiatw i innych przedmiotw o podobnych kszta-tach i kolorach [ilustracja powyej]. Programy te umoliwi zarwnowybr wzoru tapety, jak i znalezienie przez policj czonkw ganguna podstawie sposobu ubierania si przez nich.

    Wszystkie te programy po prostu porwnuj tylko poszczegl-ne cechy obrazu. W dalszym cigu potwierdzenie, czy znalezio-ny obiekt jest kotem, czy poduszk, wymaga oceny czowieka(lub doczenia do ilustracji tekstu). Od ponad 10 lat badacze za-jmujcy si sztuczn inteligencj prbuj, z rnym skutkiem,zmusi komputery do bezporedniej identyfikacji przedstawio-nych na ilustracji obiektw, niezalenie od tego, czy s to koty, czyflagi. Metoda wprowadza korelacj midzy ksztatami na ilustra-cjach a geometrycznymi modelami obiektw realnego wiata.Dziki temu program moe wydedukowa, czy rowy lub br-zowy walec to, powiedzmy, ludzkie rami.

    Przykadem jest program szukajcy nagich ludzi autorstwa Da-vida A. Forsytha z Berkeley i Margaret M. Fleck z University of

    Iowa. Program ten analizuje najpierw kolory i faktur fotografii.Kiedy znajduje kolory odpowiadajce kolorom ciaa, wcza algo-rytm, ktry poszukuje fragmentw w ksztacie walca, mogcychoznacza rami czy nog. Po ich znalezieniu szuka innych wal-cw w kolorze ciaa, uoonych pod odpowiednim ktem, ktremog by potwierdzeniem obecnoci na obrazie koczyn. W ostat-nio przeprowadzonym tecie pogram wybra 43% zdj ukazuj-cych 565 nagich ludzi spord 4854, co jest dobrym wynikiem jakna ten rodzaj zoonej analizy obrazu. Ponadto w wypadku zbio-ru zdj nie pokazujcych nagich cia da tylko 4% faszywie po-zytywnych odpowiedzi. Zdjcia nagich ludzi pochodziy z WWW,inne fotografie natomiast gwnie z komercyjnych baz danych.

    Prby stworzenia komputerowego wzroku najprawdopodobniejbd trway jeszcze cae dziesiciolecie albo duej. Przeszuki-warki potrafice jednoznacznie rozrni nagich ludzi, koty i fla-gi narodowe s cigle nie zrealizowanym marzeniem. Jednakw miar upywu czasu badacze na pewno zdoaj wyposay pro-gramy wyszukujce w umiejtno rozumienia tego, co widz.

    RAPORT SPECJALNY

    IBM

    CO

    RP

    OR

    ATI

    ON

    /RO

    MTE

    CH

    /CO

    RE

    L

  • trzebne nowe programy, ktre zmniej-sz obcienia powodowane przez ro-boty internetowe, skanujce co pewienczas kade miejsce w Sieci. Niektrzyadministratorzy serwerw stwierdzaj,e ich komputery trac mnstwo czasu,dostarczajc robotom informacji po-trzebnej do indeksowania, zamiast po-wici go na obsug uytkownikwczcych si z ich serwerem.

    Prbujc rozwiza ten problem, Mi-ke Schwartz i jego koledzy z Universityof Colorado w Boulder stworzyli opro-gramowanie o nazwie Harvest, ktrepozwala serwerom WWW stworzy in-deks danych dla stron na nich umiesz-czonych i wysa go na danie rnymprzeszukiwarkom. Dziki temu auto-matycznie indeksujcy robot Harvesta,czyli robot zbierajcy, zwalnia przeszu-kiwarki z wysyania sieci caej zawar-toci serwera.

    Roboty, tworzc indeks, przenosz naswj serwer kopi kadej strony, co

    zmniejsza przepustowo sieci (band-width). Robot zbierajcy informacje wy-sya natomiast tylko plik zawierajcy da-ne do indeksu. Co wicej, s to informacjetylko o tych stronach, ktre zostay zmie-nione po ostatniej wizycie, co rwnieznacznie zmniejsza obcienie siecii komputerw do niej podczonych.

    Roboty takie jak robot zbierajcy Har-vesta mog rwnie peni inne funkcje.Dziki nim wydawcy zyskaj co w ro-dzaju ogranicznika zasobu informacji eks-portowanych z serwerw. Kontrola takajest konieczna, poniewa WWW staje siju czym wicej ni medium swobod-nego przekazywania darmowych infor-macji. Niejednokrotnie uatwia dostp dodanych patnych. Programy przeszuku-jce nie powinny penetrowa takich ma-teriaw. Roboty zbierajce mogyby dys-trybuowa tylko te informacje, ktre chceudostpni wydawca, na przykad odno-niki do streszcze lub przykady za-mieszczonych materiaw.

    Gdy Internet okrzepnie, decyzja co doodpowiedniej metody zbierania informa-cji bdzie zaleaa gwnie od uytkowni-kw. Dla kogo wic Internet stanie si ro-dzajem biblioteki z jej formalnymi za-sadami tworzenia zbiorw? Dla kogo na-tomiast pozostanie anarchiczny, z auto-matycznymi systemami dostpu?

    Uytkownicy, ktrzy zgodz si opa-ca autorw, wydawcw, archiwistwi recenzentw, mog podtrzyma trady-cj biblioteki. Tam, gdzie informacja jestudostpniana bezpatnie lub finansowa-na przez reklamodawcw, dominowabdzie najprawdopodobniej tanie indek-sowanie komputerowe w rezultacieotrzymamy to samo pozbawione upo-rzdkowanej struktury rodowisko, z kt-rym mamy do czynienia obecnie. Wyni-ka z tego, e na metody uzyskiwaniainformacji wpynie nie technika, lecz ra-czej czynniki spoeczne i ekonomiczne.

    TumaczyJarosaw Zieliski

    34 WIAT NAUKI Maj 1997

    RAPORT SPECJALNY

    HARVEST, w ktrym zastosowano now architektur przeszukiwarki, moe utwo-rzy indeks za pomoc programw zbieraczy (gatherers). Umieszczane s onew orodkach Sieci (ciemne wieyczki obok niebieskich kul) lub w centralnym kom-puterze (wiksza szecioktna wiea). Dziki temu przeszukiwarka nie musi prze-grywa wszystkich dokumentw z danego miejsca WWW, co znacznie odciaSie. Serwer przeszukiwarki (czerwony obiekt w centrum) moe po prostu popro-si roboty zbierajce (fioletowe strzaki) o plik ze sowami kluczowymi (czerwo-ne strzaki) i przetworzy go w indeks (kartka), z ktrego skorzysta uytkownik.

    BR

    YA

    N C

    HR

    ISTI

    E

    Literatura uzupeniajcaTHE HARVEST INFORMATION DISCOVERY AND ACCESS SYSTEM. C. M. Bowman i in.,

    Computer Networks and ISDN Systems, vol. 28, nry 1-2, ss. 119-125, XII/1995.The Harvest Information Discovery and Access System jest dostpny

    w World Wide Web: http://harvest.transarc.com/THE WARWICK METADATA WORKSHOP: A FRAMEWORK FOR THE DEPLOYMENT OF RE-

    SOURCE DESCRIPTION. Lorcan Dempsey i Stuart L. Weibel, D-lib Magazine, VII-VIII/1996. Dostpny w World Wide Web: http://www.dlib.org/dlib/ju-ly96/07contents.html

    THE WARWICK FRAMEWORK: A CONTAINER ARCHITECTURE FOR DIVERSE SETS OF META-DATA. Carl Lagoze, ibid.

    Informacje o autorzeCLIFFORD LYNCH jest dyrektorem dziau automatyzacji bi-bliotecznej rektoratu University of California i tam nadzorujeMELVYL, jeden z najwikszych systemw publicznego udo-stpniania informacji. Lynch uzyska doktorat z informatykiw University of California w Berkeley. Obecnie wykada w tam-tejszej School of Information Management and Systems. Jestbyym prezesem American Society for Information Sciencei czonkiem American Association for the Advancement ofScience. Kieruje Architectures and Standards Working Groupz ramienia Coalition for Network Information.