Akademia Górniczo-Hutnicza - Laboratoriummts.wibro.agh.edu.pl/dydaktyka/skibd/docs/lab/SKiBD_1_ ·...

20
SIECI KOMPUTEROWE I BAZY DANYCH ĆWICZENIE NR 1 Temat: WYSZUKIWANIE INFORMACJI W SIECI INTERNET Akademia Górniczo-Hutnicza Wydzia In ynierii Mechanicznej i Robotyki ł ż Katedra Robotyki i Mechatroniki

Transcript of Akademia Górniczo-Hutnicza - Laboratoriummts.wibro.agh.edu.pl/dydaktyka/skibd/docs/lab/SKiBD_1_ ·...

SIECI KOMPUTEROWE I BAZY DANYCH

ĆWICZENIE NR 1

Temat:WYSZUKIWANIE INFORMACJI W SIECI INTERNET

Akademia Górniczo-HutniczaWydzia In ynierii Mechanicznej i Robotykił ż

Katedra Robotyki i Mechatroniki

Wprowadzenie do WWW

WWW - World Wide Web to obecnie najpopularniejsza usługa dostępna w Internecie. Dzięki specjalnym programom, nazywanym przeglądarkami internetowymi, możemy mieć dostęp do informacji zawartej na strony znajdujące się na różnych serwerach w Internecie. Informacje zawarte na stronach pokrywają swoim zakresem wszystkie dziedziny działalności i aktywności człowieka. Codziennie na świecie powstaje kilka set nowych stron zawierających najnowsze informacje związane z wybranymi dziedzinami wiedzy. Dzięki multimedialnemu charakterowi oraz powszechności dostępu, WWW określa się często jako największą na świecie multimedialną bazę danych.

Typowymi elementami stron WWW są:

● interaktywny tekst nazywany hipertekstem,

● grafika,

● animacje,

● dźwięk.

Wspomniany hipertekst charakteryzuje się tym, że pewne jego elementy, litery, słowa lub zdania (na ogół wyróżnione np. innym kolorem) stanowią odwołanie do innych stron. Są to tzw. linki lub inaczej odsyłacze. Klikając na nie zostajemy przerzucani do coraz to nowych stron na innych serwerach w innych krajach, na innych kontynentach. Stąd też wzięło się powiedzenie "surfować po Internecie".

Przeglądarki internetowe

Aby przeglądać zasoby sieci wykorzystując zalety WWW konieczne jest spełnienie co najmniej dwóch nieodzownych warunków:

1. Posiadanie sprzętu komputerowego podłączonego do światowych zasobów sieci Internet.

2. Posiadanie zainstalowanego oprogramowania pozwalającego na surfowanie po zasobach sieciowych tzw. przeglądarki internetowej.

Spełnienie pierwszego warunku jest oczywiście konieczne jednakże w niniejszej części opracowania przedstawione zostaną możliwości związane ze spełnieniem drugiego warunku.

Przeglądarka internetowa jest programem komputerowym służącym do pobierania i wyświetlania dokumentów pobranych z serwerów internetowych świadczących usługi WWW. Dokumenty zwracane przez takie serwery są najczęściej plikami tekstowymi sformatowanymi zgodnie ze specyfikacjami HTML, XHTML lub XML. Nowoczesne przeglądarki pozwalają także na wyświetlanie zawartości innych plików multimedialnych\w tym grafik, plików video czy odtwarzanie dźwięku. Przeglądarki budowane są obecnie w sposób modułowy najczęściej wykorzystując system wtyczek pozwalających w prosty sposób na rozszerzenie możliwości o dodatkowe elementy. W chwili obecnej najpopularniejszymi przeglądarkami są Internet Explorer posiadający w chwili obecnej ok. 70% rynku, Firefox (ok. 22% rynku) oraz Opera (ok. 5%). Pozostałe przeglądarki uszeregowane wg. malejącej popularności to: Mozilla, Safari, Netscape, K-

Meleon, Camino, Konqueror, Galeon, Epiphany zajmują niecałe 3% rynku.

Standardowo protokołem wykorzystywanym przez przeglądarki internetowe do komunikacji z serwerem był i jest nadal protokół HTTP. W chwili obecnej istnieje jednak konieczność rozszerzenia możliwości przeglądarek internetowych na obsługę także innych protokołów komunikacyjnych. W związku z tym większość dostępnych narzędzi poza HTTP posiada w obsłudze również inne protokoły, np. FTP, HTTPS, Gopher. Często z przeglądarką dostarczane są komponenty, które umożliwiają korzystanie z serwerów grup dyskusyjnych (protokół NNTP) i e-mail (protokoły POP3, IMAP i SMTP).

Trwająca na rynku wojna przeglądarek powoduje, że oprogramowanie do przeglądania stron cały czas ewoluuje w stronę ergonomiki, użyteczności i wygody. W nowoczesnych przeglądarkach, rozwijanych jest wiele funkcji dodatkowych ułatwiających przeglądanie stron. Są to np: zakładki, menedżery pobierania plików, przechowywanie plików w pamięci podręcznej (cache), obsługa wtyczek rozszerzeń i skórek zmieniających prezentację przeglądarki, dostosowywalność interfejsu, przeglądanie w kartach, zapamiętywanie haseł, skróty klawiaturowe, blokowanie wyskakujących okienek, filtry reklam, wbudowane programy do obsługi poczty e-mail, czytniki RSS oraz inne. Widok przykładowych okien dwóch najbardziej popularnych w chwili obecnej przeglądarek pokazany został na rysunku 3.1.

Rys. 3.1 Przykładowy widok dwóch najbardziej konkurujących ze sobą rozwiązań: Internet Explorer oraz Firefox.

Posiadając możliwość dostępu do zasobów sieci internet można rozpocząć korzystanie z dobrodziejstwa dostępu do nieprzebranych źródeł informacji. W tym jednak miejscu zazwyczaj pojawia się nowy problem związany z nadmiarem danych. Okazuje się iż nie jest wystarczające posiadanie dostępu do informacji, konieczna jest także możliwość posiadania środków wstępnej analizy i filtracji informacji nadmiarowej. W dalszej części opracowania pokrótce zostaną omówione narzędzia pozwalające na dokonanie tych czynności.

Wyszukiwanie informacji

Informacje dostępne na stronach WWW bywają jednak bardzo różne. Od rzetelnej, dogłębnej informacji dotyczącej omawianego zagadnienia po zdawkowe i najczęściej pobieżne nakreślenie tematu. W wielu przypadkach konieczne jest dokonanie odpowiedniego wyboru i filtracji dostępnej informacji. W celu ułatwienia wyszukiwania informacji zawartej na stronach WWW powstały specjalne serwery, które na podstawie słów kluczowych, lub specjalnie tworzonych zapytań,

wyszukują zadane przez użytkownika informacje. W chwili obecnej większość wyszukiwarek stanowi integralną część portali - bram internetowych, które licznymi, na bieżąco uaktualnianymi informacjami starają się przyciągnąć na swoje strony internautów. Wynikiem poszukiwań są linki do stron, na których znajdowały się wpisane słowa kluczowe. Teraz wystarczy połączyć się i sprawdzić, czy strona jeszcze istnieje i czy zawiera poszukiwane przez nas informacje. Problem pojawia się w momencie gdy liczba stron otrzymanych w wyniku pracy narzędzia zdecydowanie przekracza nasze możliwości oraz zasoby czasowe jakie jesteśmy w stanie poświęcić na znalezienie potrzebnej nam informacji. Narzędzia służące do wyszukiwania informacji oczywiście zdecydowanie różnią się pomiędzy sobą. To właśnie rodzaj i jakość tych narzędzi decyduje o skuteczności wyszukiwania.

Sieć roi się od stron mających służyć pomocą w zmaganiach z nią. Te miejsca, nazywane serwisami wyszukującymi i korzystają najczęściej z następujących rodzajów narzędzi:

● wyszukiwarek,

● katalogów,

● multiwyszukiwarek,

● wyszukiwarek specjalistycznych,

● inne rozwiązania.

Wyszukiwarki

Działanie wyszukiwarki przede wszystkim związane jest z automatycznym gromadzeniem informacji dostępnej poprzez strony WWW w Sieci. Podstawowym składnikiem wyszukiwarki są roboty nazywany też pajączkami. Są to autonomiczne programy przeczesujące zasoby światowej pajęczyny w poszukiwaniu informacji. Zadaniem robotów jest odnalezienie jak największej liczby stron, przeszukanie ich oraz zbudowanie specjalnej bazy indeksowej pozwalającej na szybkie odnalezienie zgromadzonej informacji. W swojej codziennej wędrówce roboty odwiedzają miliony stron gromadząc informacje o nowych znaleziskach oraz uaktualniając informację o modyfikacjach już zindeksowanych zasobów. Sposób przechowywania, segregowania, filtrowania oraz uaktualniania jest oczywiście zależny od danej wyszukiwarki.

Z punktu widzenia użytkownika wyszukiwarka pozwala na zadawanie pytań na które odpowiedzi zwracane są w postaci linków czyli odnośników do zindeksowanych stron w sieci. Jedną z pilniej strzeżonych tajemnic danej wyszukiwarki jest sposób segregowania i dopasowywania odpowiedzi na zadane pytania. Tak naprawdę to właśnie ten mechanizm w pierwszej kolejności stanowi o jakości wyszukiwarki. Najczęściej kolejność na liście jest ustalana w zależności od wielu parametrów. Częstotliwości występowania szukanego słowa lub zwrotu, miejsca jego pojawienia się na stronie: np. w tytule, słowach kluczowych przypisanych do strony lub liczby wystąpień na stronie. Wszystko to po to, aby prawdopodobieństwo pojawienia się najodpowiedniejszej strony na początku listy była jak najwyższa.

Zalety

● Wyszukiwarki mają w swojej pamięci miliony dokumentów.

● Wyszukiwarka codziennie wędruje po milionach linków na napotkanych stronach, więc codziennie pojawiają się w jej bazie tysiące nowych stron.

● Serwisy, które nie działają są natychmiast po wykryciu usuwane z rejestru wyszukiwarki

dlatego szansa na uzyskanie jako odpowiedzi niedziałający link jest stosunkowo niewielka.

● Jeśli na stronie zmieni się treść to wyszukiwarka zauważy to w stosunkowo krótkim czasie. Dzięki temu najczęściej pokazywane opisy albo adresy stron WWW są aktualne.

Wady

● Często zadanie właściwego pytania jest trudne. Wyszukiwarka jest jedynie automatem, który szuka dokładnie tego, co zostało zadane w treści pytania i w takiej formie, jaka została wpisana. Aby łatwiej formułować trafne zapytania można i często należy skorzystać z możliwości zaawansowanego wyszukiwania.

● Opisy prezentowane przez wyszukiwarkę są tym, co zostało umieszczone na stronach przez autorów. Mogą one być, zatem niepełne, nieobiektywne lub, w szczególności, gdy autor zapomniał umieścić opisu, wyszukiwarka pokazuje pierwszych 150 znaków spotkanych w tekście strony. Może to być mylące lub wręcz niejasne.

● Czasami na zadane pytanie pojawia się kilkadziesiąt stron z tego samego serwera. Przeglądanie może być, więc uciążliwe.

● Sposób indeksowania zasobów przez wyszukiwarki często powoduje iż są one oszukiwane przez firmy zajmujące się reklamą dostarczając stron niekoniecznie oczekiwanych przez wyszukującego.

Kiedy używać

Wyszukiwarki najlepiej sprawdzają się w trakcie wyszukiwania konkretnych sformułowań, zwrotów lub fraz. Pozwalają na uzyskania największej ilości trafień dotyczących konkretnego sformułowania lub tematu łatwo charakteryzowanego za pomocą pojedynczych słów czy zwrotów. Wyniki działania wyszukiwarek zawsze zwracają strony zawierające dokładnie znaki jakie zostały podane w treści zapytania. Szczególnie formułując zapytanie w języku polskim dużą uwagę należy położyć na odpowiednie dobranie odmiany danego słowa lub umiejętnie zastosować symbole wieloznaczne, jeśli oczywiście jest taka możliwość.

Aby zniwelować tę niedogodność część wyszukiwarek pozwala na zaawansowane wyszukiwanie uwzględniające odmianę wyrazów lub pozwalające na wyszukiwanie za pomocą metod słownikowych.

Jeśli w trakcie wyszukiwania konieczne jest znalezienie stron o zadanej tematyce niekoniecznie prosto opisywanych za pomocą pojedynczych słów czy zwrotów lepsze wyniki zazwyczaj można uzyskać stosując wyszukiwanie bazujące na katalogu.

Najpopularniejsze rozwiązania

Przez wiele lat konkurencja na runku wyszukiwarek była bardzo duża. Dostępnych było wiele rozwiązań, których jakość zazwyczaj była porównywalna a drobne różnice związane z łatwością użycia lub szybkością działania powodowały iż wybrane rozwiązania gromadziły wokół siebie zapalonych entuzjastów. Sytuację zdecydowanie zmieniła wyszukiwarka wprowadzona przez Google. Jej szybkość działania, trafność uzyskiwanych rezultatów wyszukiwania oraz dodatkowe funkcje pozwoliły tej wyszukiwarce na uzyskanie znaczącej przewagi nad konkurencją. Na rys. 3.2 przedstawiono okna trzech wybranych wyszukiwarek Google, MSN oraz NetSprint.

Najbardziej popularne wyszukiwarki to:

● Google - http://www.google.pl/

● NetSprint - http://www.netsprint.pl/serwis/

● MSN - http://www.msn.com/

● Yahoo - http://www.yahoo.com/

● Szukacz - http://www.szukacz.pl/

● Altavista - http://www.altavista.com/

● OnetSzukaj - http://szukaj.onet.pl/

● Gooru - http://www.gooru.pl/

● Askjeeves - http://www.ask.com/

● Vivisimo - http://vivisimo.com/

● Yandex - http://www.yandex.ru/

● Fast - http://www.fastsearch.com/

● AOL - http://www.aol.pl/

● Netoskop - http://www.netoskop.pl/

● Excite - http://www.excite.com/

● Hotbot - http://www.hotbot.com/

● Ixquick - http://www.ixquick.com/

● Live Search - http://www.live.com/

● About - http://www.about.com/

● Dogpile http://www.dogpile.com/

● Webcrawler - http://www.webcrawler.com/

● Metacrawler - http://www.metacrawler.com/

Rys. 3.2 Przykładowy widok trzech wybranych wyszukiwarek Google, MSN oraz NetSprint.

Katalogi

Katalogi są najstarszą metodą wyszukiwania stron i informacji w sieci internet. Zazwyczaj prawie w całości bazują na działaniach człowieka. Dokumenty, które trafiają do katalogu, mogą być dobierane i selekcjonowane przez użytkowników danego katalogu, ochotników lub administratora. Często do budowy katalogu wykorzystywani są redaktorzy których zadaniem jest odnalezienie oraz selekcja stron o wybranej tematyce. W związku z ograniczonymi możliwościami działania ludzi, katalogi zawierają dużo mniej zindeksowanych stron niż wyszukiwarki. Największe polskie katalogi (Onet.pl) zawierają opisy 270 tysięcy stron, podczas gdy najzasobniejsza polska wyszukiwarka (Google.pl) ma ich około miliard 326 milionów. Cechą wyróżniającą katalogi jest ścisły podział zasobów na bloki tematyczne, w których można wyróżnić pod kategorie. Najczęściej wykorzystywana jest struktura drzewiasta strukturą, w którą szukający zagłębia się idąc od informacji ogólnej do coraz bardziej szczegółowej. Strony WWW przypisane są, ze względu na swoją zawartość do poszczególnych kategorii, które dzielą się na kategorie podrzędne. Drzewiasta struktura przypomina drzewo katalogów i podkatalogów znanych z pracy z większością stosowanych obecnie systemów plików w systemach komputerowych. Na końcu tej struktury znajdują się strony zawierające odsyłacze internetowe do konkretnych witryn. Taka narzucona hierarchizacja daje pewność, że znaleziona informacja zgodna będzie z oczekiwaniami poszukującego. Przedstawiona architektura przyspiesza znacznie poszukiwania przez ograniczanie zbioru dopuszczalnych wyników i stopniową eliminację niepotrzebnych informacji. Sprawdzanie aktualności zasobów danego katalogu należy do obowiązków zarządzających nim ludzi. Może to w praktyce oznaczać, że im więcej mają chęci do pracy, tym mniej nieistniejących lub źle sklasyfikowanych stron zostanie znalezionych w katalogu.

Zalety

● Istnieje podział tematyczny stron zawartych w katalogu. Odnajdując odpowiednią kategorię w katalogu, pewne jest iż znajdzie się w niej większość polskich stron WWW na temat.

● Katalog tworzony jest przez ludzi. Redaktorzy oglądają internetowe witryny, opisują je obiektywnie i precyzyjnie umieszczają w odpowiednich kategoriach. Dzięki temu katalog jest znacznie bardziej obiektywny porównując go z wynikami pracy wyszukiwarki. Znalezienie stron dotyczących jakiejś tematyki jest tutaj łatwiejsze.

● W Katalogu prezentowane są tylko pierwsze, główne strony serwisów. Łatwiej jest więc

sprawdzić, czy dany serwis zawierający wiele stron w ogóle tematycznie odpowiada naszym zainteresowaniom.

Wady

● Ponieważ każda strona w katalogu jest oglądana przez redaktorów, więc jest to proces czasochłonny. Nie jest możliwe umieszczenie w katalogu od razu wszystkich witryn WWW.

● Katalogi zawierają znacznie mniejsze zasoby porównując je np. do wyszukiwarek.● W przypadku katalogów znacznie wolniej trwa proces odświeżania zawartości. Może się

więc zdarzyć częściej niż w przypadku innych metod wyszukiwania trafienie na nie działający odnośnik.

Kiedy używać

Katalogi najlepiej sprawdzają się w przypadku poszukiwania informacji związanych z danym tematem ogólnym, dla którego wstępnie trudne jest zdefiniowanie słów kluczowych oraz jesli poszukiwane są informacje dotyczące jakiejś ogólnej tematyki. W takim przypadku odnalezienie kategorii odpowiadającej tematycznie postawionemu zagadnieniu, pozwala na otrzymanie listy witryn WWW, z reguły obejmującą większość tego, co na dany temat można znaleźć w polskim Internecie.

Ponieważ w Katalogu prezentowane są tylko pierwsze, główne strony serwisów, łatwiej jest zorientować się w tematyce danej witryny. Używając wyszukiwarki można otrzymać jedynie strony zawierające szukane słowo. Dodatkowym utrudnieniem będzie lista podstron serwisów, na których znalazło się to słowo.

Polskie katalogi

Najpopularniejsze oraz najczęściej odwiedzane polskie katalogi to:

● katalog.onet.pl

● katalog.wp.pl● directory.google.pl● gazeta.pl● start24.pl● dmoz.org● startowy.com● interia.pl● webwweb.pl● gooru.pl● katalog.gery.pl● polska.pl● katalog.hoga.pl● katalog.wow.pl● gwiazdor.pl● angelus.pl● www.polonia.net● dodaj.pl● www.of.pl● webhelp.pl

Na rys. 3.3 pokazane zostały strony główne trzech wybranych polskich katalogów Onet, Wirtualna Polska oraz Google.

Rys. 3.3 Strony główne trzech wybranych polskich katalogów Onet, Wirtualna Polska oraz Google.

Przykładowe katalogi tematyczne

● http :// www .cgm.pl/linkownia/ - katalog stron muzycznych

● http :// www .wladcapierscieni.com/katalog - katalog stron fantasy

● http :// www .ceramics-directory.com - Międzynarodowy katalog firm, organizacji, szkół, oraz artystów zajmujących się Ceramiką.

Multiwyszukiwarki

Multiwyszukiwarki zwane także metawyszukiwarkami są serwisami internetowymi, które nie posiadają własnej bazy danych, potrafią jednak wysłać zadane im zapytanie do kilku lub kilkunastu samodzielnych wyszukiwarek. Wyniki poszukiwań są przez nie następnie konsolidowane oraz przedstawiane w przejrzystej formie. Dane płynące spod każdego adresu są zazwyczaj weryfikowane, porównywane z innymi i jeżeli się nie powtarzają, wyświetlane jako wynik poszukiwań. Zalety takiego rozwiązania są oczywiste. Nie wszystkie odnośniki zwracane przez różne klasyczne wyszukiwarki muszą być identyczne. Korzystanie z serwisu, który umożliwia jednoczesne użycie wielu z nich, daje zazwyczaj dobre rezultaty w postaci większej ilości poprawnych trafień.

Zalety

● Możliwe jest zadanie jednego pytanie do kilku szperaczy przy odwiedzeniu tylko jednego serwisu.

● Możliwość przeszukania większej części zasobów Internetu.

● Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników np. usuwając powtarzające się adresy oraz nieistniejące już linki.

● Możliwość dodatkowego sortowania otrzymanych odpowiedzi.

Wady

● Najczęściej brak dostępu do specyficznych zapytań złożonych jakie dają pojedyncze

szperacze.

Kiedy używać

Czasami w czasie szukania potrzebnych informacji na stronach WWW na zadane pytanie wyszukiwarka nie wyświetli nam żadnego adresu lub będzie ich bardzo mało. Wtedy można skorzystać z metawyszukiwarek.

Najpopularniejsze rozwiązania

W zasobach Internetu można znaleźć kilka multiwyszukiwarek, np:

● http://www.metacrawler.com/

● http://www.dogpile.com/

● http://www.search.com/

● Emulti.pl - (http://www.emulti.pl) korzysta z systemu Emulti i opiera się na następujących "zwykłych" wyszukiwarkach:

● Polska AltaVista,

● AltaVista,

● Polski InfoSeek,

● InfoSeek,

● Netoskop,

● Inktomi,

● Excite,

● Hotbot,

● WebCrawler.

Na rys. 3.4 pokazana została strona główna multiprzeglądarki Emulti.

Rys. 3.4 Strona główna multiprzeglądarki Emulti.

Wyszukiwarki specjalistyczne

Odrębną kategorię stanowią katalogi i wyszukiwarki specjalistyczne nazywane także wyszukiwarkami wertykalnymi. Specjalizują się one w indeksowaniu i prezentowaniu informacji z danej branży lub tematyki. Często potrzebna jest informacja z konkretnej dziedziny. Wpisywanie zapytania w standardowej wyszukiwarce może dać w efekcie wiele odniesień, z których nie wszystkie związane są z dziedziną zainteresowania. Przeglądnięcie tak opracowanych zasobów zajmuje dużo czasu ponieważ dodatkowo konieczne jest wykonanie dodatkowej filtracji wyników zwróconych przez wyszukiwarkę. W takim przypadku można skorzystać z wyszukiwarki specjalistycznej. Jej zasoby to zindeksowane dokumenty dotyczące wyłącznie jednego, ściśle określonego tematu. Takie serwisy oferują praktycznie stuprocentowo trafne odesłania i mogą być uważane za autorytety w porównaniu z ogólnymi wyszukiwarkami, mimo że liczba stron, które mają w swoich zbiorach, rzadko przekracza parę tysięcy. Niestety, jak zwykle jest jedno "ale". Specjalistyczne wyszukiwarki są z reguły mniej znane od swych wielodziedzinowych odpowiedniczek. Obecnie w większości serwisów wyszukiwawczych dostępne są specjalistyczne wyszukiwarki ukierunkowane na odnajdowanie plików graficznych, przeszukiwanie grup newsowych. Dedykowane wyszukiwarki specjalizują się też m.in. w odnajdowaniu:

● plików np.:

● www.net3.pl ,

● plikoskop.internauci.pl ,

● www.sterowniki.net.pl ,

● firm np.:

● www.pf.pl ,

● www.pkt.pl ,

● www.teleadreson.pl ,

● muzyki np.:

● www.audiofind.com ,

● music.cnet.com ,

● www.imp3rium.pl

● ludzi np.:

● people.yahoo.com ,

● www.switchboard.com ,

● www.whitepages.com .

Inne serwisy profilują katalogowane zasoby wg odbiorców - można znaleźć np. katalogi dla dzieci (www.yahooligans.com, www.kidsclick.com, www.kidsites.net), lub religijne (www.amen.pl).

Także stale rosnąca popularność zakupów wykonywanych przy pomocy sieci ma swoje odzwierciedlenie w serwisach, których zadaniem jest dostarczenie informacji o dostępnych towarach oraz porównaniach ich cen oraz dostępności. Serwisu tego typu to np.:

● www.ceneo.pl

● www.9sekund.pl

● www.kupujemy.pl

● http://www.skapiec.pl/

Zalety

● Duża dokładność wyszukiwania

● Najczęściej wnikliwa analiza poszukiwanego tematu

Wady

● Zdecydowanie mniejsza dostępność i popularność

● Brak dostępu do rozwiązań tego typu w wielu szczególnie mniej popularnych dziedzinach

Kiedy używać

We większości przypadków w których konieczna jest wnikliwa analiza danego zagadnienia wskazane byłoby użycie dedykowanej wyszukiwarki tematycznej. Niestety w wielu wypadkach dostępność takich rozwiązań jest ograniczona a użycie wyszukiwarki uniwersalnej jest co prawda mniej precyzyjne jednak w ogólnym rozrachunku daje dobre wyniki w krótszym czasie.

Najpopularniejsze rozwiązania

Wyszukiwarki specjalistycznych w obliczu wzrastającej ilości różnorodnych danych dostępnych w Internecie cieszą się coraz większą popularnością. Na świecie narzędzia tego typu zdobywają sobie kolejne rzesze zwolenników i przez wielu uważane są za jeden z możliwych scenariuszy rozwoju dziedziny wyszukiwania informacji w Sieci. W najgorszym wypadku rozwiązania takie doskonale

sprawdzają się w określonych niszach. Już teraz badania pokazują, że ponad 3 na 4 obywateli amerykańskich kupujących dom, skorzystało z rozwiązań tego rodzaju do poszukiwania ofert.

Zasady wyszukiwania informacji w sieci

Informacje ogólne

Wyszukiwanie informacji w sieci jest z jednej strony bajecznie proste (tak jak wpisanie szukanej nazwy w wyszukiwarce) z drugiej zaś jest sztuką opisywaną w dziesiątkach publikacji. Zazwyczaj nie ma problemów w trakcie poszukiwania informacji ogólnej dotyczącej ogółu zainteresowanych. Problemy pojawiają się w trakcie poszukiwania informacji szczegółowej dotyczącej wąskiego grona odbiorców. W większości przypadków, czyli kiedy poszukiwana treść jest konkretna i można ją w miarę jednoznacznie nazwać, wystarczy proste zapytanie w formie jednego czy też kilku słów kluczowych zadanych ulubionej wyszukiwarce. Czasami, kiedy istnieje potrzeba przejrzenia wielu stron WWW danej kategorii i wybrania najlepszej – bardziej dogodne może okazać się użycie katalogu.

W większości przypadków zasady formułowania zapytań związane są ze sytuacjami szczególnymi można jednak sformułować kilka reguł ogólnych poprawiających wyniki wyszukiwania.

● Im bardziej konkretnie i szczegółowo zadane pytanie, tym mniej wyświetlonych wyników, ale za to większy udział tych rzeczywiście zgodnych z oczekiwaniami. Przykładowo jeżeli przy poszukiwaniu samochodów używanych zostanie wpisany sam wyraz "samochody", pojawi się kilkaset tysięcy wyników. Po wpisaniu "samochody używane" będzie ich kilkaset. Po dodaniu do tego miejscowości, np. "samochody używane Kraków" zostanie tylko kilkadziesiąt.

● Kolejność wpisywania poszczególnych słów kluczowych ma znaczenie ponieważ pierwsze słowo jest najważniejsze, potem istotność kolejnych maleje.

● Aby znaleźć strony zawierające konkretną sentencję, trzeba zamknąć ją w cudzysłów. Najczęściej wykorzystuje się tą opcję przy podawaniu tytułów filmów, książek, piosenek.

● Zapytanie powinno być tak sformułowane aby dokładnie odpowiadać tekstowi, który może się znajdować na szukanej stronie. Dlatego, szczególnie w przypadku języka polskiego, po to aby dotrzeć do szukanych informacji, trzeba wpisać zapytanie na kilka sposobów. Np: przy poszukiwaniu samochodów używanych najlepszy wynik da kilka uruchomień wyszukiwarki, z następującymi słowami kluczowymi: "samochody używane", "samochodów używanych" (bo sprzedaż, oferta samochodów używanych), "samochodami używanymi" (bo handel, obrót, sklep z samochodami używanymi).

● Słowa, które powinny pojawić się w wynikach wyszukiwania można poprzedzić znakiem “+” natomiast te które pojawić się nie powinny znakiem “-”.

Informacje szczegółowe na przykładzie wyszukiwarki Google

Podstawy korzystania z wyszukiwarki Google Wyszukiwanie informacji za pomocą Google jest łatwe. Wystarczy wprowadzić jedno lub więcej wyszukiwanych haseł (czyli słów bądź fraz, które najlepiej opisują poszukiwane informacje) w polu

wyszukiwania, a następnie nacisnąć klawisz Enter lub kliknąć przycisk Szukaj w Google.

Wyszukiwarka Google utworzy stronę z wynikami wyszukiwania: listę stron internetowych związanych z wyszukiwanymi hasłami i ułożoną w ten sposób, że najtrafniejsze wyniki znajdują się na jej początku.

Dobór wyszukiwanych hasełDobór właściwych haseł ma zasadnicze znaczenie w skutecznym wyszukiwaniu informacji.

Zacznij od haseł oczywistych — jeżeli na przykład szukasz ogólnych informacji o Mazurach, wprowadź hasło Mazury.

Często jednak lepiej jest wprowadzić kilka haseł do wyszukania. Jeżeli planujesz wczasy na Mazurach, lepiej wprowadzić wczasy Mazury niż tylko wczasy albo tylko Mazury. Z kolei wczasy Mazury grzyby może dać jeszcze lepsze (albo – w zależności od punktu widzenia – gorsze) wyniki.

Zastanów się również, czy dobrane wyszukiwane hasła są wystarczająco konkretne. Lepiej jest wyszukiwać luksusowy pensjonat Śniardwy niż pensjonat nad jeziorem. Wyszukiwane hasła dobieraj uważnie – Google szuka stron na ich podstawie, dlatego też luksusowy pensjonat Śniardwy da prawdopodobnie lepsze wyniki niż fajne miejsce, w którym można się zatrzymać nad jeziorem Śniardwy.

Użycie wielkich literWyszukiwarka Google NIE uwzględnia wielkości liter. Wszystkie litery, niezależnie od tego jak je wprowadzisz, będą interpretowane jako litery małe. Na przykład wyszukiwania smok wawelski, Smok Wawelski i sMoK wAwElSkI dadzą takie same wyniki.

Automatyczne zapytania „AND”Wyszukiwarka Google zwraca domyślnie tylko takie strony, które zawierają wszystkie wyszukiwane hasła. Między hasłami nie trzeba wpisywać operatorów, takich jak angielskie AND czy polskie ORAZ. Na wyniki wyszukiwania ma natomiast wpływ kolejność wpisanych haseł. Aby zawęzić wyszukiwanie jeszcze bardziej, wystarczy dodać kolejne hasła. Jeżeli na przykład planujesz wczasy na Mazurach, wpisz po prostu wczasy mazury.

Automatyczne wykluczenie często używanych słówWyszukiwarka Google ignoruje pewne typowe wyrazy (na przykład angielskie „and” i „how”), a także niektóre pojedyncze cyfry i litery, ponieważ spowalniają one wyszukiwanie, nie zapewniając lepszych wyników. Google poinformuje szczegółowo o wykluczonych często używanych wyrazach na stronie wyników pod polem wyszukiwania.

Jeżeli często używane słowo jest konieczne do uzyskania pożądanych wyników, możesz je dołączyć, wstawiając przed nim znak „+”. (Pamiętaj o dodaniu spacji przed znakiem „+”).

Można również przeprowadzić wyszukiwanie frazy, czyli po prostu ująć kilka wyrazów w cudzysłowy. Podczas wyszukiwania frazy typowe słowa (np. „and” w „rock and roll”) są uwzględniane.

Na przykład, aby wyszukać informacje na temat Pierwszej Wojny Światowej, wpisz:

Szukaj w Google

Szukaj w Google

Szukaj w Google

~ LUB ~

Wyszukiwanie frazCzasami potrzebne są tylko takie wyniki, które zawierają pewną dokładną frazę. W takim przypadku ujmij wyszukiwane hasło w cudzysłowy.

Wyszukiwanie frazy jest szczególnie skuteczne w przypadku nazw własnych ("Smok Wawelski"), tekstów piosenek ("10 w skali Beauforta") i innych znanych fraz ("W tak pięknych okolicznościach przyrody").

Hasła wykluczająceJeżeli wyszukiwane hasło ma więcej niż jedno znaczenie (na przykład protokół może odnosić się do dyplomacji lub informatyki), można zawęzić wyszukiwanie, wstawiając znak minusa („-”) przed wyrazami kojarzącymi się ze znaczeniem, którego chce się uniknąć.

W ten sposób na przykład można znaleźć strony o sieciach komputerowych, a nie o dyplomatycznych gafach:

Uwaga: dołączając do wyszukiwania hasło wykluczające, pamiętaj o dodaniu spacji przed znakiem minusa.

I wreszcie... „Szczęśliwy traf”Po wprowadzeniu wyszukiwanych haseł można użyć przycisku „Szczęśliwy traf”, który przenosi bezpośrednio do witryny wskazanej przez wyszukiwarkę Google jako najtrafniejszy wynik wyszukiwania. Strona z wynikami wyszukiwania w ogóle nie zostanie wyświetlona, ale gdyby się wyświetliła, witryna uznana za „Szczęśliwy traf” byłaby wymieniona na początku listy.

Jeżeli na przykład szukasz witryny Uniwersytetu Jagiellońskiego, wprowadź samo słowo Jagielloński i kliknij przycisk „Szczęśliwy traf” zamiast przycisku „Szukaj w Google”. Google otworzy bezpośrednio witrynę „www.uj.edu.pl”

Operatory zaawansowane W wyszukiwarce Google można stosować kilka operatorów zaawansowanych, czyli wyrazów o specjalnym znaczeniu stosowanych w wyszukiwaniu. Operatory te zazwyczaj modyfikują wyszukiwanie w pewien sposób, a nawet całkowicie zmieniają jego typ. Operatorem specjalnym jest na przykład „link:”, a zapytanie [link:www.google.com] nie powoduje normalnego wyszukiwania, lecz umożliwia znalezienie wszystkich stron internetowych, zawierających łącza do www.google.com.

Niektóre z częściej używanych operatorów to znaki przestankowe lub wyrazy niewymagające dwukropka. Są to na przykład operatory OR, "" (cudzysłów prosty), - (znak minus) i + (znak plus). Więcej informacji na temat tych typów operatorów można uzyskać na stronie Podstawy wyszukiwania. Wiele operatorów specjalnych jest dostępnych na stronie Zaawansowane szukanie

Szukaj w Google

Szukaj w Google

Szukaj w Google

Szukaj w Google

Szukaj w Google

(ale nie wszystkie). Poniższa lista zawiera wszystkie operatory specjalne wyszukiwarki Google.

Inne typy zapytań

cache:

Jeżeli do zapytania dołączysz inne wyrazy, Google wyróżni je w dokumencie z pamięci podręcznej. Na przykład w wyniku zapytania [cache:www.google.com internet] wyświetli się zawartość z pamięci podręcznej z wyróżnionym wyrazem „internet”.

Z opcji tej można również skorzystać, klikając link „Kopia” na głównej stronie z wynikami wyszukiwania Google.

Zapytanie [cache:] spowoduje wyświetlenie wersji strony internetowej przechowywanej w pamięci podręcznej Google. Na przykład w wyniku zapytania [cache:www.google.com] wyświetli się kopia strony głównej Google z pamięci podręcznej wyszukiwarki. Pomiędzy operatorem „cache:” a adresem URL strony internetowej nie może być spacji.

link:

Zapytanie [link:] spowoduje wyświetlenie listy stron internetowych zawierających linki do wskazanej strony. Na przykład zapytanie [link:www.google.com] spowoduje wyświetlenie stron internetowych, zawierających linki kierujące do strony głównej Google. Pomiędzy operatorem „link:” a adresem URL strony internetowej nie może być spacji. Z opcji tej można także skorzystać na stronie Zaawansowane szukanie w sekcji Informacje o danej stronie internetowej > Łącza do.

related:

Zapytanie [related:] spowoduje wyświetlenie listy stron „podobnych” do określonej strony internetowej. Na przykład zapytanie [related:www.google.com] spowoduje wyświetlenie stron internetowych, które są podobne do strony głównej Google. Pomiędzy operatorem „related:” a adresem URL strony internetowej nie może być spacji. Z opcji tej można także skorzystać, klikając link „Podobne strony” na głównej stronie z wynikami wyszukiwania Google oraz na stronie Zaawansowane szukanie w sekcji Informacje o danej stronie internetowej > Podobne do.

info:

Zapytanie [info:] spowoduje wyświetlenie niektórych informacji o danej stronie, którymi dysponuje wyszukiwarka Google. Na przykład w wyniku zapytania [info:www.google.com] zostaną wyświetlone informacje o stronie głównej Google. Pomiędzy operatorem „info:” a adresem URL strony internetowej nie może być spacji.

Z opcji tej można także skorzystać, wpisując adres URL strony internetowej bezpośrednio w polu wyszukiwania Google.

Inne opcje informacyjne

define:

Zapytanie [define:] spowoduje wyświetlenie definicji wyrazów wprowadzonych po operatorze. Definicje te pochodzą z różnych źródeł online. Definicja będzie dotyczyć całej wprowadzonej frazy, czyli wszystkich wyrazów i w takiej kolejności, w jakiej zostały wpisane.

Modyfikatory zapytań

site:

Po uwzględnieniu w zapytaniu ciągu [site:] Google ograniczy wyniki wyszukiwania do witryn z danej domeny. Na przykład zapytanie [pomoc site:www.google.com] spowoduje wyświetlenie stron o pomocy z witryny www.google.com. Zapytanie [pomoc site:com] spowoduje wyświetlenie stron o pomocy z witryn mających przyrostek .com. Pomiędzy operatorem „site:” a domeną nie może być spacji.

Z opcji tej można także skorzystać na stronie Zaawansowane szukanie > W adresie strony.

allintitle:

Jeżeli zapytanie będzie rozpoczynać się operatorem [allintitle:], Google ograniczy wyniki do stron zawierających wszystkie wyrazy zapytania w tytule. Na przykład zapytanie [allintitle: wyszukiwarka google] spowoduje zwrócenie tylko takich dokumentów, które mają w tytule zarówno „wyszukiwarka”, jak i „google”. Z opcji tej można także skorzystać na stronie Zaawansowane szukanie > Sposób szukania.

intitle:

Po uwzględnieniu w zapytaniu ciągu [intitle:] Google ograniczy wyniki wyszukiwania do dokumentów zawierających dany wyraz w tytule. Na przykład zapytanie [intitle:wyszukiwarka google] spowoduje zwrócenie dokumentów zawierających wyraz „wyszukiwarka” w tytule oraz wyraz „google” w dowolnym miejscu (tytule lub poza tytułem). Pomiędzy operatorem „intitle:” a następującym po nim wyrazem nie może być spacji.

Umieszczenie operatora [intitle:] przed każdym wyrazem zapytania da takie same wyniki, jak umieszczenie przed całym zapytaniem operatora [allintitle:]: [intitle:wyszukiwarka intitle:google] oznacza to samo co [allintitle: wyszukiwarka google].

allinurl:

Jeżeli zapytanie będzie rozpoczynać się operatorem [allinurl:], Google ograniczy wyniki do stron zawierających wszystkie wyrazy zapytania w adresie URL. Na przykład zapytanie [allinurl: wyszukiwarka google] spowoduje zwrócenie tylko takich dokumentów, które mają w adresie URL zarówno „wyszukiwarka”, jak i „google”.

Uwaga: operator [allinurl:] działa na wyrazach, a nie składnikach adresów URL. Przede wszystkim ignorowana jest interpunkcja. W związku z tym zapytanie [allinurl: cd/rom] spowoduje ograniczenie wyników do stron z wyrazami „cd” i „rom” w adresie URL, ale wyrazy te nie będą musiały być w adresie rozdzielone kreską ułamkową, pisane łącznie ani w danej kolejności. Ograniczeń takich nie można obecnie narzucić.

Z opcji tej można także skorzystać na stronie Zaawansowane szukanie > Sposób szukania.

inurl:

Po uwzględnieniu w zapytaniu ciągu [inurl:] Google ograniczy wyniki wyszukiwania do dokumentów zawierających dany wyraz w adresie URL. Na przykład zapytanie [inurl:wyszukiwarka google] spowoduje zwrócenie dokumentów zawierających wyraz „wyszukiwarka” w adresie URL oraz wyraz „google” w dowolnym miejscu (adresie lub poza adresem). Pomiędzy operatorem „inurl:” a następującym po nim wyrazem nie może być spacji.

Umieszczenie operatora „inurl:” przed każdym wyrazem zapytania da takie same wyniki, jak umieszczenie przed całym zapytaniem operatora „allinurl:”: [inurl:wyszukiwarka inurl:google] oznacza to samo co [allinurl: wyszukiwarka google].

Zadania do wykonania

1. Zapoznać się z funkcjonowaniem i konfiguracją przeglądarki internetowej na przykładzie narzędzi Firefox, Microsoft Internet Explorera lub innych w zależności od programów zainstalowanych w labolatorium.

2. Zapoznać się z kilkoma spośród wyszukiwarek, dokonać próby wyszukania informacji, zaobserwować różnice w efektach działania, sposobach zadawania pytań, szybkości działania poszczególnych serwisów.

3. Zapoznać się z kilkoma spośród dostępnych katalogów, dokonać próby wyszukania informacji, zaobserwować różnice w efektach działania, sposobach zadawania pytań szybkości działania.

4. Zapoznać się z kilkoma spośród multiwyszukiwarek, dokonać próby wyszukania informacji, zaobserwować różnice w efektach działania, sposobach zadawania pytań, szybkości działania poszczególnych serwisów.

5. Zaobserwować i określić różnice pomiędzy witryną i portalem w sieci web.

5. Znaleźć w sieci informacje na temat serwerów PROXY oraz możliwości ich konfiguracji i wykorzystania.