Inteligentne wyszukiwarki internetowe KAzsi.tech.us.edu.pl/~nowak/ti/w1.pdf · 2013-08-28 ·...

Post on 14-Jul-2020

0 views 0 download

Transcript of Inteligentne wyszukiwarki internetowe KAzsi.tech.us.edu.pl/~nowak/ti/w1.pdf · 2013-08-28 ·...

Inteligentne wyszukiwarki internetowe

dr Agnieszka Nowak-Brzezioskaagnieszka.nowak@us.edu.pl

Agnieszka Nowak-Brzezioska WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Idea wyszukiwania informacji:

„Wyszukiwanie informacji to proces wyszukiwania w

pewnym zbiorze tych wszystkich dokumentów,

które poświęcone są wskazanemu w kwerendzie tematowi (przedmiotowi) lub zawierają niezbędne dla użytkownika fakty i

informacje.”

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Co to inteligencja ?

• Inteligencja jest umiejętnością

przystosowywania się do nowych zadań i

warunków życia albo sposobem, w jaki

człowiek przetwarza informacje i

rozwiązuje problemy. Inteligencja to

także umiejętność kojarzenia oraz

rozumienia.

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Inne definicje AI:

• „AI to nauka mająca za zadanie nauczyć maszyny zachowań podobnych do ludzkich”.

• „AI to nauka o tym, jak nauczyć maszyny robić rzeczy które obecnie ludzie robią lepiej”.

• „AI to nauka o komputerowych modelach wiedzy umożliwiających rozumienie, wnioskowanie i działanie”.

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Kiedy program lub maszyna jest inteligentna ?

• Na to pytanie w 1950 roku próbowałodpowiedzied Alan Turing.

• Idea „Testu Turinga” polegała na tym, żeczłowiek za pomocą klawiatury i monitorazadaje te same pytania komputerowi i innejosobie. Jeśli zadający pytania nie potrafirozróżnid odpowiedzi komputera i człowieka,tzn. że program (maszyna) jest inteligentny. W

PR

OW

AD

ZE

NIE

DO

WY

SZ

UK

IWA

RE

K

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Liderzy

• Google (http://google.com)

• Yahoo! Search (kiedyś tylko katalog, dziś cały portal) http://search.yahoo.com/

• Ask (http://www.ask.com) (dawny Ask Jeeves)

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Zaletą Yahoo! jest funkcja Search Assist. Znajduje ona podobieństwa między

wynikami wyszukiwania a innymi, pokrewnymi stronami.

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Internet stał się ogromnym zasobnikiem informacji (artykułów

naukowych, popularno-naukowych, książek adresowych,

telefonicznych, map geograficznych, wykazów usług sprzedaży,

informacji o osobach, firmach, produktach itd..) oraz wszelkiego

rodzaju usług (sprzedaży towarów, zbierania informacji,

rezerwacji i sprzedaży biletów lotniczych, kolejowych,

prezentacji filmów na zamówienie).

Minął okres rozwoju wyszukiwarek ogólnego przeznaczenia, które

indeksowały wszelkie możliwe strony WWW. Niewątpliwą wadą

jest powierzchowniowość dokonywanego przez nie

przetwarzania danych, wynikająca z ograniczeń na czas

przetwarzania.

Dzisiaj spore szanse rozwojowe mają wyszukiwarki specjalizujące

się w określonych dziedzinach zastosowań - wyszukiwarki

dedykowane. Dają one o wiele lepsze, pełniejsze i trafniejsze

wyniki niż wyszukiwarki i katalogi ogólne.

Internet a systemy wyszukiwawcze

•Oświecone zgadywanie,•Katalogi stron (directories, indexes),•Przewodniki i specjalizowane katalogi przedmiotowe, bazy wiedzy. Itp.•Portale, wortale, „strony startowe”,•Wyszukiwarki (szperacze) indeksujące,•Metawyszukiwarki .

Metody przeszukiwania WWW

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Katalogi stron•Katalog jest systemem klasyfikowania stron przeznaczonym do

dokumentowania adresów internetowych.

•Katalogi tworzone są przez ludzi i w oparciu o informacje dostarczane przez

internautów.

•Katalogi same się nie uaktualniają. Jeśli chce się zmienić opis w katalogu

należy to zgłosić do redaktorów katalogu.

Najpopularniejsze wyszukiwarki i katalogi

AltaVista Wyszukiwarka

AOL Search Katalog

Excite Wyszukiwarka

HotBot Wyszukiwarka

Go.com Wyszukiwarka

Google Wyszukiwarka/ katalog

Infoseek Wyszukiwarka

Lycos Katalog

MSN.com Katalog

Open Directory Katalog

Snap.com Katalog

Web Crawler Wyszukiwarka

Yahoo Katalog

Katalog jest drzewiastą strukturą, witryny przypisane są do poszczególnych

kategorii.

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Redaktorzy katalogów•„Humans Do it Better” - oczywiście w porównaniu z robotami.

•Zgłoszenie w katalogu Internetowym, wybór kategorii, która najbardziej

odpowiada treści strony. Należy podać adres strony, z jej krótkim

opisem, czasem także kilka słów kluczowych dla strony.

•Redaktorzy katalogu odwiedzają zgłoszoną stronę, aby zbadać, czy jest

warta umieszczenia w katalogu, badane jest zgodność opisu i słów

kluczowych z treścią strony i w przypadku braku uwag strona dodawana

jest do sugerowanej przez właściciela kategorii. Jeśli redaktor uzna, że

strona nie jest warta umieszczenia w katalogu - nic nie można na to

poradzić.

•Proces recenzowania stron trwa od kilku do kilkunastu dni - przy

dalszym burzliwym rozwoju Internetu będzie się wydłużał.

•Wyniki wyszukiwania, które pokazuje katalog są oparte na krótkim

opisie zamieszczonym w katalogu - meta tagi stron WWW nie mają

znaczenia.

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Wady i zaletyWady:

• mała liczba zawartych w nich stron w porównaniu z innymi narzędziami.

Powodem są ludzkie możliwości - dokładne przejrzenie witryny i zakwalifikowanie

jej do odpowiedniej kategorii.

• aktualizacja katalogu. Strony internetowe „żyją” ! a weryfikacja ich zawartości

wymaga ponownego odwiedzenia ich przez redaktora.

• różna interpretacja świata przez ludzi. Tą samą stronę dwie osoby mogą

umieścić w różnych kategoriach.

Zalety:

• opracowują je ludzie, którym zależy na wiarygodności umieszczonych w nich

danych. Możemy więc mieć pewność, że ktoś za nie odpowiada.

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

specjalizowane katalogi przedmiotowe

W internecie możemy spotkać szereg wyszukiwarek dziedzinowych

dedykowanych tj:

• CNET.com – specjalizująca się w dziedzinie komputerów,

•Wyszukiwarka University of pennsylwania (http://www/upenn.edu/)

•Lycos wspomagająca wyszukiwanie plików typu mp3 (http://mp3.lycos.com)

•wyszukiwarka YASE dla publikacji nt. bd (http://mykerinos.cis.upenn.edu)

•Wyszukiwarka zdjęć http://image.altavista.com

• http://www.technorati.com (świat blogów: prawie 100 mln)

• wyszukiwarki aktualności: http://www.newslookup.com (kilka tysięcy

źródeł wiadomości z całego świata. Pozwala na zawężenie wyników do

gazet, telewizji, radia lub sieci. Istnieje także możliwość określenia

geograficznego obszaru, z którego pochodzi wiadomość)

• http://www.picsearch.com (grafika, pliki audio i wideo). Picsearch powstał

w 2000 roku i obecnie indeksuje 2 mld obrazków - więcej niż Yahoo! Search

(1,6 mld) i niewiele mniej niż Google (2,2 mld).

specjalizowane katalogi przedmiotowe

Wyszukiwarki specjalizowaneBlinkx (wideo) http://www.blinkx.comBlogscope (blogi) http://www.blogscope.netBusiness.com(firmy) http://www.business.comEx.pl/ode.us (ludzie) http://ex.pl, ode.usFileSearch (pliki) http://www.filesearching.comIceRocket (blogi) http://www.icerocket.comInfoSpace (firmy, ludzie) http://www.infospace.comKelkoo (ceny) http://www.kelkoo.comLexis Nexis (prawo) http://www.lexisnexis.comMagPortal (newsy) http://www.magportal.comNewslookup (newsy) http://www.newslookup.comOmgili (fora) http://www.omgili.comPicsearch (grafika) http://www.picsearch.comPriceRunner (ceny) http://www.pricerunner.comRollyo (wysz. spersonalizowana) http://rollyo.comSphere (blogi) http://sphere.comSpock (ludzie) http://www.spock.comTechnorati (blogi) http://www.technorati.comThomasNet (firmy) http://www.thomasnet.comTopix (newsy) http://www.topix.comWink (ludzie) http://wink.com

Portale, wortalePortal internetowy – internetowy serwis informacyjny poszerzony o

różnorodne funkcje internetowe, dostępny z jednego adresu internetowego.

W intencji twórców, ma to zachęcać użytkowników do ustawienia adresu

portalu jako strony startowej w przeglądarce WWW i traktowania go jako

bramy do Internetu.

Zazwyczaj portal zawiera informacje będące przedmiotem zainteresowania

szerokiego grona odbiorców. Jako przykładową treść portalu można podać:

dział aktualnych wiadomości, prognoza pogody, katalog stron WWW, czat,

forum dyskusyjne oraz mechanizmy wyszukiwania informacji w nim samym

lub w zewnętrznych zasobach Internetu (wyszukiwarki internetowe).

W celu przyciągnięcia większej ilości użytkowników portale mogą oferować

darmowe konta poczty elektronicznej, miejsce na strony WWW i dostęp do

innych usług (np. multimedia, pobieranie plików, grupy dyskusyjne).

Polskie portaleOnet.plWirtualna PolskaInteria.plO2.pl

Portale na świecieYahooSeznam.czAOL

Wortal, portal wertykalny (ang. vertical portal) – portal

wyspecjalizowany, publikujący informacje z jednej dziedziny,

tematycznie do siebie zbliżone, np. dotyczące muzyki, filmu, programów

komputerowych.

Nazwa ma stanowić przeciwstawienie do zwykłego portalu, obejmującego

szeroki zakres tematyczny (horyzontalnego), a przy okazji podkreślać

wyższą jakość udostępnianych zasobów, jednak nie przyjęła się szeroko.

Wortal jest odpowiednikiem portalu, tyle, że poświęconemu konkretnej

tematyce.

Przykłady wortali:

pclab.pl

benchmark.pl

Portale, wortale

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Wyszukiwarki (szperacze) indeksujące•Bardziej wydajne niż katalogi.

•Tworzą automatycznie swoje bazy danych o witrynach.

•Oprogramowanie wyszukiwarki składa się z dwóch oddzielnych

modułów:

1. pierwszy odwiedza witryny internetowe, analizując umieszczone na

nich teksty, oraz podąża za odsyłaczami hipertekstowymi do

kolejnych stron.

2. Indeks - obsługuje powstającą w ten sposób bazę danych.

Korzystanie z bazy polega na wpisywaniu poszukiwanych słów i

obejrzeniu wyświetlonych wyników w postaci hipertekstowych

odsyłaczy do stron, które zawierają wpisane wyrażenie. Jako

pierwsze wyświetlane są adresy witryn, które bardziej odpowiadają

zadanemu pytaniu.

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Metawyszukiwarki

To serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią

wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać

je od nich i przedstawić w przejrzystej formie.

Wadą metawyszukiwarek jest brak dostępu do specyficznych zapytań złożonych

jakie dają pojedyncze szperacze.

Zaletą jest to, że można zadać jedno pytanie do kilku szperaczy przy odwiedzeniu

tylko jednego serwisu. Zaoszczędza to czas i daje możliwość przeszukania

większej części zasobów Internetu. Niektóre metawyszukiwarki dodatkowo

opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które

już nie istnieją w Internecie, a są jeszcze zapisane w bazie wyszukiwarki.

Dodatkowo mogą sortować na różne sposoby wyświetloną listę.

Firma Browsys proponuje wszystkim maniakom surfowania narzędzia o

nazwie Twoogle oraz Twofind, które pozwalają na sprawdzanie

wyników wyszukiwania jednocześnie w kilku najpopularniejszych

wyszukiwarkach internetowych.

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego

Twofind pozwala natomiast na konfrontację między Google, a niedawno

zaprezentowaną wyszukiwarką Microsoftu, czyli Bing. Podobnie, jak Twoogle,

wyniki wyszukiwania prezentowane są w dwóch osobnych oknach obok

siebie, dzięki czemu możemy szybko porównać je ze sobą.

Nowe trendy•wyszukiwarki dedykowane,

•specjalizowane inteligentne wyszukiwarki (wspomagające wykrywanie

przestępstw w Internecie (poszukiwanie ofert pornografii dziecięcej,

nielegalnej sprzedaży towarów, przygotowania zamachów i blokad

ulicznych, identyfikacja handlu żywym towarem)),

• wyszukiwarki z technikami analizy morfologicznej, składniowej,

rozumienia tekstu, tłumaczenia tekstu,

•przetwarzanie informacji multimedialnej: odnajdywania podobieństw

i indeksacji obrazów, również filmów, dokumentów audio.

Nowe trendy

Nowe trendy

Hakia jest wyszukiwarką, która opiera się na języku naturalnym. W założeniu, marozumied semantykę wpisywanych zapytao.

Ask.com

Ask.com

Przegląd innych wyszukiwarek

Na podobnej zasadzie działają min. Wyszukiwarki Ask.com oraz AnswerBus.com

( www.AnswerBus.com ) jednak mają one jedną zasadniczą wadę. Często w ramach

odpowiedzi na postawione pytanie otrzymujemy zbiór luźno powiązanych z

tematem stron.

Text Mining a inteligentne wyszukiwarki internetowe (hakia, start, answerBus)

Systemy odpowiadające na pytania

[system START, system AnswerBus]

Przegląd innych wyszukiwarek

Mechanizm NetSprinta podobnie jak Google korzysta m.in. z Wikipedii oraz serwisów

informacyjnych, dając użytkownikowi możliwośd zapoznania się z najnowszymi

wiadomościami na dany temat. Wyszukiwarka nie zawsze radzi sobie dobrze też m.in. z podpowiedziami po błędnym wpisaniu

zapytania.

Przegląd innych wyszukiwarek

• Innym trendem w wyszukiwaniu są rozwiązania dedykowane przeszukujące specyficzne bazy danych. Przykładem takiej wyszukiwarki jest http://www.gopubmed.org/

• mechanizm pomagający precyzyjnie wyszukiwad dokumenty związane z dziedziną biomedycyny.

Test wyszukiwarki Wolfram Alpha

• Wolfram Alpha tak naprawdę niewiele ma wspólnego z tym, co znamy jako wyszukiwarki.

To raczej wielka baza wiedzy, której możemy używać w dowolny sposób.

• System komputerowy wyposażony w 4608 procesorów wspomaga działanie nowej

wyszukiwarki.

• unikalną cechą Wolfram Aplha jest algorytm, który zamiast wyświetlać spis witryn

internetowych stara się podać gotową odpowiedź na zadane przez użytkownika pytanie.

• Wada: Zdarza jej się źle wyszukać informację, ale częściej po prostu jej nie znajduje, niż

znajduje błędy.

• Zaleta: jeśli wpiszemy nazwę jakiegoś polskiego miasta, wyszukiwarka wyświetli je na

mapie (z możliwością przejścia do widoku satelitarnego Google Maps), poinformuje o

lokalnym czasie czy aktualnej pogodzie. To już nam bardziej przypadło do gustu.

• Wolfram wykona dla nas skomplikowane obliczenia (z zakresu matematyki czy fizyki),

dokona ciekawych porównań (na przykład PKB państw), a nawet sprawdzi ile kalorii ma

posiłek, który mamy zamiar dziś zjeść. Wszystko przedstawi na wykresach.

• Wyszukiwarka ze sztuczną inteligencją (dzięki mechanizmom sztucznej inteligencji,

wyszukiwarka próbuje interpretować pytanie i udziela odpowiedzi.)

• Wystartowała 18 maja 2009 roku.

Co się kryje pod polem wprowadzania zapytao?

Według zespołu projektantów są to dwa superkomputery z 10000 rdzeni. Ich pamięć operacyjną szacuje się na setkiterabajtów, a wszystko to jest chłodzone układemwystarczającym na stworzenie kurortu narciarskiego... naSaharze. Komputer ten stworzyła firma R Systems, która mana sumieniu 44 superkomputery według czerwcowej listyTOP500 z 2008 roku. Drugi z partnerów Dell dostarczyłserwer, zaprojektowany specjalnie do centrumobliczeniowego.

Czy to wystarczy do obsługi zapytań szacowanych na 175milionów dziennie i 5 miliardów miesięcznie? Wedługtwórców... powinno :)

Idea wyszukiwarki…

• odpowiadanie na konkretne pytania zadawane w naturalnym dla użytkownika języku. Przy analizie pytania i wyszukiwaniu pasującej odpowiedzi narzędzie opiera się na rozwiązaniach ze sztucznej inteligencji, takich jak sieci semantyczne.

• odpowiedź "tworzona" jest w locie, dedukowana na podstawie posiadanej przez aplikację bazy wiedzy.

• Wolfram Alpha nie jest pierwszą wyszukiwarką korzystającą z wiedzy z dziedziny sztucznej inteligencji. Ask czy Hakiarównież wykorzystują tego typu rozwiązania, jednak Wolfram Alpha prezentuje zupełnie nową jakośd i algorytmy dotąd nie spotykane na rynku wyszukiwarek.

Jak rozrasta się ….?

Pracownicy projektu pracują dzień po dniu z iściebenedyktyńską cierpliwością, podobnie jakniegdyś mnisi przy pulpitach w swoichklasztorach. Celem całego przedsięwzięcia jeststworzenie skarbnicy światowej wiedzy, a wkażdym razie jej bezspornej części: faktów,liczb, wzorów, modeli. (...) Dotychczas zebranezasoby autor projektu ocenia na dziesięć bilionówjednostek danych. Doliczyć trzeba jeszczenapływające w czasie rzeczywistym informacje opogodzie czy kursach giełdowych.

Cechy charakterystyczne…

• Dowolnośd formułowania zapytania w języku naturalnym

• Generowanie wyników dynamicznie

• Dodatkowe informacje na żądanie

• Wskazanie źródła informacji

• Dodatkowe formaty danych wyjściowych (pdf)

Uproszczony test Turinga

CAPTCHA (Completely Automated Public Turing test totell Computers and Humans Apart) - rodzaj technikistosowanej jako zabezpieczenie w formularzach nastronach WWW. Dla przesłania danych koniecznejest przepisanie treści z obrazka (zazwyczaj losowodobranych znaków bądź krótkiego wyrazu). Obrazekten jest prosty do odczytania przez człowieka,jednakże odczytanie go przez komputer jest,przynajmniej w założeniu, bardzo trudne.

Jak Wolfram działa w praktycejaki był produkt krajowy brutto (PKB) na osobę w Polsce w 1998 roku?

Jak Wolfram działa w praktyceJaka była pogoda w styczniu tego roku w Poznaniu?

Jak Wolfram działa w praktyce

Wolfram przedstawia również dane dotyczące stron internetowych - liczbę odwiedzin na witrynie. Należy wpisad po prostu adres strony i otrzymamy wynik.

Jak Wolfram działa w praktyce

Google Squared - wyniki wyszukiwania w tabeli

Samoorganizujące się mapy dokumentów– SOM,WebSOM

Reguły asocjacyjne - sklepy internetowe - analiza koszykowa

Data Mining - wprowadzenie do metod eksploracji wiedzy

• odkrywanie asocjacji (associations) znajdowanie reguł typu: piwo -> orzeszki

• wzorce sekwencji (sequential patterns) znajdowanie sekwencji dot. np. zakupów klienta:(TV, video, kamera)

• klasyfikacja (classifications) klasyfikacja danych do grup ze względu na atrybutdecyzyjny, np.: klasyfikacja klientów przez bank do grup: dad kredyt / nie dad kredytu

• analiza skupień (clustering) grupowanie danych na wcześniej nieznae klasy, znajdowanie wspólnych cech, np.: wyodrębnienie różnych rodzajów klientów – różnych taryf –przez sied telefonii komórkowej

Na czym polega grupowanie ?

Obiekt jest przydzielony do skupienia, którego środek ciężkości leży najbliżej w sensie odległości euklidesowej.

Carrot2 a Google

System Carrot2 ( Podstawy )

Carrot operuje jedynie na snippetach, bez odczytywania

dokumentów źródłowych. Wynika z tego fakt, iż jakość

grupowania będzie silnie zależeć od siły opisowej

snippetów – krótkich fragmentów tekstu zwróconych

przez wyszukiwarkę. W tym aspekcie systemy typu

Carrot, będą znacznie ograniczone przez

zaimplementowane algorytmy samych wyszukiwarek

(Google, Yahoo!, itp.) służące odnalezieniu zdań,

które w sposób właściwy opisują temat strony. Daje to

jednak pewne korzyści, w postaci krótkiego czasu

wyszukiwania (wynikającego z faktu braku

konieczności analizowania całych dokumentów).

• Carrot daje olbrzymie możliwości analizy wyników

zapytania względem tradycyjnych wyszukiwarek.

Poprzez ekstrakcję fraz z pierwszych paruset

odnośników i ich prezentację w skumulowanej formie

uzyskujemy możliwość pobieżnego przeglądu o parę

rzędów wielkości większej liczby dokumentów niż

miałoby to miejsce przy klasycznym listowym widoku.

• System przekierowuje zapytanie do wyszukiwarki

(Google, Yahoo!, itp.), pobiera od niej kilkaset

początkowych odnośników, a następnie analizuje je

poszukując wspólnych, opisowych fraz. Frazy te, o ile

są wystarczająco częste, są traktowane jako

reprezentanci grup tematycznych.

System Carrot2 ( Podstawy )

• Carrot nie był pierwszym systemem grupującym

wyniki z wyszukiwarek – wcześniej powstały systemy

Grouper, Vivisimo oraz inne, których funkcjonalność

jednak nigdy nie wysunęła się poza obszar

eksperymentu obliczeniowego. Grouper, jako projekt

również typowo badawczy, został usunięty z sieci w

roku 2001 (po zakończeniu badań).

• Co warte podkreślenia, Carrot jest jedynym systemem

grupującym, działającym dla języków innych niż język

angielski.

• Nazwa systemu odnosi się do wcześniejszych

owocowych systemów wspomagających odkrywanie

wiedzy z danych tekstowych (Lemon, Grape, Orange).

System Carrot2 ( Podstawy )

Idealny system wyszukiwania

informacji:

• To taki który potrafi odpowiedzieć na każde pytaniepoprawnie.

• Czy taki system ma szanse powstać ?

• Wiedza płynąca z internetu jest dość niepewnym źródłeminformacji, i faktów, o czym warto pamiętać, - bo każdymoże umieścić w sieci informacje...nie do końca precyzyjneale i często błędne.

• Pojawiające się nowe pomysły mające na celu ułatwianieużytkownikom korzystanie z wyszukiwarek, to z pewnościąkrok by uczynić tę czynność przyjemniejszą i bardziejintuicyjną.

• Nie można jednak liczyć na to, ze wyszukiwarki w przyszłościbędą w stanie wyręczyć nas z umiejętności logicznegomyślenia i odrobiny dociekliwości w szukaniu tego co nasinteresuje.

Dziękuję za uwagę…

WP

RO

WA

DZ

EN

IED

OW

YS

ZU

KIW

AR

EK

AG

NIE

SZ

KA

NO

WA

K-

BR

ZE

ZIŃ

SK

A

Przedmiot prowadzony w zakresie

Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach

Europejskiego Funduszu Społecznego