Inteligentne wyszukiwarki internetowe KAzsi.tech.us.edu.pl/~nowak/ti/w1.pdf · 2013-08-28 ·...
Transcript of Inteligentne wyszukiwarki internetowe KAzsi.tech.us.edu.pl/~nowak/ti/w1.pdf · 2013-08-28 ·...
Inteligentne wyszukiwarki internetowe
dr Agnieszka [email protected]
Agnieszka Nowak-Brzezioska WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Idea wyszukiwania informacji:
„Wyszukiwanie informacji to proces wyszukiwania w
pewnym zbiorze tych wszystkich dokumentów,
które poświęcone są wskazanemu w kwerendzie tematowi (przedmiotowi) lub zawierają niezbędne dla użytkownika fakty i
informacje.”
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Co to inteligencja ?
• Inteligencja jest umiejętnością
przystosowywania się do nowych zadań i
warunków życia albo sposobem, w jaki
człowiek przetwarza informacje i
rozwiązuje problemy. Inteligencja to
także umiejętność kojarzenia oraz
rozumienia.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Inne definicje AI:
• „AI to nauka mająca za zadanie nauczyć maszyny zachowań podobnych do ludzkich”.
• „AI to nauka o tym, jak nauczyć maszyny robić rzeczy które obecnie ludzie robią lepiej”.
• „AI to nauka o komputerowych modelach wiedzy umożliwiających rozumienie, wnioskowanie i działanie”.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Kiedy program lub maszyna jest inteligentna ?
• Na to pytanie w 1950 roku próbowałodpowiedzied Alan Turing.
• Idea „Testu Turinga” polegała na tym, żeczłowiek za pomocą klawiatury i monitorazadaje te same pytania komputerowi i innejosobie. Jeśli zadający pytania nie potrafirozróżnid odpowiedzi komputera i człowieka,tzn. że program (maszyna) jest inteligentny. W
PR
OW
AD
ZE
NIE
DO
WY
SZ
UK
IWA
RE
K
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Liderzy
• Google (http://google.com)
• Yahoo! Search (kiedyś tylko katalog, dziś cały portal) http://search.yahoo.com/
• Ask (http://www.ask.com) (dawny Ask Jeeves)
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Zaletą Yahoo! jest funkcja Search Assist. Znajduje ona podobieństwa między
wynikami wyszukiwania a innymi, pokrewnymi stronami.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Internet stał się ogromnym zasobnikiem informacji (artykułów
naukowych, popularno-naukowych, książek adresowych,
telefonicznych, map geograficznych, wykazów usług sprzedaży,
informacji o osobach, firmach, produktach itd..) oraz wszelkiego
rodzaju usług (sprzedaży towarów, zbierania informacji,
rezerwacji i sprzedaży biletów lotniczych, kolejowych,
prezentacji filmów na zamówienie).
Minął okres rozwoju wyszukiwarek ogólnego przeznaczenia, które
indeksowały wszelkie możliwe strony WWW. Niewątpliwą wadą
jest powierzchowniowość dokonywanego przez nie
przetwarzania danych, wynikająca z ograniczeń na czas
przetwarzania.
Dzisiaj spore szanse rozwojowe mają wyszukiwarki specjalizujące
się w określonych dziedzinach zastosowań - wyszukiwarki
dedykowane. Dają one o wiele lepsze, pełniejsze i trafniejsze
wyniki niż wyszukiwarki i katalogi ogólne.
Internet a systemy wyszukiwawcze
•Oświecone zgadywanie,•Katalogi stron (directories, indexes),•Przewodniki i specjalizowane katalogi przedmiotowe, bazy wiedzy. Itp.•Portale, wortale, „strony startowe”,•Wyszukiwarki (szperacze) indeksujące,•Metawyszukiwarki .
Metody przeszukiwania WWW
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Katalogi stron•Katalog jest systemem klasyfikowania stron przeznaczonym do
dokumentowania adresów internetowych.
•Katalogi tworzone są przez ludzi i w oparciu o informacje dostarczane przez
internautów.
•Katalogi same się nie uaktualniają. Jeśli chce się zmienić opis w katalogu
należy to zgłosić do redaktorów katalogu.
Najpopularniejsze wyszukiwarki i katalogi
AltaVista Wyszukiwarka
AOL Search Katalog
Excite Wyszukiwarka
HotBot Wyszukiwarka
Go.com Wyszukiwarka
Google Wyszukiwarka/ katalog
Infoseek Wyszukiwarka
Lycos Katalog
MSN.com Katalog
Open Directory Katalog
Snap.com Katalog
Web Crawler Wyszukiwarka
Yahoo Katalog
Katalog jest drzewiastą strukturą, witryny przypisane są do poszczególnych
kategorii.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Redaktorzy katalogów•„Humans Do it Better” - oczywiście w porównaniu z robotami.
•Zgłoszenie w katalogu Internetowym, wybór kategorii, która najbardziej
odpowiada treści strony. Należy podać adres strony, z jej krótkim
opisem, czasem także kilka słów kluczowych dla strony.
•Redaktorzy katalogu odwiedzają zgłoszoną stronę, aby zbadać, czy jest
warta umieszczenia w katalogu, badane jest zgodność opisu i słów
kluczowych z treścią strony i w przypadku braku uwag strona dodawana
jest do sugerowanej przez właściciela kategorii. Jeśli redaktor uzna, że
strona nie jest warta umieszczenia w katalogu - nic nie można na to
poradzić.
•Proces recenzowania stron trwa od kilku do kilkunastu dni - przy
dalszym burzliwym rozwoju Internetu będzie się wydłużał.
•Wyniki wyszukiwania, które pokazuje katalog są oparte na krótkim
opisie zamieszczonym w katalogu - meta tagi stron WWW nie mają
znaczenia.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Wady i zaletyWady:
• mała liczba zawartych w nich stron w porównaniu z innymi narzędziami.
Powodem są ludzkie możliwości - dokładne przejrzenie witryny i zakwalifikowanie
jej do odpowiedniej kategorii.
• aktualizacja katalogu. Strony internetowe „żyją” ! a weryfikacja ich zawartości
wymaga ponownego odwiedzenia ich przez redaktora.
• różna interpretacja świata przez ludzi. Tą samą stronę dwie osoby mogą
umieścić w różnych kategoriach.
Zalety:
• opracowują je ludzie, którym zależy na wiarygodności umieszczonych w nich
danych. Możemy więc mieć pewność, że ktoś za nie odpowiada.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
specjalizowane katalogi przedmiotowe
W internecie możemy spotkać szereg wyszukiwarek dziedzinowych
dedykowanych tj:
• CNET.com – specjalizująca się w dziedzinie komputerów,
•Wyszukiwarka University of pennsylwania (http://www/upenn.edu/)
•Lycos wspomagająca wyszukiwanie plików typu mp3 (http://mp3.lycos.com)
•wyszukiwarka YASE dla publikacji nt. bd (http://mykerinos.cis.upenn.edu)
•Wyszukiwarka zdjęć http://image.altavista.com
• http://www.technorati.com (świat blogów: prawie 100 mln)
• wyszukiwarki aktualności: http://www.newslookup.com (kilka tysięcy
źródeł wiadomości z całego świata. Pozwala na zawężenie wyników do
gazet, telewizji, radia lub sieci. Istnieje także możliwość określenia
geograficznego obszaru, z którego pochodzi wiadomość)
• http://www.picsearch.com (grafika, pliki audio i wideo). Picsearch powstał
w 2000 roku i obecnie indeksuje 2 mld obrazków - więcej niż Yahoo! Search
(1,6 mld) i niewiele mniej niż Google (2,2 mld).
specjalizowane katalogi przedmiotowe
Wyszukiwarki specjalizowaneBlinkx (wideo) http://www.blinkx.comBlogscope (blogi) http://www.blogscope.netBusiness.com(firmy) http://www.business.comEx.pl/ode.us (ludzie) http://ex.pl, ode.usFileSearch (pliki) http://www.filesearching.comIceRocket (blogi) http://www.icerocket.comInfoSpace (firmy, ludzie) http://www.infospace.comKelkoo (ceny) http://www.kelkoo.comLexis Nexis (prawo) http://www.lexisnexis.comMagPortal (newsy) http://www.magportal.comNewslookup (newsy) http://www.newslookup.comOmgili (fora) http://www.omgili.comPicsearch (grafika) http://www.picsearch.comPriceRunner (ceny) http://www.pricerunner.comRollyo (wysz. spersonalizowana) http://rollyo.comSphere (blogi) http://sphere.comSpock (ludzie) http://www.spock.comTechnorati (blogi) http://www.technorati.comThomasNet (firmy) http://www.thomasnet.comTopix (newsy) http://www.topix.comWink (ludzie) http://wink.com
Portale, wortalePortal internetowy – internetowy serwis informacyjny poszerzony o
różnorodne funkcje internetowe, dostępny z jednego adresu internetowego.
W intencji twórców, ma to zachęcać użytkowników do ustawienia adresu
portalu jako strony startowej w przeglądarce WWW i traktowania go jako
bramy do Internetu.
Zazwyczaj portal zawiera informacje będące przedmiotem zainteresowania
szerokiego grona odbiorców. Jako przykładową treść portalu można podać:
dział aktualnych wiadomości, prognoza pogody, katalog stron WWW, czat,
forum dyskusyjne oraz mechanizmy wyszukiwania informacji w nim samym
lub w zewnętrznych zasobach Internetu (wyszukiwarki internetowe).
W celu przyciągnięcia większej ilości użytkowników portale mogą oferować
darmowe konta poczty elektronicznej, miejsce na strony WWW i dostęp do
innych usług (np. multimedia, pobieranie plików, grupy dyskusyjne).
Polskie portaleOnet.plWirtualna PolskaInteria.plO2.pl
Portale na świecieYahooSeznam.czAOL
Wortal, portal wertykalny (ang. vertical portal) – portal
wyspecjalizowany, publikujący informacje z jednej dziedziny,
tematycznie do siebie zbliżone, np. dotyczące muzyki, filmu, programów
komputerowych.
Nazwa ma stanowić przeciwstawienie do zwykłego portalu, obejmującego
szeroki zakres tematyczny (horyzontalnego), a przy okazji podkreślać
wyższą jakość udostępnianych zasobów, jednak nie przyjęła się szeroko.
Wortal jest odpowiednikiem portalu, tyle, że poświęconemu konkretnej
tematyce.
Przykłady wortali:
pclab.pl
benchmark.pl
Portale, wortale
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Wyszukiwarki (szperacze) indeksujące•Bardziej wydajne niż katalogi.
•Tworzą automatycznie swoje bazy danych o witrynach.
•Oprogramowanie wyszukiwarki składa się z dwóch oddzielnych
modułów:
1. pierwszy odwiedza witryny internetowe, analizując umieszczone na
nich teksty, oraz podąża za odsyłaczami hipertekstowymi do
kolejnych stron.
2. Indeks - obsługuje powstającą w ten sposób bazę danych.
Korzystanie z bazy polega na wpisywaniu poszukiwanych słów i
obejrzeniu wyświetlonych wyników w postaci hipertekstowych
odsyłaczy do stron, które zawierają wpisane wyrażenie. Jako
pierwsze wyświetlane są adresy witryn, które bardziej odpowiadają
zadanemu pytaniu.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Metawyszukiwarki
To serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią
wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać
je od nich i przedstawić w przejrzystej formie.
Wadą metawyszukiwarek jest brak dostępu do specyficznych zapytań złożonych
jakie dają pojedyncze szperacze.
Zaletą jest to, że można zadać jedno pytanie do kilku szperaczy przy odwiedzeniu
tylko jednego serwisu. Zaoszczędza to czas i daje możliwość przeszukania
większej części zasobów Internetu. Niektóre metawyszukiwarki dodatkowo
opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które
już nie istnieją w Internecie, a są jeszcze zapisane w bazie wyszukiwarki.
Dodatkowo mogą sortować na różne sposoby wyświetloną listę.
Firma Browsys proponuje wszystkim maniakom surfowania narzędzia o
nazwie Twoogle oraz Twofind, które pozwalają na sprawdzanie
wyników wyszukiwania jednocześnie w kilku najpopularniejszych
wyszukiwarkach internetowych.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Twofind pozwala natomiast na konfrontację między Google, a niedawno
zaprezentowaną wyszukiwarką Microsoftu, czyli Bing. Podobnie, jak Twoogle,
wyniki wyszukiwania prezentowane są w dwóch osobnych oknach obok
siebie, dzięki czemu możemy szybko porównać je ze sobą.
Nowe trendy•wyszukiwarki dedykowane,
•specjalizowane inteligentne wyszukiwarki (wspomagające wykrywanie
przestępstw w Internecie (poszukiwanie ofert pornografii dziecięcej,
nielegalnej sprzedaży towarów, przygotowania zamachów i blokad
ulicznych, identyfikacja handlu żywym towarem)),
• wyszukiwarki z technikami analizy morfologicznej, składniowej,
rozumienia tekstu, tłumaczenia tekstu,
•przetwarzanie informacji multimedialnej: odnajdywania podobieństw
i indeksacji obrazów, również filmów, dokumentów audio.
Nowe trendy
Nowe trendy
Hakia jest wyszukiwarką, która opiera się na języku naturalnym. W założeniu, marozumied semantykę wpisywanych zapytao.
Ask.com
Ask.com
Przegląd innych wyszukiwarek
Na podobnej zasadzie działają min. Wyszukiwarki Ask.com oraz AnswerBus.com
( www.AnswerBus.com ) jednak mają one jedną zasadniczą wadę. Często w ramach
odpowiedzi na postawione pytanie otrzymujemy zbiór luźno powiązanych z
tematem stron.
Text Mining a inteligentne wyszukiwarki internetowe (hakia, start, answerBus)
Systemy odpowiadające na pytania
[system START, system AnswerBus]
Przegląd innych wyszukiwarek
Mechanizm NetSprinta podobnie jak Google korzysta m.in. z Wikipedii oraz serwisów
informacyjnych, dając użytkownikowi możliwośd zapoznania się z najnowszymi
wiadomościami na dany temat. Wyszukiwarka nie zawsze radzi sobie dobrze też m.in. z podpowiedziami po błędnym wpisaniu
zapytania.
Przegląd innych wyszukiwarek
• Innym trendem w wyszukiwaniu są rozwiązania dedykowane przeszukujące specyficzne bazy danych. Przykładem takiej wyszukiwarki jest http://www.gopubmed.org/
• mechanizm pomagający precyzyjnie wyszukiwad dokumenty związane z dziedziną biomedycyny.
Test wyszukiwarki Wolfram Alpha
• Wolfram Alpha tak naprawdę niewiele ma wspólnego z tym, co znamy jako wyszukiwarki.
To raczej wielka baza wiedzy, której możemy używać w dowolny sposób.
• System komputerowy wyposażony w 4608 procesorów wspomaga działanie nowej
wyszukiwarki.
• unikalną cechą Wolfram Aplha jest algorytm, który zamiast wyświetlać spis witryn
internetowych stara się podać gotową odpowiedź na zadane przez użytkownika pytanie.
• Wada: Zdarza jej się źle wyszukać informację, ale częściej po prostu jej nie znajduje, niż
znajduje błędy.
• Zaleta: jeśli wpiszemy nazwę jakiegoś polskiego miasta, wyszukiwarka wyświetli je na
mapie (z możliwością przejścia do widoku satelitarnego Google Maps), poinformuje o
lokalnym czasie czy aktualnej pogodzie. To już nam bardziej przypadło do gustu.
• Wolfram wykona dla nas skomplikowane obliczenia (z zakresu matematyki czy fizyki),
dokona ciekawych porównań (na przykład PKB państw), a nawet sprawdzi ile kalorii ma
posiłek, który mamy zamiar dziś zjeść. Wszystko przedstawi na wykresach.
• Wyszukiwarka ze sztuczną inteligencją (dzięki mechanizmom sztucznej inteligencji,
wyszukiwarka próbuje interpretować pytanie i udziela odpowiedzi.)
• Wystartowała 18 maja 2009 roku.
Co się kryje pod polem wprowadzania zapytao?
Według zespołu projektantów są to dwa superkomputery z 10000 rdzeni. Ich pamięć operacyjną szacuje się na setkiterabajtów, a wszystko to jest chłodzone układemwystarczającym na stworzenie kurortu narciarskiego... naSaharze. Komputer ten stworzyła firma R Systems, która mana sumieniu 44 superkomputery według czerwcowej listyTOP500 z 2008 roku. Drugi z partnerów Dell dostarczyłserwer, zaprojektowany specjalnie do centrumobliczeniowego.
Czy to wystarczy do obsługi zapytań szacowanych na 175milionów dziennie i 5 miliardów miesięcznie? Wedługtwórców... powinno :)
Idea wyszukiwarki…
• odpowiadanie na konkretne pytania zadawane w naturalnym dla użytkownika języku. Przy analizie pytania i wyszukiwaniu pasującej odpowiedzi narzędzie opiera się na rozwiązaniach ze sztucznej inteligencji, takich jak sieci semantyczne.
• odpowiedź "tworzona" jest w locie, dedukowana na podstawie posiadanej przez aplikację bazy wiedzy.
• Wolfram Alpha nie jest pierwszą wyszukiwarką korzystającą z wiedzy z dziedziny sztucznej inteligencji. Ask czy Hakiarównież wykorzystują tego typu rozwiązania, jednak Wolfram Alpha prezentuje zupełnie nową jakośd i algorytmy dotąd nie spotykane na rynku wyszukiwarek.
Jak rozrasta się ….?
Pracownicy projektu pracują dzień po dniu z iściebenedyktyńską cierpliwością, podobnie jakniegdyś mnisi przy pulpitach w swoichklasztorach. Celem całego przedsięwzięcia jeststworzenie skarbnicy światowej wiedzy, a wkażdym razie jej bezspornej części: faktów,liczb, wzorów, modeli. (...) Dotychczas zebranezasoby autor projektu ocenia na dziesięć bilionówjednostek danych. Doliczyć trzeba jeszczenapływające w czasie rzeczywistym informacje opogodzie czy kursach giełdowych.
Cechy charakterystyczne…
• Dowolnośd formułowania zapytania w języku naturalnym
• Generowanie wyników dynamicznie
• Dodatkowe informacje na żądanie
• Wskazanie źródła informacji
• Dodatkowe formaty danych wyjściowych (pdf)
Uproszczony test Turinga
CAPTCHA (Completely Automated Public Turing test totell Computers and Humans Apart) - rodzaj technikistosowanej jako zabezpieczenie w formularzach nastronach WWW. Dla przesłania danych koniecznejest przepisanie treści z obrazka (zazwyczaj losowodobranych znaków bądź krótkiego wyrazu). Obrazekten jest prosty do odczytania przez człowieka,jednakże odczytanie go przez komputer jest,przynajmniej w założeniu, bardzo trudne.
Jak Wolfram działa w praktycejaki był produkt krajowy brutto (PKB) na osobę w Polsce w 1998 roku?
Jak Wolfram działa w praktyceJaka była pogoda w styczniu tego roku w Poznaniu?
Jak Wolfram działa w praktyce
Jak Wolfram działa w praktyce
Superkomputery Wolframa, jeśli nie będą akurat przeciążone, pokażą namwzór chemiczny np. H2SO4. Wykonają też skomplikowanie obliczeniamatematyczne czy fizyczne.
Wolfram przedstawia również dane dotyczące stron internetowych - liczbę odwiedzin na witrynie. Należy wpisad po prostu adres strony i otrzymamy wynik.
Jak Wolfram działa w praktyce
Google Squared - wyniki wyszukiwania w tabeli
Samoorganizujące się mapy dokumentów– SOM,WebSOM
Reguły asocjacyjne - sklepy internetowe - analiza koszykowa
Data Mining - wprowadzenie do metod eksploracji wiedzy
• odkrywanie asocjacji (associations) znajdowanie reguł typu: piwo -> orzeszki
• wzorce sekwencji (sequential patterns) znajdowanie sekwencji dot. np. zakupów klienta:(TV, video, kamera)
• klasyfikacja (classifications) klasyfikacja danych do grup ze względu na atrybutdecyzyjny, np.: klasyfikacja klientów przez bank do grup: dad kredyt / nie dad kredytu
• analiza skupień (clustering) grupowanie danych na wcześniej nieznae klasy, znajdowanie wspólnych cech, np.: wyodrębnienie różnych rodzajów klientów – różnych taryf –przez sied telefonii komórkowej
Na czym polega grupowanie ?
Obiekt jest przydzielony do skupienia, którego środek ciężkości leży najbliżej w sensie odległości euklidesowej.
Carrot2 a Google
System Carrot2 ( Podstawy )
Carrot operuje jedynie na snippetach, bez odczytywania
dokumentów źródłowych. Wynika z tego fakt, iż jakość
grupowania będzie silnie zależeć od siły opisowej
snippetów – krótkich fragmentów tekstu zwróconych
przez wyszukiwarkę. W tym aspekcie systemy typu
Carrot, będą znacznie ograniczone przez
zaimplementowane algorytmy samych wyszukiwarek
(Google, Yahoo!, itp.) służące odnalezieniu zdań,
które w sposób właściwy opisują temat strony. Daje to
jednak pewne korzyści, w postaci krótkiego czasu
wyszukiwania (wynikającego z faktu braku
konieczności analizowania całych dokumentów).
• Carrot daje olbrzymie możliwości analizy wyników
zapytania względem tradycyjnych wyszukiwarek.
Poprzez ekstrakcję fraz z pierwszych paruset
odnośników i ich prezentację w skumulowanej formie
uzyskujemy możliwość pobieżnego przeglądu o parę
rzędów wielkości większej liczby dokumentów niż
miałoby to miejsce przy klasycznym listowym widoku.
• System przekierowuje zapytanie do wyszukiwarki
(Google, Yahoo!, itp.), pobiera od niej kilkaset
początkowych odnośników, a następnie analizuje je
poszukując wspólnych, opisowych fraz. Frazy te, o ile
są wystarczająco częste, są traktowane jako
reprezentanci grup tematycznych.
System Carrot2 ( Podstawy )
• Carrot nie był pierwszym systemem grupującym
wyniki z wyszukiwarek – wcześniej powstały systemy
Grouper, Vivisimo oraz inne, których funkcjonalność
jednak nigdy nie wysunęła się poza obszar
eksperymentu obliczeniowego. Grouper, jako projekt
również typowo badawczy, został usunięty z sieci w
roku 2001 (po zakończeniu badań).
• Co warte podkreślenia, Carrot jest jedynym systemem
grupującym, działającym dla języków innych niż język
angielski.
• Nazwa systemu odnosi się do wcześniejszych
owocowych systemów wspomagających odkrywanie
wiedzy z danych tekstowych (Lemon, Grape, Orange).
System Carrot2 ( Podstawy )
Idealny system wyszukiwania
informacji:
• To taki który potrafi odpowiedzieć na każde pytaniepoprawnie.
• Czy taki system ma szanse powstać ?
• Wiedza płynąca z internetu jest dość niepewnym źródłeminformacji, i faktów, o czym warto pamiętać, - bo każdymoże umieścić w sieci informacje...nie do końca precyzyjneale i często błędne.
• Pojawiające się nowe pomysły mające na celu ułatwianieużytkownikom korzystanie z wyszukiwarek, to z pewnościąkrok by uczynić tę czynność przyjemniejszą i bardziejintuicyjną.
• Nie można jednak liczyć na to, ze wyszukiwarki w przyszłościbędą w stanie wyręczyć nas z umiejętności logicznegomyślenia i odrobiny dociekliwości w szukaniu tego co nasinteresuje.
Dziękuję za uwagę…
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego