Carrot 2

Carrot2

Search Results Clustering

• Podsumowanie

• System Carrot2

• Wprowadzenie• Definicje i podstawowe informacje;• Model wektorowy;• Podobieństwo dokumentów;

• Podstawy;• Historia i dane techniczne;• Przykładowe algorytmy;

• Bibliografia

Wyszukiwanie Internetowe – Uniwersytet Śląski

Plan prezentacji:Plan prezentacji:

• Fraza - uporządkowany ciąg słów zaczerpnięty z tekstu.

• Słowo Kluczowe - słowo reprezentujące znaczenie pewnej dłuższej sekwencji słów, w szczególności całego dokumentu.

• Lematyzacja - sprowadzenie formy fleksyjnej do postaci słownikowej (lematu).

• Lematyzacja w kontekście odkrywania wiedzy - odróżnienie słów o innym znaczeniu od form jednego słowa, które przyjmuje inny zapis w zależności od funkcji w zdaniu.

• Search Results Clustering – efektywne utworzenie sensownych grup tematycznie powiązanych dokumentów, oraz ich zwięzłe opisanie w sposób zrozumiały dla człowieka.

Wprowadzenie Wprowadzenie ( Definicje i podstawowe informacje )

Dokument tekstowy może być łatwo reprezentowany w wysoko-wymiarowej przestrzeni wektorowej, gdzie terminy w dokumencie (termy) są powiązane z elementami wektorów. Mówiąc dokładniej, dokument tekstowy d może być traktowany jako sekwencja termów:

d=(ω(1), ω(2), ω(3),... ω(|d|)), gdzie:|d| jest długością dokumentu, oraz ω(t)V. Reprezentacja d w przestrzeni wektorowej jest wówczas zdefiniowana jakorzeczywisty wektor: x R|v|,gdzie każdy element xj jest statystycznie powiązany zwystępowaniem j-tego wpisu słownikowego w dokumencie. Najprostsza reprezentacja wektorowa to reprezentacja boolowska tj. xj {0,1}, wskazuje obecność lub jej brak termu ωj w reprezentowanym dokumencie. Taka reprezentacja zwana jest często pojemnikiem słów (bag of words).

Wprowadzenie Wprowadzenie ( Model wektorowy )

• Zbiór unikalnych słów T=t1, t2, … tn ;• Dokumenty (D=d1, d2, … dm) reprezentowane jako n-

wymiarowe wektory:• di=[wi1, wi2, … win], gdzie wij jest wagą j-tego słowa w dokumencie i;

• Wagi słów — jak dane słowo jest charakterystyczne dla dokumentu?• Wiele różnych form:

• binarna — wij=1 lub wij=0;• częstość wystąpień - wij=tfij(tj);• tfidf (Salton) – wij=tfij(tj)*log(N/dfij(tj));

Rys. Reprezentacja w przestrzeniwektorowej. Dla każdego z dokumentów,lewy wektor szacuje liczbę pojawiającychsię termów, podczas gdy prawy wektorbazuje na wagach TF-IDF.

The t=5 terms:

T1: Information

T2: Singular

T3: Value

T4: Computations

T5: Retrieval

The d=7 documents:

D1: Large Scale Singular Value Computations

D2: Software for the Sparse Singular ValueDecomposition

D3: Introduction to Modern InformationRetrieval

D4: Linear Algebra for Intelligent Information Retrieval

D5: Matrix Computations

D6: Singular Value Analysis of Cryptograms

D7: Automatic Information Organization

Możemy zdefiniować podobieństwo pomiędzy dwoma dokumentami d i d’ jako funkcję s(d,d’)R. Funkcja ta, pozwoli nam ustalić zakres klastrów, uzyskanych poprzez grupowanie, w odniesieniu do zadanego pytania (obliczając podobieństwo pomiędzy każdym dokumentem (lub grupami dokumentów), a kwerendą). Klasyczne podejście bazuje na reprezentacji przestrzeni wektorowej, oraz metryce zdefiniowanej jako współczynnik cosinusowy (cosine coefficient) (Salton i McGill – 1983).

,gdzie superskrypt (indeks górny) T symbolizuje operator transpozycji, a xTy efekt w postaci punktu, lub obszaru między dwoma wektorami x, y R, zdefiniowany jako:

Wprowadzenie Wprowadzenie ( Podobieństwo dokumentów )

Przykład:

The t=5 terms:T1: InformationT2: SingularT3: ValueT4: ComputationsT5: Retrieval

D1: Large Scale Singular Value ComputationsD2: Software for the Sparse Singular Value DecompositionD3: Introduction to Modern Information RetrievalD4: Linear Algebra for Intelligent Information RetrievalD5: Matrix ComputationsD6: Singular Value Analysis of CryptogramsD7: Automatic Information Organization

The d=7 documents:

0.000.000.000.710.710.000.00

0.000.001.000.000.000.000.58

0.000.710.000.000.000.710.58

1.000.000.000.710.710.000.00

Przykład cd.:

Zapytanie: Singular Value;

Tq 0.000.000.710.710.00ˆ T

0.000.000.000.710.710.000.00

0.000.001.000.000.000.000.58

0.000.710.000.000.000.710.58

1.000.000.000.710.710.000.00

• Podsumowanie

• System Carrot2

• Bibliografia

• bazujący na komponentach framework efektywnego przetwarzania danych;

• prosta dystrybucja (protokół HTTP POST, sterowany danymi);

• prosta integracja (nacisk na XML-owy format danych);

• problem „przeciążenia danych” (konieczność zgłębiania nieograniczonych bibliotek);

• podproblemy Search Results Clustering :

• Wyodrębnienie podobnych dokumentów;

• Opisanie utworzonych grup;

• Zweryfikowanie jakości wyników.

System Carrot2 System Carrot2 ( Podstawy )

• Carrot operuje jedynie na snippetach, bez odczytywania dokumentów źródłowych. Wynika z tego fakt, iż jakość grupowania będzie silnie zależeć od siły opisowej snippetów – krótkich fragmentów tekstu zwróconych przez wyszukiwarkę. W tym aspekcie systemy typu Carrot, będą znacznie ograniczone przez zaimplementowane algorytmy samych wyszukiwarek (Google, Yahoo!, itp.) służące odnalezieniu zdań, które w sposób właściwy opisują temat strony. Daje to jednak pewne korzyści, w postaci krótkiego czasu wyszukiwania (wynikającego z faktu braku konieczności

analizowania całych dokumentów).

• Carrot daje olbrzymie możliwości analizy wyników zapytania względem tradycyjnych wyszukiwarek. Poprzez ekstrakcję fraz z pierwszych paruset odnośników i ich prezentację w skumulowanej formie uzyskujemy możliwość pobieżnego przeglądu o parę rzędów wielkości większej liczby dokumentów niż miałoby to miejsce przy klasycznym listowym widoku.

• System przekierowuje zapytanie do wyszukiwarki (Google, Yahoo!, itp.), pobiera od niej kilkaset początkowych odnośników, a następnie analizuje je poszukując wspólnych, opisowych fraz. Frazy te, o ile są wystarczająco częste, są traktowane jako reprezentanci grup tematycznych.

• Carrot nie był pierwszym systemem grupującym wyniki z wyszukiwarek – wcześniej powstały systemy Grouper, Vivisimo oraz inne, których funkcjonalność jednak nigdy nie wysunęła się poza obszar eksperymentu obliczeniowego. Grouper, jako projekt również typowo badawczy, został usunięty z sieci w roku 2001 (po zakończeniu badań).

• Co warte podkreślenia, Carrot jest jedynym systemem grupującym, działającym dla języków innych niż język angielski.

• Nazwa systemu odnosi się do wcześniejszych owocowych systemów wspomagających odkrywanie wiedzy z danych tekstowych (Lemon, Grape, Orange).

System Carrot2 System Carrot2 ( Historia )

• Jedyny otwarty system do eksperymentowania z algorytmami grupowania wyników– Skrócenie czasu weryfikacji nowych pomysłów– Umożliwienie porównania metod– Ponowne użycie raz napisanych elementów

• Wiele istniejących modułów i narzędzi wspomagających– Zaimplementowane algorytmy

• AHC, różne warianty• STC• Lingo

– Komponenty lingwistyczne:• Lematyzator Portera• Lematyzator (własny alg.)

– Inne

System Carrot2 System Carrot2 ( Dane techniczne )

• Ilość osób zaangażowanych w projekt:– Ok. 5 - ( 3 studentów, 1 doktorant, 1 opiekun

naukowy);

• Software:– Budowanie systemu: junit, httpunit– Zaawansowane technologie:

• XSLT,XSL:FO,XML data binding, STRUTS, gnuregexp.

• Projekt:– Ogólny rozmiar projektu: 36 MB;– Rozmiar kodu: 227 plików, 1MB, ok. 35000 linii.

System Carrot2 System Carrot2 ( Dane techniczne )

• LINGO – fazy:• Przetwarzanie wstępne:

» Oczyszczanie tekstu;» Identyfikacja języka;» Stemming;» Oznaczanie stop-words;

• Wybór cech:» Identyfikacja częstych fraz, bazująca na tablicach przyrostkowych (suffix arrays);

• Wprowadzenie etykiet klastrów:» Singular Value Decomposition (SVD) macierzy termin-dokument;» Bazowe wektory wyprowadzone metodą SVD: pojęcia abstrakcyjne;» Frazy: słowna reprezentacja abstrakcyjnych pojęć;» Dopasowanie abstrakcyjnych pojęć i fraz: odległość cosinusowa = oznaczenie wyniku;» Eliminacja powtórzeń;» Oznaczenia klastrów: słownie określone pojęcia abstrakcyjne;

• Formowanie klastrów;• Przetwarzanie końcowe:

» Oszacowanie wyników klastrów: WynikKlastra=OznaczenieWyniku*LiczbaElementów.

System Carrot2 System Carrot2 ( Przykładowe algorytmy )

• LINGO – mocne strony:• Czytelne i różnorodne opisy klastrów;

• Pokrywające się klastry;

• Niezależność językowa;

• Łatwość strojenia;

• Budowa modułowa.

• LINGO – słabe strony:• Stała liczba klastrów;

• Zbyt specjalistyczne oznaczenia grup;

• Wymagania obliczeniowe;

• Brak stopniowego przetwarzania.

Przykład działania LINGO:

• Podsumowanie

• System Carrot2

• Bibliografia

• http://demo.carrot2.org/stable/api/ - dokumentacja API systemu;

• http://demo.carrot-search.com/carrot2-webapp/main

http://demo.carrot2.org/demo-stable/main - publiczne wersje projektu;

• „Search Results Clustering in Polish: Evaluation of Carrot” – Dawid Weiss, Jerzy Stefanowski;

• „Grupowanie wyników zapytań do wyszukiwarek internetowych” – Dawid Weiss;

• „The Carrot2 Project” – Paweł Kowalik, Stanisław Osiński, Jerzy

Stefanowski, Dawid Weiss, Michał Wróblewski.

Podsumowanie Podsumowanie ( Bibliografia )

Carrot 2

Documents

Transcript of Carrot 2

PROGRAM NAUCZANIA DLA ZAWODU TECHNIK MECHANIK, … · 1 Podstawy konstrukcji maszyn 2 2 2 2 . 4 120 . 2 Podstawy sterowania i regulacji maszyn 2 2 2 2 . 4 120 . 3 Technologia montażu

Finale 2007 - [JK] · t ã ã bbbbb bb bbb bbb bbb bb bbb bb bb bb bbb bbb bbb bbbbb bbbbb bbbbb bbbbb bbb 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2

· 2020. 1. 14. · reprezentacja polski na vil. srodkowoeuropejska golebi pocztowych 1. 2. 3. 4. 5. 1. 2. 3. 4. 5. 1. 2. 3. 2. 3. 2. 3. 2. 3. 2. 3. 2. 3. 2. 3. 2. 3. 1. 2. 3. 2.

plettac SL 70 Polish 042011 - ostap.pl · bc), ˜˘(5] ˜)$$,˘1 126 72 36 ,˘ ... (" 2 2 2 2 2 3 -_qq˚˘$$$ < &’ b 1($ ˘˚ 21 12 6 ˘ ˘ 5fsl715000 < &’ b ˚(˘ 2 2 2 2 2 h

Ganzseitiger Faxausdruck · 2019. 2. 25. · Prosem. V/tj Class hours cr week 2 2 2 2 2 2 2 2 2 Name of professor /tcacher Lucht Liebhold Timm Lauses,nc Lausevic Lausevic Thiessen

170700 p0 · 2 1 8 5 2 1 8 0 2 1 9 0 2135 2 9 5 2200 2 0 5 213 0 2 0 2 1 2 5 2 1 5 212 0 2 2 2 0 25 23 0 2 2 3 5 24 2245 2 15 2 2 5 0 2 1 1 0 2 5 2 1 0 5 260 21 0 2 6 5 095 2 2 7

Płaszczyzna. Równanie ogólne płaszczyznyoldimif.utp.edu.pl/ukonieczna/elalg3.pdfx ~hiperboloida jednopowłokowa 5. 1 2 2 2 2 c z b y a x ~hiperboloida dwupowłokowa) 6. 0 2 2 2

WordPress.com · b. npooecviohmha 'ioarotobka (3nn) 2 0 9. o 2 2 2 10 10, 2 2 2 11. 2 2 2 12. 2 2 2 2 13. 2 2 2 14. 36 36 54 62 144 72 72 36 108 180 72 54 88 106

· 2 2 0’ 3˚ & 0 0 ’ (f +,,,>ˆ 89@9-3 ’ ’ ’ 0’ $0 ’ ’2 2 2 3

Religia - Piotrków Trybunalski · 2020. 4. 27. · 2 H 2 + O 2 → CO 2 + H 2 O Niecałkowite (również dobierz poprawnie współczynniki) C 2 H 2 + O 2 → CO + H 2 O Reakcją,

2. hegel 2

I. 2 · 2 ບົດລາຍງານຄວາມຄືບໜາ ...

LIC-2 BETA (2)

MARKETER+ 2(2)

Światło – jako fala - Strona główna AGHhome.agh.edu.pl/~zak/downloads/optyka-2016.pdf · Przedmiot: Fizyka 2 2 2 2 2 2 2 2 2 v t 1 x y z OGÓLNE RÓŻNICZKOWE RÓWNANIE FALI

25 - 18 - 8 - maro.pl · niebieski / blue / blau popiel / grey / grau 2 2 2 2 2 2 panele tapicerowane i ścianki akustyczne / screens / akustik-paneele 2 grupa cenowa 2 price group

002.JPG 005.JPG 006.JPG 007.JPG 008.JPG …...060 (2).JPG 061 (2).JPG 062 (2).JPG 063 (2).JPG 064 (2).JPG 065 (2).JPG 066 (2).JPG 067 (2).JPG 068 (2).JPG 069 (2).JPG 070 (2).JPG 071

PROGRAM NAUCZANIA DLA ZAWODU TECHNIK OBSŁUGI … · 7. Obsługa turystyczna 2 2 4 4 2 7 210 8. Informacja turystyczna 2 2 2 3 90 9. Obsługa informatyczna w turystyce 2 2 2 2 4 120

GarmÖkfa esckþIRbkasshsSvtSr RtUv ... KH.pdf · vi 2>2 eKaledATI2³ sMerc[)anCaTUeTAkarGb;rMmUldæanry³eBl 9qñaM 25 2>2>1 sUcnakr nigcMNucedAén KGsk2 25 2>2>2 ninñakarknøgmk

WYBRANE KOSMETYKI 60 DO MAKIJAŻU KOBIET€¦ · 2)(57$ 2%2:, =8-( '2 :