To się w ram ie nie zmieści

19
To się w RAM-ie nie zmieści - Bolączki i wyzwania efektywnego monitowania i analizy treści w sieci WWW DATA SCIENCE WARSAW MEETUP 8 GRUDNIA 2015

Transcript of To się w ram ie nie zmieści

Page 1: To się w ram ie nie zmieści

To się w RAM-ie nie zmieści -

Bolączki i wyzwania

efektywnego monitowania i

analizy treści w sieci WWW DATA SCIENCE WARSAW MEETUP 8 GRUDNIA 2015

Page 2: To się w ram ie nie zmieści

SentiOne to monitorowanie i analiza

Internetu oraz social media

Poznaj opinie

SentiOne to najszybszy sposób dotarcia

do opinii w Internecie.

To źródło cennych analiz dotyczących

obecności marek w social media.

To nowy kanał komunikacji z

potencjalnymi klientami online.

Analizuj trendy

Dyskutuj

Page 3: To się w ram ie nie zmieści

SalesLift to zarządzanie wizerunkiem marki w

mediach społecznościowych

Page 4: To się w ram ie nie zmieści

Potencjał biznesowy Big Data

Page 5: To się w ram ie nie zmieści

Pozyskiwanie danych

Sieć WWW

Miliony domen

Każda podstrona HTML inna

Treść, data, autor, kontekst

API portali społecznościowych

Domeny dodawanie ręcznie lub automatycznie wyszukiwane przez

Google

Page 6: To się w ram ie nie zmieści

Generyczna ekstrakcja danych

Wyszukiwanie powtarzających się wzorców w drzewie DOM

Wyszukiwanie dat w tekście

Setki formatów dat

Pola ze zmienną treścią

Wykrywanie artykułów na stronie

Page 7: To się w ram ie nie zmieści

460 formatów dat

Today 11:59 AM 5 minutes ago at 11:19 21.10. Tuesday 2014 27Sep/14 Thu Dec 18 10:14:48 CET 2014 Tue Apr 24, 2012 07:02 Napisane Jun 16, 2007, 11:53 pm 2011 October 19, Wednesday оригирана в 15:07 часа на 13 май, 2015 год. Maandag, 23 juni 2014 om 12:01 Geplaatst op 27 januari 2014 doo 14. toukokuu 2015 10:40

Page 8: To się w ram ie nie zmieści

Profile XPath

Sposób na ręczne zdefiniowanie profilu strony

Dużo szybsze niż generyczna ekstrakcja

Generowane automatycznie na podstawie wyników ekstraktora

generycznego

Sieć neuronowa akceptująca wygenerowane profile XPath

Page 9: To się w ram ie nie zmieści

Gdzie crawler powinien wchodzić

Nieodwiedzone strony gdzie pojawi się nowy content (np. nowe

artykuły)

Strony gdzie pojawiają się linki do nowych treści (listy wątków na

forum)

Odwiedzone strony gdzie pojawiają się nowe treści (np. aktywne

wątki na forum)

Page 10: To się w ram ie nie zmieści

Strategia crawlowania

Minimalizacja czasu pomiędzy publikacją treści, a jego indeksacją

Maksymalizacja liczby pobieranych treści

Minimalizacja liczby wejść na stronę

Page 11: To się w ram ie nie zmieści

Kolejka crawlowania

500 000+ monitorowanych domen

Duże grafy witryn

Posortowana kolejka w pamięci RAM

Limit na liczbę zagłębień

Nieposortowana kolejka w klastrze Hadoop

Zadania MapReduce tworzące paczkę stron do odwiedzenia

Page 12: To się w ram ie nie zmieści

Problemów ciąg dalszy

Wykorzystany transfer

Detekcja czy strona jest duża czy mała

Parametr kindness – robots.txt crawl-delay

Strony z niepoprawnym kodem HTML

USER AGENT: SentiBot www.sentibot.eu (compatible with Googlebot)

Page 13: To się w ram ie nie zmieści

Analiza tekstu

Wykrywanie języka

Tabele częstości słów na podstawie opensubtitles.org

N-gramy - Bayes

Niepoprawne słowa

Krótkie teksty

Mieszanie języków

Wykrywanie płci autora

Page 14: To się w ram ie nie zmieści

Sentyment

Pobierane automatycznie zbiory uczące

Bayes + SVM

Leksykon

Minimalizacja błędów false positive testowana na prawie unijnym

Page 15: To się w ram ie nie zmieści

Zapisywanie danych

ElasticSearch

Wyszukiwanie pełnotekstowe

Indeksy czasowe

Skalowanie i replikacja

Monitorowanie

Rozmiar 5 890 mln dokumentów - 12,42TB

Cassandra

Zmieniające się metadane (liczba polubień, udostępnień etc.)

Rozmiar 2 465 mln wpisów 2.06 TB

Page 16: To się w ram ie nie zmieści

Tworzenie zapytań

Lucene

Wildcardy * i ?

Proximity search

Stemming

Stronicowanie

((_all:everytap AND keywords:152946751543136 AND author:SurfBurger) OR (sourceURLDomain: instagram.com AND "surf burger”~2)) AND NOT

type:fc

Page 17: To się w ram ie nie zmieści

Powrót na studia :)

Projekt badawczy w ramach Programu Badań Stosowanych

organizowanego przez Narodowe Centrum Badań i Rozwoju

Całkowita wartość projektu ponad 3 mln zł

Konsorcjum Politechnika Gdańska, SentiOne i SalesLift

Współpraca z Katedrą Inżynierii Oprogramowania ETI

Kierownik projektu prof. Krzysztof Goczyła

Oczekiwane rezultaty projektu

Usprawnienie algorytmów oceny sentymentu

Usprawnienie działania robotów indeksujących sieć

Page 18: To się w ram ie nie zmieści

Poszukiwany, poszukiwana!

Szukamy naukowców i entuzjastów Data Science do współpracy

Oferujemy darmowy dostęp do danych dla projektów naukowych

Wygodny dostęp przez RESTful API

Page 19: To się w ram ie nie zmieści

“ ”

Dziękuję za uwagę!

ZAPRASZAM DO KONTAKTU

Michał Brzezicki

[email protected]

https://pl.linkedin.com/in/brzezicki

+48 603 926 001