To się w ram ie nie zmieści

To się w RAM-ie nie zmieści -

Bolączki i wyzwania

efektywnego monitowania i

analizy treści w sieci WWW DATA SCIENCE WARSAW MEETUP 8 GRUDNIA 2015

SentiOne to monitorowanie i analiza

Internetu oraz social media

Poznaj opinie

SentiOne to najszybszy sposób dotarcia

do opinii w Internecie.

To źródło cennych analiz dotyczących

obecności marek w social media.

To nowy kanał komunikacji z

potencjalnymi klientami online.

Analizuj trendy

Dyskutuj

SalesLift to zarządzanie wizerunkiem marki w

mediach społecznościowych

Potencjał biznesowy Big Data

Pozyskiwanie danych

Sieć WWW

Miliony domen

Każda podstrona HTML inna

Treść, data, autor, kontekst

API portali społecznościowych

Domeny dodawanie ręcznie lub automatycznie wyszukiwane przez

Google

Generyczna ekstrakcja danych

Wyszukiwanie powtarzających się wzorców w drzewie DOM

Wyszukiwanie dat w tekście

Setki formatów dat

Pola ze zmienną treścią

Wykrywanie artykułów na stronie

460 formatów dat

Today 11:59 AM 5 minutes ago at 11:19 21.10. Tuesday 2014 27Sep/14 Thu Dec 18 10:14:48 CET 2014 Tue Apr 24, 2012 07:02 Napisane Jun 16, 2007, 11:53 pm 2011 October 19, Wednesday оригирана в 15:07 часа на 13 май, 2015 год. Maandag, 23 juni 2014 om 12:01 Geplaatst op 27 januari 2014 doo 14. toukokuu 2015 10:40

Profile XPath

Sposób na ręczne zdefiniowanie profilu strony

Dużo szybsze niż generyczna ekstrakcja

Generowane automatycznie na podstawie wyników ekstraktora

generycznego

Sieć neuronowa akceptująca wygenerowane profile XPath

Gdzie crawler powinien wchodzić

Nieodwiedzone strony gdzie pojawi się nowy content (np. nowe

artykuły)

Strony gdzie pojawiają się linki do nowych treści (listy wątków na

forum)

Odwiedzone strony gdzie pojawiają się nowe treści (np. aktywne

wątki na forum)

Strategia crawlowania

Minimalizacja czasu pomiędzy publikacją treści, a jego indeksacją

Maksymalizacja liczby pobieranych treści

Minimalizacja liczby wejść na stronę

Kolejka crawlowania

500 000+ monitorowanych domen

Duże grafy witryn

Posortowana kolejka w pamięci RAM

Limit na liczbę zagłębień

Nieposortowana kolejka w klastrze Hadoop

Zadania MapReduce tworzące paczkę stron do odwiedzenia

Problemów ciąg dalszy

Wykorzystany transfer

Detekcja czy strona jest duża czy mała

Parametr kindness – robots.txt crawl-delay

Strony z niepoprawnym kodem HTML

USER AGENT: SentiBot www.sentibot.eu (compatible with Googlebot)

Analiza tekstu

Wykrywanie języka

Tabele częstości słów na podstawie opensubtitles.org

N-gramy - Bayes

Niepoprawne słowa

Krótkie teksty

Mieszanie języków

Wykrywanie płci autora

Sentyment

Pobierane automatycznie zbiory uczące

Bayes + SVM

Leksykon

Minimalizacja błędów false positive testowana na prawie unijnym

Zapisywanie danych

ElasticSearch

Wyszukiwanie pełnotekstowe

Indeksy czasowe

Skalowanie i replikacja

Monitorowanie

Rozmiar 5 890 mln dokumentów - 12,42TB

Cassandra

Zmieniające się metadane (liczba polubień, udostępnień etc.)

Rozmiar 2 465 mln wpisów 2.06 TB

Tworzenie zapytań

Lucene

Wildcardy * i ?

Proximity search

Stemming

Stronicowanie

((_all:everytap AND keywords:152946751543136 AND author:SurfBurger) OR (sourceURLDomain: instagram.com AND "surf burger”~2)) AND NOT

type:fc

http://instagram.com/

Powrót na studia :)

Projekt badawczy w ramach Programu Badań Stosowanych

organizowanego przez Narodowe Centrum Badań i Rozwoju

Całkowita wartość projektu ponad 3 mln zł

Konsorcjum Politechnika Gdańska, SentiOne i SalesLift

Współpraca z Katedrą Inżynierii Oprogramowania ETI

Kierownik projektu prof. Krzysztof Goczyła

Oczekiwane rezultaty projektu

Usprawnienie algorytmów oceny sentymentu

Usprawnienie działania robotów indeksujących sieć

Poszukiwany, poszukiwana!

Szukamy naukowców i entuzjastów Data Science do współpracy

Oferujemy darmowy dostęp do danych dla projektów naukowych

Wygodny dostęp przez RESTful API

“ ”

Dziękuję za uwagę!

ZAPRASZAM DO KONTAKTU

Michał Brzezicki

[email protected]

https://pl.linkedin.com/in/brzezicki

+48 603 926 001



To się w ram ie nie zmieści

Software

Transcript of To się w ram ie nie zmieści