To się w ram ie nie zmieści
-
Upload
data-science-warsaw -
Category
Software
-
view
346 -
download
0
Transcript of To się w ram ie nie zmieści
To się w RAM-ie nie zmieści -
Bolączki i wyzwania
efektywnego monitowania i
analizy treści w sieci WWW DATA SCIENCE WARSAW MEETUP 8 GRUDNIA 2015
SentiOne to monitorowanie i analiza
Internetu oraz social media
Poznaj opinie
SentiOne to najszybszy sposób dotarcia
do opinii w Internecie.
To źródło cennych analiz dotyczących
obecności marek w social media.
To nowy kanał komunikacji z
potencjalnymi klientami online.
Analizuj trendy
Dyskutuj
SalesLift to zarządzanie wizerunkiem marki w
mediach społecznościowych
Potencjał biznesowy Big Data
Pozyskiwanie danych
Sieć WWW
Miliony domen
Każda podstrona HTML inna
Treść, data, autor, kontekst
API portali społecznościowych
Domeny dodawanie ręcznie lub automatycznie wyszukiwane przez
Generyczna ekstrakcja danych
Wyszukiwanie powtarzających się wzorców w drzewie DOM
Wyszukiwanie dat w tekście
Setki formatów dat
Pola ze zmienną treścią
Wykrywanie artykułów na stronie
460 formatów dat
Today 11:59 AM 5 minutes ago at 11:19 21.10. Tuesday 2014 27Sep/14 Thu Dec 18 10:14:48 CET 2014 Tue Apr 24, 2012 07:02 Napisane Jun 16, 2007, 11:53 pm 2011 October 19, Wednesday оригирана в 15:07 часа на 13 май, 2015 год. Maandag, 23 juni 2014 om 12:01 Geplaatst op 27 januari 2014 doo 14. toukokuu 2015 10:40
Profile XPath
Sposób na ręczne zdefiniowanie profilu strony
Dużo szybsze niż generyczna ekstrakcja
Generowane automatycznie na podstawie wyników ekstraktora
generycznego
Sieć neuronowa akceptująca wygenerowane profile XPath
Gdzie crawler powinien wchodzić
Nieodwiedzone strony gdzie pojawi się nowy content (np. nowe
artykuły)
Strony gdzie pojawiają się linki do nowych treści (listy wątków na
forum)
Odwiedzone strony gdzie pojawiają się nowe treści (np. aktywne
wątki na forum)
Strategia crawlowania
Minimalizacja czasu pomiędzy publikacją treści, a jego indeksacją
Maksymalizacja liczby pobieranych treści
Minimalizacja liczby wejść na stronę
Kolejka crawlowania
500 000+ monitorowanych domen
Duże grafy witryn
Posortowana kolejka w pamięci RAM
Limit na liczbę zagłębień
Nieposortowana kolejka w klastrze Hadoop
Zadania MapReduce tworzące paczkę stron do odwiedzenia
Problemów ciąg dalszy
Wykorzystany transfer
Detekcja czy strona jest duża czy mała
Parametr kindness – robots.txt crawl-delay
Strony z niepoprawnym kodem HTML
USER AGENT: SentiBot www.sentibot.eu (compatible with Googlebot)
Analiza tekstu
Wykrywanie języka
Tabele częstości słów na podstawie opensubtitles.org
N-gramy - Bayes
Niepoprawne słowa
Krótkie teksty
Mieszanie języków
Wykrywanie płci autora
Sentyment
Pobierane automatycznie zbiory uczące
Bayes + SVM
Leksykon
Minimalizacja błędów false positive testowana na prawie unijnym
Zapisywanie danych
ElasticSearch
Wyszukiwanie pełnotekstowe
Indeksy czasowe
Skalowanie i replikacja
Monitorowanie
Rozmiar 5 890 mln dokumentów - 12,42TB
Cassandra
Zmieniające się metadane (liczba polubień, udostępnień etc.)
Rozmiar 2 465 mln wpisów 2.06 TB
Tworzenie zapytań
Lucene
Wildcardy * i ?
Proximity search
Stemming
Stronicowanie
((_all:everytap AND keywords:152946751543136 AND author:SurfBurger) OR (sourceURLDomain: instagram.com AND "surf burger”~2)) AND NOT
type:fc
Powrót na studia :)
Projekt badawczy w ramach Programu Badań Stosowanych
organizowanego przez Narodowe Centrum Badań i Rozwoju
Całkowita wartość projektu ponad 3 mln zł
Konsorcjum Politechnika Gdańska, SentiOne i SalesLift
Współpraca z Katedrą Inżynierii Oprogramowania ETI
Kierownik projektu prof. Krzysztof Goczyła
Oczekiwane rezultaty projektu
Usprawnienie algorytmów oceny sentymentu
Usprawnienie działania robotów indeksujących sieć
Poszukiwany, poszukiwana!
Szukamy naukowców i entuzjastów Data Science do współpracy
Oferujemy darmowy dostęp do danych dla projektów naukowych
Wygodny dostęp przez RESTful API
“ ”
Dziękuję za uwagę!
ZAPRASZAM DO KONTAKTU
Michał Brzezicki
https://pl.linkedin.com/in/brzezicki
+48 603 926 001