Michał Stefanów - MSc Final Presentation

Post on 01-Jul-2015

1.032 views 0 download

description

http://nekatwork.blogspot.com/search/label/master%20thesis

Transcript of Michał Stefanów - MSc Final Presentation

Zmiana sposobu myślenia

Ogromne ilości danych(konieczność wymusiła powstanie serwisów agregujących treści)

Rozwój urządzeń mobilnych(posiadam w domu 8 nieużywanych/zepsutych telefonów komórkowych)

Nowe kanały komunikacji

Twitter

Krótkie wiadomości

Ekstrakcja informacji• Sposób publikacji (WWW, API, SMS)

• Miejsce publikacji (geolokalizacja)

• Użycie tagów „#” (podkreślenie ważności)

• Zawartość linków, słów kluczowych w linkach, występowanie linków

• Aktualne tematy, tzw. trending topics

• Lista osób obserwowanych i obserwujących dany profil

• Użycie polskich znaków (dbałość o szczegóły)

Content is the king(mechaniczna klasyfikacja tekstu)

Analiza tweetu• Wypowiedź jest dzielona na wyrazy.

• Następuje usunięcie polskich znaków diakrytycznych.

• Usunięte zostają wyrazy jednoliterowe.

• Wyrazy zostają doprowadzone do formy podstawowej.

• Następuje porównanie do predefiniowanej listy wyrazów.

• Występowanie takie wyrazu klasyfikuje tweet.

Przygotowanie listy wyrazów

badbandytablotobłędniebolbulicchorydowndurnyidiotainsomniajajcojebanykatkiepskoleniwymartwicanadziacnajgorzejnudaoskarzenieoskarzycoszalećpascpieprzycpokraczniepokrecic

polknacpopełnićprzestraszycsamotnoscsłabosmutnysorryszkodatragicznieuciekacunikacupsurazuwalicwinicwymuszacwywaliczakazićzalamaczalamaniezarazazbytnizlamaczlyznienawidzicźle

Negatywne

całowaćciekawydobradobrydziękowaćdziękujęfajnyhahahahahahahahahahahahahahahakochaćkochanalepszylolalubićlubyładnymiłośćmniamnajlepszynajmilszypasjapięknypocałowaćpodobać

Pozytywne

sexysłodkispokosuperszczęśliwyśpiewaćświetnyuczucieuczućulubićuprzejmośćuwielbiaćwielkiwowzajebistyzakochaćtalentkoncertplażarelakspowerskarbmniamwowpasjanajpiekniejszyopalac

Ograniczenia Trudności Problemy• Głębokość czasowa poszukiwań

• W Polsce niewiele osób korzysta z Twittera

• Konieczność wyboru gorącego tematu

• Limit wywołań funkcji API

• Gromadzenie danych

• Pamięć operacyjna

• Naiwność metody

Obserwacje• Użytkownicy nie piszą wprost o emocjach.

• Użytkownicy często posługują się ironią i sarkazmem.

• Krótkie wypowiedzi analizowane pojedynczo są oderwane od kontekstu.

• Stosunkowo niewielka ilość tweetów została sklasyfikowana.

• Konieczne są dalsze prace w tym temacie

• Sektor usług mobilnych z pewnością będzie się rozwijać (trendy UK)

(na początku chciałem zmienić świat, czas pokazał że to nie jest proste)

Istniejące narzędzia(w momencie zabierania się do pracy ponad połowa z nich jeszcze nie istaniała)

Kampania wyborcza(W USA Barrack Obama w trakcie kampanii wyborczej bardzo aktywnie korzystał z Twittera)

Powtórzenie eksperymentu• Stworzenie listy słów kluczowych (Kaczyński, Komorowski, prezydent)

• Znalezienie tweetów na podstawie listy

• Zbieranie danych z określonym okresie czasu

• Odfiltrowanie niechcianych wyników (obcojęzyczne, bez tekstu)

• Stworzenie listy słów pozytywnych i negatywnych

Przewidywanie wyników

DziękujeMichał Stefanów