Michał Stefanów - MSc Final Presentation

17

description

http://nekatwork.blogspot.com/search/label/master%20thesis

Transcript of Michał Stefanów - MSc Final Presentation

Page 1: Michał Stefanów - MSc Final Presentation
Page 2: Michał Stefanów - MSc Final Presentation

Zmiana sposobu myślenia

Page 3: Michał Stefanów - MSc Final Presentation

Ogromne ilości danych(konieczność wymusiła powstanie serwisów agregujących treści)

Page 4: Michał Stefanów - MSc Final Presentation

Rozwój urządzeń mobilnych(posiadam w domu 8 nieużywanych/zepsutych telefonów komórkowych)

Page 5: Michał Stefanów - MSc Final Presentation

Nowe kanały komunikacji

Page 6: Michał Stefanów - MSc Final Presentation

Twitter

Page 7: Michał Stefanów - MSc Final Presentation

Krótkie wiadomości

Page 8: Michał Stefanów - MSc Final Presentation

Ekstrakcja informacji• Sposób publikacji (WWW, API, SMS)

• Miejsce publikacji (geolokalizacja)

• Użycie tagów „#” (podkreślenie ważności)

• Zawartość linków, słów kluczowych w linkach, występowanie linków

• Aktualne tematy, tzw. trending topics

• Lista osób obserwowanych i obserwujących dany profil

• Użycie polskich znaków (dbałość o szczegóły)

Content is the king(mechaniczna klasyfikacja tekstu)

Page 9: Michał Stefanów - MSc Final Presentation

Analiza tweetu• Wypowiedź jest dzielona na wyrazy.

• Następuje usunięcie polskich znaków diakrytycznych.

• Usunięte zostają wyrazy jednoliterowe.

• Wyrazy zostają doprowadzone do formy podstawowej.

• Następuje porównanie do predefiniowanej listy wyrazów.

• Występowanie takie wyrazu klasyfikuje tweet.

Page 10: Michał Stefanów - MSc Final Presentation

Przygotowanie listy wyrazów

badbandytablotobłędniebolbulicchorydowndurnyidiotainsomniajajcojebanykatkiepskoleniwymartwicanadziacnajgorzejnudaoskarzenieoskarzycoszalećpascpieprzycpokraczniepokrecic

polknacpopełnićprzestraszycsamotnoscsłabosmutnysorryszkodatragicznieuciekacunikacupsurazuwalicwinicwymuszacwywaliczakazićzalamaczalamaniezarazazbytnizlamaczlyznienawidzicźle

Negatywne

całowaćciekawydobradobrydziękowaćdziękujęfajnyhahahahahahahahahahahahahahahakochaćkochanalepszylolalubićlubyładnymiłośćmniamnajlepszynajmilszypasjapięknypocałowaćpodobać

Pozytywne

sexysłodkispokosuperszczęśliwyśpiewaćświetnyuczucieuczućulubićuprzejmośćuwielbiaćwielkiwowzajebistyzakochaćtalentkoncertplażarelakspowerskarbmniamwowpasjanajpiekniejszyopalac

Page 11: Michał Stefanów - MSc Final Presentation

Ograniczenia Trudności Problemy• Głębokość czasowa poszukiwań

• W Polsce niewiele osób korzysta z Twittera

• Konieczność wyboru gorącego tematu

• Limit wywołań funkcji API

• Gromadzenie danych

• Pamięć operacyjna

• Naiwność metody

Page 12: Michał Stefanów - MSc Final Presentation

Obserwacje• Użytkownicy nie piszą wprost o emocjach.

• Użytkownicy często posługują się ironią i sarkazmem.

• Krótkie wypowiedzi analizowane pojedynczo są oderwane od kontekstu.

• Stosunkowo niewielka ilość tweetów została sklasyfikowana.

• Konieczne są dalsze prace w tym temacie

• Sektor usług mobilnych z pewnością będzie się rozwijać (trendy UK)

(na początku chciałem zmienić świat, czas pokazał że to nie jest proste)

Page 13: Michał Stefanów - MSc Final Presentation

Istniejące narzędzia(w momencie zabierania się do pracy ponad połowa z nich jeszcze nie istaniała)

Page 14: Michał Stefanów - MSc Final Presentation

Kampania wyborcza(W USA Barrack Obama w trakcie kampanii wyborczej bardzo aktywnie korzystał z Twittera)

Page 15: Michał Stefanów - MSc Final Presentation

Powtórzenie eksperymentu• Stworzenie listy słów kluczowych (Kaczyński, Komorowski, prezydent)

• Znalezienie tweetów na podstawie listy

• Zbieranie danych z określonym okresie czasu

• Odfiltrowanie niechcianych wyników (obcojęzyczne, bez tekstu)

• Stworzenie listy słów pozytywnych i negatywnych

Page 16: Michał Stefanów - MSc Final Presentation

Przewidywanie wyników

Page 17: Michał Stefanów - MSc Final Presentation

DziękujeMichał Stefanów