Ile informacji jest w danych?

allegro.tech + Data Science Warsaw 8 marca 2016 Ile informacji jest w danych ?

Paweł Klimczewski

[email protected]

Ile informacji jest w danych ? • Uczenie bez nadzoru – problemy klasyfikacji wynikające z

nieobiektywnego skalowania zmiennych

• Julia Language – imponujące środowisko dla Big Data, proste jak Matlab i szybkie jak C. Za darmo!

• Rozwiązywanie problemów nierozwiązywalnych – metody genetyczne w poszukiwaniu prawdy

• Wielkie niebezpieczeństwa, jak bardzo komputery nie potrafią liczyć i jak poważne błędy generują

• Praktyczne możliwość i optymalizacji przekazu, e-mailing, display, automatyczny dobór kontentu

Informacja (łac. informatio – przedstawienie, wizerunek; informare – kształtować, przedstawiać)

https://pl.wikipedia.org/wiki/%C5%81acina

Jakie informacje ? O czym ?

Na rynku mediów dane zawierają informację o ludziach !

(najczęściej)

Ile informacji jest w danych ? 2

• Baza danych jako opis przestrzeni zdarzeń

• Miary podobieństwa w ujęciu geometrycznym

– Nie znamy rzeczywistych skal mierzonych zmiennych

– Nie znamy rzeczywistych funkcji pomiędzy zmiennymi

• Skala ilorazowa daje możliwość budowania przestrzeni

• Zmienne nominalne/porządkowe -> zmienne 0/1

• Alfa Cronbacha

Arytmetyka vs algebra liniowa

C=(D'*D)/n.-(E(D,1)'*E(D,1))

Algebra liniowa

Algebra liniowa – dział algebry zajmujący się badaniem przestrzeni liniowych oraz ich homomorfizmów, tj. przekształceń liniowych. Algebra liniowa skupia się głównie na badaniu przestrzeni skończenie wymiarowych nad ciałami lub ogólniej, pierścieniami. Do algebry liniowej można zaliczyć także teorię form kwadratowych, macierzy, przekształceń półtora- i wieloliniowych. Dziedzina ta wyrosła w sposób naturalny na gruncie badania układów równań liniowych.

pl.wikipedia.org

Uczenie bez nadzoru

• Uczenie maszynowe, które zakłada brak obecności ludzkiego nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu na jego wyjście. pl.wikipedia.org

• Miary podobieństwa, przestrzenie euklidesowe i inne

• Anomalie w przestrzeni zdarzeń jako atrakcyjne cele

• Problemy klasyfikacji wynikające z nieobiektywnego skalowania

zmiennych

1. Liniowe skalowanie zależności nieliniowych, np. „dochody” 2. Braki danych jako 0 3. Błędy maszynowe

Metody genetyczne. Czy raczej brak metody ?

• Założenie 1: Znamy kryterium

• Robiąc bardzo dużo różnych losowych kombinacji odrzucamy najgorsze rozwiązania

• Selekcja jako metoda na wzór hipotezy doboru naturalnego zakładającego ślepą zmianę puli genów(cech)

• Nigdy nie wiemy czy poruszamy się w pobliżu maksimum lokalnego czy prawdziwego

Julia Language

Julia Language 2

Julia Language 3

Julia Language 4

Wielkie niebezpieczeństwa: przykład błędów numerycznych

• x^4 - 4*x^3 + 6*x^2 - 4*x + 1

https://sage.icse.us.edu.pl/home/pub/205/

Silnik rekomendacji - idea

• Na podstawie wcześniejszych zachowań użytkowników znaleźć model predykcyjny dla dowolnej kampanii

• Silnik reaguje (uczy się ) reakcji pierwszych odbiorców nowej kampanii przypisując pozostałym prawdopodobieństwa sukcesu

• Od tego momentu (po nauczeniu) kampanie kierujemy do adresatów w kolejności jaką nakazuje ranking prowdopodobieństw

Schemat

Historia zachowań

Silnik Kampania

testowa/pilotażowa Np. 1 % celowej

REAKCJA

Tablica prawdopodobieństw (RANKING UŻYTKOWNIKÓW)

System może pracować w pętli sprzężenia zwrotnego . Nadchodzące wyniki mogą stale, dynamicznie doskonalić model.

Praktyczne możliwość optymalizacji

Wyniki kolejnych iteracji/modeli

Wysłane

Otwarte, Kliknięte, Itp.

Proces uczenia na losowej próbce

Kampania tradycyjna Kampania optymalizowana

Kliknięcia

Wysłanych

! ? ? ?

Wynik uczenia nie przesądza o ostatecznym

sukcesie ale go bardzo przybliża.

Wysłanych

CTR

Kampania tradycyjna Kampania optymalizowana

Arbitralna decyzja odcięcia

O firmie

Doświadczenie i precyzja to podstawa sukcesu

• SOFT STAT to całe moje wszechstronne doświadczenie. Od ponad 20 lat z powodzeniem zajmuję się profesjonalnie największymi w Polsce i na świecie badaniami rynku, w tym szczególnie badaniami mediów. Przygotowuję również oprogramowanie statystyczne i raportujące oraz aplikacje optymalizujące złożone zadania na dużych zbiorach danych.

Paweł Klimczewski

+ 48 503 505 257

19

Ile informacji jest w danych?

Data & Analytics

Transcript of Ile informacji jest w danych?