Ile informacji jest w danych?
-
Upload
data-science-warsaw -
Category
Data & Analytics
-
view
217 -
download
0
Transcript of Ile informacji jest w danych?
allegro.tech + Data Science Warsaw 8 marca 2016 Ile informacji jest w danych ?
Paweł Klimczewski
Ile informacji jest w danych ? • Uczenie bez nadzoru – problemy klasyfikacji wynikające z
nieobiektywnego skalowania zmiennych
• Julia Language – imponujące środowisko dla Big Data, proste jak Matlab i szybkie jak C. Za darmo!
• Rozwiązywanie problemów nierozwiązywalnych – metody genetyczne w poszukiwaniu prawdy
• Wielkie niebezpieczeństwa, jak bardzo komputery nie potrafią liczyć i jak poważne błędy generują
• Praktyczne możliwość i optymalizacji przekazu, e-mailing, display, automatyczny dobór kontentu
Informacja (łac. informatio – przedstawienie, wizerunek; informare – kształtować, przedstawiać)
Ile informacji jest w danych ? 2
• Baza danych jako opis przestrzeni zdarzeń
• Miary podobieństwa w ujęciu geometrycznym
– Nie znamy rzeczywistych skal mierzonych zmiennych
– Nie znamy rzeczywistych funkcji pomiędzy zmiennymi
• Skala ilorazowa daje możliwość budowania przestrzeni
• Zmienne nominalne/porządkowe -> zmienne 0/1
• Alfa Cronbacha
Algebra liniowa
Algebra liniowa – dział algebry zajmujący się badaniem przestrzeni liniowych oraz ich homomorfizmów, tj. przekształceń liniowych. Algebra liniowa skupia się głównie na badaniu przestrzeni skończenie wymiarowych nad ciałami lub ogólniej, pierścieniami. Do algebry liniowej można zaliczyć także teorię form kwadratowych, macierzy, przekształceń półtora- i wieloliniowych. Dziedzina ta wyrosła w sposób naturalny na gruncie badania układów równań liniowych.
pl.wikipedia.org
Uczenie bez nadzoru
• Uczenie maszynowe, które zakłada brak obecności ludzkiego nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu na jego wyjście. pl.wikipedia.org
• Miary podobieństwa, przestrzenie euklidesowe i inne
• Anomalie w przestrzeni zdarzeń jako atrakcyjne cele
• Problemy klasyfikacji wynikające z nieobiektywnego skalowania
zmiennych
1. Liniowe skalowanie zależności nieliniowych, np. „dochody” 2. Braki danych jako 0 3. Błędy maszynowe
Metody genetyczne. Czy raczej brak metody ?
• Założenie 1: Znamy kryterium
• Robiąc bardzo dużo różnych losowych kombinacji odrzucamy najgorsze rozwiązania
• Selekcja jako metoda na wzór hipotezy doboru naturalnego zakładającego ślepą zmianę puli genów(cech)
• Nigdy nie wiemy czy poruszamy się w pobliżu maksimum lokalnego czy prawdziwego
Wielkie niebezpieczeństwa: przykład błędów numerycznych
• x^4 - 4*x^3 + 6*x^2 - 4*x + 1
https://sage.icse.us.edu.pl/home/pub/205/
Silnik rekomendacji - idea
• Na podstawie wcześniejszych zachowań użytkowników znaleźć model predykcyjny dla dowolnej kampanii
• Silnik reaguje (uczy się ) reakcji pierwszych odbiorców nowej kampanii przypisując pozostałym prawdopodobieństwa sukcesu
• Od tego momentu (po nauczeniu) kampanie kierujemy do adresatów w kolejności jaką nakazuje ranking prowdopodobieństw
Schemat
Historia zachowań
Silnik Kampania
testowa/pilotażowa Np. 1 % celowej
REAKCJA
Tablica prawdopodobieństw (RANKING UŻYTKOWNIKÓW)
System może pracować w pętli sprzężenia zwrotnego . Nadchodzące wyniki mogą stale, dynamicznie doskonalić model.
Praktyczne możliwość optymalizacji
Wyniki kolejnych iteracji/modeli
Wysłane
Otwarte, Kliknięte, Itp.
Proces uczenia na losowej próbce
Kampania tradycyjna Kampania optymalizowana
Kliknięcia
Wysłanych
! ? ? ?
Wynik uczenia nie przesądza o ostatecznym
sukcesie ale go bardzo przybliża.
O firmie
Doświadczenie i precyzja to podstawa sukcesu
• SOFT STAT to całe moje wszechstronne doświadczenie. Od ponad 20 lat z powodzeniem zajmuję się profesjonalnie największymi w Polsce i na świecie badaniami rynku, w tym szczególnie badaniami mediów. Przygotowuję również oprogramowanie statystyczne i raportujące oraz aplikacje optymalizujące złożone zadania na dużych zbiorach danych.
Paweł Klimczewski
+ 48 503 505 257
19