Skuteczna operacjonalizacja środowiska...

15
Skuteczna operacjonalizacja środowiska analitycznego Mariusz Gromada, MathSpace.PL 1 Komponenty Integracja Pomiar wartości Budowa i wykorzystanie wiedzy © Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie, rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 2015-10-14 [email protected]

Transcript of Skuteczna operacjonalizacja środowiska...

Skuteczna operacjonalizacja

środowiska analitycznego

Mariusz Gromada, MathSpace.PL

1

Komponenty Integracja

Pomiar

wartości

Budowa i

wykorzystanie

wiedzy

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 2015-10-14

[email protected]

Komponenty środowiska analitycznego – środowisko analityczne to znacznie więcej niż

narzędzia do budowania modeli predykcyjnych. Analityka predykcyjna, choć bardzo ważna, jest tylko

jednym z elementów cyklu analitycznego

2015-10-14 2

Dane klienta

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Cykl analityczny – zrozumienie pełnego cyklu analitycznego jest kluczowe dla zdefiniowania

komponentów środowiska, jak też interakcji między nimi.

2015-10-14 3

Cykl

Analityczny

Problem

biznesowy

Definicja i

wstępna analiza

danych

Przygotowanie

danych

Budowa

modeli

Ocena

jakości

modeli

Wdrożenie

modelu

Wykorzystanie

modelu +

monitoring

Analizy

biznesowo

ekonomiczne

Stawianie i

weryfikacja

hipotez

Ocena

potencjału

Definicja

zdarzenia i

sukcesu

Historia

danych +

preselekcja

atrybutów

Weryfikacja

jakości

danych

Wybór modelu

+

Potwierdzenie

potencjału

Analityka

predykcyjna

Raporty

efektywności

modelu

Alerty jakości

modelu

Analiza

problemu

Automatyczna

reestymacja

Metadane

modelu

Wdrożenie

algorytmu

Harmonogram

owanie

Definicja

zależności

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Architektura funkcjonalna środowiska analitycznego – cykl analityczny jest procesem

end-to-end, który powinien być odzwierciedlony w postaci odpowiednio zintegrowanych

komponentów. Stopień integracji jest wyznacznikiem dojrzałości środowiska.

2015-10-14 4

Dane

analityczne

Odkrywanie

wiedzy

Repozytorium

modeli

Silnik

scoringowy

Raporty

jakości

Monitoring

modeli

Automatyczna

przebudowa

modeli

Dane klienta Repozytorium

scoringów

Definicje

kampanii

Optymalizacja

kampanii

Treatmenty Grupy

kontrolne

Detekcja

responsu

Kanały

Normalizacja

scoringów

Hurtownia

danych

Raporty

kampanii

Campaign Management

0

1

2

3

4

5b 5a

5c

6

7

8 9 10

11

12

13

14

Surowe scoringi

Surowe

scoringi

Prawdopod

obieństwo Prawdopod

obieństwo

Resp

onse

Meta

dane

modeli

Scoringi

Resp

onse

Leady,

ofe

rty,

kanały

15

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Obszar budowy / odkrywania wiedzy (architektura funkcjonalna środowiska analitycznego)

2015-10-14 5

Dane

analityczne

Odkrywanie

wiedzy

Repozytorium

modeli

Silnik

scoringowy

Raporty

jakości

Monitoring

modeli

Automatyczna

przebudowa

modeli

Dane klienta Repozytorium

scoringów

Definicje

kampanii

Optymalizacja

kampanii

Treatmenty Grupy

kontrolne

Detekcja

responsu

Kanały

Normalizacja

scoringów

Hurtownia

danych

Raporty

kampanii

Campaign Management

0

1

2

3

4

5b 5a

5c

6

7

8 9 10

11

12

13

14

Surowe scoringi

Surowe

scoringi

Prawdopod

obieństwo Prawdopod

obieństwo

Resp

onse

Meta

dane

modeli

Scoringi

Resp

onse

Leady,

ofe

rty,

kanały

Zintegrowane, wersjonowane

(historyzowane dane), dane

detaliczne, bądź struktury

pochodne w data martach.

Jest źródłem dla analiz ad-

hoc (wszelkie analizy

biznesowo-ekonomiczne), jak

też stanowi podstawę do

naliczania data martów

analitycznych (tzw. ABT).

Hurtownia danych Analizy Ad-hoc

Duży nacisk na technologię

in-memory oraz możliwość

pracy lokalnie na własnym PC

(np. Tableau, QlikView).

Ekstremalnie istotna

ergonomia pracy, szybkość

działania, łatwość

wizualizacji.

Analizy

predykcyjne

Budowanie modeli

predykcyjnych (SAS, SPSS

Modeler, SAP / KXEN), R.

Najistotniejsze elementy to

łatwość łączenia do różnych

źródeł danych oraz

generowanie kodów

scoringowych do postaci

języków w różnych silnikach

scoringowych.

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Obszar wdrażania przygotowanych modeli predykcyjnych (architektura funkcjonalna

środowiska analitycznego)

2015-10-14 6

Dane

analityczne

Odkrywanie

wiedzy

Repozytorium

modeli

Silnik

scoringowy

Raporty

jakości

Monitoring

modeli

Automatyczna

przebudowa

modeli

Dane klienta Repozytorium

scoringów

Definicje

kampanii

Optymalizacja

kampanii

Treatmenty Grupy

kontrolne

Detekcja

responsu

Kanały

Normalizacja

scoringów

Hurtownia

danych

Raporty

kampanii

Campaign Management

0

1

2

3

4

5b 5a

5c

6

7

8 9 10

11

12

13

14

Surowe scoringi

Surowe

scoringi

Prawdopod

obieństwo Prawdopod

obieństwo

Resp

onse

Meta

dane

modeli

Scoringi

Resp

onse

Leady,

ofe

rty,

kanały

Definicja zależności,

harmonogramowanie

procesu naliczania

scoringu, cykliczne

uruchamianie kodów

scoringowych. Silnik

dodatkowo przekazuje

surowe wartości

wyliczonych wskaźników

do repozytorium

scoringowego.

Silnik scoringowy

Przechowuje metadane

modeli (np.

wykorzystywane

zmienne, nazwę i wersję

modelu, itp.) oraz

algorytmy modeli (kody

scoringowe).

Repozytorium

modeli

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Obszar repozytorium scoringowego (architektura funkcjonalna środowiska analitycznego)

2015-10-14 7

Dane

analityczne

Odkrywanie

wiedzy

Repozytorium

modeli

Silnik

scoringowy

Raporty

jakości

Monitoring

modeli

Automatyczna

przebudowa

modeli

Dane klienta Repozytorium

scoringów

Definicje

kampanii

Optymalizacja

kampanii

Treatmenty Grupy

kontrolne

Detekcja

responsu

Kanały

Normalizacja

scoringów

Hurtownia

danych

Raporty

kampanii

Campaign Management

0

1

2

3

4

5b 5a

5c

6

7

8 9 10

11

12

13

14

Surowe scoringi

Surowe

scoringi

Prawdopod

obieństwo Prawdopod

obieństwo

Resp

onse

Meta

dane

modeli

Scoringi

Resp

onse

Leady,

ofe

rty,

kanały

Przechowuje aktualne

wartości scoringów

(wyliczone przez silnik

scoringowy), w

szczególności ich

znormalizowaną postać

celem wykorzystania w

procesie optymalizacji

kampanii.

Repozytorium

scoringów

Sprowadzenie surowych

wartości scoringowych

do interpretacji

prawdopodobieństwa.

Tylko wartości

prawdopodobieństwa

mogą być skutecznie

wykorzystywane w

trakcie procesu

optymalizacji kampanii.

Normalizacja

scoringów

Rozpoznawanie

odpowiedzi Klienta

oraz sukcesu.

Wykorzystywane do

raportowania oraz

normalizacji scoringów.

Detekcja

responsu

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Obszar definicji oraz uruchomienia kampanii (architektura funkcjonalna środowiska analitycznego)

2015-10-14 8

Dane

analityczne

Odkrywanie

wiedzy

Repozytorium

modeli

Silnik

scoringowy

Raporty

jakości

Monitoring

modeli

Automatyczna

przebudowa

modeli

Dane klienta Repozytorium

scoringów

Definicje

kampanii

Optymalizacja

kampanii

Treatmenty Grupy

kontrolne

Detekcja

responsu

Kanały

Normalizacja

scoringów

Hurtownia

danych

Raporty

kampanii

Campaign Management

0

1

2

3

4

5b 5a

5c

6

7

8 9 10

11

12

13

14

Surowe scoringi

Surowe

scoringi

Prawdopod

obieństwo Prawdopod

obieństwo

Resp

onse

Meta

dane

modeli

Scoringi

Resp

onse

Leady,

ofe

rty,

kanały

Master / marketing data

mart – atrybuty klienta

wykorzystywane podczas

definicji kampanii.

Dane Klienta +

Repozytorium

scoringów

Scenariusze, reguły,

selekcje Klientów – jako

wynik lista działań / ofert

przypisana do Klienta.

Definicje kampanii

Element wybierający najbardziej

efektywne scenariusze komunikacji, wybór

dokonywany jest spośród wielu dostępnych

scenariuszy przy zadanych kryteriach

brzegowych (koszty, spodziewane efekty,

cele)

Optymalizacja

kampanii

Uruchomienie

kampanii

Kanały

Jaka oferta,

kiedy, w

jakim

kanale

Treatmenty Podział klientów na

grupy docelowe i

kontrolne

Grupy kontrolne

Detekcja

odpowiedzi

klienta, jak też

sukcesu kampanii

(tzw. response

wywiedziony)

Detekcja

responsu

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Obszar monitoringu modeli predykcyjnych (architektura funkcjonalna środowiska analitycznego)

2015-10-14 9

Dane

analityczne

Odkrywanie

wiedzy

Repozytorium

modeli

Silnik

scoringowy

Raporty

jakości

Monitoring

modeli

Automatyczna

przebudowa

modeli

Dane klienta Repozytorium

scoringów

Definicje

kampanii

Optymalizacja

kampanii

Treatmenty Grupy

kontrolne

Detekcja

responsu

Kanały

Normalizacja

scoringów

Hurtownia

danych

Raporty

kampanii

Campaign Management

0

1

2

3

4

5b 5a

5c

6

7

8 9 10

11

12

13

14

Surowe scoringi

Surowe

scoringi

Prawdopod

obieństwo Prawdopod

obieństwo

Resp

onse

Meta

dane

modeli

Scoringi

Resp

onse

Leady,

ofe

rty,

kanały

Monitoring efektywności

modeli predykcyjnych.

Ocena skuteczności

modeli: stan bieżący, jak

też w czasie. Dostarcza

różnego typu statystyki

jakościowe

wykorzystywanych

modeli. Jest źródłem

raportowania i danych

dla wyzwalania alertów

jakości modeli.

Monitoring

modeli

W sytuacji niespełnienia

kryteriów jakościowych

wyzwalana jest

automatyczna reestymacja

parametrów modelu.

Automatyczna

przebudowa

modeli

Raporty prezentujące

efektywność modeli w

czasie.

Raporty jakości

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Obszar raportowania kampanii (architektura funkcjonalna środowiska analitycznego)

2015-10-14 10

Dane

analityczne

Odkrywanie

wiedzy

Repozytorium

modeli

Silnik

scoringowy

Raporty

jakości

Monitoring

modeli

Automatyczna

przebudowa

modeli

Dane klienta Repozytorium

scoringów

Definicje

kampanii

Optymalizacja

kampanii

Treatmenty Grupy

kontrolne

Detekcja

responsu

Kanały

Normalizacja

scoringów

Hurtownia

danych

Raporty

kampanii

Campaign Management

0

1

2

3

4

5b 5a

5c

6

7

8 9 10

11

12

13

14

Surowe scoringi

Surowe

scoringi

Prawdopod

obieństwo Prawdopod

obieństwo

Resp

onse

Meta

dane

modeli

Scoringi

Resp

onse

Leady,

ofe

rty,

kanały

Efektywność kampanii w

postaci raportów oraz

dashboardów (Bussiness

Objects, QlikView,

Tableau, IBM Cognos,

MicroStrategy, itp.)

Narzędzia BI

Całość danych ze

środowiska analitycznego

oraz systemu Campaign

Management powinna

trafiać do hurtowni

danych.

Hurtowania

danych

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Pełny (360st) obraz klienta – kilka dobrych praktyk

11

360

Demografia

Geografia

Aplikacje o produkty

Posiadane produkty

Użycie produktów

Rezygnacje

Wartość klienta

Komunikacja marketingowa

Interakcje klienta

Customer Experience

Ryzyko

Dane zewnętrzne

(social, biura

gospodarcze)

Obsługa klienta

Reklamacje

Windykacje

Starajmy się aby liczba zmiennych była pochodną pokrytych

obszarów danych, a nie wynikiem posiadania różnych

wariantów tej samej informacji.

Liczba zmiennych nie

jest najważniejsza

Projektując nowe zmienne zawsze pamiętajmy o

konieczności naliczenia również odpowiedniej

historii. W przeciwnym wypadku nowe zmienne

będą mogły być wykorzystane dopiero za

okres kilku / kilkunastu miesięcy,

powodując w okresie przejściowym szereg

problemów (np. przypadkowe

uwzględnienie nowej zmiennej w modelu

poprzez fałszywą korelację z brakiem danych

– faktycznie będzie to korelacja z czasem)

Rozwój data martu

Miesięczny data mart z dużą liczbą

zmiennych jest zawsze potrzebny. Polecam

utworzenie mniejszych struktur naliczanych

w cyklach tygodniowych lub nawet

dziennych.

Im częściej tym lepiej

2 lata historii to

minimum, 3 lata

jest optymalnym

wyborem.

Dostępna historia

ma znaczenie

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 2015-10-14

Prawdopodobieństwo zakupu jeślioferta nie przedstawiona

Pra

wd

op

od

ob

ień

stw

o z

aku

pu

jeśl

i o

fert

a p

rze

dst

awio

na

Uplift – inkrementalna sprzedaż jest wyznacznikiem skuteczności prowadzonej komunikacji.

Separacja grup Awersja vs Sympatia do komunikacji może znacząco wpłynąć na efektywność

kosztową kanałów.

2015-10-14 12

Zakup – oferta nie

przedstawiona

Nie Tak

Zakup –

ofe

rta

prz

edst

aw

iona

Nie Awersja do

produktu

Awersja do

komunikacji

Tak Sympatia do

komunikacji

Sympatia

do produktu

Kupują pod wpływem stymulacji komunikacją – ta grupa

jest najcenniejsza z punktu widzenia poniesionego

kosztu (kanału komunikacji, oferty) w stosunku do

dodatkowego (inkrementalnego) sukcesu.

Sympatia do komunikacji

Komunikat obniża skłonność do skorzystania

z oferty – ważne, aby grupę poprawnie

zidentyfikować i usunąć z działań

aktywnych.

Awersja do komunikacji

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Grupy kontrolne – kluczowy aspekt w zakresie oceny skuteczności aktywnych kampanii

marketingowych. Grupy kontrolne (różne typy) umożliwiają raportowanie oraz stanowią podstawę

do przygotowania modeli upliftu. Toruję ponadto drogę do rygoru analizy danych w trakcie

wspierania procesu decyzyjnego.

2015-10-14 13

Wybór modelem

Nie (wybór losowy)

Tak (wybór modelem)

Kom

unik

acja

mark

eti

ngow

a

Nie (brak aktywnej

komunikacji)

Holdout

group

Model

Holdout

group

Tak (aktywna

komunikacja)

Control

group Target group

Efekt dodatkowy

komunikacji w całej

populacji

Wskaźnik siły

modelu

Inkrementalny wpływ

komunikacji

marketingowej w grupie

wysoko skłonnej

Dodatkowy wpływ doboru

modelem w grupie

komunikowanej

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Analityka – kilka rad na koniec

2015-10-14 14

Cechy i

zachowania

Klientów

360 degress

view

Wydajne i

skalowalne

środowisko

Elastycznie,

szybko i

powtarzalnie

Ludzie

Proces

decyzyjny

Ciągły

monitoring

Analiza produktów z dużym potencjałem / popytem jest zawsze bardzo ważna. Jednak jeśli naszym

celem jest promowanie spersonalizowanych ofert w różnych kanałach sprzedaży niezbędne staje się

rozszerzenie analizy o cechy / nawyki klientów.

Z pomocą przychodzą metody analizy biznesowo-ekonomicznej oraz analityki predykcyjnej. Metody te

dają najlepsze efekty gdy są stosowane na poziomie pojedynczego klienta, to zaś wymaga konstrukcji

pełnego data martu (360 degrees view), opisującego niemal każdy aspekt relacji klienta z firmą. Stworzenie

takiego data martu jest trudnym zadaniem, jednak w nagrodę otrzymamy możliwość obniżenia kosztu działań.

Przygotowanie modeli predykcyjnych wymaga posiadania dużej historii danych, dlatego należy brać

pod uwagę konieczność utworzenia adekwatnego wyseparowanego środowiska, zawsze z rezerwą

zasobów oraz z łatwością przyszłego skalowania wraz ze wzrostem biznesu.

Są to kluczowe słowa przy dążeniu do skutecznej operacjonalizacji analityki. Dlatego z uwagą należy

wybierać narzędzia do analizy danych, pamiętając, że te obecnie niezwykle szybko się rozwijają.

Równie ważny jest dobór odpowiednich ludzi.

Poszukujcie data scientists’ów – to oni posiadają kompetencje techniczne niezbędne do rozwiązywania

złożonych problemów, i ciekawość odkrywania rozwiązań. Ich profil to częściowo matematycy, częściowo

specjaliści IT, częściowo wizjonerzy. Dodatkowo są to osoby płynnie poruszające się w realiach

biznesowych, jak też nie mające problemu w kontaktach z zespołami IT – nie możemy zatem się dziwić, że

są dobrze wynagradzani.

Zawsze pamiętajmy o rygorze analizy danych w trakcie wspierania procesu decyzyjnego – tu warto

wspomnieć o często pomijanym efekcie inkrementalnym, który obok łącznych efektów, powinien być

zawsze optymalizowany. Dlatego tak ważny jest dobór odpowiednich grup kontrolnych.

Nie zapomnijcie o cyklicznej walidacji wykorzystywanych modeli – wszystko zmienia się w czasie, a

tempo zmian rośnie. Niestety modele dostatecznie silne dziś w jakimś punkcie przyszłości będą

wymagały przebudowy.

© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.

Dziękuję za uwagę

15 © Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,

rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 2015-10-14