Meetup 1 eksperymentujemy_na_duza_skale_rkita

Post on 11-Apr-2017

1.206 views 0 download

Transcript of Meetup 1 eksperymentujemy_na_duza_skale_rkita

Eksperymentujemy    po  co  i  jak  prowadzić  testy  A/B    

na  dużą  i  małą  skalę    Radosław  Kita  

Warszawa,  2015-­‐10-­‐06  

1  

Właściwie  po  co  te  testy?  •  Przecież  wszyscy….  •  Ludzie  zazwyczaj…  •  Nikt  rozsądny…  •  Moje  dziecko  to  zawsze…  •  Jak  mam  coś  znaleźć,  to  robię  to  tak…  •  Nie,  nie,  nie.  To  się  nie  sprawdzi.  W  trzewiach  to  czuję.  

 

2  

Właściwie  po  co  te  testy?  •  Zróbmy  ankietę  •  Pokażmy  ekspertom  makietę  •  Zróbmy  badanie  fokusowe  

„Pozwólmy  naszym  ideom  umierać  za  nas”  Karl  Popper    „Data  driven  company”    

3  

Co  testujemy?  Wszystko  J    Nie  no  serio,  prawie  wszystko  J  •  Efektywność  systemów  

rekomendacji  •  Efektywność  algorytmów  

wyszukiwania  •  Zmiany  w  budowie  stron  •  Zmiany  w  aplikacjach  •  Każdą  nową  funkcjonalność  

4  

Jak  to  działa?  1.  Definicja  testu  2.  Plan  eksperymentalny  3.  Podział  na  grupy  4.  Zebranie  danych  5.  Dobór  statystyki  6.  Od  testu  do  wdrożenia  na  całym  serwisie  7.  Dużo  jednoczesnych  testów  -­‐>  kiedy  uruchomić  kolejny  

Czyli  trochę  wyzwań:  od  technologicznych  poprzez  programistyczne  aż  po  statystyczne.  

5  

Definicja  testu  

6  

•  Osoba  definiująca  test  musi  mieć  dostęp  do  graficznego  interface.  •  Musimy  przekazać  dalej  definicję  której  funkcjonalności  dotyczy  

eksperyment  –  identyfikowanie  użytkowników,  którzy  rzeczywiście  mieli  kontakt  z  naszą  funkcjonalnością.  

•  Co  jeśli  trzeba  przewinąć  ekran  albo  rozklikać  jakieś  menu?    

Definicja  testu  

7  

Miara  sukcesu:  •  Przychodowość  –  wiadomo  J  •  Ilość  kliknięć?  •  Jednorodność  koszyka  zakupowego?  •  Długość  ścieżki  zakupowej?  •  Aktywizacja  nowych  użytkowników?  •  …    

Definicja  testu  

8  

Co  porównujemy:  •  Średnia?  •  Mediana?  •  75  centyl/percentyl?  •  …    

Plan  eksperymentalny  

Użytkownicy  

Grupa  testowa  

Grupa  kontrolna  

9  Początek  pomiaru  

Koniec  pomiaru  

Początek  pomiaru  

Koniec  pomiaru  

Plan  eksperymentalny  

10  

Tak  to  działa  przy  jednym  pomiarze.    Co  jeśli  dwa  lub  więcej?  Szczególnie  jeśli  pomiar  odbywa  się  w  jawny  dla  użytkownika  sposób.  Np.  zmiana  świadomości  marki  wskutek  kontaktu  z  reklamą.    

Plan  eksperymentalny  

11  

Grupa  kontrolna  1  

Drugi  pomiar  

Pierwszy  pomiar  

Grupa  kontrolna  2  

Drugi  pomiar  

Grupa  testowa  1  

Drugi  pomiar  

Pierwszy  pomiar  

Grupa  testowa  2  

Drugi  pomiar  

Podział  na  grupy  1.  Losowy  2.  Rozłączność  grup  w  obrębie  eksperymentu  3.  Rozłączność  grup  między  eksperymentami  –  o  ile  to  

konieczne  (eksperymenty  dotyczą  tego  samego  elementu  lub  mogą  na  siebie  wpływać)  

12  

Podział  na  grupy  -­‐  wyzwania  Losowość:  każdy  z  użytkowników  powinien  mieć  jednakowe  prawdopodobieństwo  znalezienia  się  w  grupie.  Dwa  możliwe  podejścia:  1.  Dzielimy  on-­‐line  w  miarę  jak  się  pojawiają  –  

nadreprezentacja  bardziej  aktywnych  2.  Dzielimy  off-­‐line  przed  eksperymentem  na  podstawie  bazy  

danych  –  nie  wiemy  kiedy  kolejny  raz  się  pojawią  i  czy  w  ogóle  się  pojawią,  eksperyment  nie  może  trwać  dowolnie  długo  

13  

Podział  na  grupy  -­‐  wyzwania  Kilka  sposobów  identyfikacji  użytkownika:  1.  cookie  2.  zarejestrowani  użytkownicy  3.  identyfikatory  w  aplikacjach  mobilnych  

Rozłączność!!  Tak,  tak.  Nie  zważając  na  to,  że  jeden  użytkownik  może  się  ukrywać  pod  kilkoma  identyfikatorami.  

14  

Podział  na  grupy  -­‐  wyzwania  Czasem  trzeba  sprawdzić  dodatkowe  warunki:  •  położenie  geograficzne  •  profil  demograficzny  •  dotychczasową  historię  zakupów  

Szybkość!!  Czyli  Spark  i  filtry  Blooma  J    

15  

Zebranie  danych  

16  

Dobór  statystyki  

17  

W  statystyce  musimy  sobie  odpowiedzieć  na  jedno  zasadnicze  pytanie…  

Dobór  statystyki  

18  

No  może  nieco  więcej  niż  jedno  J  1.  Czy  próby  są  od  siebie  zależne  czy  niezależne?  

Dobór  statystyki  

19  

I  jeszcze  jedno  J  2.  Ile  mam  grup?  

Dobór  statystyki  

20  

I  jeszcze  J  3.  Na  jakiej  skali  pomiarowej  jest  zmienna  

zależna?  

(nominalna,  porządkowa,  interwałowa,  ilorazowa)  

Dobór  statystyki  

21  

I  jeszcze  J  4.  Czy  rozkład  zmiennej  zależnej  jest  normalny?  

Witamy  w  świecie  rozkładów  prawoskośnych  

Dobór  statystyki  

22  

I  tak  znaleźliśmy  się  w  świecie  statystyk  nieparametrycznych.    Tak,  macie  rację.  Nie  uczyli  o  tym  zbyt  wiele  na  studiach  J  

Test  Manna-­‐Whitneya  Test  Kołmogorowa-­‐Smirnowa  Test  Kruskala-­‐Wallisa  

Od  testu  do  wdrożenia  na  całym  serwisie  

Dobra  praktyka  –  przełączamy  małymi  grupkami  (np.:  po  5%  dziennie)  i  obserwujemy.  

23  

Dużo  jednoczesnych  testów  -­‐>  kiedy  uruchomić  kolejny  

Id  testu  

Początek  testu   Koniec  testu  

1   2015-­‐01-­‐01  00:00:00   2015-­‐11-­‐30  23:59:59  

2   2015-­‐07-­‐01  00:00:00   2015-­‐12-­‐31  23:59:59  

3   2015-­‐06-­‐20  14:21:00   2015-­‐10-­‐20  15:29:59  

4   2015-­‐10-­‐03  12:00:00   2015-­‐10-­‐31  11:59:59  

…   …   …  

24  

Wskaż  optymalny  moment  do  przeprowadzenia  testu,  który  ma  trwać  dwa  tygodnie.  Ma  się  pokrywać  z  jak  najmniejszą  ilością  zaplanowanych  testów.  Złożoność  wielomianowa  mile  widziana.  

Dziękuję  za  uwagę.  radoslaw.kita@allegrogroup.com  

  25