Meetup 1 eksperymentujemy_na_duza_skale_rkita

Eksperymentujemy po co i jak prowadzić testy A/B

na dużą i małą skalę Radosław Kita

Warszawa, 2015-‐10-‐06

Właściwie po co te testy? •  Przecież wszyscy…. •  Ludzie zazwyczaj… •  Nikt rozsądny… •  Moje dziecko to zawsze… •  Jak mam coś znaleźć, to robię to tak… •  Nie, nie, nie. To się nie sprawdzi. W trzewiach to czuję.

Właściwie po co te testy? •  Zróbmy ankietę •  Pokażmy ekspertom makietę •  Zróbmy badanie fokusowe

„Pozwólmy naszym ideom umierać za nas” Karl Popper „Data driven company”

Co testujemy? Wszystko J Nie no serio, prawie wszystko J •  Efektywność systemów

rekomendacji •  Efektywność algorytmów

wyszukiwania •  Zmiany w budowie stron •  Zmiany w aplikacjach •  Każdą nową funkcjonalność

Jak to działa? 1.  Definicja testu 2.  Plan eksperymentalny 3.  Podział na grupy 4.  Zebranie danych 5.  Dobór statystyki 6.  Od testu do wdrożenia na całym serwisie 7.  Dużo jednoczesnych testów -‐> kiedy uruchomić kolejny

Czyli trochę wyzwań: od technologicznych poprzez programistyczne aż po statystyczne.

Definicja testu

•  Osoba definiująca test musi mieć dostęp do graficznego interface. •  Musimy przekazać dalej definicję której funkcjonalności dotyczy

eksperyment – identyfikowanie użytkowników, którzy rzeczywiście mieli kontakt z naszą funkcjonalnością.

•  Co jeśli trzeba przewinąć ekran albo rozklikać jakieś menu?

Definicja testu

Miara sukcesu: •  Przychodowość – wiadomo J •  Ilość kliknięć? •  Jednorodność koszyka zakupowego? •  Długość ścieżki zakupowej? •  Aktywizacja nowych użytkowników? •  …

Definicja testu

Co porównujemy: •  Średnia? •  Mediana? •  75 centyl/percentyl? •  …

Plan eksperymentalny

Użytkownicy

Grupa testowa

Grupa kontrolna

9 Początek pomiaru

Koniec pomiaru

Początek pomiaru

Koniec pomiaru

Tak to działa przy jednym pomiarze. Co jeśli dwa lub więcej? Szczególnie jeśli pomiar odbywa się w jawny dla użytkownika sposób. Np. zmiana świadomości marki wskutek kontaktu z reklamą.

Grupa kontrolna 1

Drugi pomiar

Pierwszy pomiar

Grupa kontrolna 2

Drugi pomiar

Grupa testowa 1

Drugi pomiar

Pierwszy pomiar

Grupa testowa 2

Drugi pomiar

Podział na grupy 1.  Losowy 2.  Rozłączność grup w obrębie eksperymentu 3.  Rozłączność grup między eksperymentami – o ile to

konieczne (eksperymenty dotyczą tego samego elementu lub mogą na siebie wpływać)

Podział na grupy -‐ wyzwania Losowość: każdy z użytkowników powinien mieć jednakowe prawdopodobieństwo znalezienia się w grupie. Dwa możliwe podejścia: 1.  Dzielimy on-‐line w miarę jak się pojawiają –

nadreprezentacja bardziej aktywnych 2.  Dzielimy off-‐line przed eksperymentem na podstawie bazy

danych – nie wiemy kiedy kolejny raz się pojawią i czy w ogóle się pojawią, eksperyment nie może trwać dowolnie długo

Podział na grupy -‐ wyzwania Kilka sposobów identyfikacji użytkownika: 1.  cookie 2.  zarejestrowani użytkownicy 3.  identyfikatory w aplikacjach mobilnych

Rozłączność!! Tak, tak. Nie zważając na to, że jeden użytkownik może się ukrywać pod kilkoma identyfikatorami.

Podział na grupy -‐ wyzwania Czasem trzeba sprawdzić dodatkowe warunki: •  położenie geograficzne •  profil demograficzny •  dotychczasową historię zakupów

Szybkość!! Czyli Spark i filtry Blooma J

Zebranie danych

Dobór statystyki

W statystyce musimy sobie odpowiedzieć na jedno zasadnicze pytanie…

Dobór statystyki

No może nieco więcej niż jedno J 1.  Czy próby są od siebie zależne czy niezależne?

Dobór statystyki

I jeszcze jedno J 2.  Ile mam grup?

Dobór statystyki

I jeszcze J 3.  Na jakiej skali pomiarowej jest zmienna

zależna?

(nominalna, porządkowa, interwałowa, ilorazowa)

Dobór statystyki

I jeszcze J 4.  Czy rozkład zmiennej zależnej jest normalny?

Witamy w świecie rozkładów prawoskośnych

Dobór statystyki

I tak znaleźliśmy się w świecie statystyk nieparametrycznych. Tak, macie rację. Nie uczyli o tym zbyt wiele na studiach J

Test Manna-‐Whitneya Test Kołmogorowa-‐Smirnowa Test Kruskala-‐Wallisa

Od testu do wdrożenia na całym serwisie

Dobra praktyka – przełączamy małymi grupkami (np.: po 5% dziennie) i obserwujemy.

Dużo jednoczesnych testów -‐> kiedy uruchomić kolejny

Id testu

Początek testu Koniec testu

1 2015-‐01-‐01 00:00:00 2015-‐11-‐30 23:59:59

2 2015-‐07-‐01 00:00:00 2015-‐12-‐31 23:59:59

3 2015-‐06-‐20 14:21:00 2015-‐10-‐20 15:29:59

4 2015-‐10-‐03 12:00:00 2015-‐10-‐31 11:59:59

… … …

Wskaż optymalny moment do przeprowadzenia testu, który ma trwać dwa tygodnie. Ma się pokrywać z jak najmniejszą ilością zaplanowanych testów. Złożoność wielomianowa mile widziana.

Dziękuję za uwagę. radoslaw.kita@allegrogroup.com

Meetup 1 eksperymentujemy_na_duza_skale_rkita

Data & Analytics

Transcript of Meetup 1 eksperymentujemy_na_duza_skale_rkita

1 1 X 1 X 1

Koci 1 1 1

Tico Tico - studio-music-files.co.uk Tico Orchestra Arr.: Jérôme Naulais EMR 4783 1 1 1 1 1 (Komponist / Composer) 1 1 1 1 1st 1nd 1 1 1 1nd Full Score 1st Flute ... Piano / Keyboard

· dina sutherland perez edith miriam estay low tamara soto espinoza yannira soto munoz 1 1 4 1 1 1 3 1 1 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1 1 1 7 1 3 1 4 3 1 1 1 1 3 1 1 ...

Design bliski użytkownikowi. Psychologiczne aspekty projektowania. 3. Dribbble Warsaw Meetup

DDlaczego to, czego nie widać ma największe znaczenie czylifiles.meetup.com/19444942/M30 Meetup 2016.10.25 All.pdf · FinextFinext: artykuł : artykuł : artykuł ––––Strefa

[Quality Meetup] M. Górski, M. Boś - Testy UI w Espresso z farmą w tle

Wroclaw SAP Meetup - 2017/01

Å 1 X 1 Å 1 1 1 - filologika.gr

005 Kaczka Niedzielna · się przez portal Meetup. Jeżeli wybieracie się do Anglii lub macie tam znajomych, zanotujcie link do Polskich Spotkań Manchester: ... Alibaba, Ul. Marszałkowska

Vloger starter pack - Stary Browar & Cupsell meetUp 2014

allegro.tech Data Science Meetup #2: Akka i word2vec, czyli jak nauczyć sieć neuronową polskiego internetu

COD. HAR SIERRA APELLIDO 1 APELLIDO 2 NOMBRE T ......947H AGUILA JOAQUIN SOFIA 0 0 1 1 1 1 1 1 389Q AGUILA VILLARIN JUAN 0 1 1 1 1 1 1 1 142M AGUILAR ZAMORA ANA 0 1 1 1 498Y AGUILAR

SEO na etapie programowania - Meetup#3 Bydgoszcz

Making Software – Developers’ Meetup Summer 2016 - Talenty w praktyce

,c,html/736/... · ZOOMIffiPåüI] -0—1 o. 3. 3. 70 25 h 26k 19k 18B (h) 207k 277k 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 9 9 o 1 1 0 3 o 3 0 3 0 703 704 701 70 4 705

WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

panewsarchive.psu.edu€¦ · . :- 7 , • 1 • 1 . .i ; 1- -Ir •- 1 •. . 1! . . I • - - !-..-• .1 - ' • i ;', • .--' • • •• :.1 * . •... i 1 1'•• i ,,i•

0#')10*+ "152 1&'8 ! $, +''+ !' +. )1 " 1()1 .' '.' %,10#41 *.'" '*% )+ '&,$, + $ +,= ': *1+ #: *#')10*+ 31.0 ' & " ,&# "! !) $ 0; 0 1()1 .' '.' ()1 *05 3%,10#41 ...

Warsaw Frontend Meetup #1 - Webpack

0#')10+ "152 1&'8 ! $, +''+ !' +. )1 " 1()1 .' '.' %,10#41 .'" '% )+ '&,$, + $ +,= ': 1+ #: #')10+ 31.0 ' & " ,&# "! !) $ 0; 0 1()1 .' '.' ()1 *05 3%,10#41 ...