Meetup 1 eksperymentujemy_na_duza_skale_rkita
-
Upload
radoslaw-kita -
Category
Data & Analytics
-
view
1.206 -
download
0
Transcript of Meetup 1 eksperymentujemy_na_duza_skale_rkita
Eksperymentujemy po co i jak prowadzić testy A/B
na dużą i małą skalę Radosław Kita
Warszawa, 2015-‐10-‐06
1
Właściwie po co te testy? • Przecież wszyscy…. • Ludzie zazwyczaj… • Nikt rozsądny… • Moje dziecko to zawsze… • Jak mam coś znaleźć, to robię to tak… • Nie, nie, nie. To się nie sprawdzi. W trzewiach to czuję.
2
Właściwie po co te testy? • Zróbmy ankietę • Pokażmy ekspertom makietę • Zróbmy badanie fokusowe
„Pozwólmy naszym ideom umierać za nas” Karl Popper „Data driven company”
3
Co testujemy? Wszystko J Nie no serio, prawie wszystko J • Efektywność systemów
rekomendacji • Efektywność algorytmów
wyszukiwania • Zmiany w budowie stron • Zmiany w aplikacjach • Każdą nową funkcjonalność
4
Jak to działa? 1. Definicja testu 2. Plan eksperymentalny 3. Podział na grupy 4. Zebranie danych 5. Dobór statystyki 6. Od testu do wdrożenia na całym serwisie 7. Dużo jednoczesnych testów -‐> kiedy uruchomić kolejny
Czyli trochę wyzwań: od technologicznych poprzez programistyczne aż po statystyczne.
5
Definicja testu
6
• Osoba definiująca test musi mieć dostęp do graficznego interface. • Musimy przekazać dalej definicję której funkcjonalności dotyczy
eksperyment – identyfikowanie użytkowników, którzy rzeczywiście mieli kontakt z naszą funkcjonalnością.
• Co jeśli trzeba przewinąć ekran albo rozklikać jakieś menu?
Definicja testu
7
Miara sukcesu: • Przychodowość – wiadomo J • Ilość kliknięć? • Jednorodność koszyka zakupowego? • Długość ścieżki zakupowej? • Aktywizacja nowych użytkowników? • …
Definicja testu
8
Co porównujemy: • Średnia? • Mediana? • 75 centyl/percentyl? • …
Plan eksperymentalny
Użytkownicy
Grupa testowa
Grupa kontrolna
9 Początek pomiaru
Koniec pomiaru
Początek pomiaru
Koniec pomiaru
Plan eksperymentalny
10
Tak to działa przy jednym pomiarze. Co jeśli dwa lub więcej? Szczególnie jeśli pomiar odbywa się w jawny dla użytkownika sposób. Np. zmiana świadomości marki wskutek kontaktu z reklamą.
Plan eksperymentalny
11
Grupa kontrolna 1
Drugi pomiar
Pierwszy pomiar
Grupa kontrolna 2
Drugi pomiar
Grupa testowa 1
Drugi pomiar
Pierwszy pomiar
Grupa testowa 2
Drugi pomiar
Podział na grupy 1. Losowy 2. Rozłączność grup w obrębie eksperymentu 3. Rozłączność grup między eksperymentami – o ile to
konieczne (eksperymenty dotyczą tego samego elementu lub mogą na siebie wpływać)
12
Podział na grupy -‐ wyzwania Losowość: każdy z użytkowników powinien mieć jednakowe prawdopodobieństwo znalezienia się w grupie. Dwa możliwe podejścia: 1. Dzielimy on-‐line w miarę jak się pojawiają –
nadreprezentacja bardziej aktywnych 2. Dzielimy off-‐line przed eksperymentem na podstawie bazy
danych – nie wiemy kiedy kolejny raz się pojawią i czy w ogóle się pojawią, eksperyment nie może trwać dowolnie długo
13
Podział na grupy -‐ wyzwania Kilka sposobów identyfikacji użytkownika: 1. cookie 2. zarejestrowani użytkownicy 3. identyfikatory w aplikacjach mobilnych
Rozłączność!! Tak, tak. Nie zważając na to, że jeden użytkownik może się ukrywać pod kilkoma identyfikatorami.
14
Podział na grupy -‐ wyzwania Czasem trzeba sprawdzić dodatkowe warunki: • położenie geograficzne • profil demograficzny • dotychczasową historię zakupów
Szybkość!! Czyli Spark i filtry Blooma J
15
Zebranie danych
16
Dobór statystyki
17
W statystyce musimy sobie odpowiedzieć na jedno zasadnicze pytanie…
Dobór statystyki
18
No może nieco więcej niż jedno J 1. Czy próby są od siebie zależne czy niezależne?
Dobór statystyki
19
I jeszcze jedno J 2. Ile mam grup?
Dobór statystyki
20
I jeszcze J 3. Na jakiej skali pomiarowej jest zmienna
zależna?
(nominalna, porządkowa, interwałowa, ilorazowa)
Dobór statystyki
21
I jeszcze J 4. Czy rozkład zmiennej zależnej jest normalny?
Witamy w świecie rozkładów prawoskośnych
Dobór statystyki
22
I tak znaleźliśmy się w świecie statystyk nieparametrycznych. Tak, macie rację. Nie uczyli o tym zbyt wiele na studiach J
Test Manna-‐Whitneya Test Kołmogorowa-‐Smirnowa Test Kruskala-‐Wallisa
Od testu do wdrożenia na całym serwisie
Dobra praktyka – przełączamy małymi grupkami (np.: po 5% dziennie) i obserwujemy.
23
Dużo jednoczesnych testów -‐> kiedy uruchomić kolejny
Id testu
Początek testu Koniec testu
1 2015-‐01-‐01 00:00:00 2015-‐11-‐30 23:59:59
2 2015-‐07-‐01 00:00:00 2015-‐12-‐31 23:59:59
3 2015-‐06-‐20 14:21:00 2015-‐10-‐20 15:29:59
4 2015-‐10-‐03 12:00:00 2015-‐10-‐31 11:59:59
… … …
24
Wskaż optymalny moment do przeprowadzenia testu, który ma trwać dwa tygodnie. Ma się pokrywać z jak najmniejszą ilością zaplanowanych testów. Złożoność wielomianowa mile widziana.
Dziękuję za uwagę. [email protected]
25