Jak zapewnić wysoką jakość - dataquality.pl · miejsce zamieszkania czy pracy, stanowisko itd....
Transcript of Jak zapewnić wysoką jakość - dataquality.pl · miejsce zamieszkania czy pracy, stanowisko itd....
2
Czy Twoim zdaniem „Jan Besiński, Plac Unii Lubelskiej 82 C m 5, 02-745, Warszawa”
i „Jan Beksiński PL. Unii Lubelskiej 82c/m.5, ,W-wa” to ta sama osoba, czy nie? Z bardzo dużym
prawdopodobieństwem, graniczącym z pewnością można stwierdzić, że ta sama. Adres jest ten sam
(chociaż inaczej zapisany i brakuje kodu pocztowego, lecz on tutaj nie jest istotny), nazwiska inne, ale
domyślamy się, że różnica musi wynikać z literówki.
Jednak dla systemu CRM to są dwie różne osoby. I jeżeli nie mamy skutecznego mechanizmu
sprawdzającego, czy rekordy te nie są duplikatami, otrzymujemy przepis na katastrofę.
E-book, którego właśnie czytasz został przygotowany, aby pokazać, że problem słabej jakości danych
w systemach wcale nie jest błahy i wymaga szczególnej uwagi. W dalszych rozdziałach znajdziesz
odpowiedzi na pytania, co to znaczy, że dane są słabej jakości, co jest tego przyczyną, jak ocenić, czy
problem słabej jakości danych dotyczy właśnie Twojej firmy oraz jak sobie z nim radzić i zapobiegać.
3
Spis treści
Dane – kluczowy czynnik sukcesu każdej firmy ....................................................................................... 5
Słaba jakość danych, ale co to znaczy? ....................................................................................................... 6
5 przykładów wpływu słabej jakości danych na biznes ......................................................................... 7
Dlaczego dane są słabej jakości? .................................................................................................................. 9
Jak sprawdzić czy Twoje dane są słabej jakości? ................................................................................... 10
Jak poprawić jakość danych? ........................................................................................................................ 13
5
Dane – kluczowy czynnik sukcesu każdej firmy
Dane są wartością oraz podstawą funkcjonowania praktycznie każdej firmy. Weźmy proste
przykłady. Wyobraź sobie, że prowadzisz sklep internetowy. Twoi klienci dokonując zakupu,
wypełniają formularz on-line informacjami o sobie i szczegółami dotyczącymi zamówienia.
Te dane są następnie wykorzystywane do skompletowania zamówienia, wystawienia
faktury i wysłania produktów pod wskazany adres. Jeżeli uruchamiasz program
lojalnościowy możliwe, że zbierasz informacje takie jak imię, adres zamieszkania, numer
telefonu czy rok urodzenia uczestników, aby zwiększyć sprzedaż poprzez informowanie ich
o najnowszych promocjach czy udzielanie rabatów z okazji urodzin.
Dane są wykorzystywane też do bardzo zaawansowanych analiz. Gromadzone m.in.
w systemach CRM, marketing automation, billingowych, hurtowniach danych czy różnych
plikach są następnie odpowiednio łączone i przetwarzane, aby odpowiedzieć na szereg
pytań dotyczących bieżącej kondycji firmy, perspektywy i najlepszych kierunków jej
rozwoju czy strategii sprzedażowych i marketingowych. My, w prowadzonych
projektach wykorzystujemy je do odpowiedzi na takie pytania jak np.:
Trzeba jednak pamiętać, że na skuteczność decyzji podjętych w oparciu o dane, olbrzymi
wpływ ma jakość tych danych. Błędne dane będą generować błędne decyzje.
Przykładowo, jeżeli dane o klientach nie są poprawne, kompletne czy też aktualne, może
Którzy klienci w
najbliższym czasie
odejdą do
konkurencji?
Kiedy i jakim
kanałem najlepiej
się komunikować z
klientem?
Jaki przychód
wygeneruje nowy
klient dla firmy w
przyszłości?
Jak
zmaksymalizować
ROI z kampanii
e-mailingowej?
Jak zwiększyć
odpowiedź z
kampanii
marketingowej?
Jaka jest szansa, że
dany kredytobiorca
spłaci kredyt w
przyszłości?
6
się okazać, że Twój przekaz marketingowy nie dotrze do właściwych osób, a to oczywiście
przekłada się na gorsze wyniki prowadzonych kampanii czy nawet straty finansowe.
Niestety, jak wskazuje Harvard Business Review jedynie 16% badanych managerów było
głęboko przekonanych o dobrej jakości danych, na podstawie których podejmowali
decyzje biznesowe.
Słaba jakość danych, ale co to znaczy?
...Dane są wysokiej jakości jeżeli nadają się do użycia zgodnie z przeznaczeniem w zakresie
działania, podejmowania decyzji i planowania. Dane nadają się do użycia zgodnie
z przeznaczeniem, jeżeli nie zawierają defektów i posiadają pożądane cechy...
Źródło: Redman, T.C., “Data Quality. The Field Guide”. 2001, Boston: Digital Press.
Co wpływa na to, że w danych pojawiają się błędy, ich jakość danych ulega pogorszeniu?
Wymienię kilka powodów:
1. Duplikacja – powielanie tej samej informacji w bazie danych, np. ta sama osoba
może występować systemie wielokrotnie.
2. Dezaktualizacja – każdego roku wiele osób zmienia swój stan cywilny, nazwisko,
miejsce zamieszkania czy pracy, stanowisko itd. Po pewnym czasie, część informacji
w bazach danych klientów/kontrahentów staje się po prostu nieaktualna.
3. Braki w danych – z tą sytuacją mamy do czynienia, gdy baza danych wygląda jak
ser szwajcarski. Przykładowo, wpisana jest ulica zamieszkania, ale brakuje kodu
pocztowego.
7
4. Brak standaryzacji – jeżeli w Twojej firmie nie ma zasad, jakimi należy się kierować,
wprowadzając dane do systemu, może się okazać, że ta sama informacja będzie
zapisana na kilka różnych sposobów. Przykładowo: „Warszawa”, „Wa-wa”, „W-wa”,
„warszawa”.
5. Zafałszowanie informacji – jest to intencjonalnie podawanie błędnych danych,
np. nie istniejących ulic czy numerów telefonów.
5 przykładów wpływu słabej jakości danych na biznes
1. Zirytowanie klienta lub nawet jego utrata
Przykładowo: błędy w adresach to niedoręczone przesyłki z zamówionymi towarami w
sklepie internetowym, brak mechanizmów deduplikacji (usuwania duplikatów w systemach)
może spowodować, że klient, będzie wielokrotnie windykowany, mimo że spłacił już
wszystkie zaległości lub otrzyma tą samą ofertę produktu od różnych handlowców itd.
2. Utrata wizerunku profesjonalnej firmy
Przykładowo: błędna personalizacja newsletterów – wysłanie najnowszej oferty kremu
na cellulit mężczyźnie – niekoniecznie musi spowodować, że klient będzie niezadowolony,
ale na pewno ma wpływ na postrzeganie Twojej marki jako mało profesjonalnej.
3. Straty finansowe
Przykładowo: zduplikowane informacje to potencjalnie wyższy koszt ich utrzymania (m.in.
koszt serwerów, systemów CRM), zduplikowane kontakty w bazie mogą spowodować, że
8
kod rabatowy na dane produkty zostanie przyznany jednej osobie wielokrotnie, zwroty
paczek z tytułu błędów w adresach klientów generują dodatkowe koszty ich obsługi (np.
wynagrodzenie firmy transportowej, koszt pracy pracowników).
4. Utracone możliwości sprzedażowe
Przykładowo: błędy w adresach klientów czy literówki w adresach e-mail, powodują, że
przesyłki z katalogami produktów czy najnowsza oferta promocyjna nie dotrze
do wszystkich osób, które zostały objęte kampanią.
5. Nieefektywność pracy
Przykładowo: brak numeru telefonu czy jego zły format brak możliwości szybkiego
kontaktu z potencjalnymi klientami.
9
6. Błędne wnioski z analiz
Przykładowo: przypuśćmy, że chcesz zobaczyć, z której części Polski pochodzą Twoi klienci
oraz gdzie jest największy potencjał sprzedażowy dla Twojego biznesu. Jeżeli nazwy
miejscowości są zapisane w bazie na kilka różnych sposobów, informacja jaką uzyskasz
będzie zniekształcona na skutek tych błędów (część klientów nie zostanie uwzględniona,
bo przecież nie pochodzą z Gliwic, ale z Gliwc). Błędy w danych to również potencjalne
problemy: w ustaleniu jaki przychód generuje dany klient lub kto jest najlepszym klientem,
w segmentacji klientów wg branży, ról itd.
Dlaczego dane są słabej jakości?
Pozwolę sobie przytoczyć 3 źródła powstawania błędów w danych.
1. Czynnik ludzki
Każdy z nas może popełnić błąd przy wprowadzaniu danych do systemu, wypełnianiu
formularzy elektronicznych czy papierowych. Informacje mogą być wprowadzone
do niewłaściwego pola, adres podany z literówką, a niektóre pola pozostają niewypełnione.
Wynika to pośpiechu, nieuwagi, czasami nie rozumiemy jakich informacji się od nas
oczekuje lub świadomie lekceważymy ich znaczenie.
A jeżeli masz charakter pisma taki jak mój, rozczytanie wypełnionego formularza
papierowego graniczy z cudem. Operatorzy danych w takim przypadku wpisują to co im się
wydaje, a nie jest koniecznie prawdą.
10
2. Oprogramowanie
Jednym z problemów jest to, że firmy zbierają i gromadzą dane w różnych źródłach danych
(m.in. arkusze kalkulacyjne, bazy danych, systemy CRM itd.), które są rozproszone w całej
organizacji. Przykładowo, wiele dużych firm handlowych posiada nawet 10 różnych baz
danych, w których dane o klientach są zbierane i to w odmienny sposób. Taki stan jest
źródłem potencjalnych problemów. Próba integracji baz może spowodować, że ten sam
klient pojawi się wielokrotnie w nowym, centralnym systemie.
Potencjalne źródło problemów to również przejście z jednego systemu na inny. Może się
okazać, że w nowym systemie pojawią się parametry, które nie były dotąd wymagane,
co spowoduje oczywiście, że nowa baza będzie niekompletna.
W innym przypadku utrudnione może być zmapowanie określonych pól w obu systemach,
szczególnie jeżeli w jednym z nich, adres klienta był zapisywany w pojedynczym polu,
a w drugim adres jest rozdzielany na kilka różnych pól.
3. Czynniki zewnętrzne
Do tej grupy można zaliczyć na przykład awarie sprzętowe oraz samoistne starzenie się
danych.
Jak sprawdzić czy Twoje dane są słabej jakości?
Eksperyment nr 1
Jednym ze sposobów jest rejestracja zwrotów przesyłek czy korespondencji. Na początku
ustal jak długo ma trwać eksperyment (np. 2 tygodnie, 1 miesiąc). Następnie, każdego dnia
rejestruj zwroty nadanych przesyłek wraz z ich kosztem i przyczyną. Pod koniec
eksperymentu porównaj ile zwrotów wynikało z błędnych danych adresowych, a ile
z innych powodów oraz jakie były tego koszty.
11
Eksperyment nr 2
Wybierz pewną losową próbkę rekordów z danymi klientów ze swojego systemu CRM
i przetestuj ich jakość w jednym z dostępnych na rynku systemów do czyszczenia danych.
W systemie dataquality.pl możesz przetestować aż 1 000 rekordów za darmo.
Eksperyment nr 3
Kolejną propozycją jest podejście zaproponowane przez Thomasa Redmana zwane Friday
Afternoon Measurement. Eksperyment obejmuje następujące etapy:
o Krok 1
Wybierz 100 rekordów, które jako ostatnie pojawiły się w Twojej bazie. Na potrzeby
naszego e-booka posłużę się przykładem 100 ostatnich zamówień dokonanych w sklepie
internetowym. Następnie zaznacz 10-15 elementów, które dla Ciebie i Twojej firmy są
najistotniejsze. W przypadku systemu zamówień mogą to być dane klienta, ilość
zamówionych produktów, kwota i data zamówienia, data, czy skompletowano zamówienie
itp. A następnie wyeksportuj bazę do arkusza kalkulacyjnego.
o Krok 2
Zaproś 2 lub 3 osoby z twojego zespołu lub całej firmy, które znają te dane na 2-godzinne
spotkanie w piątek, w celu dokładniejszego przeanalizowana pliku.
o Krok 3
Waszym celem będzie wyłapanie wszystkich błędów jakie pojawiły się w tej próbce danych.
Przeanalizujcie rekord po rekordzie i zaznaczcie kolorem wszystkie błędy: np. literówki,
braki danych, przypisanie informacji do złych kategorii itd. Cała analiza nie powinna zająć
zbyt dużo czasu – nie poświęcajcie więcej niż 30 sekund na każdy rekord.
12
Źródło: Harvard Business Review
o Krok 4
Zsumujcie prawidłowo wypełnione rekordy (w naszym przykładzie będzie to 67 rekordów
na 100) oraz przypiszcie koszty, zgodnie z zasadą, że koszt pracy opartej na błędnych
danych jest 10-krotnie wyższy niż koszt pracy opartej na danych poprawnych.
Podsumowując:
Koszt pracy = (67 rekordów x PLN 1.00) + (33 rekordów x PLN 1.00 x 10) =
PLN 67 + PLN 330 = PLN 397
Koszt pracy, pod warunkiem, że wszystkie dane są prawidłowe wynosi 100 PLN (100
rekordów x PLN 1.00), czyli 4 krotnie mniej niż w przypadku, gdy 67% danych jest
prawidłowych (PLN 397).
Spójrzcie jeszcze raz na dane i zobaczcie co wymaga natychmiastowej poprawy, co jest
kluczowe z punktu widzenia Waszego biznesu i zacznijcie wprowadzać zmiany, których
efektem będzie poprawa jakości bazy w tych obszarach.
13
Jeżeli jednym z kluczowych dla Was są błędy w danych teleadresowych, skorzystajcie
z systemu dataquality.pl, które pozwoli Wam szybko wystandaryzować adresy klientów
i uzupełnić rekordy o brakujące dane.
Jak poprawić jakość danych?
Czyszczenie danych
Najlepiej zapobiegać niepożądanym sytuacjom. Ale jeżeli problem błędnych danych już się
pojawił, to jednym ze sposobów poprawy ich jakości jest tzw. czyszczenie danych.
Przykładowy proces może się składać z kilku etapów – parsowanie, standaryzacja,
deduplikacja – i powinien być poprzedzony dogłębną analizą problemu, tzw.
profilowaniem danych. W trakcie profilowania danych weryfikowana jest jakość danych
pod kątem poprawności technicznej (podstawowe statystyki danych, testy formatu danych)
i biznesowej (zgodność ze słownikami, wartości odstające i nietypowe itp.).
Parsowanie – umożliwia rozbicie jednego złożonego pola na wiele pól w oparciu
o znaczenie danych i kontekst (na przykład imię i nazwisko, kod i miejscowość itp.).
Na tym etapie realizowane są dodatkowe zadania takie jak:
o określanie płci na podstawie popularnych imion,
o dopisanie dodatkowych informacji, na przykład kodu i nazwy gminy
(po zidentyfikowaniu miejscowości),
o wyodrębnianie formy prawnej w przypadku firm,
14
o na podstawie zawartości pola “nazwa” rozpoznawane jest czy dany rekord
zawiera osobę, grupę osób, instytucję, firmę lub działalność gospodarczą itd.
Standaryzacja – umożliwia zamianę wielu różnych wystąpień tej samej wartości
zmiennej jedną wartością. Przykładowo wartości „Kraków”, „Krakow”, „krakow”,
„Krakw” zostaną zastąpione jedną i tą samą wartością – „Kraków”, a „Tomasz”,
„tomek”, „Tomk” zostaną ujednolicone i zastąpione jednym imieniem „Tomasz”.
Na tym etapie należy skorzystać z dostępnych na rynku słowników miejscowości,
ulic, czy imion.
Deduplikacja – pozwala na wykrycie powtórzonych rekordów i ich konsolidację.
Przykłady duplikatów:
W ramach tego etapu możliwe jest m.in.:
o wyszukiwanie wielokrotnych wpisów tego samego klienta w bazie nawet, gdy
dane są zapisane na różne sposoby,
o łączenie baz z wielu źródeł i ich ujednolicenie polegające na stworzeniu
rekordu klienta obejmującego wszystkie informacje z różnych źródeł.
Deduplikacja nie zawsze jest zadaniem trywialnym. Czasami niezbędne jest
zastosowanie zaawansowanych algorytmów, które określą prawdopodobieństwo
15
tego, że dwa rekordy są duplikatami (matching probabilistyczny vs. matching
równościowy).
Do realizacji tego procesu, skorzystaj z dostępnych na rynku systemów do czyszczenia
i zarządzania jakością danych.
Jeżeli Twoje dane gromadzisz w arkuszach kalkulacyjnych, sprawdź również
te 10 sposobów na wyczyszczenie danych.
Zapobieganie
Zapobieganie błędom w danych jest zdecydowanie lepsze i tańsze niż próba ich
naprawienia, a tym bardziej nie robienia niczego w kierunku poprawy sytuacji.
Pamiętasz zasadę, o której wspomniałam wcześniej, że podejmując decyzje na podstawie
błędnych danych ponosi się koszt 10-krotnie wyższy, niż w przypadku danych
poprawnych.
Inne źródło podaje następujące koszty:
1 dolar – to koszt, jaki ponosimy, jeżeli chcemy zapobiec wystąpieniu błędu w danych,
10 dolarów – to jest koszt, jaki musimy ponieść, żeby naprawić błędy w danych,
100 dolarów – to jest koszt braku jakichkolwiek działań i błędnych decyzji podjętych
w oparciu o nieprawidłowe dane.
Oto kilka zasad, którymi warto się kierować, aby zapobiegać powstawaniu błędów
w danych:
1. Czynnik ludzki jest jednym z głównych powodów obniżenia jakości danych. Dlatego
tak ważne jest odpowiednie przeszkolenie pracowników, a następnie motywacja
oraz wyznaczenie osób odpowiedzialnych za utrzymanie wysokiej jakości bazy
danych.
2. Nawet najlepsze chęci wszystkich pracowników na nic się zdadzą, jeżeli w firmie nie
ma standardów w jaki dane są wprowadzane do systemu. Jedna osoba nadal
16
będzie wpisywała ulicę jako skrót („ul”) a druga pełną nazwą („ulica”). Warto
te standardy ustalić jak najszybciej.
3. Warto prowadzić i aktualizować na bieżąco słowniki dla wszystkich
zidentyfikowanych w firmie danych, tak, aby dla każdej zainteresowanej osoby
było oczywiste co one zawierają. Przykładowe elementy takich słowników to:
o Definicja danych – nie zawsze nazwy pól w bazie wskazują na to jaka
informacja jest przechowywana. Przykładowo, czy wiesz co oznaczają pola
POP901, MARR1, IC10 ? Ja też nie i pewnie nikt nie będzie wiedział, oprócz
autorów (o ile jeszcze pracują w firmie). Dokładana definicja ułatwi życie
pracownikom oraz nie zostawi miejsca na błędne interpretacje i domysły.
o Specyfikacja wartości danych – jaka jest oczekiwana wartość poszczególnych
pól danych, w tym typ danych (tekstowy, numeryczny, data itd.), możliwe
wartości minimalne i maksymalne, wartości dopuszczalne oraz nie itd.
o Informacja skąd dane pochodzą, co jest oryginałem (szczególnie istotne
w przypadku większych organizacji). Dane oryginalne mogą być powielane
a następnie modyfikowane, przenoszone w inne miejsca, co zwiększa ryzyko
powstawania błędów. Warto znać ich źródło.
o Częstotliwość aktualizacji danych
o Zakres informacji – niektóre dane są agregatami, dlatego też warto wiedzieć
co kryje się za ich definicją, co zawierają a co nie, jak są kalkulowane itd.
4. Stosuj auto-uzupełnianie formularzy. W tym przypadku, zamiast wpisywać adres
w całości, klient czy pracownik wprowadza jedynie początek nazwy, po czym może
wybrać właściwą pełną nazwę z listy. Minimalizuje to ryzyko błędów w danych
adresowych. Pamiętaj o systematycznej aktualizacji słowników miejscowości,
ulic i kodów pocztowych.
Interesuje cię możliwość auto-uzupełniania formularzy na stronie WWW? Skontaktuj
się z nami: [email protected]
17
5. Waliduj dane zanim trafią one do systemu. Cały proces czyszczenia danych można
zautomatyzować i uruchamiać w trakcie, gdy dane są wprowadzane
do systemu. W takiej sytuacji, każdy nowy rekord, który ma być zapisany w systemie
CRM, najpierw zostanie oczyszczony. Wszystko dzieje się w trybie rzeczywistym,
niezauważalnym dla klienta czy pracownika Twojej firmy.
6. Regularnie czyść dane – dane starzeją się szybko, dlatego też bez względu na to
jak dobre dane są na wejściu do systemu (np. dzięki wprowadzonym standardom,
początkowej walidacji danych), niezbędna jest ich okresowa ocena i czyszczenie.
7. Odpowiednio projektuj modele baz danych. Nieoptymalny model może
prowadzić do niespójności danych (np. kiedy dane klienta są rejestrowane
niezależnie w różnych modułach) czy też powodować, że dane nie będą zapisywane
w ujednoliconej postaci (np. kiedy system pozwala na zapis wielu informacji – ulica,
numer domu, mieszkania, kod – w jednym polu).
O Algolytics
W Algolytics przewidujemy zachowania klientów w oparciu o dane. Wiemy jak ważna jest
jakość danych – trudno jest uzyskać poprawną interpretację biznesową w oparciu o dane
zawierające błędy.
Zrealizowaliśmy kilkadziesiąt projektów z obszaru oceny i poprawy jakości danych.
Przeanalizowaliśmy w sumie 30 milionów rekordów, osiągnąć skuteczności w czyszczeniu
danych na poziomie ponad 90%.
Sprawdź nasze rozwiązania do poprawy jakości danych.
Algolytics Sp. z o.o. ul. Wołodyjowskiego 38A, 02-724 Warszawa
tel.: +48 22 847 97 17, e-mail: [email protected]
Linkedin Twitter Facebook Blog