Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych...
Transcript of Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych...
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Zarządzanie jakością danych
z wykorzystaniem SAS Data Quality
WEBINAR, 2016.03.01
Patryk ChoroŚ, SAS Institute
Zbigniew Wyszomierski, SAS Institute
Company Confidential - For Internal Use Only
Copyright © 2013, SAS Insti tute Inc. Al l r ights reserved.
WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI
• Patryk Choroś
• Principal Business Solutions Manager
• Zbigniew Wyszomierski
• Product Management,
obszar: Data Management
• Dzisiejsze spotkanie jest pierwszym z
cyklu webinarów poświęconych
technologii SAS
• Na stronie www.sas.com/poland
dostępne jest agenda pozostałych
spotkań oraz nagrania z zakończonych
webinarów
• Zapraszamy do zadawania pytań
z wykorzystaniem funkcji „czatu”
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT
REPORTS
Data Integration ToolsJuly 29, 2015
Data Quality ToolsNovember 18, 2015
Source: Magic Quadrant for Data Integration Tools, July 29, 2015,
Eric Thoo, Lakshmi Randall.
Gartner RAS Core Research Note G00269320
Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah
and Ted Friedman, November 18, 2015
Gartner RAS Core Research Note: G00272508
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT
REPORTS
Source: Magic Quadrant for Advanced Analytics Platforms,
9 February 2015, Lisa Kart, Gareth Herschel, Alexander Linden, Jim Hare
Gartner RAS Core Research Note G00275788
Advanced Analytics PlatformsFebruary 9, 2016
Source: Magic Quadrant for Data Integration Tools, July 29, 2015,
Eric Thoo, Lakshmi Randall.
Gartner RAS Core Research Note G00269320
Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah
and Ted Friedman, November 18, 2015
Gartner RAS Core Research Note: G00272508
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Company Confidential - For Internal Use Only
Copyright © 2013, SAS Insti tute Inc. Al l r ights reserved.
ZARZĄDZANIE
JAKOŚCIĄ DANYCHDEFINICJA JAKOŚCI DANYCH
Data are of high quality "if they are fit for
their intended uses in operations,
decision making and planning"
(J. M. Juran)
http://en.wikipedia.org/wiki/Data_quality
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na zakres tematyczny:
Analizowane dane nie ulegają modyfikacji
• Proces określany terminem: profilowania danych
• Ocena jakości danych za pomocą zestawu miar\statystyk
• Możliwe podejście ad-hoc lub ujęcie systemowe
Analizowane dane ulegają przekształceniu
• Proces określany terminem: standaryzacji danych
• Wymagana definicja „wzorca \ standardu” rozumiejącego rodzaj
przetwarzanej informacji
• Standaryzacja – wymagany krok dla obszarów identyfikacji i deduplikacji
danych
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Identyfikacja rodzajów występujących błędów
• Błędy systemowe vs zdarzenia incydentalne
• Identyfikacja „luk” w przepływie danych w organizacji
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
• Rejestracja wyników na osi czasu
• Budowa własnych miar oceniających parametry jakościowe w danych
• Rozbudowane mechanizmy alertów
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Repozytorium reguł walidacyjnych
• Dowolność formuł walidacyjnych
• Hierarchia pomiędzy regułami
• Warstwa prezentacyjna, umożliwiająca identyfikację źródeł powstawania
błędów
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Repozytorium reguł walidacyjnych
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Repozytorium reguł walidacyjnych
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
• Analiza zależności w modelu danych
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
• Analiza zależności pomiędzy modelami danych
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Jak wykorzystać proces profilowania
• Elastyczna sonda pomiarowa
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
• Assessment w projektach (w obszarze jakości danych)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych
Wymagany wzorzec – SAS Quality Knowledge Base (QKB)
• Framework pozwalający na opis dowolnego języka:
Reguły fonetyczne
Konstrukcja gramatyczna
Ortografia i interpunkcja
Dodatkowe elementy: wielkość znaków, etc.
Słowniki z prawdopodobieństwami
• Polska wersja
• Elastyczność QKB:
Własne typy danych
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych - QKB
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych - QKB
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych
Wymagany wzorzec – SAS Quality Knowledge Base (QKB)
• Polska wersja
Adres
Data Urodzenia
Dowód osobisty
Numer Karty
Numer konta
Numer NIP
Numer PESEL
Płeć
Numer REGON
Numer telefonu
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych
Schematy standaryzacyjne
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych
Schematy standaryzacyjne
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Czyszczenie danych w praktyce
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Match codes i deduplikacja
• Identyfikacja\deduplikacja obiektów
System D
System E
System C
System B
PersonalID
ABC079675
FirstName
Zbigniew
Middle
Michał
LastName
Wyszomierski
PESEL
99082301232
Address
ul. A. Mickiewicza 64/4
Updated
2006-09-05System A
PersonalID
ABC079675
FirstName
Zbigniew
Middle
M
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Skoczna 6
Updated
2012-04-17
PersonalID
DB8881901
FirstName
Zbigniew
Middle
Michal
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Górna 53
Updated
2003/06/27
PersonalID
ABC079675
FirstName
Zbigniw
Middle
Michał
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Gwiaździsta 6 m.10
Updated
2010\02\14
PersonalID
AVU123456
FirstName
Zbigniew
Middle LastName
Wyszomirski
PESEL
99082301232
Address
ul. Mickiewicza 64/4
Updated
2012.09.11
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Master record
System D
System E
System C
System B
PersonalID
ABC079675
FirstName
Zbigniew
Middle
Michał
LastName
Wyszomierski
PESEL
99082301232
Address
ul. A. Mickiewicza 64/4
Updated
2006-09-05System A
3721B Zbigniew Michał Wyszomierski 99082301232 AVU070707 Skoczna 6 Warszawa PL 05-07730391-2441001 14239 30391-24430391244
EID Source Keys Survived Fields
PersonalID
ABC079675
FirstName
Zbigniew
Middle
M
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Skoczna 6
Updated
2012-04-17
PersonalID
DB8881901
FirstName
Zbigniew
Middle
Michal
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Górna 53
Updated
2003/06/27
PersonalID
ABC079675
FirstName
Zbigniw
Middle
Michał
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Gwiaździsta 6 m.10
Updated
2010\02\14
PersonalID
AVU123456
FirstName
Zbigniew
Middle LastName
Wyszomirski
PESEL
99082301232
Address
ul. Mickiewicza 64/4
Updated
2012.09.11
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na tryb pracy:
Ad-hoc
• Wymagana funkcjonalność uruchamiana jest w trybie interaktywnym
Procesowy
• Zestaw wymaganych kroków definiowany jest w postaci diagramu
• Diagram analizy może być uruchamiany wg zadanego harmonogramu
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na tryb pracy: ad-hoc vs proces
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na tryb przetwarzania:
Batch
• Analiza wykonywana jest wg zadanych reguł np.: czasowych, na określonych
repozytoriach danych
Real-time
• Analiza danych może nastąpić już na etapie ich powstawania
• Aplikacja dziedzinowa wywołuje dodatkowe procesy\usługi DQ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Batch
Real-time
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na wybraną architekturę rozwiązania:
Desktop
• Schemat\algorytm analizy i przetwarzanie odbywa się
na stacji roboczej
Serwer
• Projekt przetwarzania tworzony jest na desktopie
• Przetwarzanie odbywa się z wykorzystaniem serwera
In-database
• Komponenty DQ instalowane są w środowisku bazodanowym
• Minimalizacja transferu danych
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Serwer
• Transformacja(e) DQ jako element
procesu(ów) ETL/ELT
In-database
• Transformacje DQ instalowane w
środowiskach bazy danych
• SAS DataQuality Accelerator for …
Hadoop
Teradata
…
DQ
DQDQ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
1
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
3
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
34
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
34
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
34
5
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
34
5
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na kontekst:
Projekt niezależny
• Procesy DQ służą ogólnej poprawie danych w określonych repozytoriach
Komponent tzw. SAS Business Solutions
• Procesy\funkcjonalność DQ są integralną częścią innych rozwiązań:
zarówno technicznych jak i biznesowych
• Jakość przygotowanych danych determinuje skuteczność określonych
procesów biznesowych
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Jakość danych w SAS Business Solutions
Predictive modeling & business intelligence:
Nowe „podmioty” dla modeli predykcyjnych
• Kontrakt -> Klient -> Gospodarstwo domowe
Pełniejsze i lepsze „jakościowo” wypełnienie atrybutów dla
wejściowych tabel analitycznych
Pełniejsze dane w warstwie raportowej
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Jakość danych w SAS Business Solutions
Predictive modeling
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Jakość danych w SAS Business Solutions
Risk management & fraud detection:
Poprawa identyfikowalności podmiotów
Skuteczniejsze wykrywanie powiązań pomiędzy podmiotami
Skuteczniejsza agregacja danych ze względu na atrybuty
podmiotów
Poprawa skuteczności modeli wspierających zarządzanie
ryzykiem, np.: ryzyko kredytowe
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Jakość danych w SAS Business Solutions
Customer Intelligence:
Wsparcie działań sprzedażowych: lepsza identyfikowalność
podmiotów i powiązań pomiędzy nimi
Realizacja rozwiązań typu: widok 3600
Master Data Management
Budowa repozytoriów danych referencyjnych
Zależności pomiędzy obiektami
Automatyzacja działań marketingowych, np.: automatyczna
generacja ofert, opisów produktów etc.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CIEKAWE DOŚWIADCZENIA WDROŻENIOWE
REFERENCJE SAS INSTITUTE POLSKA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
REFERENCJE UFG
Rozmiar danych: 100 milionów wierszy (inicjalnie 72 mln)
Źródła danych: 4 systemy
Zakres danych: Dane o pojazdach, dane o ubezpieczonych, dane o kontrahentach
Opis wdrożenia:
• Zaprojektowanie algorytmów czyszczenia i uzupełniania danych: profilowanie, parsowanie, standaryzacja, walidacja, uzupełnianie słownikowe
• Udostępnianie danych za pośrednictwem usług sieciowych
• Pełne wdrożenie obejmujące wszystkie etapy projektu od prac analitycznych do uruchomienia produkcyjnego
Wyniki otrzymane po implementacji systemu:
• Stworzenie dedykowanej hurtowni danych ubezpieczeniowych wraz z ergonomicznym interfejsem składania zapytań
do centralnej, ogólnopolskiej bazy danych o ubezpieczeniach komunikacyjnych. UFG może realizować swoje
obowiązki ustawowe i spełniać oczekiwania rynku jako ośrodek informacji dla ubezpieczeń komunikacyjnych
• Nowe narzędzie pozwala firmom ubezpieczeniowym na szybkie sprawdzenie w ilu wypadkach uczestniczył właściciel
pojazdu i uwzględnienie tych informacji przy kalkulacji jego nowej składki za OC czy AC
• Przed wdrożeniem systemu liczba zapytań kierowanych do Ośrodka Informacji UFG przez zakłady ubezpieczeń
wynosiła ok. 17 tys. rocznie, natomiast w trakcie programu pilotażowego, który trwał od lutego do listopada ubiegłego
roku, ubezpieczyciele zadali łącznie 2,5 mln zapytań
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
REFERENCJE GŁÓWNY URZĄD STATYSTYCZNY
Rozmiar danych: około 5 TB
Źródła danych: narodowe rejestry spisowe (około 20 różnych źródeł danych)
Zakres danych: dane adresowe i kontaktowe, finansowe, ubezpieczeniowe, telekomunikacyjne, demograficzne i energetyczne
Opis wdrożenia:
Zakres procesu jakości danych: integracja i standaryzacja wszystkich głównych, narodowych rejestrów dla spisu powszechnego i rolnego
Główne techniki czyszczenia danych:
Kody dopasowania ,
Dystans Levenshtein-a,
Nakładanie schematów.
Polepszenie jakości danych zmierzone po zaimplementowaniu Data Quality:
• Np. rejestr PESEL: miasta 70,29%, ulice 85,67%
Company Confidential - For Internal Use Only
Copyright © 2013, SAS Insti tute Inc. Al l r ights reserved.
WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI
• Patryk Choroś
• Zbigniew Wyszomierski
• Zapraszamy na kolejne webinary o
technologii SAS na
www.sas.com/poland
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com
DZIĘKUJEMY ZA UDZIAŁ
PROSIMY O WYPEŁNIENIE ANKIETY