SQL Server 2012 Codename Denali

12
SQL Server 2012 Codename Denali Data Quality Services Grzegorz Stolecki jalne podziękowania dla Marcina Szeligi – współautora slajdów

description

SQL Server 2012 Codename Denali. Data Quality Services. Grzegorz Stolecki. Specjalne podziękowania dla Marcina Szeligi – współautora slajdów. Agenda. Problem jakości danych Usługa Data Quality Services Baza wiedzy Oczyszczanie danych Parowanie i deduplikacja danych - PowerPoint PPT Presentation

Transcript of SQL Server 2012 Codename Denali

Page 1: SQL Server 2012  Codename Denali

SQL Server 2012 Codename Denali

Data Quality ServicesGrzegorz Stolecki

Specjalne podziękowania dla Marcina Szeligi – współautora slajdów

Page 2: SQL Server 2012  Codename Denali

Agenda

• Problem jakości danych• Usługa Data Quality

Services – Baza wiedzy– Oczyszczanie danych– Parowanie i deduplikacja

danych• Integracja z usługą SSIS

O mnie…Grzegorz [email protected]

• Konsultant i trener Business Intelligence od 1998 roku

• SQL Server MVP

Page 3: SQL Server 2012  Codename Denali

To jakość jest najważniejsza

• Jakość danych jest miarą ich przydatności– Zależy od użycia danych

• Ilość cyfrowych danych podwaja się co niecałe dwa lata– W tym roku utworzonych

zostało już 1,8 zetabajta danych

Page 4: SQL Server 2012  Codename Denali

Typowe problemy z danymiCecha Problem Przykład

Integralność Te same dane mają różne znaczenia, a te same znaczenia reprezentowane są przez różne dane

Płeć oznaczana za pomocą symboli K/M w jednym systemie i symboli M/F w innym

Kompletność Część danych nie istnieje lub jest nieznana

Nazwiska 20% klientów są nieznane, 50% kodów pocztowych to 99999

Dokładność Dane są niedokładne, zaokrąglane lub pogrupowane

Odległość z Katowic do Warszawy jest większa niż z Warszawy do Katowic

Poprawność Dane nie są zgodne z regułami biznesowymi

Najmłodszy klient ma 0 latMężczyzna jest matką trojga dzieci

Unikatowość Te same dane przechowywane są wielokrotnie

W bazie klientów figurują Barack Obama i Barak Obama – czy to ta sama osoba?

Wiarygodność Dane nie odzwierciedlają rzeczywistości

Firma wciąż ma status aktywnego dostawcy, chociaż zbankrutowała 5 lat temu

Page 5: SQL Server 2012  Codename Denali

Data Quality Services

OczyszczanieDeduplikacjaProfilowanieMonitorowanie

Monitorowanie procesu poprawy jakości danych

Poprawa błędnych i uzupełnienie niekompletnych danych

Ocena jakości danych

Wyszukanie i usunięcie powtarzających się danych

Page 6: SQL Server 2012  Codename Denali

• Korzystające z bazy wiedzy (DQKB)Oparte na wiedzy

• Domeny reprezentują znaczenie danych

Uczące się • Dodatkowe informacje gromadzone są podczas oczyszczania danych

Uwzględniające semantykę

• Korzystające z baz wiedzy użytkownika i firm trzecich

Otwarte i rozszerzalne

• Upraszczające codzienną pracę z danymiŁatwe w użyciu

Cechy charakterystyczne DQS

Page 7: SQL Server 2012  Codename Denali

Funkcje Data Quality Services

• Tworzenie i zarządzanie bazami wiedzy• Odkrywanie informacji w przykładowych danych• Praca z bazami wiedzy firm trzecich

Zarządzanie wiedzą i danymi referencyjnymi

• Poprawa, deduplikacja i standaryzacja danychOczyszczanie i deduplikacja danych

• Monitorowanie i zarządzanie procesem poprawy jakości danychAdministracja

Page 9: SQL Server 2012  Codename Denali

Parowanie i deduplikacja

• Microsoft Corporation, Bill gates, 1 Microsoft way, Redmond, WA, 98052

• Microsoft, Gates, One Microsoft way, Redmond WA

• Microsoft Corp, William Henry Gates, 1 Microsfot way, Redmond, WA

• Microsfot, W. H. Gates, Redmond, WA

Klient DQS – Wyniki parowania

1. Określenie reguł porównywania- Identyfikacja duplikatów

2. Trening - Wykrycie duplikatów

3. Wybór poprawnych rekordów- Usunięcie duplikatów

Page 10: SQL Server 2012  Codename Denali

Integracja z usługą SSIS

Dane referencyjne

Reguły

Nowe rekordy

Poprawki & sugestie

Poprawione rekordy

Błędne rekordy

SSIS Data Flow

Źródło danych

Zadanie Data Correction

Pakiet SSISPrzeznaczenie

danych

Baza wiedzy

Serwer DQS

Page 11: SQL Server 2012  Codename Denali

DQS - Podsumowanie

Bogate bazy wiedzyAutomatyczne wzbogacane podczas oczyszczania danychRaz utworzona (centralna) baza wiedzy może być używana w wielu projektach DQS

Zaprojektowane dla użytkowników biznesowychIntuicyjne Natychmiast gotowe do użycia

Korzystające z baz wiedzy znajdujących się w ChmurzeBazy wiedzy tworzone przez użytkownikówZintegrowane z usługą SSIS

Bazujące na wiedzy

Proste w użyciu Otwarte

Page 12: SQL Server 2012  Codename Denali

Dziękuję za uwagę !

Q & A