Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf ·...

Post on 04-Jul-2020

4 views 0 download

Transcript of Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf ·...

27 - 28 października 2018

Społecznościowa Walidacja Danych

Nasz Zespół i Pomysł

Społecznościowa Walidacja Danych

Krystian IgrasData Scientist

Michał MajData Scientist

Paweł PrzytułaTech Lead & Data Engineer

Czym się zajmujemyw Appsilon Data Science

RETAIL & ECOMMERCEFINANCE & INSURANCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

HEALTHCARE REALESTATE PUBLIC

Dane Modele Dashboardy

Kaggle: The State of Data Science & Machine Learning (2017)Co jest największym problemem w pracy data science?

Poziom otwartości danych

≠ Poprawność danych

Reguły walidujące format to nie wszystko

● Czy struktura danych jest zgodna z oczekiwaniem?● Czy każdy rekord zawiera oczekiwane parametry?● Czy mamy duplikaty i czy mają one sens?● Czy typ parametru się zgadza?

○ Liczba, ciąg znaków, wartość logiczna○ Jaki jest separator dziesiętny?

● Czy format parametru się zgadza?○ Czy mamy poprawne adresy e-mail?○ Czy data jest w formacie YYYY-MM-DD?○ Czy kod pocztowy jest w formacie 00-000?○ Czy kod kraju jest poprawnym w formacie?

● ...

Reguły jakościowe to też jeszcze nie wszystko

● Czy cena to wartość nieujemna?● Czy wiek mieści się w przedziale 0 - 125?● Czy status pojazdu przyjmuje tylko wartości “RUNNING” i “FINISHED”?● Czy mogą być wartości NA / null / puste i co one oznaczają?● Wiele wartości opisujących to samo

○ NEW YORK○ Nowy Jork○ NYC

● ...

Reguły eksperckie

Case Study:

● Maszyna raportuje każdego dnia swój czas i miejsce pracy● W danych widać następujące rekordy:

○ 2018-10-26, Maszyna nr 10, 1h, Warszawa○ 2018-10-27, Maszyna nr 10, 2h, Kraków○ 2018-10-28, Maszyna nr 10, 1h, Warszawa○ 2018-10-29, Maszyna nr 10, 3h, Kraków○ 2018-10-30, Maszyna nr 10, 1h, Warszawa

Ekspert: Maszyna nie może teleportować się z miasta do miasta!

Reguły weryfikujące inne źródła

● Czy zbiory danych z Urzędów Skarbowych nt. wpływów z VAT pokrywają się ze zbiorem danych z Ministerstwa Finansów?

● Czy dane w czasie rzeczywistym o lokalizacjach tramwajów w Warszawie pokrywają się z danymi ZTM o stanie taboru?

Użytkownicy danych najlepiej wiedzą co trzeba usprawnić

Proces który rekomendujemy

SpołecznośćKod walidujący

dane

Mechanizm uruchamiający

walidacje

Zbiory danych mają zaktualizowany status

poprawności

Weryfikacja proponowanych walidacji przez Administratora

Dane.gov.pl

Batch Job

DEMO

- Ten system już działa u klientów Appsilon (zamiast społeczności, reguły dodają zespoły analityków)

- Oddajemy weryfikację danych w ręce Społeczności. Jest to win-win ponieważ Dane.gov.pl otrzymuje cenne źródło informacji zwrotnej, a Społeczność czuje że ma realny wpływ na jakość danych

- Dane można walidować tak samo jak buduje się OpenSource: nowe walidacje można proponować przez t.zw. Pull Requesty

- Walidujemy dowolny typ danych: CSV, JSON, XML, bazy relacyjne, YML, ...

Nasze argumenty

- Nie odkrywamy koła na nowo. Github jest sprawdzoną platformą. Uwagi zgłaszane do danych łatwo indeksują się w Google, można uczestniczyć w dyskusji oraz głosować na najważniejsze problemy.

- Bezpieczeństwo: dane.gov.pl cały czas ma kontrolę jak dane są walidowane

- Walidacje danych są jak testy jednostkowe kodu (unittests). Dokumentują to co możemy założyć o zbiorze precyzyjniej niż tekstowa dokumentacja.

- Realistyczne do wdrożenia stopniowo, a efekty mogą być odczuwalne od razu

appsilon.com

Pakiet do walidacji:https://github.com/Appsilon/assertr

Walidacje:https://github.com/Appsilon/dane.gov.pl

pawel@appsilon.com

michal@appsilon.com

krystian@appsilon.com