Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf ·...

19
27 - 28 października 2018 Społecznościowa Walidacja Danych

Transcript of Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf ·...

Page 1: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

27 - 28 października 2018

Społecznościowa Walidacja Danych

Page 2: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Nasz Zespół i Pomysł

Społecznościowa Walidacja Danych

Krystian IgrasData Scientist

Michał MajData Scientist

Paweł PrzytułaTech Lead & Data Engineer

Page 3: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Czym się zajmujemyw Appsilon Data Science

RETAIL & ECOMMERCEFINANCE & INSURANCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

HEALTHCARE REALESTATE PUBLIC

Dane Modele Dashboardy

Page 4: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Kaggle: The State of Data Science & Machine Learning (2017)Co jest największym problemem w pracy data science?

Page 5: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Poziom otwartości danych

≠ Poprawność danych

Page 6: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Reguły walidujące format to nie wszystko

● Czy struktura danych jest zgodna z oczekiwaniem?● Czy każdy rekord zawiera oczekiwane parametry?● Czy mamy duplikaty i czy mają one sens?● Czy typ parametru się zgadza?

○ Liczba, ciąg znaków, wartość logiczna○ Jaki jest separator dziesiętny?

● Czy format parametru się zgadza?○ Czy mamy poprawne adresy e-mail?○ Czy data jest w formacie YYYY-MM-DD?○ Czy kod pocztowy jest w formacie 00-000?○ Czy kod kraju jest poprawnym w formacie?

● ...

Page 7: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Reguły jakościowe to też jeszcze nie wszystko

● Czy cena to wartość nieujemna?● Czy wiek mieści się w przedziale 0 - 125?● Czy status pojazdu przyjmuje tylko wartości “RUNNING” i “FINISHED”?● Czy mogą być wartości NA / null / puste i co one oznaczają?● Wiele wartości opisujących to samo

○ NEW YORK○ Nowy Jork○ NYC

● ...

Page 8: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Reguły eksperckie

Case Study:

● Maszyna raportuje każdego dnia swój czas i miejsce pracy● W danych widać następujące rekordy:

○ 2018-10-26, Maszyna nr 10, 1h, Warszawa○ 2018-10-27, Maszyna nr 10, 2h, Kraków○ 2018-10-28, Maszyna nr 10, 1h, Warszawa○ 2018-10-29, Maszyna nr 10, 3h, Kraków○ 2018-10-30, Maszyna nr 10, 1h, Warszawa

Ekspert: Maszyna nie może teleportować się z miasta do miasta!

Page 9: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Reguły weryfikujące inne źródła

● Czy zbiory danych z Urzędów Skarbowych nt. wpływów z VAT pokrywają się ze zbiorem danych z Ministerstwa Finansów?

● Czy dane w czasie rzeczywistym o lokalizacjach tramwajów w Warszawie pokrywają się z danymi ZTM o stanie taboru?

Page 10: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Użytkownicy danych najlepiej wiedzą co trzeba usprawnić

Page 11: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

Proces który rekomendujemy

SpołecznośćKod walidujący

dane

Mechanizm uruchamiający

walidacje

Zbiory danych mają zaktualizowany status

poprawności

Weryfikacja proponowanych walidacji przez Administratora

Dane.gov.pl

Batch Job

Page 12: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

DEMO

Page 13: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)
Page 14: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)
Page 15: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)
Page 16: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)
Page 17: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)
Page 18: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

- Ten system już działa u klientów Appsilon (zamiast społeczności, reguły dodają zespoły analityków)

- Oddajemy weryfikację danych w ręce Społeczności. Jest to win-win ponieważ Dane.gov.pl otrzymuje cenne źródło informacji zwrotnej, a Społeczność czuje że ma realny wpływ na jakość danych

- Dane można walidować tak samo jak buduje się OpenSource: nowe walidacje można proponować przez t.zw. Pull Requesty

- Walidujemy dowolny typ danych: CSV, JSON, XML, bazy relacyjne, YML, ...

Nasze argumenty

- Nie odkrywamy koła na nowo. Github jest sprawdzoną platformą. Uwagi zgłaszane do danych łatwo indeksują się w Google, można uczestniczyć w dyskusji oraz głosować na najważniejsze problemy.

- Bezpieczeństwo: dane.gov.pl cały czas ma kontrolę jak dane są walidowane

- Walidacje danych są jak testy jednostkowe kodu (unittests). Dokumentują to co możemy założyć o zbiorze precyzyjniej niż tekstowa dokumentacja.

- Realistyczne do wdrożenia stopniowo, a efekty mogą być odczuwalne od razu

Page 19: Społecznościowa Walidacja Danych - Appsilon Data Scienceappsilon.com › hackathon.gov.pl.pdf · FINANCE & INSURANCE RETAIL & ECOMMERCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)

appsilon.com

Pakiet do walidacji:https://github.com/Appsilon/assertr

Walidacje:https://github.com/Appsilon/dane.gov.pl

[email protected]

[email protected]

[email protected]