Etl per portali open data

32
ETL per portali Open Data Cul.T.A. Open Data Summer School Ravenna 14/06/2017

Transcript of Etl per portali open data

ETL per portali Open Data

Cul.T.A. Open Data Summer SchoolRavenna 14/06/2017

Il processo di valorizzazione dei dati

http://www.dati.gov.it/sites/default/files/LG2016_0.pdf

ETL

Architettura

http://informaticatuts.blogspot.it/2014/07/etl-process-flow.html

Un esempio di ETL open source - Pentaho Data Integration

Un esempio di ETL - Pentaho Data Integration

● Open source

● Multipiattaforma

● GUI based

● Estensibile

Un esempio di ETL - Pentaho Data Integration

Documentazione

Un esempio di ETL - Pentaho Data Integration

Transformations vs Jobs

- Transformations are about moving and transforming rows from source to

target.

- Jobs are more about high level flow control: executing transformations, sending

mails on failure, transferring files via FTP, ...

- Another key difference is that all the steps in a transformation execute in

parallel, but the steps in a job execute in order.

Un esempio di ETL - Pentaho Data Integration

Componenti

Spoon - GUI per progettare job e trasformazioni

Kitchen - CL per eseguire e orchestrare jobs

Pan - CL per eseguire trasformazioni

Carte - CL per gestire esecuzione di trasformazioni in cluster

Cosa può fare per noi un tool ETL

Automatizzare i task necessari alla pubblicazione di un dataset

● Harvesting da fonti eterogenee

● Enrichment-mashup

● Pulizia e quality assurance

● Alimentazione del portale open data

Harvesting

Enrichment - Mashup

Qualità dei dati● Accuratezza

Grado di aderenza alla realtà

● CompletezzaQuantità di informazione presente nel dato

● AttualitàGrado di rappresentatività nel momento in cui si usa il dato

● ConsistenzaCoerenza nella rappresentazione

Metodi per il miglioramento della qualità

Pulizia e quality assurance

● Data profiling

● Definizione del workflow di validazione e pulizia

● Implementazione su ETL dei controlli e notifica al processo

NO QUALITY => NO VALUE

Pulizia e quality assurance - Data profiling

http://wiki.pentaho.com/display/EAI/Kettle+Data+Profiling+with+DataCleaner

Pulizia e quality assurance - Data validator

http://wiki.pentaho.com/display/EAI/Data+Validator

Pulizia e quality assurance - Data validator

http://wiki.pentaho.com/display/EAI/Data+Validator

Pulizia e quality assurance - Lookup

http://wiki.pentaho.com/display/EAI/Data+Validator

Pulizia e quality assurance - Notifica

Alimentazione del portale

Alimentazione di una staging area

Harvest

Clean - Enrich

Stage

Publish

Esempi di utilizzo - Chicago

Esempi di utilizzo - Chicago

Esempi di utilizzo - Chicago

Esempi di utilizzo - Valencia

https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf

Esempi di utilizzo - Valencia

https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf

Esempi di utilizzo - Regione Lombardia

http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf

Esempi di utilizzo - Regione Lombardia

http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf

Esempi di utilizzo - Regione Lombardia

http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf

Esempi di utilizzo - Regione Lombardia

http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf

Dove trovarmiFranco Morelli

Il mio blog www.opendatabassaromagna.it

Twitter https://twitter.com/eccoilmoro

Associazione OnData http://ondata.it/

Facebook

https://www.facebook.com/groups/opendataemiliar

omagna

Spaghetti Open Data

http://www.spaghettiopendata.org/

Linkedin

https://it.linkedin.com/in/francomorellisoftware