Interviste

Dati e dati aperti: intervista a Andrea Maurino

La tecnologia e la scienza, quando sono messe in relazione con i meccanismi economici ed i fenomeni sociali, possono diventare oggetto di narrazione appassionante. Ne è maestro , professore associato di ingegneria informatica presso il dipartimento di informatica sistemistica e comunicazione dell’Università degli Studi di Milano Bicocca, che sa coniugare il rigore scientifico con la progettualità e mettere in comunicazione mondi e prospettive diverse.

In Bicocca la gestione dei dati e i dati aperti sono un argomento solo accademico, di ricerca pura?

In Bicocca c’è molta attenzione alle possibilità offerte dai bandi dell’Unione Europea, sia nei programmi Horizon sia nei progetti industriali. A tale proposito da gennaio 2017 il collega Matteo Palmonari è responsabile del progetto EW-Shopp relativo all’integrazione dei dati meteorologici e sugli eventi con le informazioni aziendali per migliorare le esperienze di acquisti (sia elettronici che fisici) a livello europeo. Sempre dal 2017 siamo anche coinvolti in un altro progetto europeo per la costruzione della rete europea sulle informazioni aziendali. Proprio questi esempi illustrano la rilevanza del riuso di dati pubblici (le previsioni metereologiche) con proprie informazioni aziendali per generare nuove opportunità di business.

Quali tendenze nelle politiche europee sulla pubblicazione e il riuso dei dati pubblici?

Da diversi anni l’unione europea ha compreso l’importanza nel rendere disponibile il patrimonio informativo del settore pubblico (PSI) quanto più possibile in un formato che consente il riuso, anche gratuito. Questo processo si è concretizzato con la creazione del portale europeo degli open data, ma anche con la creazione di uno standard per la descrizione di metadati relativi agli denominato DCAT-AP a cui ho partecipato in fase di realizzazione che è stato poi esteso in Italia dall’AGID. Inoltre l’Unione Europea ha posto particolare attenzione anche all’accesso libero dei risultati dei progetti di ricerca scientifica finanziati dalla stessa EU, uno dei più evidenti esempi di strategie open access.

Quanto è importante il metodo e un’organizzazione strutturata per gestire e rendere disponibili i dati?

Per due anni dal 2013 al 2015 sono stato coordinatore del progetto europeo COMSODE che aveva come obiettivo la definizione di una metodologia e di una piattaforma per rendere i dati disponibili in formato open anche semanticamente arricchiti. L’idea, credo vincente visto che il progetto è stato giudicato come eccellente dalla EU, è stata quella di coniugare gli aspetti tecnologici legati a una piattaforma open source di elaborazione e pubblicazione dei dati con una rigorosa, ma semplice, metodologia per supportate tutte le fasi del ciclo di vita degli open data. Spesso nelle organizzazioni pubbliche (ma anche in quelle private) esiste una diffusa percezione della necessità di utilizzare o rendere accessibili i dati. Quello che manca tuttavia non è la disponibilità di tecnologie, quanto l’identificazione di un metodo per aiutare l’organizzazione a trovare, selezionare, ripulire pubblicare e aggiornare i dataset. In questo senso stiamo collaborando, con altri colleghi, con la Regione Lombardia, per migliorare il riuso del loro portale open data attraverso la definizione di interfacce visuali, l’annotazione di qualità dei dataset e nuove modalità di ricerca.

I Linked Open Data: che cosa sono e perchè investire su questo standard?

In maniera ortogonale all’utilizzo di una metodologia insieme agli strumenti tecnologici si sta affermando sempre di più la necessità di utilizzare le tecnologie del semantic web per “dotare di senso” i dati in modo che sia più semplice integrarli fra loro attraverso i . Si tratta anche in questo caso di seguire semplici regole nella definizione dei formati (RDF) utilizzo di ontologie e URI per costruire reti di dati connessi fra loro. La vera potenza dei dati, infatti, non consiste solo nel loro utilizzo, ma soprattutto nell’integrazione con altre sorgenti dati per avere nuove conoscenze. Questa integrazione è sempre vincente in chi opera in quanto considerato l’immaterialità del dato non esiste una “perdita” di informazioni come quando si scambia un oggetto. Come ebbe a dire lo scrittore George Bernard Shaw “Se tu hai una mela, e io ho una mela, e ce le scambiamo, allora tu ed io abbiamo sempre una mela per uno. Ma se tu hai un’idea, ed io ho un’idea, e ce le scambiamo, allora abbiamo entrambi due idee”. Al posto dell’idea noi potremmo utilizzare i dati. In questo senso i consentono di superare uno dei maggiori problemi delle tecnologie di data integration ovvero la mancanza di semantica offerta da rappresentazione “piatte” come una tabella relazionale o un foglio CSV.

Quali tipi di dati vengono trattati con tecnologie semantiche e come?

La rilevanza di queste tecnologie si dimostra nell’utilizzo dei cosiddetti knowledge graph, ovvero rappresentazioni delle informazioni rilevanti per una organizzazione sotto forma di grafo semanticamente arricchito in modo, dove l’importanza dei collegamenti fra entità del grafo è più rilevante della semplice informazione in sé. I knowledge graph stanno avendo grande diffusione da quando Google ha dichiarato di utilizzarli per migliorare il proprio motore di ricerca. Tutte le organizzazioni possiedono informazioni che sono gestite in base a specifiche logiche applicative creando così dei silos non comunicanti fra loro. È necessario dunque per le organizzazioni conoscere e integrare a livello concettuale non solo l’intero patrimonio informativo (che spesso non è solo memorizzato nei database relazionali), ma anche collegarlo con le sorgenti informative che sono fuori dal perimetro aziendale, come ad esempio le interazioni con i social network con i propri clienti.

Saper leggere, interpretare e trarre valore dai dati: il mercato italiano è davvero pronto ad assorbire figure specializzate? E che cosa fa l’università per formarle?

Le tecnologie semantiche unite alla maggiore semplicità di trasformare in informazioni digitali porzioni sempre più ampie della realtà (si pensi alle relazioni interpersonali rappresentati nei social network o alla sensoristica a bordo delle automobili) saranno i principali strumenti per la gestione delle organizzazioni. Data la pervasività del fenomeno, che ormai si applica alle più variegate aree del sapere, dell’industria e delle relazioni personali, è sempre più forte l’esigenza di comprendere e utilizzare al meglio questa sterminata massa di dati, ponendo attenzione anche alle implicazioni etiche, economiche, legali e sociali.

Il termine Scienza dei dati, o in inglese Data science è stato introdotto proprio per riferirsi all’insieme di competenze e conoscenze di tipo (soprattutto, ma non solo) statistico-informatico che ci permettono di analizzare, comprendere e vivere pienamente questa nuova realtà. La figura professionale del data scientist è sempre più richiesta da parte delle aziende così come dalla Pubblica amministrazione, già nel 2012 quella del data scientist veniva considerata la carriera più sexy dei prossimi 10 anni con i salari più alti.

La necessità sempre più pressante di offrire tali competenze in forma organica e adeguata alle sfide odierne ha portato alla creazione presso l’Università degli studi di Milano Bicocca di un nuovo corso di laurea magistrale in Data Science (in fase di esame e approvazione) che sarà attivato a partire dal prossimo anno accademico. L’organizzazione degli insegnamenti prevede due aree di apprendimento: una orientata a formare un data scientist con specifiche competenze nell’area delle discipline economiche, e una orientata a formare professionisti con competenze verso le tecniche e tecnologie avanzate in campo statistico e informatico.

Tutti gli studenti del corso di laurea magistrale seguiranno un insieme di insegnamenti comuni per acquisire competenze e capacità nelle metodologie e tecniche sia di base che avanzate nelle aree della informatica e statistica oltre a corsi sugli aspetti sociali e giuridici legati al trattamento dei dati.

Azzurra Pantella

Azzurra Pantella

Azzurra Pantella si occupa di Open Data, innovazione, informatica per la Pubblica Amministrazione. Lavora come Senior Software Engineer e Project Manager presso la società in house per l’ICT della Regione Umbria.

LinkedIn 

Clicca per commentare

Commenti e reazioni su:

Loading Facebook Comments ...

Lascia una replica

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

No Trackbacks.

Inizio
Share This