Il valore dei dati per comprendere la pandemia da Coronavirus

Tech News

(tratto da un articolo pubblicato su Ingenium-Magazine)

Numeri raccontati in conferenza stampa, annunciati ai telegiornali o rappresentati in mappe o tabelle. Numeri riferiti alla pandemia da Covid-19 che piovono addosso ai cittadini ogni giorno e che non sempre riescono a fornire a chi ascolta o legge una panoramica chiara di ciò che sta succedendo nella propria Provincia, Regione, Paese o nel mondo.

“La raccolta e la presentazione dei dati è diventata un’abilità ancora più essenziale per chi vuole fare informazione, a partire dalle Pubbliche Amministrazioni italiane” – commenta Grazia Cazzin, Offering Manager Data&Analytics nella divisione Ricerca e Innovazione di Engineering.

“C’è bisogno però, a fronte della disponibilità di dati aperti riferiti alle persone malate, guarite, ricoverate, di strumenti che consentano di dare un senso e una immediata fruibilità ai numeri disponibili. Per questa ragione su Knowage, piattaforma open source di business analytics, abbiamo pensato di creare alcuni cruscotti che organizzano i numeri ufficiali nazionali e internazionali, premettendo però la personalizzazione della vista di interesse e scegliendo in modo molto semplice le comparazioni di maggiore interesse (confronto tra Regioni o Paesi, confronto tra indicatori)”.

Guarda il video demo

Quanto contano i dati aperti in emergenza?

L’emergenza ha probabilmente consentito di comprendere il grande valore degli open data utilizzati non solo per capire il fenomeno, ma anche per fare previsioni sull’andamento della pandemia. Dati che sono stati da subito messi a disposizione in modo aperto dalle Pubbliche Amministrazioni e che, per quanto riguarda l’Italia, sono stati resi disponibili dalla Protezione Civile su un repository pubblico in GitHub.

“Non era scontato ci fossero Open Data distribuiti da una fonte affidabile in tempi così rapidi” – continua Cazzin. “Chiaramente si potrebbe fare molto di più sia nell’analizzare il fenomeno in corso che nel valutarne gli impatti nel percorso di riavvicinamento a un’auspicata situazione di “normalità”, se tali dati fossero disponibili a un maggiore livello di dettaglio. Per esempio, potrebbe essere significativo, non solo per l’analisi dell’emergenza ma anche per la valutazione delle sue ricadute nei vari ambiti della nostra vita, poter disporre di dati per Comune e non solo per Provincia e Regione; per classe di età e genere; per tipologia di lavoro svolta dai contagiati; per tempo medio di degenza ospedaliera e così via.

Più il dato riesce, nel rispetto ovviamente della privacy, a dare informazioni dettagliate ancorché aggregate, più si riuscirà a utilizzare tecniche di analisi avanzate per esempio per arricchire la lettura della situazione con previsioni future. Cosa che intendiamo fare e sulla quale stiamo già lavorando, utilizzando Knowage e i dati disponibili al momento”.

Covid-19 Dati Italiani a livello regionale

Quale il ruolo dell’openness?

“COVID-19 probabilmente ci ha aiutato a comprendere ancora più l’importanza dell’openness e il valore della condivisione, della cooperazione anche quando può essere co-competizione” – spiega Grazia Cazzin. “Seguendo il modello aperto e collaborativo tipico delle comunità open source anche realtà innovative nell’artigianato digitale hanno avviato iniziative per stampare mascherine 3D, valvole per respiratori e molto altro grazie alla condivisione di progetti, permettendo a più soggetti di partecipare alla creazione di valore per tutti in un ambito che può essere sia collaborativo che positivamente competitivo.

Come membri attivi della comunità open source abbiamo voluto utilizzare le nostre competenze in materia di visualizzazione e analisi dei dati per rendere più fruibili i dati aperti su COVID-19, permettendo a ciascuno di analizzare l’aspetto ritenuto più rilevante ed effettuare le comparazioni di maggior interesse. Liberare la conoscenza è un principio alla base del software libero, dell’open data, dell’open science e oggi più che mai abbiamo bisogno di conoscenza”.

Covid-19 Previsione dati Italiani a livello nazionale

Quale il ruolo dei dati?

Molteplici sono le iniziative che utilizzano dati aperti, ovvero pubblicati e possibili da utilizzare anche da macchine, per leggere il fenomeno pandemia. Molteplici come svariate sono le possibilità di rappresentazione delle informazioni. Ma fino a quando queste possono considerarsi affidabili?

“Credo che sia fondamentale quando si parla di dati aperti – spiega Cazzin – poter essere sicuri circa la loro attendibilità e il loro aggiornamento. Per questo, anche in Knowage, abbiamo utilizzato al momento i dati messi a disposizioni da Pubbliche Amministrazioni che certificano e spiegano il dato rilasciato. Questo non significa che non si possa arricchire l’informazione tramite dati provenienti da altre fonti, purché questi siano oggettivi, rilevati, non legati ovviamente a “sensazioni” o al “sentito dire”.

Purtroppo poi, i dati aperti disponibili hanno spesso una valenza territoriale (e a volte anche temporale) molto limitata per poterne fruire con efficacia in analisi di respiro nazionale o internazionale. Se, per esempio, in una Provincia virtuosa più realtà collaborassero alla pubblicazione di dati aperti, questo avrebbe un bel valore per un’analisi del territorio specifico, ma poco valore per un’analisi che a livello nazionale richiederebbe la disponibilità di quegli stessi dati anche per tutte le altre Province italiane.

Oltre a questo, i dati devono essere sempre descritti in modo che non possano esserci errori di interpretazione nelle cifre pubblicate. Tanto per fare un esempio, se un’azienda mettesse a disposizione il numero di mascherine prodotte, il prezzo medio, la distribuzione geografica delle consegne delle mascherine e, nel fare questo, certificasse quello come dato rilevato e aggiornato, anche questo potrebbe essere usato per analizzare meglio una certa angolatura del fenomeno. Al contrario, dati errati o non sufficientemente spiegati (per esempio, ponendosi domande come: Il numero comprende anche le mascherine già fruite dai dipendenti? Comprende quelle scartate per problemi di qualità? Comprende quelle ancora a magazzino?), e la cui fonte non è attendibile potrebbero portarci a disinformazione e alimentare opinionismo facilmente manipolabile. Cosa della quale oggi sicuramente non c’è bisogno”.

Covid-19 Previsione dati Italiani a livello regionale