1
1
Visual exploration of Open Data Una proposta di applicazione dei princĂŹpi di Data Visualization ai dati aperti
STUDENTI
Emanuela Giovannoni Laura Pippinato RELATORE
Christian Racca CO-RELATORE
Lorenzo Benussi
| UNIVERSITÀ
1° Facoltà di Architettura A.A. 2011 / 2012
| OGGETTO Tesi di Laurea in Progetto Grafico e Virtuale
| RELATORE Christian Racca
| CO-RELATORE Lorenzo Benussi
| STUDENTE Emanuela Giovannoni Laura Pippinato
| CONTENUTI, IMPAGINAZIONE E PROGETTO GRAFICO
Emanuela Giovannoni soulibe.emanuela@gmail.com Laura Pippinato laura.pippinato@gmail.com
| STAMPA E RILEGATURA A CURA DI Tipografia Ideal Via Alfonso Bonafous, 1 10123 Torino (TO), Italia
| LICENZA
Visual Exploration of Open Data di Emanuela Giovannoni e Laura Pippinato è distribuito con licenza Creative Commons Attribuzione 3.0
5
6
Introduzione
Lo spunto iniziale per la stesura di questa trattazione nasce a seguito di una lezione universitaria durante il corso Materiali e Modelli III al Politecnico di Torino. La tematica Open Data, materia inesplorata fino a quel momento, ha suscitato da subito un forte e spontaneo interesse verso l’argomento, tanto da rendere palese la possibilità di sfruttare tale potenziale all’interno di un progetto di tesi di laurea. Inoltre, la completa mancanza di informazioni riguardo al tema trattato da parte della totalità degli studenti presenti in aula, è indubbiamente un evidente fattore di come l’argomento Open Data sia da considerare ancora una tematica “nuova” o comunque poco conosciuta dalla comunità. Ed è, da queste prime considerazioni, che ha avuto inizio l’analisi preliminare che ha confermato le sensazioni iniziali: immediatamente chiaro è risultato il ruolo che l’Open Data potrebbe adempiere nel contesto contemporaneo, nonché le conseguenze che potrebbero derivare dalla sua diffusione, oggi ancora non così estesa. Le conoscenze accumulate durante il percorso di studio hanno portato inoltre a porre in relazione un altro rilevante ambito di approfondimento, associabile, non solo per assonanza, al tema Open Data: la Data Visualization. Anche in questo caso ci si trova davanti a un soggetto che presenta potenzialità tanto grandi, quanto al momento sottovalutate, nonostante essa viva oggigiorno il momento di massima popolarità. Sono molteplici le caratteristiche che Open Data e Data Visualization presentano in comune, elementi che, se interconnessi e confrontati tra loro, possono portare ad interessanti risultati da analizzare. Entrambi i campi innanzitutto hanno come oggetto d’interesse i dati, l’uno in senso di apertura, di condivisione, di riuso e di estrazione di valore grazie al libero accesso delle informazioni; l’altro invece, in senso più prettamente funzionale, utilizza i dati come base
7
per ottenere rappresentazioni che, al di là dell’aspetto estetico, ne permettono una comprensione più immediata. Se gli Open Data oggi non risultano così conosciuti e diffusi come meriterebbero, a causa soprattutto della lentezza di aziende e istituzioni ad aderire a questo modello, la Data Visualization sta prendendo invece sempre più piede, senza che però se ne apprezzi in modo profondo le caratteristiche e gli obiettivi. Entrambi i campi risultano quindi bisognosi di un’operazione di rivalutazione che possa proporre nuove soluzioni e risolvere i loro punti più deboli. L’intento focale di questa pubblicazione è, come anticipato, ottenere uno scambievole arricchimento tramite l’applicazione dell’uno all’altro. Nello specifico si propone di utilizzare le possibilità funzionali della Data visualization applicandole allo specifico contesto Open Data, in modo tale da elevare, da un lato, la Datavis a un vero e proprio strumento di analisi, mostrandone le capacità in un contesto sensibile, e dall’altro rendere più intuitiva la navigazione degli Open Data, al fine di facilitare l’accesso alle informazioni contenute. E’ ovvio quindi che per perseguire questo obiettivo si sia scelto nel concreto di sviluppare la parte progettuale sulla modalità principale attraverso cui i dati aperti vengono maggiormente fruiti: i portali Open Data. Tra quelli esistenti, si è scelto quindi di prendere in esame il portale dati.piemonte.it che, per le sue caratteristiche di maturità nel panorama italiano, rappresenta, in questa tesi, la solida base per lo sviluppo della visualizzazione. In definitiva quindi il seguente elaborato risulta suddiviso in 3 sezioni principali: la prima prende in esame lo spunto basilare, il tema Open Data, trattandone la definizione, la diffusione e soprattutto i vantaggi reali che esso può apportare alla società; la seconda analizza invece la Data Visualization, tentando di fare chiarezza in un tema che risulta oggi piuttosto complesso, sovrapposto e intrecciato con più elementi, evidenziando la potenzialità del suo ruolo, se osservato con consapevolezza; l’ultima sezione tratterà infine lo sviluppo progettuale proposto come risposta agli obiettivi prefissati, prendendo prima in analisi il modello dei portali Open Data, per comprenderne caratteristiche e problematiche, e poi nel dettaglio il già citato
8
dati.piemonte.it fino ad arrivare alla proposta vera e propria di integrazione e potenziamento di funzionalità di questi tre ambiti. Per quanto riguarda l’approccio utilizzato per le prime 2 sezioni, si è cercato di evidenziare in modo preponderante l’analisi del valore, e del perché entrambe tematiche meritino di essere sfruttate e approfondite. Per quanto riguarda l’ultima sezione invece, oltre agli obiettivi preposti, si è cercato di ottenere un miglioramento anche di altre criticità riscontrate in fase di analisi, per poter infine ottenere un progetto che non si concentrasse sul solo aspetto funzionale, ma anche su caratteri di tipo concettuale e organizzativo. La rappresentazione dei dati all’interno della trattazione non è affrontata esclusivamente in modo teorico, bensì, in linea con quanto riportato al suo interno, si è scelto di adottare l’approccio sintetico e esplicativo della visualizzazione come linea guida del progetto grafico della tesi. All’interno dei capitoli è presente un numero piuttosto elevato di visualizzazioni, per fornire costantemente un esempio pratico di come queste possano aiutare a comprendere in maniera più immediata nozioni e quantità. Si noti inoltre che la quantità di informazioni riportate in forma grafica aumenta costantemente nel corso della lettura, fino ad arrivare alla presenza quasi esclusiva di rappresentazioni grafiche nel capitolo dedicato al progetto.
9
Premessa / Filosofia Open
Prima di addentrarci in modo specifico nell’analisi del concetto Open Data, punto di partenza per lo sviluppo di questa trattazione, è necessario fare una breve panoramica su quelli che sono gli aspetti concettuali e filosofici che hanno portano verso la pubblicazione effettiva dei dati in formato aperto. La diffusione di Internet e l’evoluzione del Web 2.0 hanno assunto, in pochissimo tempo, dimensioni, rilevanza e potenza inequivocabili, riuscendo ad abbattere le distanze fisiche e riducendo i tempi di ricerca, fino a influenzare in maniera significativa il vivere quotidiano. Fin da subito, però, il Web non si è limitato al semplice ruolo di strumento, ma si è proposto anche come una sorta di vera e propria corrente di pensiero, in grado di influenzare le scelte e condizionare le ideologie umane. In maniera tacita, durante la sua trasformazione, il Web ha quindi “imposto” alcune linee guida agli utenti, portandoli ad arricchire di sempre nuovi contenuti la piattaforma ma anche a perfezionare, secondo un principio di crescita illimitata |1, quelli già esistenti. Non a caso, solo in un contesto di piena collaborazione e di partecipazione attiva come quella instaurata dal fenomeno Internet, è stata possibile la nascita di aree di interesse quali Open Knowledge, Open Source e Open Content. Per orientarsi e immergersi nel clima Open, oggetto della trattazione, sarà quindi bene cominciare ad esaminare queste singole voci. E’ anzitutto necessario fare una precisazione sui termini, per poter evidenziare la distinzione che sussiste tra “Open” e “Free”, punti che riportano indubbiamente similitudini concettuali, ma che spesso, erroneamente, vengono sovrapposti. Il termine “aperto” (open), a differenza di “gratuito” (free), non deve essere inteso in relazione a questioni monetarie o di prezzo, bensì deve essere considerato
10
|1 Cfr. Ippolita, “Open non è free”, 2005
nella visione più ampia di libertà, intesa come raggiungimento di un grado di apertura tale che l’oggetto in esame sia accessibile a tutti. Questa tipo di apertura comporta in sostanza la liberazione del sapere ed ha come risvolto etico ciò che si prefiggono di ottenere tutte le discipline Open, ovvero una serie di elementi che potrebbero comportare benefici per la comunità: circolazione delle idee, scambio delle informazioni, conoscenza, libertà di pensieri e di espressione.
|2 Magnus Cedergren, “Open content and value creation”, 2003
Esattamente a questi princìpi si ispira il significato di Open Knowledge, di natura tendenzialmente più filosofia rispetto alle altre voci citate; esso infatti aspira alla diffusione della conoscenza in senso propriamente lato, secondo le seguenti prescrizioni: sapere libero, accessibile, comprensibile ed universale. I concetti di Open Source e di Open Content sono invece più orientati verso i contenuti, più che all’aspetto teorico. Così affini per definizione, tali termini potrebbe essere spiegati utilizzando la stessa affermazione; vale per entrambi infatti la seguente sentenza: “un contenuto e/o prodotto non per fini di profitto, ma allo scopo di renderlo disponibile a ulteriori distribuzioni e miglioramenti da parte di altri, a costo zero»|2. La differenza sostanziale, che comunque sussiste, è data semmai dalla tipologia di materiale che viene reso pubblico: se nel primo con i termini “contenuto” e “prodotto” ci si riferisce alla possibilità di accedere liberamente alle informazioni dei software grazie alla completa disponibilità del loro codice sorgente, con il termine Open Content viene identificata la pubblicazione e la successiva distribuzione di tutti quei contenuti editoriali generati da software digitali quali testi, immagini, musica e video. È quindi in quest’ottica che si posiziona la corrente Open Data. Concentrato sulla specifica diffusione di dati e informazioni numeriche, l’Open Data presenta un’etica molto simile agli altri movimenti precedentemente citati: trae indubbiamente linfa dai Contenuti Aperti per quanto riguarda gli aspetti legati alla pratica, ma rientra anche nell’ampio concetto di Open Knowledge, allineando le sue linee guida anche ad un altro importante filone Open: l’Open Government. La dottrina dell’Open Government, letteralmente “governo aperto”, è imperniata su un concetto piuttosto
11
semplice: la Pubblica Amministrazione dovrebbe essere aperta ai cittadini, tanto in termini di trasparenza quanto di partecipazione diretta al processo decisionale. Si intende sostanzialmente un nuovo concetto di Governance |3, basato su modelli, strumenti e tecnologie che consentano alle amministrazioni di garantire da un lato il controllo pubblico sul loro operato e dall’altro la possibilità da parte dei cittadini di intervenire con azioni efficaci. Con il termine “open” quindi si fa riferimento in questo caso alla capacità di enti e istituzioni pubbliche di ridefinire, rispetto agli schemi burocratici tradizionali, le modalità di approccio e relazione con cittadini e comunità locali per ottenere forme di interazione basate su bidirezionalità, condivisione e partecipazione ai processi decisionali a tutti i livelli. Le nuove tecnologie e i nuovi strumenti digitali della comunicazione rappresentano gli elementi abilitanti dell’Open Government come dell’Open Data, e il motivo per cui si è cominciato a parlare negli ultimi anni di questi e altri concetti è perchè le tecnologie si sono dimostrate ora abbastanza mature per supportare questi tentativi, sia dal punto di vista tecnico-operativo che da quello degli investimenti da affrontare. Queste due discipline fanno quindi propri alcuni princìpi e prassi già in uso presso la Pubblica Amministrazione, declinandoli attraverso un’accezione più contemporanea e riconsiderando il ruolo di partecipazione e comunicazione pubblica ai tempi di Internet. In sostanza, in una logica Open Government e Open Data, le amministrazioni mettono al centro la collaborazione con cittadini e privati, instaurando con loro forme di discussione, dialogo e confronto aperte e dirette: il risultato è quello di focalizzare i processi decisionali sulle effettive esigenze e necessità delle comunità locali. Dunque, a seconda della volontà di interpretare i dati aperti nel loro aspetto più pratico o più filosofico, è possibile individuare importanti punti di contatto con i princìpi che da sempre danno vita ed impulso a questi movimenti; l’auspicio è comunque che l’Open Data possa costituire una rivoluzione che si spinga ben oltre rispetto a quella ottenuta attualmente in tale ambito. Un ultimo accenno merita infine anche il movimento Open Innovation: come si vedrà in seguito, il vocabolo “innovazione” ricorrerà più volte, dal momento che presenta un legame logico molto forte sia con gli
12
|3 La Governance è il processo con il quale vengono collettivamente risolti i problemi, rispondendo ai bisogni di una comunità locale. La governance si attua con processi di democrazia attiva e si basa sull’integrazione di due ruoli distinti: quello di indirizzo programmatico (governo) e quello di gestione e fornitura di servizi (strutture operative ed amministrative).
Open Data che con la Data Visualization, altro argomento centrale di questa trattazione. “Open Innovation” è un termine promosso da Henry Chesbrough, professore e direttore esecutivo del Center for Open Innovation di Berkeley; l’idea centrale è che, in un mondo come quello attuale, dove la conoscenza viene largamente diffusa e distribuita, le aziende private non possono pensare di appoggiarsi solo sui propri centri di ricerca interni, ma dovrebbero invece comprare o, viceversa, concedere in licenza le innovazioni, le invenzioni e i brevetti attraverso scambi con le altre aziende, specie se sviluppati internamente ma non utilizzate nel proprio business. Prima della Seconda Guerra Mondiale, il modello Closed Innovation era il paradigma utilizzato nella maggior parte delle aziende: anche quelle maggiormente innovative mantenevano un elevato livello di segretezza sulle loro scoperte e non cercavano di reperire o assimilare informazioni esterne ai loro laboratori di ricerca e sviluppo. Il cambiamento significativo di scenario avvenuto negli ultimi anni ha però influito in modo decisivo su queste pratiche: il modello Open Innovation suggerisce infatti che, piuttosto che bloccare questi flussi di informazioni, le aziende possono invece utilizzarli a loro vantaggio, individuando in modo strategico quali cedere all’esterno o portare al proprio interno. In sostanza, lo sviluppo della tecnologia e della società ha facilitato e accellerato di molto la diffusione delle informazioni; al giorno d’oggi queste possono infatti essere trasferite in modo talmente facile che sembra impossibile frenarle. In questo contesto, la nascita e l’affermazione del movimento Open Data è una conseguenza talmente spontanea e immediata che oggi tale tematica assume una rilevanza sempre più focale, che non deve essere data per scontata o trattata con superficialità. Riconoscere il ruolo che i dati aperti possono svolgere nella società contemporanea è l’obiettivo del prossimo capitolo; il primo passo è quindi acquisire innanzitutto consapevolezza, ottenendo così le capacità necessarie per proporre soluzioni innovative in questo ambito, Acquisire consapevolezza è quindi il primo passo fondamentale che può portare alla creazione di soluzioni innovative in questo ambito in grado di apportare migliorie, oggetto di trattazione negli ultimi capitoli, in cui viene sviluppata la proposta progettuale.
13
Whatever c a n be exp ressed i n numbe rs, ma y b e exp ressed b y line s Wi lli a m Pla yfair And not only
INDICE / Introduzione
/ Premessa:
Filosofia Open
p. 7
p. 10
1
2
3
4
5
6
8
9
10
/ Conclusioni
/ Riferimenti
p. 156
infografiche p. 160
7
/ Bibliografia p. 162
INDICE
OPEN DATA
1
Una definizione aperta
2
p. 25
DATA VISUALIZATION
4
Information Visualization
p. 34
5
p. 59
IL PROGETTO
8
Ambito di applicazione p. 95
Il valore Open Data
Rappresentare i dati p. 67
9
Il caso dati.piemonte p. 107
3
6
Open Data tra passato e presente / Il contesto mondiale p. 40
/ La realtĂ italiana p. 47
I vantaggi della visualizzazione
7
p. 74
10 Soluzione progettuale p. 116
Esempi di data visualization p. 80
OPEN DATA
| DIMENSIONE
29
pagine del capitolo 31,5% della trattazione
| DURATA
50 minuti tempo di lettura stimato
| SVILUPPO
densitĂ delle informazioni testuali nelle pagine *
densitĂ delle informazioni grafiche nelle pagine * * calcolato su doppia pagina
1 2 3 4 5 6 7 8 9 10
OPEN DATA 1
Una definizione aperta
* livello tecnico
Il valore Open Data
# accessibile
# democrazia
# riutilizzabile
# trasparenza
# licenza
# partecipazione
# semantic web
# innovazione
***
**
Avanzato
# parola chiave
2
Intermedio
3
Open Data tra passato e presente / Il contesto mondiale
/ La realtĂ italiana
# memorandum
# D.Lgs. Italia
# data.gov
# dati.piemonte.it
# data.gov.uk
# dati.gov.it
# open data challenge
# Apps4Italy
*
*
Base
Base
1 2 3 4 5 6 7 8 9 10
Questa sezione vuole essere un approccio all’argomento dei dati aperti, tema che sta assumendo un ruolo centrale nella società contemporanea e che proprio per questa ragione è stato preso in esame come spunto per lo sviluppo del progetto. Oggi infatti la società usufruisce a al contempo alimenta una enorme quantità di dati in crescita a ritmi esponenziali. Una potenziale risorsa come questa può essere però realmente sfruttata solo se ne si concede l’utilizzo e il riuso liberamente, senza alcun vincolo. La prima sezione di questo testo tratterà quindi proprio la necessità dell’apertura delle informazioni, focalizzandosi sulla sua situazione attuale e in particolare sui vantaggi da essa ottenibili e sui motivi per cui si deve perseguire questa strada con convinzione.
24
1 2 3 4 5 6 7 8 9 10
Una definizione aperta
| DATA STORAGE
50 exabytes* di dati archiviati nel 2000
800
Il continuo incremento della produzione e dell’archiviazione dei dati nell’ultimo decennio ha sempre più focalizzato l’attenzione verso l’argomento Open Data. Ciò nonostante il concetto risulta talmente ampio e complesso che, a differenza di quanto avviene per le voci “Software libero” e “Open Source”, non esiste attualmente una definizione puntuale del termine che si possa ritenere univoca e condivisa. Esso può essere infatti considerato al tempo stesso una teoria e una pratica, un approccio filosofico e un modello di azione. Tra i tanti tentativi di definizione, se ne riportano di seguito due ritenuti più significativi.
exabytes di dati archiviati nel 2012
* 1 exabyte=10006=1018 bytes
«E’ definibile come Open data un contenuto o un dato accessibile a chiunque, riutilizzabile e ridistribuibile senza particolari restrizioni» |1 «Open Data è un modello per estrarre valore dalle informazioni utilizzando i dati per costruire nuovi strumenti per creare servizi innovativi»|2 Se nel primo caso si ha una definizione relativa all’aspetto strettamente formale, nel secondo si tenta di definire il concetto esprimendone soprattutto le finalità: si interpretano i dati come un mezzo utile per creare valore attraverso realizzazioni di nuovi servizi. Per quanto riguarda l’entità di questo valore nello specifico in questa trattazione si è deciso di dedicargli un capitolo a parte, per cui si rimanda a “Il valore Open Data”. Entrando nel dettaglio del termine “Open Data”, è possibile analizzare singolarmente aggettivo e sostantivo. Con “Data” si intendono informazioni rappresentate sotto forma di database |3, ossia strutture organizzate di dati, che possono essere riferite a tematiche differenti: cartografia, genetica, dati catastali, bioscienze, formule matematiche, dati medici, dati anagrafici, ecc.
|1 Osservatorio ITC Piemonte, “Modelli di Business nel riuso dell’informazione pubblica”, studio esplorativo del 2001.
|2 Lorenzo Benussi, “What is opendata”, Better Nouveau Workshop, dicembre 2011.
|3 In informatica, il termine database, banca dati o base di dati, indica un insieme di archivi collegati secondo un particolare modello logico, in modo tale da consentire la gestione dei dati stessi.
Seppur con qualche forzatura, è possibile classificare tali tematiche in 3 macrocategorie:
25
1 2 3 4 5 6 7 8 9 10
/ Storici: dati che assumono la storia come oggetto e fondamento; / Scientifici: dati che hanno la scienza come oggetto, metodo e fine; / Governativi: dati relativi a pubbliche amministrazioni e vita politica; Resta quindi da approfondire il termine “Open”. Di questo vocabolo, riferito in modo generico a “conoscenza”, esiste una definizione completa stilata dalla Open Knowledge Foundation |4 e riportata nel documento “Conoscenza aperta” |5. In breve, «un contenuto o un dato si definisce aperto se chiunque è in grado di utilizzarlo, riutilizzarlo e ridistribuirlo liberamente, soggetto, al massimo, alla richiesta di attribuzione e condivisione allo stesso modo». Il documento definisce le caratteristiche che rendono aperto un qualunque contenuto o opera, riportando 11 punti che mettono chiarezza sulle modalità di distribuzione e di accesso:
| PRINCIPALI CARATTERISTICHE Utilizzo Riutilizzo Ridistribuzione
1 Accesso L’opera deve essere disponibile nella sua interezza ad un costo di riproduzione ragionevole, preferibilmente tramite il download gratuito via Internet. 2 Ridistribuzione Non devono esserci limitazioni relative alla vendita o all’offerta gratuita dell’opera considerata singolarmente o come parte di un pacchetto composto. Non deve essere richiesta alcuna “royalty” o altra forma di pagamento per tale vendita o distribuzione. 3 Riutilizzo Sono consentite la realizzazione di modifiche e di opere derivate, e la loro distribuzione deve avvenire secondo gli stessi termini dell’opera originaria. 4 Assenza di restrizioni tecnologiche L’opera deve essere fornita in un formato che non ponga ostacoli tecnologici allo svolgimento delle attività sopra elencate. 5 Attribuzione È possibile richiedere la citazione dei vari contributori e creatori dell’opera come condizione per la ridistribuzione ed il riutilizzo di quest’ultima. Se imposta, questa condizione non deve essere onerosa.
26
|4 La Open Knowledge Foundation è una fondazione noprofit con lo scopo di promuovere l’apertura dei contenuti e i dati aperti. Fondata il 24 maggio 2004 a Cambridge, ha pubblicato la definizione di Conoscenza aperta, partecipando a progetti e supportando lo sviluppo della Open Database License.
|5 Per consultare il testo completo: http:// opendefinition. org/okd/italiano/
1 2 3 4 5 6 7 8 9 10
6 Integrità È possibile richiedere, come condizione per l’opera derivata, che essa abbia un nome o un numero di versione diverso dall’opera originaria. 7 Nessuna discriminazione di persone o gruppi 8 Nessuna discriminazione nei settori d’attività Non si deve impedire a nessuno di utilizzare l’opera in un determinato settore d’attività. 9 Distribuzione della licenza I diritti relativi all’opera devono valere per tutte le persone a cui il programma viene ridistribuito senza che sia per loro necessario accettare o sottostare ad alcuna licenza aggiuntiva. 10 La licenza non deve essere specifica per un pacchetto I diritti relativi all’opera non devono dipendere dal fatto che l’opera sia parte di un particolare pacchetto. Se l’opera viene estratta da quel pacchetto, usata o distribuita in conformità con i termini della licenza dell’opera, tutte le persone a cui il lavoro viene ridistribuito devono avere gli stessi diritti concessi in congiunzione con il pacchetto originario. 11 La licenza non deve limitare la distribuzione di altre opere I diritti dell’opera non devono imporre restrizioni su altre opere distribuite insieme all’opera licenziata. Risulta chiaro quindi che un dato può essere ritenuto aperto solo se la sua licenza di distribuzione risponde a tutti i punti sopra elencati. Ovviamente esistono diversi modi di adottare questi punti che corrispondono a diverse licenze che, pur mantenendo il loro tratto puramente open, presentano differenze sostanziali. Tale aspetto non deve essere sottovalutato: spesso non si tiene in considerazione che lo spirito open con cui vengono offerti i dati può essere vanificato dalla mancanza di attribuzione di una licenza specifica, rendendone difficile la determinazione dello stato di insieme dei dati stessi. Questo succede perché gli stessi creatori di dati, per mancanza di consapevolezza, spesso sottovalutano l’importanza dei propri dataset. E’ quindi fondamentale, nel momento in cui si pubblicano dei dati, scegliere con cura la licenza che si ritiene più adatta e riportare all’interno dell’opera sotto
27
1 2 3 4 5 6 7 8 9 10
FOCUS
quale essa è resa disponibile; sarebbe inoltre consigliabile allegare una copia o un link del testo completo della licenza scelta.
BY (Attribuzione) non presenta particolari restrizioni, se non la richiesta di citare e attribuire l’opera al suo produttore;
Le licenze oggi riconosciute a livello internazionale sono:
ND (No opere derivate) non consente di modificare l’opera originale ma il prodotto può essere usato per scopi commerciali e non;
$ BY-NC (No uso commerciale) permette di modificare e distribuire l’opera con una licenza diversa ma non a fini commerciali;
1 Licenze Open Data (OKF) - licenze della Open Data Knowledge Foundation; / Public Domain Dedication and License (PDDL) “Public Domain for data/databases” Dedicata al pubblico dominio (rinuncia di tutti i diritti); / Open Data Commons Attribution License (ODCBy) “Attribution for data/databases” Richiesta l’attribuzione dei dati; / Open Data Commons Open Database License (ODC-ODbL) “Attribution Share-Alike for data/ databases” Richiesta l’attribuzione per i dati e l’obbligo di riuso nello stesso modo; 2 Licenze Open Data (CC) - Creative Commons Licences / CC Zero - Dedicata al pubblico dominio (rinuncia di tutti i diritti)
$ BY-NC-SA (No uso commerciale, condiviso allo stesso modo) non permette di utilizzare l’opera a fini commerciali e, anche se modificata, deve essere registrata sotto lo stesso tipo di licenza;
$ BY-ND-NC ( No opere derivate, no uso commerciale) le opere non possono essere modificate e neanche utilizzate per scopi commerciali.
/ CC BY - Richiesta l’attribuzione dei dati / CC SA – Obbligo di riuso nello stesso modo. / CC BY-SA - Attribuzione e condividi allo stesso modo. In Italia è inoltre disponibile la seguente licenza pensata appositamente per la Pubblica Amministrazione: Italian Open Data License (IODL 2.0) - richiesta l’attribuzione per i dati e l’obbligo di riuso nello stesso modo. L’associazione di una di queste licenze a un qualsiasi dataset permette che esso sia considerato open. Ciò non vuol dire che, in termini qualitativi, cioè di grado di apertura, esse siano completamente sovrapponibili. La CC BY-SA, per esempio, risulterà sicuramente più restrittiva rispetto alla CC-Zero, per quanto
28
1 2 3 4 5 6 7 8 9 10
tali restrizioni siano molto lievi e non intacchino la possibilità di definire open un dataset. Lo stesso vale, a maggior ragione, per i formati con cui i dati vengono resi disponibili: è chiaro infatti che un formato che comporta delle limitazioni nell’utilizzo o nella condivisione possa vanificare o ridurre di molto il senso dell’attribuzione di una licenza Open. Nello specifico sono stati definiti 5 livelli |6: maggiore è il livello, maggiore è il grado di apertura ed usabilità del dato stesso. * Rendere disponibili i dati sul WEB , in qualunque formato, utilizzando una licenza aperta. ** Rendere disponibili dati strutturati (es. un Excel invece della scansione di un documento). *** Utilizzare formati non proprietari (es. CSV invece di Excel). **** Utilizzare URI (Uniform Resource Identifier |7) per identificare i contenuti in modo che siano facilmente rintracciabili e collegabili tra loro. ***** Collegare i propri dati ad altri dati in modo da offrire un “contesto” e delle relazioni, rendendo così la navigazione più semplice ed immediata. Se i primi 4 punti risultano immediati e facilmente comprensibili, il quinto invece richiede un maggior grado di approfondimento che permette di introdurre un argomento fondamentale: i Linked data. I concetti chiave che li riguardano infatti sono strettamente connessi con la filosofia Open applicata ai dati.
|6 Da un intervento di Tim Berners Lee a “Gov2.0 expo”, Washington, 2010.
|7 Un Uniform Resource Identifier (URI) è una stringa che identifica univocamente una risorsa generica, come un indirizzo Web o un qualsiasi altro file.Un URI può essere classificato come URL e URN.
|8 Stovepipe system è un termine dispregiativo per un sistema caratterizzato da limitate funzionalità, e contenente dati che non possono essere facilmente condivisi con altri sistemi.
Cosa significa quindi collegare i dati per offrire un contesto? Come già detto in precedenza l’utilizzo massivo delle tecnologie ha portato a un incremento esponenziale della quantità di dati circolanti, dati che si presentano in forme molto differenti per qualità, formato, dimensione e accessibilità. La presenza di una mole così elevata di dati eterogenei ha spesso come conseguenza la nascita di sistemi chiusi, definiti come ‘stovepipe system’ |8, ovvero sistemi caratterizzati da una grande varietà di dataset che risultano non interoperabili in alcun modo e finiscono per creare vere e proprie isole completamente sconnesse e distanti. È fondamentale riconoscere che i dati necessitano di
29
1 2 3 4 5 6 7 8 9 10
una forte correlazione per poter esprimere pienamente il proprio valore. Tale correlazione può essere rivolta non solo a dati simili o relativi allo stesso campo, ma addirittura a discipline diverse: la completa utilità di un dato si esprime quindi non in se stesso, ma nella capacità di eseguire ragionamenti e inferenze, creando relazioni con informazioni esterne. La completa conoscenza del contesto risulta spesso l’unico modo per comprendere pienamente il valore e il messaggio di un oggetto. La possibilità di correlare le informazioni tra loro risulta però impossibile a causa delle diversità dei formati e dell’organizzazioni dei dati. Anche da un punto di vista tecnologico sorgono alcune problematiche: la gestione informatica di questo insieme di dati rende difficile reperire le informazioni specifiche di interesse. I dati, che si presentano in formati eterogenei e secondo schemi ambigui o troppo diversificati, limitano le attività di ricerca e filtraggio, essenziali in un mondo così vasto.
| ESEMPIO DI META TAG <html> <head> <meta name=”description” content=”Breve descrizione del sito”> <meta name=”keywords” content=”Elenco parole chiave relative al contenuto”> </head> <body>Contenuto</body> </html>
Nel World Wide Web i principali metodi di ricerca e di collegamento dei contenuti sono basati sull’utilizzo di URL (Universal Resource Locator) |9; le informazioni così descritte sono pensate principalmente per essere presentate e consumate da utenti umani in grado di interpretare il significato di questi elementi. Gli URL sono lasciati infatti all’iniziativa dell’utente e quindi non seguono uno schema preciso, nascondendo alla macchina il significato delle connessioni. Ciò rende a volte ardua la localizzazione di informazioni specifiche a causa della presenza di omonimie e sinonimi, che possono portare a numerosi risultati irrilevanti. Alcune pagine web tentano di aggiungere una base di semantica per i motori di ricerca, attribuendo una serie di parole chiave attraverso l’uso dei tag <META> |10. Tuttavia questo procedimento non risolve il problema: infatti questi elementi, essendo isolati e privi di collegamenti, non permettono di fornire un contesto più completo e significativo. A seguito di queste considerazioni, si evince la necessità di un’infrastruttura tecnologica che possa esprimere concetti e corrispondenze in modo esplicito e inequivocabile, ma anche in maniera automatica, rendendoli cioè comprensibili e interpretabili anche da agenti automatici. È questo essenzialmente l’obiettivo del Semantic
30
|9 Un URL (Uniform Resource Locator) è un URI che fornisce una rappresentazione della risorsa descrivendo il suo meccanismo di accesso primario, la sua “location”.
| 10 I meta tag sono metadati presenti nel linguaggio HTML utilizzati per fornire informazioni sulle pagine agli utenti o ai motori di ricerca. I meta tag sono totalmente invisibili all’utente se non attraverso la visualizzazione del codice sorgente in HTML. La nascita dei meta tag è dovuta alla necessità di fornire un supporto ai motori di ricerca per una corretta indicizzazione, quando ancora non esistevano algoritmi di analisi mirati sul testo della pagina.
1 2 3 4 5 6 7 8 9 10
Web|11: ottenere una rete di dati collegati tra loro in base al significato, creando delle associazioni tra diversi raccoglitori informativi dislocati nella rete. Con il termine “semantic” (ossia semantica) si intende infatti fondamentalmente “significato”, ed è proprio il significato che permette un utilizzo più efficace delle informazioni: scrivere programmi che siano in grado di comprendere la semantica permette di realizzare applicazioni che fanno uso di dati esterni. Si tratta di software in grado di combinare informazioni in modi nuovi, anche non previsti originariamente, permettendo agli utenti di comprendere relazioni prima nascoste, creando valore aggiunto. La presenza di servizi automatizzati permette inoltre di migliorare la capacità di assistere gli utenti nella realizzazione dei loro obiettivi, fornendo operazioni di filtraggio, categorizzazione e ricerca, rendendo così l’accesso alle informazioni più mirato e pervasivo.
| 11 Con il termine Semantic Web, coniato dal suo ideatore Tim Berners-Lee, si intende la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati siano associati ad informazioni e dati (metadati) che ne specifichino il contesto semantico in un formato adatto all’interrogazione e l’interpretazione e, in generale, all’elaborazione automatica.
All’interno del Semantic Web le informazioni sono rappresentate come insieme di asserzioni, dette statement. Gli statement (indicati anche con il termine “triple”) sono composti essenzialmente da tre parti: soggetto, predicato e oggetto. Il soggetto indica la risorsa, che può essere una pagina Web, o una sua parte, o un elemento XML all’ interno del documento sorgente; una risorsa può anche essere un’ intera collezione di pagine Web, o un oggetto non direttamente accessibile via Web. Essa è sostanzialmente l’oggetto di cui si sta facendo una descrizione. Il predicato rappresenta invece una proprietà, un aspetto specifico, una caratteristica, un attributo, o una relazione utilizzata per descrivere una risorsa. Esso descrive il rapporto esistente tra il soggetto e l’oggetto, che è invece il particolare valore che quella proprietà può assumere per quel soggetto. L’RDF (Resource Description Framework) è il principale strumento tecnologico usato dal Semantic Web per rappresentare le informazioni secondo queste modalità. Nello specifico si può definire l’RDF come un modello per la rappresentazione di dati, che prevede non solo la descrizione delle caratteristiche dei dati stessi, ma anche delle relazioni presenti tra loro. Le asserzioni espresse in diversi documenti RDF possono inoltre essere combinate al fine di ottenere un’informazione più completa, grazie ad una struttura di interrogazione più ricca e flessibile. All’interno di documenti RDF, le risorse sono identificate attraverso URI: questi forniscono a soggetto, predicato e oggetto uno specifico nome che li descri-
31
1 2 3 4 5 6 7 8 9 10
ve in modo univoco e senza possibilità di ambiguità, indipendentemente dal contesto. L’Uniform Resource Identifier (URI) risulta una parte essenziale dell’infrastruttura del World Wide Web, e rappresenta un meccanismo standard per indicare e denominare le risorse. Alcuni URI includono anche le informazioni che indicano come accedere alle risorse che rappresentano in Internet, e vengono denominati URL. Per chiarire struttura e funzionalità del formato RDF si veda lo schema della pagina a lato. Con queste premesse è possibile quindi comprendere cosa si intende con Linked Data. Il termine creato da Tim Berners-Lee, viene spesso utilizzato quasi come sinonimo di Semantic Web, soprattutto quando si vuole mettere in evidenza la connessione tra le informazioni provenienti da diverse sorgenti. Sui Linked Data si basa il progetto del W3C ‘Linking Open Data’ che si occupa di estendere il Web tradizionale pubblicando dataset RDF liberi e aperti. I dogmi di tale approccio consistono nell’utilizzare innanzitutto l’RDF come modello per la pubblicazione di dati strutturati e dei loro collegamenti nel Web, nonché l’utilizzo del protocollo HTTP |12 come meccanismo di accesso. Utilizzare gli URI in conformità a tale protocollo significa combinare un’identificazione univoca con un meccanismo semplice e conosciuto di recupero delle informazioni. Secondo i princìpi dei Linked data, la connessione delle risorse è ottenibile includendo i link agli URI, in modo da creare un percorso che permetta di spostarsi tra le diverse sorgenti di dati. In sostanza il termine si riferisce ad una serie di pratiche da utilizzare per la pubblicazione di contenuto strutturato nel Semantic Web, pratiche definite dallo stesso Tim Berners-Lee in un articolo riguardante l’architettura del Web |13, e riassumibili nei seguenti quattro princìpi (Linked Data Principles): 1 Utilizzare gli URI per identificare le risorse. 2 Utilizzare gli URI in conformità al protocollo HTTP, per permetterne la consultazione. 3 Utilizzare gli standard RDF e SPARQL |14 come modello per la rappresentazione dei dati. 4 Includere link agli URI che identificano altre risorse, in modo che possano svelare nuove informazioni. In definitiva, tali pratiche permettono in sostanza di
32
| 12 Il protocollo HTTP (HyperText Transfer Protocol) è il protocollo più usato su internet dal 1990 che permette il trasferimento di file localizzati grazie ad una stringa di caratteri (URL) tra un navigatore (il client) e un server web.
| 13 “Tim Berners-Lee on the next Web”, Ted Talk, 2009.
| 14 SPARQL (Simple Protocol and RDF Query Language) è un linguaggio di interrogazione per RDF. Consente di estrarre informazioni dalle basi di conoscenza distribuite sul web, ricercando dei sotto-grafi corrispondenti alla richiesta dell’utente. L’elaborazione avviene introducendo due informazioni: il grafo dei dati e il grafo di query.
1 2 3 4 5 6 7 8 9 10
ottenere il salto dal web 2.0 al web 3.0 |15, ossia verso un Web of Data tale che le informazioni siano: machine-readable, definite in modo esplicito e collegate tra loro. Seppur la pubblicazione attraverso Linked Data sia da ritenersi la strada migliore da seguire se si vogliono pubblicare dati sul Web, il processo di transizione di un particolare sito dal Web of Documents al Web of Data, ovvero da HTML a RDF, può non essere semplice e richiede in ogni caso conoscenze specifiche, essendo un’operazione difficilmente automatizzabile. In questa trattazione quindi, dal punto di vista progettuale, la questione Linked non sarà affrontata dal lato più propriamente tecnico. Quano detto verrà comunque preso in considerazione dal punto di vista concettuale e funzionale all’interno dell’ultimo capitolo, in cui il termine “semantica” tornerà di nuovo utile.
| 15 Il Web 3.0 è un termine controverso che descrive l’evoluzione dell’utilizzo del Web e l’interazione fra gli innumerevoli percorsi possibili: trasformare il Web in un database; sfruttare le tecnologie basate sull’intelligenza artificiale; il web semantico; il Geospatial Web; il Web 3D; la realtà aumentata. Il termine è apparso per la prima volta nel 2006 in un articolo di Jeffrey Zeldman.
FOCUS Esempio RDF Il termine “chiave” corrisponde a 4 diverse accezioni:
1.
2. 3. 4.
SOGGETTI*
PREDICATI*
OGGETTI*
SD
* Ad ognuno corrisponde uno ed un solo URI ESEMPIO TRIPLA: La chiave USB (soggetto) contiene (predicato) folders (oggetto)
33
1 2 3 4 5 6 7 8 9 10
Il valore Open Data
Quanto detto fin qui rende chiara la necessità di pubblicare i dati in formato Open. In ogni caso, dal momento che all’inizio di questa trattazione i dati Open sono stati definiti proprio in funzione della loro finalità, è cruciale esplicitarne nel dettaglio valore e utilità. La loro pubblicazione è in realtà solo la condizione base su cui fondare una serie di processi successivi che portano all’estrazione del valore vero e proprio, svelandone il pieno potenziale. Ci sono molte circostanze in cui i dati aperti possono avere particolare rilevanza ed è possibile trovare svariati esempi in cui questo già accade. Ci sono anche numerose categorie di soggetti e organizzazioni che possono trarre beneficio dalla disponibilità delle informazioni, incluse le pubbliche amministrazioni. Inoltre non è possibile predire come e dove sarà creato valore: la caratteristica principale dell’innovazione è da sempre quella di arrivare da luoghi inaspettati. Misurare il valore degli Open Data è quindi un’operazione realmente complessa, poichè si tratta sostanzialmente di un vero e proprio investimento per il futuro, che non permette di essere inquadrato in schemi rigidi. Di seguito, sono comunque elencati in modo semplificato i vantaggi che derivano dalla pubblicazione aperta delle informazioni; si tenga comunque conto che, per quanto gli Open Data, e in particolare gli open government data |1, rappresentino una immensa risorsa, essa risulta oggi ancora in gran parte inutilizzata. / I sostenitori dell’Open Data affermano che qualunque tipo di restrizione rappresenta un limite al bene della comunità e che le informazioni dovrebbero essere accessibili senza alcun divieto o forma di pagamento. La dicitura “bene della comunità” fa intuire quanto valore possa derivare dalla pubblicazione dei dati aperti: il processo di apertura consiste sostanzialmente in un processo di democratizzazione, e questo, al di là di ogni altra considerazione, è già da solo un motivo validante per muoversi in questa direzione. I dati appartengono al genere umano: specie nel caso delle pubbliche amministrazioni, la loro raccolta è finanziata da denaro pubblico: è conseguenza logica quindi che
34
|1 Si veda il capitolo “Filosofia open”, pp. 10-13
1 2 3 4 5 6 7 8 9 10
essi debbano ritornare alla comunità.
| CASO IPOTETICO (EUROPA) 570
100
miliardi di euro spesi annualmente dalle amministrazioni risparmiati adottando Big Data strategy
15-20% di eventuale risparmio
| CASO REALE (BA* - GERMANIA)
54
10
miliardi di euro spesi annualmente risparmiati adottando Big Data strategy
18,5% di risparmio
* Bundesagentur für Arbeit, German Federal Labor Agency
/ Rendere pubbliche informazioni relative all’attività di un’istituzione, o anche di un’azienda, rende possibile la creazione di un rapporto con gli utenti, basato sostanzialmente sulla trasparenza e sulla fiducia. I cittadini di una società democratica devono avere la possibilità di sapere come il loro governo sta operando: per ottenere questo risultato, devono essere in grado non solo di accedere liberamente ai dati e alle informazioni governative, ma anche di condividerli con altri cittadini. Si parla quindi di trasparenza non solo di accesso, ma anche di condivisione e di utilizzo. A questo proposito, esistono svariati applicativi che aiutano l’utente a interfacciarsi con i dati: il finlandese Tax Tree |2 e il britannico Where does my money go|3, ad esempio, permettono di identificare come sono impiegati i soldi delle tasse dei cittadini; l’italiano openparlamento.it, invece, traccia le attività del Parlamento e il processo di formazione delle leggi, in modo da mostrare esattamente lo stato di avanzamento dei lavori.
|2 www.taxtreetechnologies.com
|3 wheredoesmymoneygo.org/
/ Solitamente i cittadini si impegnano nei confronti del loro governo solo sporadicamente; con gli Open Data, invece, gli utenti possono essere coinvolti maggiormente nei processi decisionali. Aumentando trasparenza e visibilità delle attività invece si rende più partecipativo il dialogo. Si parla di partecipazione governativa, di una totale “lettura/scrittura” da parte della società, che può così sapere cosa accade nelle attività governative e contribuire maggiormente alla vita politica. / Per il governo stesso i dati aperti possono generare vari tipi di ritorno, specie in termini di efficienza e efficacia, portando da un lato al miglioramento della qualità, e dall’altro alla riduzione dei costi. Con gli Open Data, lo Stato può inoltre contribuire a guidare la creazione di attività e servizi innovativi che offrano un valore diretto per cittadini e utenti. I dati pubblici sono la materia prima per realizzare nuovi prodotti utili alla società, in grado cioè di migliorare aspetti importanti della nostra vita quotidiana. / Ci sono numerosi esempi in cui gli Open Data stanno già creando vantaggi economici e sociali, e altrettanti utilizzi che ancora non è possibile prevedere. La libera circolazione delle idee e lo scambio delle informazioni hanno ripercussioni sulla libertà di pensiero
35
1 2 3 4 5 6 7 8 9 10
e di espressione, ma anche sulla conoscenza. Nuove combinazioni di dati e inaspettati utilizzi delle informazioni infatti possono creare nuove intuizioni e nuove associazioni di idee, portando a campi di applicazione inimmaginabili. Caso storico resta quello del dottor John Snow |4, che scoprì la correlazione tra l’inquinamento dell’acqua potabile e il colera nella Soho (Londra) dell‘800, combinando i dati sui morti per colera con quelli sull’ubicazione dei pozzi. Il fatto portò alla costruzione del sistema fognario, migliorando di molto le condizioni generali di salute della popolazione. E’ questo un esempio che dimostra come sia possibile estrarre nuova conoscenza dalla combinazione di diverse fonti di dati e dall’identificazione di regolarità che emergono dall’analisi di grandi masse di dati. In campo scientifico quindi il tasso di scoperta è accelerato e reso più profondo da un migliore accesso alle informazioni: si tratta sostanzialmente di ampliare la collaborazione con il fine di ottenere in tempi più brevi nuove scoperte e innovazioni. Un esempio piuttosto recente, che testimonia una rivoluzione di mentalità in questo senso, risale al 2006, anno in cui Ilaria Capua|5 e il suo gruppo di lavoro dell’Istituto Zooprofilattico delle Venezie, sono riusciti a isolare il virus dell’aviaria. In quell’occasione le è stato proposto di mettere i risultati al sicuro in una banca dati, accessibile solo a un’ élite internazionale della ricerca scientifica. La dottoressa Capua, ricercatrice pubblica, ha però spiazzato la comunità scientifica, decidendo di pubblicare i risultati delle sue ricerche in una banca dati accessibile e utilizzabile in maniera gratuita. Questo enorme potenziale può essere sfruttato appieno solo se i dati sono resi disponibili in modo completo, cioè se non ci sono limitazioni (giuridiche, finanziarie o tecnologiche) al riuso da parte di terzi nella licenza con cui sono distribuiti . Ogni restrizione impedisce di riutilizzare le informazioni e di creare soluzioni nuove di applicazione: perché il potenziale si realizzi, i dati pubblici devono essere aperti. Se la comunità sembra ormai pronta ad accogliere in modo profondo lo spirito e le opportunità che il movimento Open Data offre, gli enti pubblici e privati risultano ancora restii a proseguire lungo questo cammino. Il processo di apertura dei dati infatti non è così immediato e va incontro a una serie di difficoltà oggettive che impediscono a questa pratica una larga diffusione. Uno dei problemi principali riguarda il loro valore
36
|4 John Snow (York, 15 marzo 1813 – Londra, 16 giugno 1858) fu un medico britannico, considerato tra i pionieri nel campo dell’anestesia, dell’igiene in medicina e dell’epidemiologia, grazie al suo lavoro di comprensione delle cause dell’epidemia di colera.
|5 Ilaria Capua (Roma, 1966) è una virologa e veterinaria italiana, responsabile del Dipartimento di Scienze Biomediche dell’Istituto Zooprofilattico delle Venezie di Legnaro. Nel 2000 grazie allo sviluppo della prima strategia di vaccinazione contro l’influenza Aviaria, Seed l’ha eletta “mente rivoluzionaria”.
1 2 3 4 5 6 7 8 9 10
| USA VS ITALIA
45
15
giorni
USA
mesi
Italia
tempo necessario per l’adeguamento a una norma
Concetto di TRASPARENZA USA - Il cittadino ha il diritto a accedere a qualsiasi informazione pubblica Italia - Il cittadino ha il diritto a accedere a qualsiasi informazione pubblica solo se ha un interesse qualificato -
commerciale. Nell’era digitale, i dati sono una risorsa fondamentale per attività di vario genere: per effettuare una qualsiasi ricerca sul Web, ad esempio, si utilizzano search engine |6, strumenti che necessitano l’accesso a informazioni di diverso genere, spesso create o in possesso del governo. Svariati studi hanno stimato che il valore economico dei dati corrisponde a svariate decine di miliardi di euro ogni anno, nella sola Europa |7. Questo potrebbe far pensare a un fattore positivo e non a un impedimento: in realtà i dati sono di frequente controllati da organizzazioni, sia pubbliche che private, che possono mostrare forte reticenza di fronte alla possibilità di diffondere il proprio patrimonio informativo, proprio in relazione alla possibilità di perdere ipotetici ricavi dalla vendita di tali informazioni. Il rilascio dei dati avviene in questi casi sotto varie forme di controllo, esercitate attraverso limitazioni all’accesso, licenze, diritti d’autore, brevetti e diritti di riutilizzo. La verità è che gli introiti che si possono ottenere dalla vendita di questi dataset sono di così bassa entità che riescono a malapena a coprire quelli di fiscalità generale necessari al processo di gestione e vendita. Il rilascio aperto dei dati ha invece un costo marginale, perchè essi si presentano già in forma digitale e il ricavo che si ottiene in termini di trasparenza è impareggiabile.
|6 Un motore di ricerca (search engine) è un sistema automatico che analizza un insieme di dati e restituisce un indice dei contenuti disponibili, classificandoli in base a formule statisticomatematiche che ne indichino il grado di rilevanza data una determinata chiave di ricerca. Si veda anche il capitolo “Progetto”, p. 91
|7 M. Dekkers, F. Polman, R. te Velde, M. de Vries, “MEPSIR Report -Measuring European Public Sector Resources”, giugno 2006.
Oltre ai problemi legati al valore commerciale dei dati, in paesi come l’Italia, si possono riscontrare difficoltà di tipo organizzativo e normativo. Tranne rare e lodevoli eccezioni, spesso non si ha la consapevolezza dell’importanza del proprio patrimonio informativo e non vi è quindi un impegno concreto in operazioni di censimento e digitalizzazione. In secondo luogo, le norme vigenti non sembrano adeguate a sostenere questo sforzo: leggi troppo datate, concepite prima dell’avvento dell’informatica, e normative su trasparenza e privacy ormai obsolete rappresentano un serio ostacolo alla diffusione della filosofia Open. Mancano sostanzialmente linee guida omogenee che regolino l’uso e il riuso dei dati in ambiti diversi da quelli originali. In questo caso, la strada può essere percorsa seguendo duplici linee di azione: le singole amministrazioni virtuose possono fin da ora iniziare a pubblicare il proprio patrimonio informativo (on-line e in formato aperto), mentre lo Stato e le Regioni devono modificare le norme vigenti in modo da facilitare loro il compito e, in generale, imporre agli Enti il modello dell’Open
37
1 2 3 4 5 6 7 8 9 10
|8
Government |8. Al di là di queste problematiche generiche, ci si può ancora soffermare su obiezioni più specifiche che sorgono da parte degli enti in risposta alla richiesta di rendere pubblici i dati da loro prodotti. Una delle obiezioni più comuni riguarda la possibilità di un’interpretazione sbagliata dei dati pubblicati: questo non può essere considerato un vero e proprio problema, in quanto ogni cittadino è libero di crearsi una propria opinione che, essendo personale, non può essere in nessun caso giudicata secondo il binomio “esatto-errato”. In secondo luogo si dubita che i dati possano essere utilizzati da una percentuale rilevante di cittadini, e che abbiano quindi un utilizzo effettivo. Non è però in base al numero di utenti che si può calcolare l’utilità di un servizio, se esso non richiede investimenti e può essere realizzato con un impegno minimo. Nel caso delle amministrazioni, i dati vengono già raccolti grazie al denaro pubblico e pubblicarli non comporta quindi nessun costo aggiuntivo, ma può portare una serie di vantaggi, come precedentemente descritto.
Si veda anche capitolo “Filosofia Open“, pp. 11-12
| OBIEZIONI / REPLICHE Le 4 principali obiezioni degli enti contro la libera pubblicazione dei dati e le relative soluzioni proposte:
$ Rischio di una errata interpretazione
1
Investimento per ridotto numero di utilizzatori
2
$ Non esistono interpretazioni sbagliate
38
Investimento invariabile al numero di utilizzatori
1 2 3 4 5 6 7 8 9 10
I dataset spesso si presentano in forme molto grezze e possono risultare parzialmente errati. Questo non deve rappresentare comunque un impedimento al processo di apertura: gli ingegneri del settore spesso sono in grado di gestirli anche se non rifiniti e certificati. La filosofia Open ha un legame molto stretto con il ruolo che la comunità può giocare, e questo è un esempio di come si possa ottenere prodotti di maggior qualità proprio grazie alla partecipazione attiva dei cittadini. Infine, uno dei motivi per cui gli enti possono essere restii alla pubblicazione dei loro dati è che questi possono dimostrare mancanze e inefficienza. Il semplice fatto di pubblicarli però non rende più reali tali mancanze, che esistono a prescindere dal fatto che le informazioni siano rese facilmente accessibili. Anche in questo caso, a differenza di quanto si possa credere, un passo verso l’apertura può avere un particolare ritorno in termini di immagine, perché si crea comunque con i cittadini un rapporto più stretto di trasparenza e in particolare di fiducia.
OBIEZIONI
Dati spesso grezzi o imperfetti
3
Timore nell’esporsi pubblicamente
4 REPLICHE
Possibili miglioramenti apportati dalla comunità
Ritorno in termine di trasparenza
39
1 2 3 4 5 6 7 8 9 10
Open Data tra passato e presente / Il contesto mondiale
La filosofia Open Data è oggi uno dei punti di maggior interesse in ambito governativo in molte nazioni del mondo. La sua diffusione generalizzata, raggiunta negli ultimi 3 anni, si deve all’impegno di alcuni paesi pionieri che hanno posto le basi etiche e pratiche perché ciò avvenisse.
|1
Specie in paesi come Gran Bretagna, Canada, Stati Uniti e Australia, in cui esiste una cultura della trasparenza ormai radicata, da una decina di anni si è già ampiamente discusso del ruolo e dei benefici che i dati aperti possono apportare se adottati come linea guida in ambito politico-amministrativo. In particolare la Gran Bretagna ha svolto un ruolo fondamentale in questo, grazie allo sviluppo del primo centro di promozione della filosofia di apertura, l’Open Knowledge Foundation; l’organizzazione, con base a Cambridge, è attiva dal 2004 ed è al suo operato che si devono due risultati centrali che hanno posto delle solide basi in questo ambito: la pubblicazione della definizione di Conoscenza aperta |1 e la creazione delle licenze Open Data Commons |2, strutturate sul modello delle licenze Creative Commons |3. La svolta significativa che ha portato alla definitiva affermazione del movimento Open Data ha avuto però luogo solo nel dicembre 2009 quando l’attuale presidente degli Stati Uniti Barack Obama ha fatto pubblicare il memorandum ‘Transparency and Open Government’ |4 di cui, qui di seguito, si riporta un estratto:
Le licenze Open Data Commons rappresentano un contratto di licenza elaborato dalla OKF con l’intento di fornire un valido strumento per la tutela dei dati e volto ad affermare l’uso di licenze “aperte” anche per i database.
«La mia amministrazione si impegna a dare vita a un grado di apertura (openness) nel governo senza precedenti. Lavoreremo assieme per assicurare la fiducia pubblica e per stabilire un sistema basato sulla trasparenza, sulla partecipazione pubblica e sulla collaborazione. L’apertura rafforzerà la democrazia e promuoverà l’efficienza e l’efficacia dell’amministrazione» Con queste parole Obama ha impostato il suo mandato elettorale verso una maggiore collaborazione tra cittadini e enti governativi, inconsapevole forse dell’in-
40
Si veda nota n.5 sezione 1 capitolo “Una definiziona aperta”
|2
|3 Si veda p. 9 sezione 1, capitolo “Una definizione aperta”.
|4 http://www. whitehouse.gov/ the_press_office/ TransparencyandOpenGovernment
1 2 3 4 5 6 7 8 9 10
| DATA.GOV IN NUMERI
47 dataset nel 2009 250.000 dataset nel 2010
378.000 dataset nel 2012 n°
2009
2010
2012
credibile successo che la sua operazione avrebbe riportato, influenzando successivamente molte altre direttive politiche di tutto il mondo. Sempre nell’ottica di una maggiore trasparenza voluta fortemente da Obama, nello stesso anno è stato attivato il portale data.gov, con l’obiettivo di raccogliere e indicizzare al suo interno tutti i dataset open disponibili sul territorio statunitense. Questo più di altri è un passaggio che ha scatenato una vera e propria reazione a catena: la piattaforma è stata infatti accolta immediatamente con grande entusiasmo, dal momento che i cittadini e le pubbliche amministrazioni hanno da subito intuito, grazie ad essa, l’effettiva utilità che può derivare dai dati rilasciati in formato aperto. Sostegno e collaborazione quindi sono tra i fattori fondamentali della crescita esponenziale della produzione di Open Data: la piattaforma data.gov, che al momento della sua pubblicazione conteneva solo 47 dataset, ha raggiunto la quota di 250.000 dataset nel suo solo primo anno di vita. Il rapido aumento del rilascio dei dati statunitensi è stato superato solamente dalla sua versione inglese, il portale data.gov.uk: pubblicato nello stesso anno, ha ottenuto in brevissimo tempo più di 5.400 dataset scaricabili con licenze e formati open, provenienti da tutti i dipartimenti centrali del Governo e dagli organi pubblici; attualmente la cifra si colloca sugli 8600 dataset, record in Europa. La piattaforma britannica, ad opera dell’inventore del Web Tim Berners Lee, fu progettata seguendo sì le orme del portale americano,ma incentrandosi maggiormente su una facile ricerca e su un’intuitiva ridistribuzione dei dati. Si differenzia inoltre dal primo portale per l’aggiunta di sessione dedicate, come le possibili applicazioni d’uso delle informazioni open e la visualizzazione delle stesse in mappe interattive, molto utili per aumentare la leggibilità dei dati. Partendo da queste due realtà, il movimento Open Data ha preso sempre più piede sviluppandosi rapidamente in tutto il resto del mondo; si sono formate community spontanee di discussione, i comuni e le associazioni poco alla volta si sono interessate a rendere accessibili a chiunque i dati da loro raccolti e ben presto è fiorito il numero di piattaforme che intendono replicare il modello del portale statunitense. Le parole come trasparenza, partecipazione e collaborazione sono ormai diventati i pilastri portanti della pubblica trattazione dei dati. In ambito europeo, in particolare, la spinta verso l’apertura dei contenuti è partita dal basso: sono stati
41
1 2 3 4 5 6 7 8 9 10
infatti i cittadini e alcune organizzazioni non governative, dopo aver invocato a lungo l’adozione di nuove politiche amministrative, ad ottenere dalla Commissione Europea l’introduzione di un modello di e-Government |5, basato sui tre termini appena citati.
| APP SUI PORTALI NAZIONALI Governative
79% 72% U.S.A. 1264 applicazioni U.K. 152 applicazioni
Citizen-developed
14% 18% U.S.A. 236 applicazioni U.K. 37 applicazioni
Altre
7% 10% U.S.A. 103 applicazioni U.K. 22 applicazioni
42
Anche l’Organizzazione delle Nazioni Unite è intervenuta al riguardo: nel rapporto 2010 |6 sullo stato dell’eGovernment viene riportata la necessità dell’adozione di linee guida che regolino l’utilizzo dei formati aperti nella gestione amministrativa; questo fatto sottolinea come l’uso di tali formati sia un argomento che discende ormai in modo logico e naturale dagli ambiti di discussioni in materia di amministrazione governativa. Oggi, a distanza di 3 anni dalla formazione del movimento Open Data, sono oltre 50 i portali governativi attualmente attivi: tra questi si possono ricordare il Canada, il Messico, il Brasile, la Norvegia e il Sud Africa. Ultima in ordine di tempo è l’Australia che, dopo aver stilato la dichiarazione della sua Open Governance|7, ha pubblicato nel marzo 2011 un portale che vuole esplicitamente ricalcare le orme del modello proposto dagli americani. Le iniziative Open comunque non si esauriscono qui: di questa filosofia infatti si hanno esempi anche in paesi che non presentano ancora i loro portali governativi. Un caso interessante è quello della Corea del Sud, dove di e-Governance in particolare si parla addirittura dagli anni ‘70; nel rapporto |8 delle Nazioni Unite questo stato si è addirittura classificato al primo posto tra gli stati con maggiore attività nello sviluppo e nella presenza dell’amministrazione sul Web, superando il precedente primato statunitense: ciò nonostante il suo percorso verso l’apertura dei dati è ancora lungo. Anche in Europa, il governo spagnolo e quello tedesco hanno da poco presentato programmi sulla trasparenza e l’interconnessione delle informazioni governative, senza tuttavia impegnarsi ancora nella creazione di appositi portali di raccolta Open Data. Persino la Grecia, nonostante il periodo di forte crisi economica, alla fine di agosto 2010 ha lanciato la versione beta del suo portale GeoData, il primo servizio Web greco che offre dati geospaziali e mappe interattive da scaricare e utilizzare secondo modalità di tipo open. Se da una parte la crescita dei dataset accessibili aumenta a dismisura, dall’altro, di pari passo, diventano sempre più numerose le applicazioni che sfruttano i dati aperti: basandosi sul mash-up |9 di informazioni,
|5 L’ e-government è il sistema di gestione digitalizzata della PA che consente di trattare la documentazione e di gestire i procedimenti con sistemi informatici.
|6 http://www2. unpan.org/ egovkb/global_ reports/10report. htm
|7 cfr. http://daily. wired.it/news/ politica/opengovernment-initalia-si-comincia. html
|8 Si veda nota n. 6. sezione 1 capitolo “Il contesto mondiale”.
|9 Mash-up (letteralmente: “poltiglia”), in termini informatici, indica un’applicazione che usa contenuto da più sorgenti per creare un servizio completamente nuovo.
1 2 3 4 5 6 7 8 9 10
che vanno dalla spesa pubblica alla criminalità, dalla qualità delle scuole agli orari dei trasporti, esse sono in grado di fornire veri e propri servizi, che possono sopperire a una mancanza, rispondere ad un problema o migliorare un sistema. E’ chiaro che maggiori sono i campi di cui trattano gli Open Data, maggiore sarà la possibilità di creare soluzioni innovative di applicazioni a partire da tali dati. Molte delle applicazioni già attivate si basano in particolare sulla geolocalizzazione, come Mom maps|10,che grazie al GPS (Global Positioning System) permette di trovare velocemente luoghi di intrattenimento per bambini e ragazzi, parchi, ristoranti, ludoteche, musei, consentendo di localizzare quelli più vicini, o come AreYouSafe |11 che visualizza il livello di sicurezza per ogni zona e quartiere della città di Washington DC. Uno degli esempi maggiormente conosciuti e uno dei più interessanti è Fixmystreet |12: l’applicazione, che utilizzando sempre la geolocalizzazione, sfrutta le cartine stradali rilasciate in formato open per dare la possibilità di segnalare disservizi o situazioni di degrado della propria città. Questa iniziativa ha generato una forte collaborazione con i cittadini che, sentendosi dotati di una nuova responsabilità nei confronti dalla città, hanno aderito con piena convinzione all’iniziativa. Fixmystreet ha presto raggiunto un elevato numero di cittadini/collaboratori, attirando anche l’attenzione della pubblica amministrazione: trattandosi di segnalazioni che indicano coordinate spaziali ben precise, l’ente governativo ha deciso di appoggiarvisi, integrandola nelle sue operazioni di pulizia e riqualifica del territorio e sfruttandola come efficiente intermediario con il pubblico. E’ questo un ottimo esempio di come la collaborazione con gli enti amministrativi possa trasformare un’iniziativa privata in un strumento di utilità in ambiti pubblici.
| 10 http://mommaps. com
| 11 http://www.areyousafedc.com
| 12 http://www.fixmystreet.com/
| 13 http://www.lswn.it/ eventi/premi/2011/ open_data_challenge_offre_premio_20000_euro_ per_incoraggiare_ persone_a_modi_interessanti_riuso_dati_ pubblici
| 14 http://opendatachallenge.org
| 15 Si veda nota n. 4. sezione 1 capitolo “Una definiziona aperta”.
Per stimolare il dialogo e la possibilità di utilizzo concreto degli Open Data, sono stati indetti anche una serie di concorsi di vario genere. Tra questi, quello considerato di maggior rilevanza |13 è l’Open Data Challenge |14, che, organizzato da Open Knowledge Foundation e Openforum Academy |15, offre un premio in denaro di 20.000 euro per incoraggiare le persone a pensare a modi interessanti di riutilizzare i dati pubblici a beneficio dei cittadini europei. Molti altri concorsi sono comunque stati indotti in altre nazioni, di cui un eccellente esempio è rappre-
43
OPEN DATA NEL MONDO
| INIZIATIVE MONDIALI 2008 9 3 15
Show us a better way - UK Apps for democracy - USA DigitalisĂŠr.dk - DK 2009
3 9 35 22 36
Data.gov - USA Data.gov.uk - UK Mashup Australia - AU Apps4Finland - FI Data.govt.nz - NZ 2010
8 14 24 11 7
Data.gov.kr - KR Government.ae - AE Opengovdata.ru - RU Norway Initiaitive - NO Abre Datos Challenge - SP Nettskap 2,0 - NO Geodata.gov.gr - GR OpenBelgium.be - BE Data.gov.ma - MA
27 18 35 33 11 25 21 28 32 26 16 4 2 17 8 23 6 5 10
Apps4Russia - RU Opendata.cz - CZ Data.australia.gov.au - AU Data.one.gov.hk - HK Open data challenge - EU Data.gov.md - MD Open.data.al - AL Bahrain.bh - BH Data.gov.sg - SG Opendata.go.ke - KE Apps4deutschland - DE Data.gc.ca - CA Datos.gob.cl - CL Dati.gov.it - IT Dato.gov.es Data.overheid.nl - NL Dados.gov.pt - PT Dados.gov.br - BR Data.gouv.fr - FR
34 30 27 14
4
3
2011
1
5
2
| DATA STORAGE - 2010
2012
13 23 19 14 2 31 20
Data.gov.tn - TN Opendata.riik.ee - EE Data.gv.at - AT Data.norge.no - NO Donnees.gouv.qc.ca - CA Data.gov.in - IN Opengov.se - SE
50%
1%
25%
Nord America
Sud America
Europa
3.500*
50*
* dati in petabytes
2.000*
14
20
22 23 27
15 12
9
16
11
18 19
10
6
17
8
25 21
13
24
34
7
| LEGENDA
31
28 29
33
Portale governativo Portale finanziato da privati Contest internazionale Contest nazionale
30
32 26
35
36
4%
1%
5%
8%
6%
Africa e M. Oriente
India
Cina
Giappone
Oceania
200*
50*
250*
400*
300*
1 2 3 4 5 6 7 8 9 10
sentato dall’Italia grazie a App4Italy, contest citato in maniera più approfondita nel prossimo capitolo. Dopo aver analizzato questi esempi concreti connessi al movimento Open Data, è possibile affermare senza timore che il trend che lo caratterizza è indubbiamente positivo: si è creata oggi una vera e propria comunità, formata da sviluppatori, ricercatori e attivisti digitali che, con il loro impegno, incentivano i governi e le amministrazioni alla pubblicazione dei dati in loro possesso. Nonostante le statistiche a favore, alcuni studiosi sostengono che quest’energia iniziale che alimenta il movimento andrà presto a scemare, se non si verificherà la pubblicazione di dati che vertono su argomenti “caldi”. Fino ad ora infatti, le amministrazioni hanno pubblicato, nella maggior parte dei casi, dataset poco interessanti per il largo pubblico, prediligendo la quantità di dati rilasciati piuttosto che la sostanza. Di fronte a quella che potrebbe così sembrare una moda, c’è qualcuno che invita a una valutazione più critica sui risultati di queste iniziative. «I cataloghi, in alcuni casi, sono a disposizione da tempo, ma le applicazioni proposte riguardano sempre gli stessi argomenti come il crimine o il traffico: di servizi che cambiano veramente la vita dei cittadini non ne ho ancora visti» |16, ha commentato Andrea Di Maio, analista di Gartner specializzato in tecnologie e pubblica amministrazione. Molti sostenitori dell’Open Data iniziano quindi a sostenere la necessità di includere tra i fornitori di dati le grandi società e le grandi organizzazioni private, al livello di Google, Microsoft, SAS e Croce Rossa. In particolare sono tre le sfide che la comunità ritiene si debbano affrontare in un futuro prossimo: 1 configurare l’Open Data non come un’appendice mantenuta in vita solo per conformità alla legge, ma come un fondamento concettuale della sua struttura; 2 passare dal computo dei portali Open Data alla loro operatività in più giurisdizioni; 3 ampliare il movimento, raggiungendo le aziende e le organizzazioni che ancora non lo abbracciano. Avendo trattato finora in maniera piuttosto generica i passaggi che hanno portato gli Open Data allo stato attuale, si analizzerà nel capitolo successivo la situazione in Italia, una tappa fondamentale che introdurrà la parte progettuale finale, essendo quest’ultima sviluppata a partire dall’analisi di un portale italiano. 46
| 16 http://www. openforumacademy.org/
1 2 3 4 5 6 7 8 9 10
Open Data tra passato e presente / La realtà italiana
Le iniziative Open Data avviate in Italia e il numero di dataset rilasciati non sono ancora paragonabili a contesti più maturi come quello statunitense o britannico, ma il movimento italiano sta attualmente vivendo una fase di grande crescita. Se la Comunità Europea, con la direttiva 2003/98/ CE|1,, ha posto i capisaldi per la diffusione e l’utilizzo degli Open Data nella C.E., in Italia l’attuazione di tale direttiva è avvenuta tramite il D.Lgs. (Decreto Legislativo) del 24 gennaio 2006 n. 36 |2. In realtà si è cominciato a parlare concretamente di dati aperti solo l’anno successivo, grazie anche al progetto OpenStreetMap: tra il 2007 e il 2010 alcune amministrazioni locali (tra cui Merano, Vicenza, Montecchio Maggiore e Schio), grazie all’iniziativa di volontari, hanno rilasciato con licenza aperta i propri stradari, con il fine di crearne uno unico liberamente utilizzabile. Ma il passo che ha definitivamente aperto la strada alla filosofia Open è avvenuto nel maggio del 2010, quando la Regione Piemonte ha realizzato il proprio portale di dati aperti, dati.piemonte.it, catalogando informazioni riconducibili a vari enti del territorio piemontese. Il sito resta, anche a distanza di due anni, la più riuscita e strutturata esperienza nazionale sul tema, con dati che spaziano dal territorio al sanità, dal commercio al pubblica sicurezza. Tale conquista è stata consolidata qualche mese dopo con la pubblicazione della Delibera di Giunta Regionale 36 - 1109 del 30 novembre 2010 |3 e, l’anno successivo con la “Legge sulla pubblicazione e il riuso dei dati dell’Amministrazione pubblica” del 20/12/2011 |4 (L.R. n. 24), legge che si candida a diventare un punto di riferimento per le altre amministrazioni italiane. La Regione Piemonte, grazie a questo impegno, è stata riconosciuta dalla Commissione Europea come la Regione europea più virtuosa in tema di condivisione dei dati pubblici, un primato che può vantare insieme ad altre realtà come il Regno Unito e la Catalogna.
|1 Per il testo completo della direttiva: http:// archivio.cnipa.gov.it/ site/_files/UE_Direttiva_98-2003_infopubblica.pdf.
|2 Per il testo completo del DL: http://www. camera.it/parlam/ leggi/
|3 Per il testo completo: http://www.regione.piemonte.it/sit/ argomenti/pianifica/ cartografia_sit/dwd/ licenze_uso.pdf
|4 Per il testo completo: http://saperi.forumpa. it/story/64571/ilpiemonte-approva-lalegge-sugli-open-data
Prima che l’Italia realizzasse il sito web dati.gov.it sul modello anglosassone, alcune amministrazioni e enti
47
1 2 3 4 5 6 7 8 9 10
| CONFRONTO PORTALI Quantità di dataset presenti nei principali portali
IT UK CA FR USA N° DATASET
48
4 x 103 dati.gov.it 8 x 103 data.gov.uk 27 x 104 data.gc.ca 35 x 104 data.gouv.fr 37 x 104 data.gov
locali hanno quindi precorso i tempi, pubblicando alcune basi dati per conto proprio. Anche comunità e associazioni hanno voluto dare il loro contributo riunendo e catalogando i link ai dataset aperti e agli strumenti informatici per organizzarli e distribuirli. È questo il caso della collaborazione tra l‘Open Knowledge Foundation Italia |5 e il Centro NEXA |6 da cui è nato il repository it.ckan.net, in cui raccogliere i dataset disponibili online segnalati dalla comunità. Un servizio analogo è gestito dalla community di spaghettiopendata.org, risultato dell’impegno di molti volontari che, autofinanziandosi l’hosting |7, hanno raccolto in un’unica piattaforma link a dataset, riorganizzandoli per formato, grado di apertura e licenza. Il sito stesso è in formato open ed è progettato in modo da essere integrato con ckan italiano.
|5
Questa serie di operazioni ha sicuramente focalizzato l’attenzione sul tema, tanto che il Ministro in carica per la Pubblica Amministrazione e l’Innovazione, Renato Brunetta |8, in un’intervista del giugno 2010 |9 aveva annunciato la realizzazione di un portale italiano di Open Data entro la fine di quell’anno. In realtà la dichiarazione è stata rilasciata in maniera affrettata: il portale dati.gov.it è stato pubblicato online solo in data 18 Ottobre 2011. dati.gov.it raccoglie tutti i dataset in formato open fino ad ora rilasciati da enti italiani, classificandoli in base a categoria, licenza, riusabilità e localizzazione geografica. L’intenzione è quella di farlo diventare in breve tempo il catalogo nazionale dei dati aperti della Pubblica Amministrazione. Con questo lancio si è aperta una nuova stagione per l’innovazione e la trasparenza: si vuole in questo modo sensibilizzare le amministrazioni a rilasciare i dati con più frequenza e in una maniera più utile per cittadini e imprese. Da uno studio condotto proprio dallo staff del portale |10 su tutte le iniziative Open Data avviate in Italia emerge un numero di dataset aperti ben più elevato rispetto a quelli catalogati al momento sul sito stesso (853): una prima stima è infatti di oltre 4mila unità. Il dato in realtà non è così incoraggiante se confrontato con gli altri paesi occidentali: sul portale Data. gov (Stati Uniti) sono disponibili 390mila dataset; sul francese Data.gouv.fr oltre 350mila; sul britannico Data.gov.uk circa 8mila. Tuttavia anche in Italia questa cifra è destinata a crescere: da marzo 2012 si procede con un tasso di crescita del 40% e negli ultimi tempi stanno nascendo costantemente, quasi a cadenza
|7
Si veda la nota 4, capitolo “Una definizione aperta”.
|6 Il Centro Nexa nasce a partire dalle attività di un gruppo di lavoro formatosi a Torino nel 2003; ha realizzato diverse iniziative in ambito Internet, come Creative Commons Italia (2003) e CyberLaw Torino (2004).
Si definisce hosting (to host, ospitare) un servizio che consiste nell’allocare su un server le pagine di un sito, rendendolo così accessibile dalla rete.
|8 Renato Brunetta (Venezia, 1950), economista e politico italiano, ha ricoperto dal 2008 al 2011 la carica di Ministro per la Pubblica Amministrazione e l’Innovazione.
|9 “I fichi secchi di Wired a Brunetta”, intervista di Riccardo Luna a Renato Brunetta, in “Wired”, giugno 2010.
| 10 Ricerca condotta dalla redazione di dati. gov.it, marzo 2012.
1 2 3 4 5 6 7 8 9 10
settimanale, iniziative importanti di apertura. In seguito all’iniziativa piemontese altre regioni hanno seguito l’esempio: ad ottobre 2011 anche l’Emilia Romagna ha pubblicato on-line il suo catalogo di dataset (dati.emilia-romagna.it), seguita da Lombardia (dati. lombardia.it), Veneto (dati.veneto.it) e Toscana (dati. toscana.it, in versione beta). L’ultima regione in ordine di tempo ad aver sposato questa pratica è il Lazio, approvando a fine maggio la proposta di legge “Disposizioni in materia di dati aperti e riutilizzo di informazioni e dati pubblici e iniziative connesse” |11. Anche per il Lazio il prossimo passo sarà l’apertura di un portale dedicato, con la particolarità che il formato di pubblicazione sarà quello dei Linked Open Data |12, che permetterà di incrociare e connettere le informazioni più facilmente. Altre proposte di legge sono in fase di discussione in Campania, Puglia, Umbria, Basilicata e Friuli Venezia Giulia; otto i comuni da segnalare: Torino, Faenza, Firenze, Pavia, Pioltello, Udine, Rimini e Bologna. Da aggiungere alla lista L’Aquila, che mette a disposizione sul portale del commissariato per la ricostruzione i dati aggiornati sulla rimozione delle macerie, sul numero di sfollati, sugli interventi effettuati. Il Comune di Milano ha annunciato a metà marzo 2012 interventi previsti per i mesi successivi e dovrebbe iniziare a liberare le informazioni su trasporti e ambiente a breve. Un occhio di riguardo è in direzione dell’Expo e del supporto che gli sviluppatori potranno dare alla mobilità del capoluogo lombardo. Al nastro di partenza l’Italia già manifesta un ritardo, non solo per il numero di dataset attualmente pubblicati in rete, ma anche per tipologia di informazioni. Analizzando i dati al momento presenti su dati.gov. it infatti colpisce la scarsa presenza di informazioni che siano effettivamente di pubblico interesse. Dalle esperienze avviate da più tempo all’estero è emerso chiaramente quali sono i dati che più interessano ai cittadini e alle imprese: spesa pubblica, salute, trasporti, criminalità |13. Tutti argomenti poco o per nulla presenti su dati.gov.it. Essendo solo all’inizio di questo processo, le amministrazioni preferiscono partire con dati non particolarmente interessanti e utilizzabili; ma sul lungo termine bisognerà andare oltre: per fare davvero il salto di qualità bisogna passare dall’attuale spontaneismo |14 delle singole amministrazioni a una obbligatorietà per legge. Un altro aspetto che emerge è il divario tra amministrazioni del centro-nord e del sud Italia. Nel meridio-
| 11 Per il testo completo: http:// www.federalismi.it/ ApplOpenFilePDF.cf m?artid=20384&dp ath=document&dfi le=02072012201151. pdf&content=LAZIO, +L.R.+n.+7/2012,Dis posizioni+in+materia +di+dati+aperti+e+ri utilizzo+di+informaz ioni+e+dati+pubblici +e+iniziative+connes se++-+regioni+-
| 12 Si veda anche il capitolo “Una definizione aperta”, pp. 32-33
| 13 “Open data, l’Italia è solo agli inizi e corre a due velocità”, intervista di Nicola Bruno a Ernesto Belisario, in “Sky tg24”, 22 febbraio 2012.
| 14 Con spontaneismo si intende un modo di fare politica, o attività di organizzazione sociale, non inquadrato in burocrazie o strutture decisionali rigide.
49
1 2 3 4 5 6 7 8 9 10
ne risultano attive solo la Regione Sicilia e l’Università di Messina: la prima ha pubblicato i dati relativi alle attività bancarie e al personale assunto, la seconda tutte le informazioni su iscritti e immatricolati. Ma si tratta di due eccezioni che non dissuadono dal fatto che nel Mezzogiorno manca ancora una cultura relativa agli Open Data. Le risorse italiane comunque non si esauriscono con l’esclusivo apporto delle regioni. Da segnalare sicuramente la mole di informazioni messa a disposizione dall’Istat, l’Istituto Nazionale di Statistica |15. Il fatto che il più grande produttore di statistiche adotti una licenza d’uso aperta (la licenza CC-BY) che permette la diffusione ed il riuso delle informazioni pubblicate, sicuramente dimostra che l’Italia ha fatto un grande passo in avanti per la crescita della filosofia d’utilizzo dei dati. Se da una parte è encomiabile lo sforzo di questo istituto nel rilasciare decine di dataset con licenza Creative Commons, dall’altra fermarsi solo al formato Excel può costituire un limite per chi intende poi riutilizzarli per la creazione di nuove applicazioni. Più mature sono invece le iniziative della Camera dei Deputati e del CNR (Consiglio Nazionale delle Ricerche) |16. La prima di recente ha lanciato il portale dati. camera.it mettendo a disposizione un’impressionante quantità di informazioni, fino a poco tempo fa relegate negli archivi di Montecitorio. Ora invece basta consultare il sito per scaricare gli elenchi di tutti i deputati, i disegni di legge, le interrogazioni parlamentari e i resoconti stenografici dalla Camera Regia alla XV Legislatura. Anche il CNR ha creato un vasto portale da cui si possono scaricare dati dettagliati sulle attività di ogni istituto che fa capo al Consiglio Nazionale delle Ricerche. Insieme all’Università di Messina e alla Provincia di Carbonia Iglesias, per ora, la Camera dei Deputati e il CNR rappresentano quattro eccellenze italiane perché hanno rilasciato le informazioni secondo «una modalità (...) che garantisce il massimo livello di riuso e conferisce un valore aggiunto notevole» |17. Per quanto riguarda le aziende private invece, l’unica che si è veramente distinta, al momento, è Enel |18, che ha scelto di intraprendere un percorso di condivisione dei dati aziendali cogliendo lo spirito e le opportunità che il movimento Open Data offre al mondo dell’impresa. In questo contesto, Enel ritiene che la pubblicazione dei dati aziendali in formato aperto possa: migliorare il mercato, accelerando il confronto tra le imprese; 50
| 15 L’Istat (Istituto nazionale di statistica) è un ente di ricerca pubblico ed è il principale produttore di statistica ufficiale a supporto di cittadini e decisori pubblici.
| 16 Il CNR (Consiglio Nazionale delle Ricerche) è un Ente pubblico nazionale di ricerca scientifica, vigilato dal Ministro dell’Istruzione, dell’Università e della Ricerca (MIUR). Ha il compito di valutare e valorizzare ricerche nei settori della conoscenza per lo sviluppo scientifico, culturale, economico e sociale del Paese.
| 17 Nicola Bruno, op. cit.
| 18 Enel è la più grande azienda elettrica d’Italia. Gestisce un parco centrali molto diversificato tra idro e termoelettrico, nucleare, geotermico, eolico, e altre fonti rinnovabili. Oggi opera in 40 paesi del mondo.
1 2 3 4 5 6 7 8 9 10
aumentare la trasparenza, e rendere più partecipativo il dialogo con cittadini, istituzioni e territorio; favorire l’innovazione tecnologica, stimolando lo sviluppo e la diffusione di nuove applicazioni, mash-up |19 e visualizzazioni |20. Il progetto data.enel.com parte in via sperimentale con la condivisione dei primi dataset organizzati in due tipologie, dati economico-finanziari e dati di sostenibilità, scaricabili in formato Excel, CSV e XML e soggetti alla licenza CCBY.
| IL CONTEST ITALIANO
45.000 € montepremi totale
di cui
20.000 per le applicazioni
1st
Open Parlamento 5.000 €
2nd
Lodlife 3.500 €
3rd
Bike District 2.500 € + 8 premi speciali
Una delle conseguenze più interessanti ottenibili grazie alla pubblicazione di dati in formato aperto è il fiorire da più parti di applicazioni che sfruttano queste informazioni per offrire servizi ai cittadini. Il sito dati.gov.it presenta una sezione che raccoglie i link alle applicazioni oggi disponibili create a partire da dati open. Attualmente se ne contano 115, relative a diverse aree tematiche. Molte hanno interesse turistico, come MDU Ancona|21 e Bologna smart|22 che sono vere e proprie guide dei luoghi storici e culturali delle due città, oppure riportano informazioni utili ai cittadini sulla vita pubblica dei Comuni: è il caso di City4You |23 che offre una visione d’insieme delle informazioni utili su Firenze. Particolarmente apprezzate le applicazioni sui trasporti urbani come iATM e Bus Torino, che forniscono informazioni in tempo reale riguardo orari, fermate e percorsi di bus e tram rispettivamente a Milano e Torino; della stessa area tematica anche Firenze in Bici, che guida l’utente alla scoperta della città in bici, evitando traffico e inquinamento. Un ottimo esempio di estrazione di valore dai dati pubblici è Open Parlamento |24, che offre gli strumenti per seguire, comprendere e partecipare a tutto ciò che viene proposto, discusso e votato nel Parlamento italiano. Ancora da esplorare i temi di salute e alimentazione: nel primo caso esiste l’applicazione myHealthbox che si propone di migliorare la sicurezza nell’uso dei farmaci sia per chi li utilizza sia per chi li prescrive; per quanto riguarda l’alimentazione, un esempio interessante è rappresentato da MenuScuole, app per avere sempre a portata di mano il menu della refezione scolastica dei propri figli. Le iniziative per stimolare il dialogo intorno agli Open Data non si esauriscono qui; un evento interessante in questo ambito è sicuramente la competizione italiana più importante sugli Open Data, AppsForItaly |25, che quest’anno ha messo in palio il montepremi più alto di ogni altra iniziativa simile in Europa.
| 19 Si veda “Il contesto mondiale”, nota 9.
| 20 cfr. http://data.enel. com/it/open-data/ open-data
| 21 http://www.museodiffusoancona.it/
| 22 http://www. smartcityexhibition.it/
| 23 http://city4you.altervista.org/#home
| 24 http://parlamento. openpolis.it/
| 25 http://www.appsforitaly.org/
51
1 2 3 4 5 6 7 8 9 10
AppsForItaly è un concorso aperto a cittadini, associazioni, comunità di sviluppatori e aziende per progettare soluzioni utili e interessanti basate sull’utilizzo di dati pubblici, capaci di mostrare a tutta la società il valore del patrimonio informativo |24. L’obiettivo è quello di stimolare da una parte le Pubbliche Amministrazioni a rendere pubblici i propri dati, e dall’altra cittadini, community e mercato ad utilizzarli. In conclusione, se si è arrivati a questo punto, lo si deve alle tante iniziative che da oltre due anni stanno nascendo un po’ ovunque in Italia e al lavoro continuo di associazioni, enti locali ed enti privati che credono negli open data come mezzo per lo sviluppo del paese. Ed è interessante come iniziative che nascono dal basso possano incontrare l’interesse e il sostegno del mondo istituzionale: le pubbliche amministrazioni e le istituzioni siedono ora attorno ad un tavolo con comitati e movimenti espressione della società civile, nel tentativo di proseguire uniti lungo questo percorso ormai avviato.
52
| 24 cfr. http://www. appsforitaly.org/ blog/che-cosa-eapps4italy
OPEN DATA IN ITALIA
|
| TIPOLOGIE DELLE LICENZE IN ITALIA
6
CC-BY 28% 45%
13
3
1 4
1.714
2
Sede amministrazione
9 7
Dati rilasciati
8
5
LEGENDA
Quantità di dati rilasciati
11
CC0
12
10 15% 2%
13
14
15
550
7
16
CC-BY-NC-ND 6% 7%
3
17
259
CC-BY-NC-SA 9% 6%
4
249
CC-BY-SA
18 9% 2%
4
20
19
83
22
21
23
IOLD v. 2 40% 26%
13
|
964
AMMINISTRAZIONI ITALIANE CHE RILASCIANO OPEN DATA
1 Regione Piemonte /333 2 3 4 5 6 7 8 9
Comune di Torino /231 Regione Lombardia /453 Comune di Milano /83 Comune di Pioltello /10 Comune di Pavia /34 Provincia di Lodi /140 Provincia di Trento /160 Comune di Vicenza /77 Regione Veneto /187 Comune di Udine /35
10 Regione Liguria /114 11 Comune di Bologna /157
Regione Emilia-Romagna /27 12 Comune di Faenza /27 13 Regione Toscana /39
Comune di Firenze /343 14 Comune di Rimini /2 15 Università di Pisa /13 16 Università di Siena /5 17 ISTAT /595 Comune di Roma /272
CNR /240 INPS /144 Ministero della Salute /66 Camera dei Deputati /45 Provincia di Roma /44 INAIL /15 CNEL /12 Ministero Sviluppo Ec. /11 Dip. Funzione Pubblica /7 AIFA /7 DigitPA /6
18 19 20 21 22 23
MIUR /5 Formez PA /4 Ragioneria Reg. dello Stato /3 Polizia dello Stato /1 Comune di Sestu /9 Regione Sardegna /5 Comune di Cagliari /8 Prov. di Carbonia Iglesias /2 Università di Messina /2 Camera di Com. Trapani /37 Regione Sicilia /13
53
DATA VISUALIZATION
| DIMENSIONE
31
pagine del capitolo 33,7% della trattazione | DURATA
45 minuti tempo di lettura stimato | SVILUPPO
densitĂ delle informazioni testuali nelle pagine *
densitĂ delle informazioni grafiche nelle pagine * * calcolato su doppia pagina
1 2 3 4 5 6 7 8 9 10
DATA VISUALIZATION 4
Information Visualization
* livello tecnico
Rappresentare i dati
# pattern
# oggettivitĂ
# universale
# interazione
# semplificare
# real-time
# equilibro
# analisi
**
**
intermedio
# parola chiave
5
Intermedio
6
I vantaggi della visualizzazione
7
Applicazioni di data visualization
# cognizione
# NewsMap.jp
# simultaneitĂ
# Yahoo mail
# confronto
# Cascade
# associazioni
# Twitter Orographies # Wefellfine
*
*
Base
Base
1 2 3 4 5 6 7 8 9 10
Definito il senso e il ruolo degli Open Data, l’ambito che si è scelto di affrontare, come naturalmente legato ad essi, è quello della visualizzazione dei dati. Tale scelta permetterà di utilizzare uno strumento intuitivo come il linguaggio visuale per ottenere valore aggiunto a partire dai dati aperti. Visualizzare significa infatti toccare più in profondità l’interesse e la comprensione umana, attivando vie comunicative più dirette. Grazie a questo modello è possibile ricavare dai dati vere e proprio analisi che risultano tanto più utili quanto più sono complessi i dati, cosa che nel caso dei dati aperti, come visto, è molto frequente. La seguente sezione quindi affronterà questo tema indagando soprattutto il perchè sia utile adottare la visualizzaione dei dati e quali vantaggi sia possibile ottenere: sarà questa una premessa necessaria agli sviluppi contenuti nell’ultima parte del trattato
58
1 2 3 4 5 6 7 8 9 10
Information Visualization
| INFORMAZIONI DIGITALI
6 exabytes di dati prodotti dai privati nel 2010
7 exabytes di dati prodotti dalle aziende nel 2010 di cui
80% dati già esistenti in altra forma
L’incredibile successo dell’ICT |1 e delle applicazioni web-based |2 ha reso la società sempre più interconnessa e in grado di produrre, e contemporaneamente raccogliere, quantità sempre maggiori di informazioni: basti pensare a quanti dati sono stati registrati negli ultimi decenni e continuano a essere registrati tramite sistemi automatizzati come i telepass autostradali, le mappature satellitari e le transazioni di credito. Gli individui e gli enti producono e usufruiscono quotidianamente di un flusso costante di informazioni digitali che cresce a ritmi esponenziali attraverso una molteplicità di canali differenti. I continui progressi a livello tecnologico causano, infatti, incessanti cambiamenti nel modo in cui si comunica e si ricercano informazioni. Inoltre l’interesse crescente per gli Open Data ha contribuito ad accrescere la percezione di essere circondati da un’immensa quantità di dati: l’incremento nella pubblicazione dei dati aperti ha portato la collettività a una maggior consapevolezza dell’entità e delle dimensioni di queste informazioni. Come si evince dal capitolo precedente infatti, benché i dati fossero comunque raccolti, solo la loro pubblicazione ha portato la collettività alla piena consapevolezza dell’entità e delle dimensioni di queste informazioni. Non serve particolare immaginazione per capire come l’iperproduzione di dati, sempre più ricchi e personalizzati, catapulti società e individui in un panorama completamente nuovo. I tempi a disposizione per comprendere e assimilare si contraggono e, contemporaneamente, aumenta la complessità di quanto si vuole comunicare. I cittadini richiedono contenuti sempre più sofisticati, aggiornati, interattivi, che permettano loro di comprendere e scegliere i prodotti con il supporto di tutte le informazioni di cui hanno bisogno.
|1 L’Information and Communication Technology (Tecnologia dell’informazione e della comunicazione) è l’insieme di metodi e tecnologie che realizzano i sistemi di trasmissione, ricezione ed elaborazione delle informazioni.
|2 Quando si parla di un software Webbased si intende un programma in cui tutte le funzioni sono accessibili con un normale browser, che non necessita di alcun software di installazione sul computer degli utenti.
In questo contesto si rende quindi necessaria la nascita di nuovi paradigmi per organizzare, semplificare e analizzare le informazioni. In realtà si può dire che queste grandi masse di dati
59
1 2 3 4 5 6 7 8 9 10
prodotte dalla società possono aiutare a risolvere il problema che esse stesse creano: quello di orientarsi nell’apparente caos dell’ambiente sociale e cognitivo che ci circonda. Infatti, l’onere causato da questo sovraccarico è ampiamente compensato dal potenziale straordinario ottenibile nella gestione di ambienti complessi |3. Una soluzione possibile per sviluppare questo potenziale è la rappresentazione visiva applicata ai dati. Visualizzare significa esprimere per mezzo di immagini, rendere visibile alla vista e all’immaginazione una relazione, una situazione, o un’idea, fornendo la possibilità di mostrare con forme e colori ciò che non è così facile comprendere con numeri e parole. Nello specifico, la visualizzazione dell’informazione (Information Visualization, Infovis o Infoviz) è il processo di trasformazione di dati e conoscenze in forma visuale, che permetta di comprenderne la struttura e la complessità e di comunicarla in modo rapido e chiaro, interagendo facilmente anche con grandi database: la rappresentazione dei dati può basarsi sia su informazioni numeriche che non numeriche, come testo e dati geografici.
| RICONOSCERE I PATTERN
up/down
flat
lineare
esponenziale
stabile
fluttuante
stagionale
random
60
Le informazioni grafiche sono oggigiorno presenti, ad esempio, sui giornali, per illustrare il tempo, nei manuali, nelle mappe e nella segnaletica stradale: in quest’ultimo ambito nello specifico, è frequente l’uso di figure umane stilizzate, icone e simboli per rappresentare elementi concreti come la direzione del traffico, o a volte concetti più astratti come la cautela e il pericolo. Nei casi appena menzionati l’Information Visualization è utile a illustrare le informazioni che sarebbero altrimenti ingombranti in forma di testo, e agisce come una scorciatoia visiva di concetti di uso quotidiano. Al fine di interpretare il significato di queste immagini in modo appropriato, lo spettatore necessita di un adeguato livello di graphicacy |4. In molti casi, il graphicacy richiesto comporta capacità di comprensione che devono essere apprese anziché essere innate: a volte infatti la capacità di decodifica dei segni grafici richiede l’acquisizione delle convenzioni per la distribuzione e l’organizzazione di questi singoli componenti; altre volte, invece, le visualizzazioni approfittano di quanto nel linguaggio visivo è universale (ad esempio l’uso di un determinato colore). La rappresentazione visiva è infatti sempre stata fondamentalmente uno strumento cognitivo trasversale, fondato sulla naturale capacità dell’uomo di percepire i pattern |5 e di organizzarli formalmente. La men-
|3 Un sistema complesso un sistema complesso è un sistema in cui le singole parti sono interessate da interazioni locali, di breve raggio d’azione, che provocano cambiamenti nella struttura complessiva. La scienza può rilevare le modifiche locali, ma non può prevedere uno stato futuro del sistema.
|4 Graphicacy è il termine utilizzato per definire le capacità umane richieste per interpretare e generare informazioni a partire da forme grafiche.
|5 Pattern è un termine che può essere tradotto, a seconda del contesto, con disegno, modello, schema, schema ricorrente e, in generale, può essere utilizzato per indicare una regolarità che si riscontra all’interno di un insieme di oggetti osservati.
1 2 3 4 5 6 7 8 9 10
| GRAFICI INTRODOTTI DA PLAYFAIR 1786
Grafico a barre
Grafico a punti
Grafico nidificato
1801
Grafico a torta
te umana funziona attraverso analogie, metafore e paragoni: le rappresentazioni, appoggiandosi proprio a questi paradigmi, sono lo strumento migliore per tenere insieme la frammentazione di dati, informazioni, punti di vista e interessi che emergono ogni qualvolta ci si confronta con un problema complesso. La visualizzazione è un linguaggio sostanzialmente universale che permette di tradurre i dati in un campo percettivo comune, al quale un numero crescente di soggetti può così accedere, ragionando su problemi e questioni prima invisibili o accessibili solo a pochi esperti. Si tratta quindi della possibilità di semplificare e facilitare la comprensione delle informazioni e, al tempo stesso, arricchire la comunicazione, trovando nuovi percorsi per amplificare la cognizione. Benché la maggior parte degli sviluppi di questa disciplina si sia verificata negli ultimi due secoli e mezzo, la visualizzazione dei dati è talmente efficace e così naturalmente legata alle nostre modalità di percezione che non se ne può individuare una vera e propria data di nascita. Si è a conoscenza di esempi molto antichi: il primo a esserci giunto è una tabella creata nel II secolo a.C. in Egitto per organizzare le informazioni astronomiche come strumento per la navigazione. Una tabella è in primo luogo una rappresentazione testuale dei dati, ma utilizza gli attributi visivi di allineamento, spazi vuoti, linee verticali e orizzontali per suddividerli in colonne e righe; tale organizzazione visiva ha rappresentato sicuramente un primo passo verso sviluppi successivi, che hanno spostato la bilancia delle rappresentazioni dei dati dalla componente testuale a quella visiva. La visualizzazione di dati quantitativi in relazione a scale bidimensionali di coordinate, ovvero la forma più comune di ciò che è definito ‘grafico’ |6, è nata solo nel 17° secolo: René Descartes |7 inventò questo metodo di rappresentazione di dati, originariamente non per la presentazione delle informazioni numeriche, ma per l’esecuzione di operazioni matematiche. Dopo questa innovazione, è stato all’inizio del 1900 che molti dei grafici usati tutt’oggi, come quelli a barre e a torta, sono stati inventati o migliorati dallo scienziato scozzese William Playfair |8. E’ in questi anni che il valore delle tecniche di rappresentazione visiva ha cominciato a essere riconosciuto anche dal punto di vista accademico; a partire dal 1913, con la Iowa State University, le strutture universitarie hanno cominciato a introdurre corsi in materia di dati grafici. Lo studioso che ha reso esplicito il potere della visua-
|6 Si definisce grafico un diagramma che rappresenta l’andamento di un fenomeno.
|7 René Descartes (La Haye en Touraine, 31 marzo 1596 Stoccolma, 11 febbraio 1650) è stato un filosofo e matematico francese, ritenuto fondatore della filosofia e della matematica moderna. Descartes estese la concezione razionalistica a ogni aspetto del sapere, dando vita al razionalismo continentale, una posizione filosofica dominante in Europa tra XVII e XVIII secolo.
|8 William Playfair (Benvie, 10 marzo 1759 – Burntisland, 20 luglio 1823) fu uno statistico scozzese, che introdusse la rappresentazione grafica in statistica.
61
1 2 3 4 5 6 7 8 9 10
lizzazione come mezzo per esplorare e dare un senso ai dati è stato John Tukey: professore dell’Università di Princeton, Tukey nel 1977 sviluppò un approccio prevalentemente visivo per esplorare e analizzare i dati chiamato “Analisi esplorativa” |9. Altro importante contributo negli ultimi trent’anni è quello di Edward Tufte |10, che ha dimostrato che esistono modi efficaci e non per rappresentare visivamente i dati. La diffusione massiva si deve comunque all’uso crescente di strumenti di elaborazione elettronica e in generale ai programmi universitari che continuano a esplorare e sviluppare modi per applicare la rappresentazione visiva ai dati: entrambi questi fattori hanno contribuito a rendere più accessibili l’uso di queste tecniche da un pubblico più ampio. Dopo questa breve analisi storica, risulta necessario analizzare nello specifico le linee guida che si sono potute astrarre nel tempo per ottenere queste visualizzazioni. In particolare verranno citate le variabili grafiche su cui è possibile agire per rappresentare i dati e quali schemi di visualizzazioni è possibile utilizzare, a seconda della finalità e della tipologia di informazioni analizzate: infatti, benché molte delle visualizzazioni di maggiore effetto spesso rompano qualche regola grafica, ciò non significa che non sia utile conoscerle. Per non rendere esclusivamente teorico quanto detto fin qui, e per ottenere una visione di insieme più chiara e diretta, queste informazioni verranno riportate in modo completo non nella parte testuale della trattazione, ma in forma grafica, negli schemi riportati di seguito. Basti qui dire che il primo passo per la realizzazione di una visualizzazione di dati realmente funzionale è l’analisi e l’organizzazione delle informazioni che si vuole utilizzare come base: questo è infatti il processo più complesso e importante, perchè permette di stabilire da subito quali sono le forme e le strutture che meglio rappresentano una data funzione e quali sono gli elementi chiave più adatti in rapporto a ciò che si vuole raccontare. Queste scelte devono essere effettuate in modo da non coinvolgere troppe informazioni, che possono distrarre l’osservatore, e in modo tale da ricercare la maggior immediatezza e facilità di interpretazione possibile: la parola chiave è semplificare. In definitiva la trasfigurazione dei dati deve permettere la memorizzazione e il facile apprendimento da parte del lettore. L’utilizzo di materiale iconografico fa sì che questo tipo di visualizzazione si adatti a tutte le realtà
62
|9 L’analisi esplorativa permette di individuare e valutare le strutture insite in un set di dati (anche molto complesso) raccolti da più domini di tipo diverso e in quantità maggiori. Per sua natura, l’analisi EDA è euristica, a risposta aperta e dinamica.
| 10 Edward Rolf Tufte (Kansas City, 14 marzo 1942) è uno statistico e scultore statunitense, famoso per i suoi scritti nell’ambito dell’infografica e in genere dell’Information Design. Considerato un pioniere, è stato soprannominato il Leonardo da Vinci dei dati dal New York Times.
VARIABILI GRAFICHE PER TIPOLOGIA Sono sotto riportate le tipologie di dati che è possibile rappresentare e le variabili grafiche su cui agire per farlo, rappresentate in ordine di accuratezza rispetto al tipo di dato
| TIPOLOGIA DATI
Qualitativo
Ordinale
Quantitativo
abc
abc
123
posizione
posizione
tinta
chiarezza
chiarezza
saturazione
area
saturazione
tinta
chiarezza
forma
rotazione
saturazione
rotazione
area
tinta
area
forma
forma
| VARIABILI GRAFICHE Accuratezza
+
_
posizione
rotazione
63
CATEGORIZZAZIONE
| VARIAZIONI TEMPORALI 1 2 3
5 6 7 8 9 10 11 12 13
Word Cloud Mind Map Bubble Mind Map Cone Tree Horizon Chart Radial Chart Unit Chart Sunburst Chart Cox Comb Circle Packing
| ANALISI / STATISTICHE 14 15 16 17 18 19 20 21
|2
|3
|4
|5
|6
|7
|8
|9
| 10
| 11
| 12
| 13
| 14
| 15
| 16
| 17
| 18
| 19
| 20
| 21
| 22
| 23
| 24
| 25
| 26
| 27
| 28
| 29
| 30
| 31
Stacked Line Area Chart Stacked Area
| CATEGORIE / GERARCHIE 4
|1
Histogram Radial Bar Chart Pie Donut Dot Plot Bubble Nested Bubble Race Tree Map
| DATI SPAZIALI
word
word word
word
word
word
word word word word
word word
Bubble Overlay Map Connection Map 24 Dot Point Map 25 Dorling Map 22 23
| NETWORK E RELAZIONI Chord Diagram Arc Diagram 28 Node Link 29 Heatmap 26 27
| FLUSSI 30 31
64
Sankey Diagram Flow Map
1 2 3 4 5 6 7 8 9 10
| POPOLARITA’ DELL‘INFOVIS Frequenza* di ricerca del termine “data visualization” su Google n°
2007
2012
* Tutti i dati sono calcolati in relazione a quello più elevato, assunto come “100”
sociali, svincolandosi dal linguaggio scritto. L’informazione non ha bisogno di essere tradotta, ma diventa, con il suo integrarsi di immagini universalmente riconosciute, visivamente multilingue. Per determinare se un diagramma è di buon livello o meno, si ha la necessità di determinare per quale contesto è stato progettato: qual è l’obiettivo del grafico? Ha lo scopo di stimolare emozioni o è task-oriented? Deve comunicare idee prima sconosciute, o convincere della veridicità di un messaggio basato sulle stesse informazioni? Visualizzazioni grafiche basate su insiemi di dati identici devono avere un differente uso di elementi se esse sono state progettate con intenti diversi. La scarsa qualità di alcuni dei prodotti di Information Design è dovuta sostanzialmente alla mancanza di una corretta progettazione; quando questa disciplina ha cominciato a catturare l’interesse di un numero di persone sufficiente a diventare popolare, molti progettisti si sono affrettati a realizzare prodotti grafici, rivelatisi di scarsa qualità proprio a causa della tale mancanza |11. La comunicazione visiva coinvolge semantica e sintassi, proprio come il linguaggio verbale, e richiede quindi competenze specifiche: è necessario conoscere le regole per comunicare in maniera efficace. Tali conoscenze, sebbene non siano particolarmente difficili da apprendere, risultano comunque meno intuitive di quanto si possa pensare; non si tratta di ispirazione e libertà di espressione: l’Information Visualization ha infatti a che fare, oltre che con l’estetica, con la scienza e con la percezione visiva. La visualizzazione di dati deve interessare sia la mente che gli occhi, stimolando da un lato i sensi e l’immaginazione, e dall’altro comunicando concetti complessi in modo facilmente comprensibile. Bisogna inoltre considerare che le capacità umane di elaborazione dell’informazione possono aumentare grazie all’apprezzamento estetico: l’estetica può cioè generare maggiore interesse e aumentare il flusso di informazioni a cui si presta attenzione.
| 11 cfr. Stephen Few, “Data Visualization. Past, present and future”, 2007.
Le potenzialità della visualizzazione dei dati sono però oggi minate da una generale mancanza di bilanciamento nel rapporto tra estetica e funzionalità. Molte delle attuali tendenze infatti producono l’opposto dell’effetto desiderato, rendendo difficile la cognizione piuttosto che supportandola. Un teorico che ha speso molte parole al riguardo è Tufle, difensore del 65
1 2 3 4 5 6 7 8 9 10
minimalismo nella rappresentazione del dato e dell’eliminazione di tutti gli attributi che possono disturbarne la comprensione. Per individuare meglio questi attributi Tufte ha coniato il termine ‘chartjunk’ che letteralmente individua l’insieme di elementi contenuti in un grafico che non sono necessari a comprendere le informazioni: la cosa più preoccupante è infatti, secondo lo statistico, l’abitudine ad usare i grafici in modo ignorante |12, eccessivo ed altamente decorativo. Tufte sottolinea l’importanza della completa comprensione del messaggio da trasmettere, obiettivo che deve essere raggiunto usando la quantità minima di inchiostro: quando si esamina da vicino un grafico, ogni punto all’interno di esso deve avere un valore. Questo principio ribadisce che una corretta rappresentazione visuale deve essere semplice da leggere anche in forma molto compatta. Eppure spesso i progettisti non riescono a raggiunge il giusto equilibrio tra design e funzionalità, creando splendide visualizzazioni che non riescono a servire il loro principale scopo. L’Information Visualization fornisce quindi un potente strumento di comunicazione solo se si è in grado di usarlo correttamente, altrimenti le visualizzazioni risultano bellissimi ma sterili esercizi di stile.
66
| 12 Il termine “ignorante” (ignorant in inglese) non è qui utilizzato casualmente: esso appare infatti ricorrentemente in modo provocatorio nella saggistica e in generale in molti degli interventi di Tufte. Per una veloce riprova si veda: http:// www.edwardtufte. com/bboard/q-anda?topic_id=1
1 2 3 4 5 6 7 8 9 10
Rappresentare i dati
Descritto nel capitolo precedente il campo dell’Information Visualization, si può ora passare nello specifico a quella che è la corrente che si è deciso di prendere in analisi in questa trattazione, in quanto considerata la più adatta ai fine del progetto sviluppato. Come si evince dall’immagine riportata di seguito, l’Infovis è un settore molto ampio e articolato che presenta al suo interno un numero piuttosto elevato di sottocategorie, tanto che definirle e distinguerle risulta complesso. È facilmente intuibile invece il ruolo delle Data Visualization che, presentando molteplici relazioni con gli altri campi, assume un aspetto rilevante. DERIVAZIONI
U ser Ex p eri en c e
V i s u al Design
Info r m at i o n A rc h i t e c t u re
Int e r ac t i o n Design
I nfo r m at io n V is u a l izatio n
I nfog raphic
D at a V is ual iz at io n
Data Jou rna lism
S c i e nti fi c V i s u al i zati o n
TIPOLOGIE
An a l i si stati sti c h e
Va ri a z i o n i n el tem p o
D at i s p az i al i
C at e g o r i e / g e r arc h i e
Fl u s s i
N e t w o r k/ re l az i o n i
67
1 2 3 4 5 6 7 8 9 10
Con Data Visualization (Datavis o Dataviz) si intende «lo studio delle rappresentazioni grafiche dei dati che si occupa di complessità, di informazioni numeriche che hanno subìto un’astrazione e che sono state riassunte in forma schematica» |1. L’obiettivo è esaminare i dati, capirne le meccaniche e prevedere situazioni ad essi connesse. La Datavis, come l’Information Visualization, ha origine dal cross-over di discipline diverse come Visual Design, Information Architecture, User Experience e Interaction Design, ed ha sicuramente tratto nuova linfa, negli ultimi decenni, dallo sviluppo di software che hanno permesso di creare visualizzazioni in maniera più semplice e rapida. Questa multidisciplinarità comporta che la Datavis abbia aspetti da un lato assimilabili alla scienza e all’informatica, e dall’altro legati prettamente all’estetica e ai princìpi base della progettazione. Anche in questo caso il punto focale è raggiungere comunque un equilibrio tra design e funzionalità, creando attraenti visualizzazioni di dati che non perdano di vista il fondamentale scopo di comunicare informazioni. Ciò significa che le rappresentazioni non devono essere “noiose” per essere funzionali o elaborate per apparire accattivanti. Per trasmettere concetti in modo efficace, forma e funzionalità devono andare di pari passo, fornendo approfondimenti del dato e comunicando i suoi aspetti chiave nel modo più intuitivo possibile.
| INFOGRAFICA DESCRIZIONE
Soggettività
Dati statici
Staticità
OBIETTIVO
Raccontare una storia
68
Fatte queste considerazioni generiche, per definire in modo completo questa tendenza, è necessario analizzarne le micro-caratteristiche. Il compito può essere facilitato se si prende a confronto un altro termine, “Infographic”, che, come si nota dalla immagine nella pagina precedente, rappresenta anch’esso un ramo dell’Information Visualization. Il vocabolo viene spesso utilizzato erroneamente come sinonimo di “Data Visualization” e in effetti volendone dare una breve definizione si potrebbe utilizzare la descrizione già utilizzata per Data Vis senza cadere in errore. Facendo infatti parte della stessa corrente in ambito visivo, queste due sottocategorie necessitano un’analisi più accurata, proposta di seguito, che permetta di evidenziarne le differenze. In primo luogo, spesso si parla di soggettività in relazione all’Infographic e di oggettività per la Data Visualization: ciò risulta in parte semplicistico, ma
|1 Michael Friendly, “Milestones in the history of thematic cartography, statistical graphics, and data visualization”, 2008.
1 2 3 4 5 6 7 8 9 10
si può accettare in linea di massima per meglio esplicitare le differenze tra le due discipline. La soggettività delle infografiche dipende da un’altra caratteristica: la staticità della rappresentazione. Questo significa che l’utente non è in grado di interagire con le visualizzazioni dei dati e che si trova a leggere il prodotto grafico in un’unica direzione narrativa, così come è stata fissata dal designer. A causa dei limiti di spazio dell’area di lavoro, resa rigida dall’assenza di animazione, il progettista è costretto ad effettuare delle scelte limitate, operando una selezione più ristretta del materiale informativo da usare come base: si rischia così di arrivare alla rappresentazione di una verità parziale, o comunque che prende in considerazione solo i contenuti ritenuti necessari dal designer; l’utente non può far altro che leggere ciò che il progettista ha selezionato per lui. Inoltre la staticità della visualizzazione comporta ovviamente l’invariabilità dei dati stessi, che per natura sono riferiti a un arco temporale ben preciso: una volta scelti, non possono cambiare in nessun caso. Questo significa che non ci sarà mai un aggiornamento, a meno di realizzare nuovamente tutta la visualizzazione. Queste caratteristiche, apparentemente molto limitanti, non impediscono all’infografica di avere una sua utilità se si tiene conto che essa ha uno scopo ben preciso a cui le caratteristiche sopra citate rispondono perfettamente: raccontare una storia o rispondere a una domanda specifica. D’altronde queste sono le stesse finalità del giornalismo; anche un esperto del campo come Tiziano Terzani |2 sosteneva di diffidare dei giornalisti che si definiscono obiettivi, e in effetti acquistando un giornale si acquista sostanzialmente un’opinione e non una narrazione neutra: non a caso si preferisce una testata rispetto a un’altra. Per ovvie ragioni quindi le infografiche sono sempre più utilizzate in ambito giornalistico, tanto che si parla di Data Journalism |3, un giornalismo che utilizza i dati come base per trattare la notizia. In questo caso l’infografica diventa uno strumento per sostenere le informazioni e le opinioni espresse nella parte testuale a cui i dati sono associati, rafforzandole e presentandole in un contesto. Gli elementi di un’infografica non devono necessariamente dare una rappresentazione completamente esatta dei dati, ma possono definire una versione semplificata degli stessi. Non si deve quindi sottrarre dignità a questa disciplina perché essa esprime comunque una sua specifica
|2 Tiziano Terzani (Firenze, 14 settembre 1938 – Orsigna, 28 luglio 2004) è stato un giornalista e scrittore italiano. Non molto conosciuto in Italia durante la sua attività giornalistica, oggi è riconosciuto quale uno dei massimi scrittori italiani di viaggi del XX secolo, appassionato cronista, entusiasta ricercatore della verità: una mente tra le più lucide, progressiste e non violente di inizio XXI secolo.
|3 Il Data Journalism è un processo giornalistico basato su analisi e filtraggio dei grandi insiemi di dati allo scopo di creare una nuova storia. Esso potrebbe quindi aiutare a mettere i giornalisti in un ruolo rilevante per la società in un modo nuovo.
69
1 2 3 4 5 6 7 8 9 10
utilità in questi ambiti. Inoltre c’è da considerare che questa è la modalità più popolare con cui si sta diffondendo la tendenza di visualizzare i dati, ed è quindi grazie alle infografiche che sta nascendo sempre più attenzione intorno a questi temi.
| DATA VISUALIZATION DESCRIZIONE
Oggettività
Real time
Interazione
OBIETTIVO
Analizzare i dati
Molto diverso è invece il caso della Data Visualization, che, come precedentemente accennato, presenta una sfumatura di oggettività dovuta principalmente al tipo di relazione che si viene a creare con l’osservatore. Una delle caratteristiche più evidenti dei prodotti di Datavis è infatti l’interazione, ossia la possibilità dell’utente di interagire con essa, al contrario di quanto accade con le infografiche, prive sostanzialmente di movimento. È necessario a questo punto approfondire il termine “movimento”, perché questo è un punto chiave per capire le potenzialità e gli utilizzi della Data Visualization. Possiamo definire una scala di valore con quattro livelli: staticità, animazione, interazione, manipolazione diretta. Nei primi due casi il movimento è praticamente assente o, nel caso dell’animazione, preimpostato in modo tale da rispondere sempre allo stesso modo e non permettere una reale libertà di scelta all’utente. Con gli ultimi due livelli, invece, è possibile ottenere un grado di interazione tale da permettere all’osservatore di decidere il percorso da esplorare, fatto di continui rimandi e libera navigazione senza particolari vincoli imposti dal designer, che non siano ovviamente quelli tecnologici. Questa caratteristica oltre a rendere più oggettiva e flessibile la narrazione, permette anche di utilizzare dati in real time |4, ovvero dati aggiornati in tempo reale in modo automatico. In sostanza, visualizzare i dati in modo dinamico permette all’utente di cercare liberamente tra le informazioni, osservarle, organizzarle e crearsi un’opinione personale: è possibile così rappresentare cause, effetti e relazioni, collegandoli, contrastandoli e confrontandoli tra loro, per ottenere molteplici livelli di lettura. La Data Visualization diventa per questi motivi utilizzabile come vero e proprio strumento di conoscenza, ricerca e analisi. Con “analisi” si intende nello specifico il processo di studio e sintesi dei dati con l’intento di estrarre informazioni utili e sviluppare le conclusioni; attualmente esistono diversi approcci di analisi in questo senso, tra cui il Data Mining, che è stato descritto come «l’estrazione non banale di implicita e
70
|4 Real-time (tempo reale) è un termine utilizzato in ambito informatico per indicare quei programmi per i quali la correttezza del risultato dipende dal tempo di risposta. Ciò comporta che tali programmi devono rispondere ad eventi esterni entro tempi prestabiliti. Il concetto di tempo reale ha comunque senso (e viene usato) anche al di fuori dell’informatica.
|5 Alfredo Rizzi, Mary Fraire, “Analisi dei dati per il Data Mining”, Carocci editore, 2011.
1 2 3 4 5 6 7 8 9 10
potenzialmente utile informazione da grandi insiemi di dati o banche dati» |5. La visualizzazione delle informazioni e l’analisi visiva dei dati sono, rispetto a tutti gli approcci esistenti, quelli che si basano di più sulle capacità cognitive umane, rivelandosi così i più intuitivi. Questo è un passaggio fondamentale perché permette di associare la Datavis alla scienza, mentre per l’Infographic la relazione era, come detto, con il giornalismo: è sempre più evidente a questo punto la differenza di prospettiva delle due pratiche. Una tendenza incoraggiante è la crescente consapevolezza che i maggiori vantaggi della Data Visualization arriveranno proprio sotto forma di analisi. Lo studio moderno della Data Visualization, che è iniziato con la computer grafica |6, ha fin da subito dimostrato l’utilità che le rappresentazioni possono avere nell’indagine dei problemi scientifici. Tuttavia, all’inizio di questo percorso, la mancanza di potenza grafica spesso limitava la sua completa funzionalità. Nel nuovo millennio, invece, grazie ai progressi tecnologici, la visualizzazione dei dati è diventata un’area attiva di sviluppo, insegnamento e ricerca. I moderni software di analisi visiva permettono non solo di rappresentare i dati graficamente in maniera più accurata, ma di interagire anche con essi, cambiandone la natura, filtrando ciò che non è rilevante, riducendo o aumentando i livelli di dettaglio a seconda delle necessità. È possibile inoltre visualizzare in modo simultaneo più grafici, che dispongano di diversi sottoinsiemi di dati presi da un insieme più ampio, o che rappresentino diversi punti di vista di uno stesso dataset. La conseguenza è la possibilità di ottenere intuizioni e nuove ipotesi secondo modalità che non possono essere raggiunte attraverso approcci tradizionali. I grafici statici su supporto cartaceo o per via elettronica sullo schermo del computer aiutano a comunicare informazioni in modo chiaro e illuminante, ma è dalle analisi visive che si possono realmente trarre i maggiori benefici. Una forma specifica che questa tendenza può assumere è la Scientific Visualization.
|5 Alfredo Rizzi, Mary Fraire, “Analisi dei dati per il Data Mining”, Carocci editore, 2011.
|6 La computer grafica è la generazione e manipolazione di immagini per mezzo del computer. È quella disciplina che studia le tecniche e gli algoritmi per la visualizzazione di informazioni numeriche prodotte da un elaboratore.
Gli scienziati da sempre cercano di usare immagini per rendere facilmente comunicabili agli altri le loro intuizioni, usando a volte anche mezzi molto semplici. La Scientific Visualization consente di creare immagini ed animazioni usando dati numerici generati da studi di fisica, matematica, astronomia e medicina, per
71
1 2 3 4 5 6 7 8 9 10
citare alcuni esempi. I dati di origine scientifica hanno sempre sostanzialmente solo tre dimensioni spaziali ed un’eventuale dimensione temporale, mentre nella Data Visualization in genere è richiesto l’uso di tecniche di visualizzazione multidimensionale, per informazioni formate da svariati parametri. Inoltre, i dati da visualizzare sono composti solo da numeri ed hanno riferimenti concreti come temperatura, pressione, etc. Per citare un esempio concreto, i dati provenienti dallo studio del flusso di un liquido hanno una geometria intrinseca dovuta al moto delle particelle nelle tre dimensioni, mentre i dati raccolti sul cliente di una banca hanno molte dimensioni e non hanno riferimenti spaziali evidenti. La visualizzazione scientifica viene anche definita|7 come un processo di trasformazione della realtà prima in numeri, poi in immagini sul video, infine in percezioni trasmesse al cervello, che consentono di comprendere il fenomeno descritto dai numeri stessi e di far emergere quei pattern e quelle configurazioni che possano permettere di comprendere come intervenire in maniera proficua ed efficace sul sistema. In ogni caso, sostenere che una visualizzazione possa essere completamente neutra è piuttosto approssimativo. Per non scambiare per verità oggettiva le soluzioni che emergono anche intuitivamente da diagrammi, mappe e rappresentazioni varie di sistemi complessi, chi opera su rappresentazioni di dati necessita di un continuo lavoro di auto-analisi e di contro-prove, per non essere preso dall’affezione a risultati che potrebbero essere illusori o fuorvianti, e quindi pericolosi per la soluzione del problema in esame. E’ bene ribadire che non solo con la Scientific Visualization, ma anche con la Data Visualization, è possibile far emergere interpretazioni che scaturirebbero più difficilmente dalla semplice lettura dei dati in forma numerica. Questo, se da un lato costituisce uno dei vantaggi principali della visualizzazione, non deve essere utilizzato come strumento per rappresentare verità incomplete, dal momento che questo intacca la credibilità stessa e l’utilità di questa pratica visuale. Per lo stesso motivo, è sempre necessario scegliere delle fonti affidabili, per non creare rappresentazioni grafiche che comunicano in realtà dati assurdi o non veritieri. Bisogna rispettare questi princìpi per fare in modo che l’Information Visualization resti un potente
72
|7 cfr. http://www. robertomarmo.net/ VisualizzaInfo.html
1 2 3 4 5 6 7 8 9 10
| MANTRA DI SHNEIDERMANN
Overview first
Zoom and filter
Details on demand
mezzo di analisi e ricerca, senza scadere in forme che si avvicinano al mero esercizio stilistico, come le tendenze di oggi sembrano spesso confermare. Per quanto infatti la Datavis abbia un forte legame con l’estetica, questa non è la sua componente principale: l’attenzione al decoro superficiale e alla bellezza, per quanto sempre rilevante, passa in secondo piano rispetto alla funzionalità, alla chiarezza e all’efficacia della comunicazione. In conclusione, per riassumere quanto detto fin ora, si può citare un’affermazione di Shneidermann |8, che in poche parole ha definito le aree da esplorare per creare Data Visualization ottimali: «overview first, zoom and filter, details on demand» |9. Questa frase risulta di fondamentale interesse, perchè rappresenta i fondamenti sui quali è stato sviluppato il progetto presentato in questa trattazione nel capitolo: ”Soluzione progettuale”.
|8 Ben Shneiderman (August 21, 1947) è un computer scientist americano, professore di Computer Science presso l’Università del Maryland. Ha condotto ricerche fondamentali nel campo della human– computer interaction, sviluppando nuove idee, metodi e tool.
|9 Ben Shneiderman, “A grander goal: a thousand-fold increase in human capabilities”, 1997
73
1 2 3 4 5 6 7 8 9 10
I vantaggi della visualizzazione
Grazie ai precedenti capitoli, saranno ormai più che chiari i motivi che hanno portano allo sviluppo della Data Visualization, e il perché le visualizzazioni di dati, se progettate in modo ottimale, funzionino effettivamente. Ciononostante per coerenza e chiarezza si riportano di seguito le caratteristiche per le quali rappresentare in modo visuale le informazioni può portare a dei reali vantaggi. Nonostante i motivi elencati possano sembrare in un certo senso ripetuti, in realtà ognuno di essi presenta delle lievi sfumature che è bene riportare per completezza, per esplicitare la molteplicità delle modalità di funzionamento di una rappresentazione grafica dei dati. / Vantaggio 1
80% delle informazioni percepite sono in forma visuale
/ Vantaggio 2
0,2” tempo necessario per la comprensione dell’immagine in maniera preattentiva
74
/ Innanzitutto bisogna prendere in considerazione il fatto che i vantaggi delle visualizzazioni si appoggiano alla struttura della percezione umana; analizzandola, è facile intuire perché una rappresentazione grafica sia più immediata e comprensibile rispetto a un testo o a un elenco numerico. E’ noto infatti che l’approccio degli esseri viventi nei confronti della realtà è tipicamente legato alle relazioni spaziali: tali rappresentazioni quindi, facendo leva principalmente su questa caratteristica, risultano sicuramente più intuitive e di facile comprensione, poiché sfruttano un linguaggio ben noto alla cognizione umana. / Le caratteristiche della mente appena citate sono così preponderanti che una qualsiasi rappresentazione visiva ha il potere di essere percepita in modo quasi inconscio e automatico. Le visualizzazioni infatti operano in maniera preattentiva, veicolando una serie di informazioni generiche prima che l’osservatore presti reale attenzione. Questo significa, per esempio, che profili di curve basate su un sistema di coordinate e ascisse, hanno la capacità di fornire in modo immediato, senza sforzi, informazioni riguardo l’andamento dei dati presi in analisi: forniscono cioè una panoramica, rivelano a colpo d’occhio un’intera situazione che una tabella di dati in forma numerica non potrebbe mai rivelare in modo così efficace.
1 2 3 4 5 6 7 8 9 10
/ Vantaggio 3 a
a
b
a
a
a
a
a
a
a
c
a
a: variabile 1 b: variabile 2 c: variabile 3
/ Vantaggio 4 a
a
a
a
a
a
a
a
a
a
x
a
a: variabile 1 x= b + c = variabile 2 + variabile 3
/ Vantaggio 5
40% Differenza percepita più facilmente in forma visuale che in forma numerica
/ Nel momento in cui si sposta l’attenzione in modo conscio su una visualizzazione grafica, è possibile analizzare nel dettaglio cosa essa effettivamente riporti. Le data visualization, come prodotti grafici, permettono di agire su un numero elevato di variabili visive (v schema, p. 63), ognuna delle quali associabili ad altrettante caratteristiche dei dati presi in esame. Questo significa sostanzialmente riuscire ad esplicitare in modo chiaro l’esistenza stessa di tali caratteristiche e degli elementi che le differenziano, cosa piuttosto difficile da evidenziare in forma non grafica. Proprio per l’articolazione di questa operazione è necessario fare estrema attenzione alle associazioni che si stabiliscono tra i concetti e le loro rappresentazioni grafiche, seguendo una logica ferrea per evitare fraintendimenti o poca chiarezza nella percezione delle informazioni. / Un altro punto a favore della Data Visualization, che può sembrare in realtà molto simile a quello precedente, è quello della simultaneità. Si è detto infatti che la rappresentazione grafica permette di evidenziare tutte quelle caratteristiche che altrimenti risulterebbero nascoste all’interno di rigide tabelle di dati. Molto spesso comunque il problema di approccio con i dati non è tanto generato dalla difficoltà di ricercare e individuare queste caratteristiche, ma di poterle fruire in modo simultaneo. La scelta di adottare espedienti grafici permette proprio questo: osservare contemporaneamente, in un’unica area visuale, tutte le caratteristiche che si ritengono necessarie, in modo chiaro e veloce. / Quanto appena detto permette inoltre di introdurre quella che è una potenzialità cruciale: il confronto tra dati relazionati. La possibilità di visualizzare più elementi dello stesso dato, e di farlo contemporaneamente, permette quindi di accostare, nel senso concreto del termine, più dati o addirittura dataset diversi. Da questo accostamento visuale nasce sostanzialmente un accostamento concettuale: il confronto. Valga un esempio per sottolinearne l’imprescindibilità: quando si prendono in esame cifre molto elevate, lontane dalla quotidianità, percepire concretamente e razionalmente la quantità riportata risulta molto complesso. Se di un valore come 18 tonnellate si può comprendere solo che si tratta di una grossa quantità, nel momento in cui si stabilisce
75
1 2 3 4 5 6 7 8 9 10
l’equivalenza di questo peso con quello di 36 Fiat 500, la situazione cambia notevolmente. E’ ovvio che in questo caso il confronto assume un nuovo significato, insostituibile nella comprensione. Non bisogna comunque dimenticare che quando il paragone è utilizzato in questi termini (ossia per rendere tangibili dei dati altrimenti astratti) deve essere fatto con entità che riguardano il quotidiano. Riprendendo la premessa iniziale del capitolo sull’Information Visualization (pp. 59-66) la mente umana funziona e lavora per analogie e per metafore, riportando “l’ignoto” e “lo sconosciuto” a qualcosa di noto, già conosciuto. Uno degli obiettivi di una rappresentazione efficace dovrebbe essere quello di riportare qualcosa di difficilmente quantificabile a qualcosa di immediatamente qualificabile, noto, con il quale si ha confidenza. Per ottenere ciò il progettista dovrà trovare l’indicatore adeguato, la metafora giusta, la comparazione più significativa che meglio traduca l’intero sistema. Quando invece il confronto è utilizzato solo per rendere evidente le differenze che esistono tra un dato e un altro, questo problema non si pone. / Il confronto permette di introdurre un altro aspetto a favore delle visualizzazioni: gli elementi grafici facilitano la creazione di libere associazioni più facilmente rispetto a quelli numerici. Per approfondire il perché è necessario scomodare la fisiologia |1. Il cervello è suddiviso in due principali emisferi, destro e sinistro, che nell’evoluzione si sono particolarmente differenziati modificando le infrastrutture neuronali. Ciò suggerisce che le funzionalità del cervello, come espressione di una attività pensante, siano anch’esse duplici: possiamo infatti dare senso a quanto si osserva mediante due modalità alternative e complementari, l’una logico-razionale (cioè sequenziale, analitica, deduttiva) e l’altra intuitiva-olistica (cioè sintetica, globalizzante, induttiva), che corrispondono rispettivamente alle attività dell’emisfero cerebrale sinistro e destro. La matematica, e in generale la lettura di numeri, mette in funzione la parte sinistra del cervello, quindi il pensiero logico: in questo modo diviene possibile risolvere i problemi complessi mediante un’elaborazione significativa del flusso di informazione (problem solving); di fatto, però, questa non permette al cervello di riorganizzare intuitivamente l’informazione complessiva mediante percorsi paralleli e inaspettati. Tale funzione è infatti propria dell’emisfero destro e corrisponde ad un
76
|1 La fisiologia è la scienza biologica integrata che utilizza princìpi chimicofisici per spiegare il funzionamento degli esseri viventi, siano essi vegetali o animali, mono o pluricellulari.
1 2 3 4 5 6 7 8 9 10
atteggiamento di dubbio tendente a favorire l’intuito, la fantasia e le attività parallele del pensiero laterale |2. Ciò significa che la creatività e la capacità di ottenere nuove associazioni risiedono in questo emisfero, che si attiva proprio nel momento in cui si osserva un’immagine. Una data visualization ha sicuramente quindi un impatto maggiore sulla creatività rispetto a una tabella numerica, ed è proprio grazie al supporto di creatività e intuizioni che si possono creare nuove associazioni mentali. Così come la pubblicazione degli Open Data può essere d’aiuto nell’accelerare l’innovazione grazie alla circolazione e alla condivisione delle idee, così le visualizzazioni possono evidenziare delle relazioni tra i dati e aiutare il processo di scoperta, favorendo nuove ipotesi. È evidente quindi il motivo per cui questa tecnica è spesso usata in campo scientifico (v. Scientific visualization pp. 71-72).
|2 Con il termine pensiero laterale si intende una modalità di risoluzione di problemi logici che prevede un approccio indiretto, ovvero l’osservazione del problema da diverse angolazioni, che ricerchi quindi punti di vista alternativi prima di cercare la soluzione.
/ Vantaggio 6 emisfero DX
emisfero SX
attivato da
attivato da
1 2 3 MODALITÀ
INTUITIVO/ OLISTICA
LOGICO / RAZIONALE FUNZIONE
pensiero laterale
problem solving
Libere associazioni di idee INNOVAZIONE
77
1 2 3 4 5 6 7 8 9 10
|3
/ Vantaggio 7
: visione d’insieme percepito dall’emisfero Sx : analisi dei dettagli percepito dall’emisfero Dx
/
Vantaggio 8
tempo
/ Sempre grazie alla suddivisione funzionale del cervello nei due emisferi, l’analisi di una visualizzazione permette di ottenere una comprensione olistica del problema, perché è in questo modo che ragiona l’emisfero sinistro, mentre quello destro non permette una reale visione dell’insieme ma solo dei dettagli, di frazioni di esso, che necessitano sempre comunque di un contesto complessivo per assumere maggior significato. / Le immagini in termini spaziali permettono inoltre di rendere tangibili processi narrativi o di trasformazione, perché possono introdurre in modo facilmente comprensibile la dimensione temporale. Un caso limite è rappresentato dalle visualizzazioni di Francesco Franchi |3, che è riuscito a riprodurre in forma puramente grafica la trama di alcuni classici della letteratura grazie a queste tecniche. Anche se questo esempio specifico è ascrivibile più alla corrente delle infografiche che alla Data Visualization, la possibilità di rappresentazione dei processi è la medesima. / Infine, un fattore secondario, ma pur sempre presente, è relativo all’aspetto puramente estetico delle visualizzazioni, ossia l’embellishment |4: lo stupore nel vederle belle e accattivanti, può sicuramente aumentare la curiosità nei loro confronti e il tempo o l’attenzione che si decide di spendere nella decodifica delle informazioni. Gli elementi rappresentati sono inoltre più facili da catturare mnemonicamente rispetto a una serie di elementi numerici. Alcuni teorici |5 sostengono inoltre che la visualizzazione delle informazioni sia in grado di sensibilizzare e motivare la modifica del comportamento umano, andando oltre gli obiettivi classici e spingendo gli utenti a prendere decisioni informate. In breve, si è convinti che i progettisti siano in grado di coinvolgere personalmente gli osservatori e creare forti legami affettivi con loro. Le visualizzazione rappresenterebbero quindi una forma di persuasione, capace di rendere le persone consapevoli di concetti complessi, col fine ultimo di favorire il cambiamento, almeno parziale, del loro comportamento. Questo risultato si può ottenere in modo più efficace se i concetti sui quali si vuole puntare non
78
Francesco Franchi, editorial and information visual designer, attualmente art director di IL, Intelligence in lifestyle, mensile maschile del Sole 24 Ore, e autore di alcune delle infografiche italiane più belle.
|4 Il termine embellishment viene spesso utilizzato d studiosi come Edward Tufte per indicare una eccessiva e futile decorazione dei prodotti grafici di Datavis
|5 “Infosthetics: la bellezza della visualizzazione dei dati”, intervista di Verena a Andrew Vande Moere, in “PingMag”, 3 marzo 2007.
1 2 3 4 5 6 7 8 9 10
sono espressi e descritti esplicitamente, ma sono logicamente deducibili dall’impostazione data: come ricorda Pascal |6, infatti, «siamo più facilmente persuasi dalle ragioni scoperte da noi stessi piuttosto che da quelle dateci dagli altri» |7. / Vantaggio 9 a a : informazione b : informazione +
componente estetica
b
|6 Blaise Pascal (Clermont-Ferrand, 19 giugno 1623 – Parigi, 19 agosto 1662) è stato un matematico, fisico, filosofo e teologo francese.
|7 Blaise Pascal, “Pensieri”, Guaraldi, 1995.
79
Esempi di Data Visualization / Newsmap
| TIPOLOGIA
| DESCRIZIONE
Piattaforma Web
Piattaforma che permette di visualizzare le notizie dei quotidiani on-line di tutto il
| GRADO DI INTERAZIONE
*** Avanzato
mondo, classificandoli per area tematica e per paese di pubblicazione; le notizie , che occupano graficamente tutta lâ&#x20AC;&#x2122;area dello schermo, hanno ognuna una particolare area
| DESIGNER Marcos Weskamp
che dipende dalla loro importanza, ovvero dal numero di articoli relativi a tale informazione;
|
ANNO DI CREAZIONE
2004
2010
la piattaforma presenta inoltre un ottimo sistema di fitraggio. www.newsmap.jp
| AREA TEMATICA News
# Notizie # Filtri # Aree
Esempi di Data Visualization / Visualizing Yahoo Mail
| TIPOLOGIA
| DESCRIZIONE
Piattaforma Web
Piattaforma che permette di visualizzare in tempo reale le quantitĂ di mail inviate
| GRADO DI INTERAZIONE
** Intermedio
ogni secondo tramite Yahoo, suddivise per posizione geografica. Il sistema di filtraggio permette di analizzare nello specifico ogni singola mail in base ai processi di
| DESIGNER
validificazione e in base al tempo di
-/-
consegna. Una sezione del sito permette
|
ANNO DI CREAZIONE
inoltre di visualizzare le parole chiave presenti 2011
nelle spam e nelle e-mail inviate, fornendo i dati della loro ricorrenza in esse.
| AREA TEMATICA Utilizzo di Internet
# Mail # Spam # Network # Real Time
visualize.yahoo.com/mail
Esempi di Data Visualization / Cascade
| TIPOLOGIA
| DESCRIZIONE Strumento che permette di analizzare in
Prototipo
modo preciso come un’informazione si propaga all’interno dei social media. E’ in fase
| GRADO DI INTERAZIONE
di sviluppo e al momento è stato applicato
** Intermedio
solo alle notizie del New York Times, ma potrà essere utilizzato per qualsiasi tipo di
| DESIGNER
pubblicazione o brand che sia interessato
New York Times R&D
informazioni.
| ANNO DI CREAZIONE 2011
| AREA TEMATICA Utilizzo di Internet
# Analisi # Condivisione # Social
a comprendere come si diffondono le
www.nytlabs.com/projects/cascade.html
Esempi di Data Visualization / Twitter Orographies
| TIPOLOGIA
| DESCRIZIONE
Piattaforma Web
Piattaforma che permette di ricercare una parola e di rappresentarla graficamente assieme alle principali parole ad essa
| GRADO DI INTERAZIONE
connesse, analizzando i tweet degli ultimi 5
* Base
minuti. Non appoggiandosi a tecnologie basate
| DESIGNER
sulla semantica presenta qualche difetto
Data Interfaces Laboratory
pertinenti.
| ANNO DI CREAZIONE 2011
| AREA TEMATICA Social Media
# Tweet # Keywords # Social Media # Real Time
nellâ&#x20AC;&#x2122;individuazione di tutte le parole chiave
www.datainterfaces.org/projects
Esempi di Data Visualization / We Feel Fine
| TIPOLOGIA Piattaforma Web
| DESCRIZIONE Piattaforma che permette di visualizzare in forma grafica i post dei blog di tutto il mondo che contengano le parole “I am feeling” o
| GRADO DI INTERAZIONE
“I fell”; tali post sono visualizzati in forme e
** Intermedio
colori diversi a seconda del tipo di emozioni e
| DESIGNER Jonathan Harris/ Sep Kamvar
| ANNO DI CREAZIONE
visualizzare altre informazione relative ai post, come il sesso di chi l’ha pubblicato, l’età, il luogo, la data, etc. www.wefeelfine.org
2005
| AREA TEMATICA Social Media
# Emozioni # Blog
sentimenti che esprimono. E’ possibile inoltre
IL PROGETTO
| DIMENSIONE
32
pagine del capitolo 34,8% della trattazione | DURATA
40 minuti tempo di lettura stimato | SVILUPPO
densitĂ delle informazioni testuali nelle pagine *
densitĂ delle informazioni grafiche nelle pagine * * calcolato su doppia pagina
1 2 3 4 5 6 7 8 9 10
IL PROGETTO 8
Ambito di applicazione
# dati.piemonte.it
# download
# categorie
# standard
# ricerca
Base
* livello tecnico
Il caso dati.piemonte
# piattaforma
*
# parola chiave
9
** Intermedio
10 Soluzione progettuale
# interfaccia # eurovoc # esplora # affinitĂ
* Base
1 2 3 4 5 6 7 8 9 10
I due capitoli precedenti rappresentano una necessaria premessa che ci permette di porre le basi per raggiungere lo scopo che si prefigge questa trattazione: sfruttare le potenzialità della Data Visualization, applicandola nello specifico al contesto Open Data. Questo permetterà da un lato di ottenere quelle funzionalità specificate dal mantra di Shneidermann, raggiungibili solo considerando la visualizzazione dei dati un vero e proprio strumento di analisi; dall’altro lato si potrebbe migliorare la consultazione degli Open data, rendendoli più facilmente navigabili e analizzabili, incentivandone l’interesse e il dialogo. Per compiere questo passaggio, in concreto, si è scelto di utilizzare come base per le considerazione e lo sviluppo progettuale il mezzo con cui i dati aperti vengono resi pubblici: i portali Open Data.
94
cosa
perchè
come
S f r uttare l e funzioni p otenziali della Data Vis ualization applicandola agli Open D ata
Ar r icc h ire l e du e t e m at ic h e :
U t il izza re fo r m e di D at a v is p e r l a r ice rc a e l ’e sp l o r a zio n e de l l e info r m a zio n i su i p o r t a l i Op e n
1 E l e v a re l a D at a v is
a s t r um e n t o d i a n a l is i g r a z ie a i d at i a p e r t i; 2 Fa c il it a re a cce s s o e n a v ig a z io n e d eg l i O p e n D at a ;
1 2 3 4 5 6 7 8 9 10
Ambito di applicazione
Nonostante la sua diffusione sia da ritenersi piuttosto recente, Internet è oggigiorno il media maggiormente utilizzato dalla popolazione mondiale come mezzo di informazione; interrogare la piattaforma Web permette non solo la riduzione dei tempi di ricerca ma anche l’ottenimento di conoscenze prima praticamente inaccessibili. Se già a partire dal 1999, Internet era considerato la migliore enciclopedia esistente |1, con l’arrivo del Web 2.0, il moltiplicarsi dei domini attivi |2 e la diffusione dell’User Generated Content |3, il web è diventato ben presto custode dell’illimitata conoscenza umana. Tale vastità di informazioni in esso contenute, se da un lato ha permesso un’estrema facilità nella ricerca di risposte generali e di interesse pubblico, dall’altro ha invece oscurato molte informazioni specifiche o di settore |4. Se questa affermazione è valida per ogni genere di informazione, risulta ancora più calzante nel caso della pubblicazione aperta di dati: questi dataset infatti, sebbene resi disponibili tramite pubblicazioni on-line, sono spesso privi di una corretta indicizzazione e di un’adeguata promozione; ciò comporta che essi risultano difficilmente accessibili o utilizzabili, vanificando così il nobile tentativo di apertura di tale conoscenza. Ne sono un chiaro esempio alcuni dati governativi, come le retribuzioni dei politici o i finanziamenti ai partiti: nonostante debbano essere obbligatoriamente pubblicati per legge e nonostante siano particolarmente interessanti in questo clima politico, la maggior parte dei cittadini ne ignora l’esistenza o comunque non riesce ad accedervi in maniera efficace. Per ovviare a questo problema, negli ultimi anni si è assistito a un fiorire, da parte di più entità nazionali e regionali, di diverse piattaforme web che raggruppano tutti i dataset di organizzazioni e comuni disponibili in rete in formato aperto; ottimi portali di questo genere sono i già citati dati.gov.uk e dati.piemonte.it: per ulteriori esempi si rimanda al capitolo “Il contesto mondiale”, p. 40. Queste piattaforme, create da enti specializzati che
|1 cfr http://it.wikipedia. org/wiki/Storia_di_ Internet
|2 I domini Internet sono i nomi con cui si identificano i computer collegati ad Internet.
|3 Il termine User Generated Content indica il materiale disponibile sul web prodotto da utenti invece che da società specializzate.
|4 Si Veda anche “Una definizione aperta”, pp. 25-33.
95
1 2 3 4 5 6 7 8 9 10
collaborano in prima persona con comuni e associazioni che producono dati, risultano di estrema utilità per una ricerca ottimizzata di dataset: è possibile così ottenere vantaggi in termini di velocità, di ricerca e di affidabilità dei dati stessi, fattori particolarmente rilevanti in uno scenario sovraccarico di dati e informazioni. In molti casi, tali portali elencano e classificano i dataset riportandone solamente le schede tecniche e i link da cui è possibile effettuare il download, senza incorporare al loro interno i dataset originari: si evita così di privarli della loro paternità e di duplicare informazioni già comunque presenti in rete. Per quanto l’utilità di questi strumenti di raccolta di dati aperti sia più che assodata, ciò non significa che gli esempi oggi esistenti sul Web si possano considerare privi di problematiche o margine di miglioramento. Innanzitutto, queste piattaforme riportano e raggruppano i dati suddivisi in diverse modalità, solitamente per zone geopolitiche, per area tematiche o per ente di produzione. Tali raggruppamenti, che avrebbero il compito di facilitare la navigazione e di velocizzare la ricerca, spesso sono in realtà molto limitati e approssimativi, con il risultato di produrre una ramificazione che si estende solo a livello superficiale. Inoltre, mancando del tutto un’analisi semantica dei loro contenuti, i dataset raccolti risultano non relazionati e collegati tra loro, essendo oggi ancora molto poco diffuso il formato Linked |5, che permetterebbe di ovviare a questo problema. Anche nei casi in cui si presentano delle finestre di suggerimenti, esse propongono alternative non relative al tipo di contenuto ma ottenute semplicemente dal confronto dei rispettivi metadati. Un altro problema, molto sentito nella realtà contemporanea così multiforme, è la mancanza di linee guida: ogni portale, non avendo indicazioni standard da seguire, riporta suddivisione per categorie, modalità di raggruppamento, esplorazione e ricerca molto differenti e spesso non particolarmente intuitive. Questo comporta che gli utenti |6 devono interfacciarsi ogni volta con schermate diverse e impararne da zero il funzionamento, nonostante queste si pongano le stesse finalità.
96
|5 Si veda anche “Una definizione aperta”, p. 25.
|6 Per conoscere chi siano effettivamente questi utenti e come utilizzino questi portali si veda p. 104.
1 2 3 4 5 6 7 8 9 10
A queste problematiche di tipo tecnico, si possono inoltre aggiungere alcune considerazioni scaturite da un’analisi sotto un punto di vista più funzionale.
| MODALITÀ DI RICERCA
WEB DIRECTORY informazioni organizzate in categorie e sottocategorie
MOTORE DI RICERCA informazioni distribuite secondo parole chiave
Tutte le piattaforme presentano i dataset raccolti come semplice elenco a scorrimento. Se questo già in generale risulta molto limitante, lo è ancora molto di più nel momento in cui si effettua una ricerca: i risultati ottenuti infatti vengono presentati sotto forma di lista, ossia in maniera neutra, senza dare priorità o maggiore evidenza ad alcuni di essi, se non sfruttando l’espediente dell’ordine. La lista dei risultati può essere composta semplicemente dai titoli dei dataset, oppure presentare in aggiunta l’ente di produzione e/o la categoria con cui sono stati classificati: in ogni caso, per accedere a maggiori dettagli riguardanti la tipologia di contenuto del dato, è necessario cliccare e aprire la scheda tecnica. In presenza di un numero particolarmente elevato di risultati di ricerca, sia la neutralità di presentazione che le scarse informazioni immediatamente visibili, provocano difficoltà nell’ottenere esattamente ciò di cui si ha bisogno. Di seguito si riportano degli esempi concreti di quanto detto fin qui in forma generica: si sono infatti analizzati brevemente alcuni portali internazionali e non, scelti per evidenziare chiaramente le caratteristiche e le problematiche descritte.
97
/ opendata.gov.ke
| NAZIONE
| GOOD IDEAS Possibilità di visualizzare il contenuto dei dataset in forma grafica
Kenia
| ANNO DI PUBBLICAZIONE 2011
Possibilità di visualizzare i risultati per pertinenza e popolarità
| PROBLEMATICHE Visualizzazione per elenco
| REPOSITORY
Caratteristiche non subito visibili
521
Categorizzazione superficiale/ approssimativa
numero dataset
-/-
| SOLUZIONI
numero dati open
| GRADO DI USABILITÀ 1
2
[3]
4 5
| DIFFUSIONE FILOSOFIA OPEN
* Bassa | ESPEDIENTI GRAFICI icona
mappa
infografica
Suggerire relazioni tra dataset Visualizzazione delle informazioni Informazioni principali immediate
/ data.gov.uk
| NAZIONE
| GOOD IDEAS
Gran Bretagna
Visualizza i risultati in base alla rilevanza rispetto alla parola ricercata Possibilità di ricercare più parole
| ANNO DI PUBBLICAZIONE 2009
Storia del dataset
| PROBLEMATICHE Visualizzazione per elenco
| REPOSITORY
Caratteristiche non subito visibili
8659
Categorizzazione superficiale/ approssimativa
numero dataset
7348 numero dati open
| SOLUZIONI Suggerire relazione tra i dataset
| GRADO DI USABILITÀ 1
2
3
[4] 5
| DIFFUSIONE FILOSOFIA OPEN
** Intermedia | ESPEDIENTI GRAFICI icona
mappa
Visualizzazione delle informazioni Informazioni principali immediate
/ dati.emilia-romagna.it
| NAZIONE
| GOOD IDEAS Italia / Emilia Romagna
| ANNO DI PUBBLICAZIONE 2005
Suggerimento di nuovi riusi dei dati Elenco casi d’uso: lista esperienze e iniziative realizzate con i dati riusabili del portale
| PROBLEMATICHE Visualizzazione per elenco Caratteristiche non subito visibili
| REPOSITORY
Categorizzazione superficiale/ approssimativa
2144 numero dataset
27 numero dati open
| SOLUZIONI Visualizzazione delle informazioni Informazioni principali immediate
| GRADO DI USABILITÀ 1
2
[3]
4 5
| DIFFUSIONE FILOSOFIA OPEN
** Intermedia | ESPEDIENTI GRAFICI icona
mappa
Suggerire relazione tra i dataset
1 2 3 4 5 6 7 8 9 10
Tali problemi di tipo tecnico e funzionale rappresentano la base per le considerazioni che vengono riportate di seguito, volte a proporre suggerimenti per apportare miglioramenti alle piattaforme dedicate agli Open Data, in particolare in relazione alle funzioni, senza tralasciare quei problemi preliminari di organizzazione interna che devono essere superati per poter ottenere successivamente migliorie in fatto di usabilità. Avendo più volte sottolineato l’esistenza di grandi discrepanze tra i vari portali, il punto da cui partire per arrivare a soluzioni più ottimali è sicuramente l’adozione di un modello standard che da una parte regoli in maniera uniforme alcune impostazioni, ma dall’altra che sia flessibile abbastanza da adattarsi alle singole esigenze dei produttori dei dati e dei proprietari dei portali. La scelta della standardizzazione porterebbe alla creazione di siti internet aventi medesima struttura e organizzazione, in cui sarebbero facilitati dialoghi e interscambi di dataset tra le piattaforme differenti. Uniformando anche l’aspetto grafico e le funzionalità della ricerca, si faciliterebbe l’usabilità da parte degli utenti che, una volta utilizzata l’interfaccia di un portale, non avrebbero problemi a muoversi in altre piatta-
| PROBLEMATICHE / SOLUZIONI
Mancanza di relazione tra dataset
1
2
Suggerire relazioni semantiche
104
Modalità di ricerca non condivise
Creazione modello standard
1 2 3 4 5 6 7 8 9 10
forme create secondo le stesse linee guida. L’utente che si approccia ad un portale di questo tipo è per la maggior parte dei casi in cerca di dataset specifici: non è quindi possibile trascurare l’aspetto che maggiormente influenza l’efficienza della ricerca, ovvero il tempo necessario per raggiungere le informazioni utili. Utilizzare espedienti grafici e simbologie può essere un’ottima soluzione per raggiungere tale scopo: grazie ad alcuni vantaggi intrinseci nella natura stessa della comunicazione visiva, quali immediatezza o visione olistica|7, integrare le informazioni con elementi grafici porta a un apprendimento quasi immediato dei concetti che si vogliono veicolare. Questo risultato non è ottenibile con informazioni trasmesse esclusivamente in forma scritta, che richiedono tempi di elaborazione molto più lunghi, specie in un media come internet che, per sua natura, richiede concisione per catturare l’attenzione degli utenti.
|7 Si veda anche “I vantaggi della visualizzazione”, p. 74
Oltre a queste considerazioni, entrando nel merito della questione grafica, attraverso la rappresentazione visiva è possibile riorganizzare lo spazio dell’interfaccia
PROBLEMATICHE
Presentazione risultati come elenco
3
Raggiungimento informazioni principali non immediato
4 SOLUZIONI
Visualizzazione grafica risultati per priorità
Raggiungimento informazioni principali immediato
105
1 2 3 4 5 6 7 8 9 10
per rappresentare simultaneamente tutte le informazioni fondamentali dei dataset: questo permette non solo di avere una visione complessiva e intuitiva del contenuto dei dati senza bisogno di aprirli, ma favorisce anche il confronto tra dataset rappresentati con le stesse modalità. Questo fattore in particolare è molto utile nel caso si effettui una ricerca, perché l’utente è libero di prendere in considerazione diversi parametri e giudicare quale dei risultati corrisponde maggiormente alle sue esigenze. Altro punto focale per cui sono possibili eventuali migliorie, riguarda la trattazione dei “suggerimenti”, sezione presente nella maggior parte dei portali. Essa svolge una funzione fondamentale nella fase di ricerca, perché dovrebbe indirizzare l’utente verso un dataset simile per contenuto a quello selezionato; spesso però le alternative proposte non sono valide perché sono correlate esclusivamente per categoria o per ente produttore. Affinché i suggerimenti siano davvero pertinenti, è necessario effettuare un’analisi di tipo semantico, sebbene risulti un procedimento molto complesso. Per ottenere più facilmente lo stesso risultato si propone quindi di utilizzare un’analisi basata su parole chiave o tag per creare affinità tra dataset, appoggiandosi però a un modello standard che permetta di generarli, almeno in parte, in maniera automatica. Tale modello deve prevedere un sistema di categorizzazione dei dati articolato e profondo, che permetta cioè di definire in modo preciso il contenuto degli stessi, lasciando comunque un certo margine di flessibilità per eventuali miglioramenti. Queste argomentazioni sono state riportate per ora solo come ipotesi e sarà necessario attendere fino al capitolo “Soluzione Progettuale”, p.112, affinché siano esaminate in maniera concreta all’interno di una simulazione di un portale vero e proprio. È bene però prendere prima in esame un caso reale, per utilizzarlo come base per la proposta di una versione migliorata delle funzioni di ricerca del portale.
106
1 2 3 4 5 6 7 8 9 10
Il caso dati.piemonte
Di seguito si riporta un’analisi approfondita del sito dati.piemonte.it, scelto come base per sviluppare una soluzione progettuale che risponda agli obiettivi e ai requisiti elencati nel capitolo precedente: si tratta di una proposta di applicazione di elementi Datavis a un portale di ricerca Open Data. La scelta di esaminare il sito piemontese è stata dettata dalla rilevanza che esso ha assunto, essendo il primo in ordine temporale nel panorama italiano e quindi considerato un consolidato punto di riferimento. L’analisi della piattaforma è suddivisa in 2 sezioni: la sezione A contiene e esamina gli aspetti che ne costituiscono la filosofia e la base concreta, relativamente all’archivio dei dati e agli utilizzatori, aspetti sui quali non si effettueranno modifiche in fase progettuale, essendo sostanzialmente le premesse su cui costruire la proposta. La sezione B contiene invece le specifiche riguardo struttura organizzativa dei dati e funzionalità del portale dati.piemonte.it, che sono le aree principali in cui applicare la Data Visualization e quindi operare le modifiche.
107
1 2 3 4 5 6 7 8 9 10 Se z. A
COS’È DATI.PIEMONTE.IT PARTE 1 / 4
Dati.piemonte.it è il portale promosso dalla Regione Piemonte, a disposizione di tutti gli enti della PA piemontese, per la condivisione dei dati e delle informazioni pubbliche. Rappresenta il primo esempio italiano sul tema della disponibilità dei dati pubblici, che ha dato concreta risposta alla Direttiva europea 2003/98/CE e che si pone oggi come punto di riferimento sia per la consultazione dei dati riusabili delle PA piemontesi, sia come punto di incontro della comunità degli utenti. Il portale è online dal 28 maggio 2010 e solo nel primo mese di vita ha ottenuto 7.000 visite.
A CHE COSA SERVE PARTE 2 / 4
Il progetto nasce per dare attuazione a quanto previsto a livello comunitario in materia di riutilizzo delle informazioni pubbliche. L’Unione Europea infatti attribuisce al riutilizzo delle informazioni del settore pubblico un ruolo fondamentale, sia per lo sviluppo economico e sociale del territorio, sia per la diffusione delle nuove tecnologie digitali fra enti pubblici, imprese e cittadini. Il portale rappresenta un punto preferenziale di accesso per il mondo privato ai dati dell’amministrazione pubblica: la modalità Open con cui sono resi disponibili questi dati permette di sfruttarne il pieno potenziale, costituendo così un’immensa occasione di sviluppo. A livello della PA piemontese i benefici potenziali sono notevoli, in relazione alla dimensione, in termini numerici, del patrimonio informativo raccolto.
108
1 2 3 4 5 6 7 8 9 10 Sez. A
| INTEFACCIA PORTALE
| PROPOSITI PREFISSATI ASPETTO ECONOMICO
Sviluppo economico e sociale del territorio
ASPETTO TECNOLOGICO
Diffusione tecnologie digitali tra enti pubblici
ASPETTO CULTURALE
Promozione della filosofia Open
109
1 2 3 4 5 6 7 8 9 10 Se z. A
A CHI È RIVOLTO PARTE 3 / 4
Il portale si rivolge a tutti gli operatori pubblici, privati o commerciali alla ricerca di dataset specifici per esplorarli e/o riutilizzarli a scopo commerciale o non commerciale. L’obiettivo è quello di stimolare un nuovo rapporto fra pubblico e privato e di favorire lo sviluppo di iniziative imprenditoriali.
I DATI PARTE 4 / 4
I dati sono affidabili, imparziali, completi e raccolti nel lungo periodo. Attualmente sono 327 quelli disponibili su dati.piemonte.it; in aggiunta si contano i 27 raccolti dai portali federati e i 243 del portale Ckan. Il caricamento di nuove informazioni è comunque costantemente in corso. I dati sono stati rilasciati da 16 enti, per un totale di 34 unità organizzative. Il patrimonio è strutturato in formati diversi: dai dati non strutturati, come le raccolte legislative, o semistrutturati, come i dati catalografici delle raccolte culturali, ai dati strutturati derivanti da basi dati gestionali e decisionali, ai dati geografici. La maggior parte dei dati si trova nel formato originale con cui è stato realizzato o archiviato per la Regione Piemonte. Inoltre, nella sezione RDF Data, è possibile accedere alla pagina nella quale si trovano i dati in formato RDF, che rappresentano l’inizio di un percorso di pubblicazione di una quantità via via crescente di informazioni secondo lo standard Linked Data.
110
1 2 3 4 5 6 7 8 9 10 Sez. A
| USER CASES RICERCA
SVILUPPO
RICERCATORI Sviluppo di analisi o pubblicazioni; cultori del tema Open
STUDENTI Stesura di ricerche in ambito accademico
GIORNALISTA Verifica delle affermazioni tramite i dati
SVILUPPATORI Creazione di nuovi servizi utilizzando mashup di dati
DESIGNERS Realizzazioni di infografiche e/o datavis
*** assiduo
*sporadico
** frequente
*** assiduo
** frequente
Settimo
Unioncamera
Fossanese
Forno Canavese
Galliate
Altri
* frequenza di consultazione
| DATI PER ENTE
327 dataset Regione Piemonte
Borgomanero
FORMATO:
CC0
Verbania
Cuorgnè
CCBY
111
1 2 3 4 5 6 7 8 9 10 Se z. B
COME SONO ORGANIZZATI I DATASET PARTE 1 / 2
I dati sono organizzati in 13 categorie stilate autonomamente dallo staff di dati.piemonte.it. Lo stesso dato può essere inserito dall’ente proprietario anche in due o più categorie differenti. Al momento del caricamento del dato è possibile specificare eventuali sottocategorie, visualizzabili solo all’apertura della scheda tecnica dello stesso e non considerati nei filtri di ricerca.
112
AGRICOLTURA, TERRITORIO E PESCA
INFO GEOGRAFICHE
SOCIALE
AMBIENTE E METEO
INFO SCIENTIFICA E RICERCA
TRAFFICO E TRASPORTI
CULTURA
LEGALI
TURISMO E TEMPO LIBERO
ECONOMIA
POLITICA
FORMAZIONE
RISORSE NATURALI
1 2 3 4 5 6 7 8 9 10 Sez. B
| NUMERO DATI E SOTTOCATEGORIE 72 dataset
60 dataset
45 dataset
/ ... / bandi e gare / documenti / istituzioni / verbali assemblee
/ ... / artigianato / dati imprese / industria e comm. / info finanziarie
/ ... / alberghi / eventi e intr. / sport
37 dataset
34 dataset
29 dataset
/ ... / dati imprese agr. / uso del suolo / edilizia
/ ... / reti viarie e di trasp.
/ ... / info biologiche / info geologiche
26 dataset
20 dataset
20 dataset
/ ... / atti di conferenze / scuole
/ ... / dati idrografici
/ ... / catasto / confini politici / dati spaziali / topografia
17 dataset
12 dataset
1 dataset
/ ... / dati demografici / indagini settoriali / statistiche lavoro
/ ... / monumenti e siti / musei e mostre / risorse bibliotecarie / altri archivi pubblici
/ ... / iniziative finan.
0 dataset
numero dataset = 72
113
1 2 3 4 5 6 7 8 9 10 Se z. B
FLUSSO DEL DATO PARTE 2 / 2
Il portale permette di scaricare dati (o documenti contenenti dati pubblici) prodotti dalle Pubbliche Amministrazioni nell’ambito delle proprie attività istituzionali. Si tratta di dati o documenti che, dopo una serie di verifiche (fra cui quella in materia di privacy) possono essere diffuse dalla PA in un’ottica di riuso. Il portale si fonda sui cataloghi di metadati in cui sono censite le basi dati e gli applicativi degli enti. / Gli enti proprietari dei dati possono effettuare l’upload dei loro dati tramite un semplice form, a cui possono accedere previa registrazione. I campi da compilare sono liberi e rappresentano le informazioni che andranno a formare la scheda tecnica del dato. Nel dettaglio questi campi sono: nome dataset, descrizione, formato, licenza, argomento (categorizzazione), parole chiave, data di creazione. L’ente ha in seguito la possibilità di aggiornare il dato, se esso lo necessita, o di caricare revisioni o altre versioni. / Le principali funzionalità disponibili per gli utenti sono sostanzialmente quelle di download dei dati e di social networking: ricerca dei dati, accesso ai set di dati, possibilità di lasciare feedback sulla qualità dell’informazione fornita, forum/RSS, news su filosofia e iniziative Open, servizio “l’esperto risponde”. / La ricerca dei dati può essere effettuata tramite ricerca semplice, ricerca avanzata, che permette di utilizzare dei filtri, oppure ricerca estesa nei portali federati con dati.piemonte.it. I risultati della ricerca si presentano sotto forma di elenco, con i nomi del dataset in evidenza e con la possibilità di osservare con un click una preview con alcune delle caratteristiche principali del dataset. Una volta trovato il risultato di interesse, è possibile visualizzare la relativa scheda di dettaglio con tutte le informazioni, scheda tecnica e il link per effettuare il download. Per ogni scheda tecnica è possibile votare la qualità del dato e lasciare un commento, oppure fare click sui dati correlati proposti. / Nella versione precedente del sito era presente una visualizzazione base, esplora, che permetteva di muoversi all’interno della classificazione scelta per i dati. Si effettuavano una serie di click che permettevano di entrare in profondità, di categoria in sottocategorie (in certi casi le sottocategorie erano anche di due livelli gerarchici), fino a scoprire i dati in esse contenuti. Tale visualizzazione risultavano comunque piuttosto rigida e poco intuitiva; al momento non è stata riproposta nella nuova versione della piattaforma.
114
1 2 3 4 5 6 7 8 9 10 Sez. B
| POSSIBILI AZIONI ALLâ&#x20AC;&#x2122;INTERNO DEL PORTALE ENTE
Requisito iniziale: REGISTRAZIONE Login Form Carica un dataset
Carica un altro dataset Carica una nuova versione
UTENTE
Requisito iniziale: NESSUNO RICHIESTO
Dati in evidenza
Ricerca per parola
Ricerca per filtri
Estendi ricerca
Digita parola
Scegli filtri
Digita parola
Elenco
Digita parola
Portale Ckan
Apri preview Scheda dato
Download Vota Commenta Dati correlati
115
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
Lâ&#x20AC;&#x2122;analisi della soluzione progettuale è suddivisa in due sezioni: la sezione C ricalca la sezione B del capitolo precedente, esponendo i cambiamenti che si propongono per ottenere gli obiettivi definiti, ovvero la riorganizzazione della classificazione dei dati e le nuove funzioni implementate; la sezione D infine riporta tutte le caratteristiche grafiche che permettono di ottenere tali migliorie.
116
1 2 3 4 5 6 7 8 9 10
117
1 2 3 4 5 6 7 8 9 10 Se z. C
COME SONO ORGANIZZATI I DATASET PARTE 1 / 3
Da un punto di vista organizzativo/strutturale la proposta in oggetto comporta l’adozione del thesaurus Eurovoc, come modello standard internazionale per l’organizzazione interna di categorie e sottocategorie. EuroVoc è un thesaurus multilingue e multidisciplinare specificamente concepito per il trattamento dell’informazione documentaria delle istituzioni dell’Unione europea. E’ sostanzialmente un vocabolario controllato che comprende settori sufficientemente ampi per inglobare ottiche comunitarie e nazionali: permette quindi la normalizzazione terminologica dei vocabolari d’indicizzazione, consentendo un’efficace gestione dei documenti e nel contempo una maggiore precisione nella ricerca degli stessi. La funzione del thesaurus è di eliminare le ambiguità, garantendo che ogni concetto sia situato in un contesto tale che il suo significato risulti univoco. Ogni concetto infatti viene circoscritto ad un solo significato, all’interno del settore e del micro thesaurus cui appartiene, dalle sue relazioni semantiche, dalle informazioni aggiuntive (note operative, di definizione o storiche), nonché dai suoi equivalenti nelle altre lingue di Eurovoc; il multilinguismo di questo thesaurus comporta infatti la definizione di equivalenze linguistiche tra concetti identici espressi in lingue diverse, permettendo l’indicizzazione dei documenti nella lingua del documentarista e la ricerca nella lingua dell’utente.
118
1 2 3 4 5 6 7 8 9 10 Sez. C
| L’EUROVOC Thesaurus multidisciplinare dell’Unione Europea VANTAGGI / Normalizzazione terminologica
Precisione nella categorizzazione e nella ricerca documentaria
/ Multilinguismo, equivalenze linguistiche
Indicizzazione nella lingua di documentalista e utente
STRUTTURA EUROVOC
diventano
PROGETTO
Settori
Categorie
Microthesauri
Sottocategorie
Termini
Tag, parole chiave
Relazioni tra termini
Relaizioni tra dataset;
Nomi dei paesi
Lingua
NUOVE CATEGORIE Organizzazione internazionali / Comunità europee / Produzione e ricerca / Scienze / Diritto / Agricoltura e pesca / Geografia / Industria / Finanze / Impresa e concorrenza / Agroalimentare / Energia / Scambi commerciali / Vita economia / Relazioni intern. / Vita politica / Educazione Questioni sociali / Occupazione e lavoro / Trasporto
119
1 2 3 4 5 6 7 8 9 10 Sez. C
COME È STRUTTURATO IL FORM DI INSERIMENTO DATI PARTE 2 / 3
Nella soluzione proposta, la semantica dell’Eurovoc viene mantenuta utilizzando settori e microtesauri rispettivamente come categorie e sottocategorie del nuovo sistema di classificazione in cui inserire i link ai dataset; i termini e le relazioni presenti nel thesaurus corrispondono invece a tag associati a categorie, sottocategoria, e dataset. L’applicazione di questo sistema è ottenuta nello specifico grazie alla compilazione di un form da parte degli enti che vogliono caricare le schede informative dei dati e i link diretti agli stessi. Tale form è strutturato in modo da permettere i seguenti passaggi: / L’utente proprietario è chiamato a scrivere il nome del dataset e la descrizione dello stesso; / Sulla base della corrispondenza dei termini inseriti dall’utente con quelli presenti nell’Eurovoc, vengono suggerite categoria e sottocategoria in cui inserire il dato, in modo da facilitare il giusto posizionamento del dato all’interno della struttura ramificata; / Vengono quindi suggeriti in automatico i tag che sono relativi a quelli associati alla sottocategoria, tra cui l’utente può scegliere quelli più o meno pertinenti; / L’utente può aggiungere nuovi tag: queste nuove parole vengono aggiunte a quelle già esistenti per quella sottocategoria, andando così a incrementare la rete semantica dell’Eurovoc;
120
1 2 3 4 5 6 7 8 9 10 Sez. C
| VOCI DEL FORM
| SPECIFICHE O | NO
| DETTAGLI
L | V
Link dato
Titolo dato
Titolo abbreviato
Categoria
Categoria scelta tra le voci dell’Eurovoc
Sottocategoria
Possibilità di non scegliere la sottocategoria
...
Descrizione
#
Parole chiave estratte dalla descrizione, confrontate con quelle dell’Eurovoc. Possibilità di inserire le proprie parole chiave
Parole chiave
Formato CC Licenza
Usabilità
AUTOMATICO
Data dal rapporto tra formato e licenza
AUTOMATICO
Compilato in automatico con il nome dell’utente
Aggiornamento
Ente
O = obbligatorio NO = non obbligatorio L = libero V= vincolato
121
1 2 3 4 5 6 7 8 9 10 Se z. C
FLUSSO DEL DATO PARTE 3 / 3
Anche se, come detto, le finalità e gli obiettivi descritti per il portale dati.piemonte.it rimangono i medesimi anche nella proposta progettuale, il sistema strutturale proposto permette di ottenere funzionalità aggiunte, in particolare la capacità di muoversi in maniera libera e dinamica all’interno della classificazione in cui sono distribuiti i link ai dataset. / Come si è detto, l’elemento chiave per ottenere una classificazione coerente si esprime concretamente con il form degli enti proprietari. I campi da compilare nello specifico sono: titolo dato; titolo abbreviato; scelta categoria di classificazione; scelta sottocategoria; descrizione/abstract; parole chiave; formato; licenza; usabili; aggiornamento. / Le principali funzionalità disponibili per gli utenti sono sostanzialmente quelle di download dei dati e di social networking: ricerca dei dati, accesso ai set di dati, possibilità di lasciare feedback sulla qualità dell’informazione fornita, forum/RSS, news su filosofia e iniziative Open, servizio “l’esperto risponde”. / La ricerca dei dati può essere effettuata tramite ricerca semplice, ricerca avanzata, che permette di utilizzare dei filtri, oppure ricerca estesa nei portali federati con dati.piemonte. I risultati della ricerca si presentano sotto forma di elenco, con i nomi del dataset in evidenza e con la possibilità di osservare con un click una preview con alcune delle caratteristiche principali del dataset. Una volta trovato il risultato di interesse, è possibile visualizzare la relativa scheda di dettaglio con tutte le informazioni, scheda tecnica e il link per effettuare il download. Per ogni scheda tecnica è possibile votare la qualità del dato e lasciare un commento, oppure fare click sui dati correlati proposti. / Nella versione precedente del sito era presente una visualizzazione base, esplora, che permetteva di muoversi all’interno della classificazione scelta per i dati. Si effettuavano una serie di click che permettevano di entrare in profondità, di categoria in sottocategorie (in certi casi le sottocategorie erano anche di due livelli gerarchici), fino a scoprire i dati in esse contenuti. Tale visualizzazione risultavano comunque piuttosto rigida e poco intuitiva; al momento non è stata riproposta nella nuova versione della piattaforma.
122
1 2 3 4 5 6 7 8 9 10 Sez. C
| POSSIBILI AZIONI ALLâ&#x20AC;&#x2122;INTERNO DEL PORTALE ENTE
Requisito iniziale: REGISTRAZIONE Login Form Carica un dataset
Carica un altro dataset Carica una nuova versione
UTENTE
Requisito iniziale: NESSUNO RICHIESTO Filtra categ, Ricerca per parola
Filtra per parola Visualizzazione
Visualizza categ. Visualizza sottocat. Scheda dato
Ricerca per filtri
Download Scegli filtri
Suggerimenti
Digita parola
Tutti i dati della stessa sotttocat.
Esplora Visualizza per categoria Visualizza per enti
sottocategoria ente
123
1 2 3 4 5 6 7 8 9 10
Interfaccia
124
1 2 3 4 5 6 7 8 9 10 Sez. D
125
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
Questa è la proposta grafica di interfaccia per supportare la ricerca di dataset all’interno di portali Open Data. I dati, come già in precedenza descritto, sono organizzati secondo l’Eurovoc, il modello di thesaurus riconosciuto a livello internazionale.
L’interfaccia si apre con una videata suddivisa in tre macro aree: / ricerca avanzata (Avanzate, a sinistra) / ricerca per parola (Cerca, posto al centro) / esplorazione libera (Esplora, a destra)
126
1 2 3 4 5 6 7 8 9 10 Sez. D
127
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
Cliccando all’interno della sezione “Ricerca per parola”, ossia nell’area delimitata dal cerchio posto al centro dell’interfaccia, è possibile digitale la parola che si ritiene più opportuna per iniziare la ricerca di specifiche informazioni. Una funzionalità dell’interfaccia prevede la comparsa di alcuni suggerimenti mentre si sta componendo la parola da ricercare: vengono così mostrate le parole chiave che sono già presenti nell’Eurovoc.
128
1 2 3 4 5 6 7 8 9 10 Sez. D
La presenza di suggerimenti permette allâ&#x20AC;&#x2122;utente di essere maggiormente indirizzato verso lâ&#x20AC;&#x2122;argomento ricercato, suggerendo parole chiave catalogate allâ&#x20AC;&#x2122;interno della struttura.
129
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
L’utente può decidere se usufruire dei suggerimenti, cliccando su una delle parole chiave mostrate nell’elenco, oppure se ricercare dati inserendo una specifica parola. In tale caso, dopo aver digitato il nome, è necessario premere il tasto Invio, per avviare così la ricerca. Il caricamento della pagina successiva è preceduto, come mostra l’immagine sotto, da una piccola animazione di download che permette, tramite l’utilizzo di un espediente grafico, di visualizzare le quantità di dataset relative alla parola ricercata presenti nelle differenti categorie.
130
1 2 3 4 5 6 7 8 9 10 Sez. D
131
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
L’animazione d’interconnessione tra le due pagine dura appena il tempo per mostrare la corrispondenza tra colore/categoria e la quantità di dataset: la lunghezza dell’arco indica la quantità di dati relativi alla parola ricercata contenuti in quella sottocategoria. Il numero dei dataset e il nome della categoria sono esplicitati per esteso nel testo sotto la linea all’interno della circonferenza di ricerca.
132
1 2 3 4 5 6 7 8 9 10 Sez. D
Sono mostrate tutte le categorie in cui la parola ricercata compare; la lunghezza dell’elemento grafico fa intuire immediatamente la suddivisione strutturale. In questo caso, la categoria corrispondente a verde chiaro rappresenta quella che contiene al suo interno più dataset inerenti alla parola “acqua”.
133
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
La visualizzazione a lato rappresenta la schermata dei risultati di ricerca. I dataset sono rappresentati come piccoli cerchi colorati in base alla categoria e compaiono all’interno di 2 anelli. A seconda della loro collocazione all’interno di essi, si indica l’affinità del singolo dataset con la parola ricercata: i dataset disposti all’interno del primo anello, quello più vicino all’anello centrale delle categorie, sono quelli maggiormente inerenti alla parola ricercata.
134
1 2 3 4 5 6 7 8 9 10 Sez. D
135
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
I dataset sono rappresentati quindi tramite piccoli cerchi colorati in maniera differente a seconda della categoria a cui corrispondono. Altre due caratteristiche sono rappresentate graficamente: la qualitĂ , data dalla combinazione tra il tipo di formato e di licenza, che viene rappresentato attraverso un anello esterno; lâ&#x20AC;&#x2122;aggiornamento, rappresentato con un punto bianco al centro del cerchio che definisce il dataset. Ă&#x2C6; possibile interagire con la visualizzazione modificandone alcuni aspetti grafici come dimensione del carattere oppure grandezza dellâ&#x20AC;&#x2122;immagine.
136
1 2 3 4 5 6 7 8 9 10 Sez. D
Sono mostrate tutte le categorie in cui la parola ricercata compare; la lunghezza dell’elemento grafico fa intuire immediatamente la suddivisione strutturale. In questo caso la categoria corrispondente a verde chiaro rappresenta quella che contiene al suo interno più dataset inerenti alla parola “acqua”.
137
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
Ă&#x2C6; possibile visualizzare il titolo del dataset semplicemente posizionando il cursore sopra il cerchio che lo rappresenta. In questa posizione inoltre è possibile attingere a ulteriori informazioni: sul lato sinistro compaiono infatti, evidenziate da un filetto grigio, le indicazioni relative alla categoria e alla sottocategoria a cui il dataset appartiene. La rappresentazione di categorie e sottocategorie sulla sinistra permette di esplorarle cliccando semplicemente sopra una di esse.
138
1 2 3 4 5 6 7 8 9 10 Sez. D
139
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
In basso a destra della schermata, invece, è possibile attivare o disattivare i tag riguardanti tutti i dataset visualizzati, a seconda dei quali si attiveranno o disattiveranno i dataset che li contengono. In alto a destra compare inoltre il filtro per categoria. Cliccando sui cerchi del colore relativo alla categoria è possibile disabilitare la visualizzazione della categoria corrispondente.
140
1 2 3 4 5 6 7 8 9 10 Sez. D
Cliccando su uno degli archi che compongono il cerchio centrale, è possibile visualizzare i titoletti di tutti i dataset appartenenti ad una categoria.
141
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
Cliccando su un dataset si aprirà una scheda tecnica, simile ad un pop-up, con le caratteristiche specifiche del dataset (breve descrizione, formato, licenza, categoria e sottocategoria) e il link relativo al download. Inoltre la scheda tecnica è composta di altri due elementi: / suggerimenti, ossia dataset che hanno in comune tre o più parole chiave e quindi per questo facilmente associabili; / visualizza tutti i dataset della stessa categoria a cui appartiene quello selezionato. Per uscire dalla visualizzazione è necessario cliccare in un qualsiasi punto esterno non appartenente al pop-up.
142
1 2 3 4 5 6 7 8 9 10 Sez. D
143
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
Tornando alla schermata iniziale, tramite click sul logo posto in alto a sinistra avente link diretto con la home, è possibile accedere, previo click sul pulsante Esplora posizionato sulla destra della schermata, ad unâ&#x20AC;&#x2122;altra sezione: quella dellâ&#x20AC;&#x2122;esplorazione libera dei dataset.
144
1 2 3 4 5 6 7 8 9 10 Sez. D
145
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
Qui a lato viene riportata la prima schermata della sezione. I cerchi colorati, in questo caso, rappresentano le singole categorie e la loro dimensione indica il numero di dataset in esse contenuti. Questo tipo di visualizzazione permette di avere un’idea generale della disposizione dei dataset nelle differenti categorie. Cliccando in corrispondenza di uno dei cerchi colorati, si passerà alla finestra successiva. A lato, il menù “Visualizza per”, dà la possibilità di cambiare tipo di visualizzazione.
146
1 2 3 4 5 6 7 8 9 10 Sez. D
147
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
Questa visualizzazione pone al centro la categoria, rappresentata da una circonferenza del colore corrispondente: attorno ad essa sono riportati tutti dataset appartenenti a quella data categoria. Tali dataset sono raggruppati per sottocategoria: questâ&#x20AC;&#x2122;ulteriore suddivisione facilita lâ&#x20AC;&#x2122;utente alla scoperta dei dataset, rendendo la ricerca piĂš mirata e accurata.
148
1 2 3 4 5 6 7 8 9 10 Sez. D
Cliccando non sul dataset ma direttamente sulla sottocategoria, nella schermata apparirĂ al centro, al posto della scritta â&#x20AC;&#x153;Ambienteâ&#x20AC;? il nome della sottocategoria e, in automatico, i dataset inerenti a tale sottocategoria, ridistribuiti attorno allâ&#x20AC;&#x2122;anello centrale.
149
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
In alternativa alla visualizzazione per categoria, è possibile selezionare dal menù di destra “Visualizza per: Ente”, che viene mostrata qui a lato. In questa schermata i dataset vengono riportati suddivisi per ente di produzione. Come nella precendente interfaccia, la dimensione dei cerchi corrisponde al numero di dataset in essi contenuti.
150
1 2 3 4 5 6 7 8 9 10 Sez. D
151
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
Cliccando sul cerchio relativo all’ente di produzione dei dati, si rimanda alla finestra di interfaccia qui a lato. Al centro viene mostrato il nome dell’ente e, intorno all’anello centrale, vengono disposti tutti i dataset prodotti da tale amministrazione. Come mostra l’immagine, i dataset sono raggruppati per colore, ossia per categoria.
152
1 2 3 4 5 6 7 8 9 10 Sez. D
Cliccando su un dataset, lâ&#x20AC;&#x2122;utente viene portato alla visualizzazione della scheda tecnica relativa.
153
1 2 3 4 5 6 7 8 9 10
Soluzione progettuale
L’ultima sezione è dedicata alla “Ricerca Avanzata”. In questa schermata è possibile, oltre a ricercare i dataset per parola, selezionare uno o più filtri di ricerca che permettono all’utente di “raggiungere” i dataset necessari più facilmente. I filtri presenti sono: categoria, ente, formato, licenza e data di produzione.
154
1 2 3 4 5 6 7 8 9 10 Sez. D
155
Conclusioni
Il percorso intrapreso in questa trattazione, che ha avuto origine dai dati aperti, passando attraverso la Data Visualization, si è concretizzato nello sviluppo del progetto esposto, scaturito come naturale conseguenza dall’analisi delle due tematiche a confronto. La particolarità di tale percorso è che l’obiettivo che si è scelto di perseguire non è stato stabilito a priori, ma solo dopo aver analizzato in maniera attenta i campi proposti, partendo in prima battuta, come si è visto, dall’ambito Open. Questo ha portato ad una completa imparzialità nell’approccio a tali argomenti, facilitando l’individuazione delle reali problematiche e la proposizione di possibili soluzioni. E’ stato quindi necessario ottenere un’adeguata conoscenza e familiarità degli argomenti per poter capire in modo profondo l’ambito di azione e trarne la successiva proposta progettuale. Il progetto, che potrebbe sembrare, in prima istanza, una soluzione poco concreta, deve essere valutato in realtà soprattutto per lo spirito e la finalità con il quale è stato costruito. La proposta creata è attualmente disponibile solo in forma grafica e non è sviluppata sottoforma di codice sorgente: in questa fase, infatti, non è l’aspetto tecnico quello che risulta rilevante e neanche la definizione di una precisa collocazione futura. L’ottica in sostanza è quella di suggerire un modello di interfaccia per gli Open Data che possa facilitarne l’accesso e la consultazione, incrementando l’interesse attorno all’argomento e che permette contemporaneamente di far emergere la Data Visualization come strumento da utilizzare per l’analisi delle informazioni e non solo come puro espediente estetico. Si tenga ben presente che, per quanto riguarda la rivalutazione del ruolo della Datavis, si è ottenuta grazie al fatto di applicarla non a dati stettamente numerici. Infatti, l’applicazione è stata fatto non tanto al contenuto dei dataset open, ma ai dataset in quanto elementi classificati secondo una certa struttura e ca-
156
tegorizzazione. Si è così dimostrato che i dati possono avere tipologie differenti, non solo relegate alle semplici quantità. Si è trattato di un processo molto lento e complesso che, a un certo punto del suo sviluppo, ha obbligato a una scelta: concentrarsi in maniera il più approfondita possibile sulla metodologia, sulle finalità e sulle caratteristiche organizzative e funzionali, tralasciando la realizzazione concreta e l’aspetto tecnico, oppure concentrare le energie nello sviluppo di un vero e proprio prototipo, analizzando in modo più approssimativo tutto il resto. La scelta è caduta sulla prima possibilità: si ritiene infatti che, come è risultato evidente grazie al percorso di studi di questo corso universitario, la base su cui si costruisce ogni progetto, l’aspetto filosofico, concettuale e le logiche di funzionamento sono un valore insustituibile e non trascurabile. Tanto è vero che nel momento in cui si è scelta la piattaforma piemontese per svilupparlo e ci si è trovati di fronte a criticità strutturali che, per quanto non così completamente inerenti all’ambito prefissato, queste sono comunque state risolte. Per quanto riguarda la collocazione del progetto in rapporto al portale piemontese e all’ambiente Open, si è deciso di rimanere piuttosto generici, non escludendo alcun tipo di sviluppo successivo. Questo non per mancanza di progettualità, ma perchè effettivamente la soluzione si presta a essere trattata in diversi modi; in linea di massima la proposta non prevede una sostituzione del portale esistente, ma piuttosto un’integrazione, un supporto nella fase di ricerca ed esplorazione. Si tratta quindi di un arricchimento che, in quanto tale, non comporta la scomparsa o la sostituzione dei modelli precedenti. È tuttavia vero che, come evidenziato, parte del progetto prevede una componente aggiuntiva dettata dalla riorganizzazione delle categorie esistenti. Questa prescrizione in effetti risulterebbe necessaria non solo a livello regionale o nazionale, ma soprattutto a livello europeo: in effetti il vantaggio di un vocabolario semantico, come quello dell’Eurovoc, sta proprio nella sua internazionalità. Un adeguamento di questo genere comporterebbe una riorganizzazione della struttura di portali già esistenti, cosa però piuttosto dispendiosa in termini di tempo e manodopera. La proposta quindi rimane valida per i portali di nuova generazione, nello specifico in ambito europeo. Si tenga comunque conto che,
157
in generale, qualsiasi operazione di standardizzazione prevede in ogni ambito un dispiego di energie affinchè i modelli già esistenti si adeguino alle nuove soluzioni. In questi casi si presuppone che tali energie siano ampiamente ripagate dai vantaggi ottenuti grazie a queste modifiche. Durante lo sviluppo del progetto la fattibilità della soluzione è stata verificata interpellando al riguardo diversi esperti (si veda pagina a fianco) con competenze diverse, che potessero esprimere le loro conoscenze riguardo i codici di programmazione e la situazione italiana degli Open Data, o che avessero conoscenza specifica del portale dati.piemonte.it, essendo parte del progetto stesso: questo ovviamente per verificare sia la possibilità concreta di realizzarlo che l’effettiva utilità. Il futuro rimane sostanzialemnte aperto a molte soluzioni e non si esclude che la piattaforma possa subire migliorie, adeguamenti o sviluppi più concreti.
158
Si ringraziano per il supporto tecnico, in ordine alfabetico
GIUSEPPE FUTIA Communication Manager presso Nexa Center
DANIELE GALIFFA CTO & co-founder presso GoalShouter e VISup
MAURIZIO NAPOLITANO Technologist presso Fondazione B. Kessler
SAVERINO REALE Project Manager presso CSI Piemonte
MASSIMO ZAGLIO R&D Project Manager presso TOP-IX Consortium
159
Bibliografia*
/
Premessa: Filosofia Open
http://www.slideshare.net/NicolaDeInnocentis/filosofia-opensource http://it.wikipedia.org/wiki/Open_source http://opensource.org/docs/definition.php http://www.rapportodalterritorioinu.it/2005/Pagine%20separate/Governance_government.pdf http://www.scarichiamoli.org/main.php?page=interviste/aliprandi http://www.datagov.it/open-government
1
Una definizione aperta
http://5stardata.info http://inkdroid.org/journal/2010/06/04/the-5-stars-of-openlinked-data Committee to Assess the Policies and Practices of the Department of Energy, “Improving Project Management in the Department of Energy”, National Academy Press, Washington, D.C., 1999 http://it.kioskea.net/contents/internet/http.php3 http://www.w3.org/DesignIssues http://www.ted.com/talks http://www.bibliotecheoggi.it/content/201200300701.pdf http://www.osservatorioict.piemonte.it/it/images/phocadownload/modelli%20di%20business%20nel%20riuso%20dellinformazione%20pubblica.pdf Giovanni de Marco, “Conversione per il Semantic Web e pubblicazione nel Linked Data di dati relativi a beni artistici e culturali dell Regione Emilia Romagna”, 2011
160
2 Il valore
Open Data
http://ec.europa.eu/information_society/policy/psi/docs/pdfs/ mepsir/final_report.pdf Matteo Azzi, “Dust. Uno strumento di visualizzazione geo-referenziata di supporto alle decisioni, Milano, 2011
3 Open Data tra
http://crowdsourcing.toweb.co/user-generated-content
4 Information
www.jmp.com/it/applications/exploratory_data_analysishttps:// secure.cs.uvic.ca/twiki/pub/Research/Chisel/ComputationalAestheticsProject/cleveland.pdf
6 I vantaggi della
C. S. Bateman, R. L. Mandryk, C. Gutwin, A. Genest, D. McDine, C. Brooks,“Useful Junk? The Effects of Visual Embellishment on Comprehension and Memorability”, 2010
passato e presente
Visualization
visualizzazione
S. Few, “Data Visualization. Past, present and future”, 2007
8 Ambito di applicazione
http://crowdsourcing.toweb.co/user-generated-content
10 Il progetto
http://eurovoc.europa.eu/drupal/?q=it
*La bibliografia riporta solo i riferimenti non citati precedentemente all’interno deile note laterali dei vari capitoli.
161
Riferimenti infografiche
1 Una definizione
aperta p. 31
McKinsey Global Institute ,”Big data: The next frontier for innovation, competition, and productivity”, giugno 2011
2 Il valore Open
Data p. 41
McKinsey Global Institute ,”Big data: The next frontier for innovation, competition, and productivity”, giugno 2011
p. 43
http://saperi.forumpa.it/story/42214/la-italiana-allopen-data-tracad-trasparenza-e-privacy
3/ Il contesto
mondiale p. 47
http://www.data.gov/whats-new http://www.data gov
p. 48
http://www.data.gov http://data.gov.uk
p. 50
McKinsey Global Institute ,”Big data: The next frontier for innovation, competition, and productivity”, giugno 2011
3/ La realtà
italiana
162
p. 54
http://www.dati.gov.it http://www.data.gov.uk http://www.data.gov. http://www.data.gc.ca http://www.data.gouv.fr
p. 57
http://www.appsforitaly.org/vincitori
p. 59
http://www.dati.gov.it/content/infografica (dati riferiti ad ottobre 2012)
4 Information
Visualization p. 65
McKinsey Global Institute ,”Big data: The next frontier for innovation, competition, and productivity”, giugno 2011
p. 66
Andy Kirk, “Data Visualization: a successful design process”, 2012
p. 67
Michael Friendly,. “Milestones in the history of thematic cartography, statistical graphics, and data visualization”, 2008.
p. 69
J.D. Mackinlay,”Automating the Design of Graphical Presentations of Relational information”, 1986
p. 70
cfr. Andy Kirk, “Data Visualization: a successful design process”, 2012
p. 71
http://www.google.com/trends/explore?hl=it#q=%22data%20 visualization%22&cmpt=q
163
165