A ND R EA PEDR INA
DATA VISUAL IZATION Rappresentazione di Sistemi di Dati Complessi
Relatore
PAOLO RIGAMONTI
Sommario
Introduzione
11
Breve storia della Data Visualization
Ante-XVII secolo: le prime mappe e i primi diagrammi
1600-1699: misurazione e teoria
1700-1799: nuove forme di visualizzazione
1800-1850: il principio delle grafiche moderne
24
1850-1900: La crescita delle grafiche statistiche
27
1900-1950: i tempi bui della data visualization
32
1950–1975: La rinascita della data visualization
1975 a oggi: visualizzazioni di dati interattive, dinamiche e ad alta definizione
Information Visualization Copyright © 2017 by Andrea Pedrina andreapedrina.com
Nuova Accademia di Belle Arti - Milano Diploma accademico di 2° livello del corso di Design della Comunicazione Matricola 552DC Anno accademico 2016-2017 Un grazie particolare a Makr Shakr di Carlo Ratti Associati
13 16
18 20
33
39
Edward Tufte
40
L’information visualization secondo Tufte
Progettando l’information design
Gli strumenti di rappresentazione della Data Visualization
Un errore comune
52
41
46 51
35
Visualizzazioni narrative
Case history significative
59
L’evoluzione dell’idea di evoluzione
Tutta la forza di una goccia
65
The Fallen of World War II
70
Nobels, no degrees
Emoto: real time online visualization
Makr Shakr by Data
How might we?
Refine
Bibliografia 97 Sitografia 99
Info We Trust, A History of Data Visualization. Moderna rappresentazione ispirata agli atlanti di Ogilby 16 Figura 1. Autore sconosciuto
17
Figura 2. Christop Scheiner, Tres Epistolae de Maculis Solaribus 77
Figura 3. Langren
18
19
Figura 4. Edmund Halley, New and Correct Chart Shewing the Variations of the Compass 20
81
Trattamento dei dati
Conclusioni 95
60
73
94
Indice delle figure
53
87
83
Figura 5. Joseph Priestley, A Biographical Chart Figura 6. Joseph Priestley, A New Chart of History
21 22
Figura 7. William Playfair, Chart Representing the Extent Population & Revenue of the Principal Nations in Europe 23 Figura 8. William Playfair, Chart Showing at One View The Price of The Quarter of Wheat 24 Figura 9. John Snow, Dot Map
25
Figura 10. C. J. Minard, Tableau Figuratif
26
Figura 11. Luigi Perozzo, Numero Assoluto dei Nati Vivi Maschi in Svezia
27
Figura 12. C. J. Minard, Carte figurative des pertes successives en hommes de l’armée française dans la campagne de Russie 1812-1813 29 Figura 13. Charles Lallemand, Abaque
Tatiana Plakhova
56
Figura 26. Ben Fry, On The Origin of Species - The Preservation of Favoured Traces 61
29
Figura 14. Emile Cheysson, Expeditions de Voyageurs et de Marchandises Figura 15. Emile Cheysson, Interstate Migration
30
Figura 32. Francesco Franchi, Tutta La Forza di Una Goccia Figura 33. Neil Halloran, The Fallen of World War II
31
Figura 16. Arthur Bowley, Total Value of British and Irish Produce Exported from The United Kindom, 1855-1898 32
Figura 36. Accurat, Nobels, no degrees
68
70
74
Figura 39. NAND Studio, Emoto - real time online visualization Figura 17. Senseable City Lab, Underworlds
77
37 Figura 41. Makr Shakr
Figura 18. William Playfair, Chart of Imports and Exports of England to and from all North America 43
82
Figura 42. Schema del flusso dei dati della data visualization Makr Shakr by Data
Figura 19. William Playfair, Exports and Imports to and from Denkmakr & Norway from 1700 to 1780 44
Figura 43. Schema di tipo Sankey del progetto Makr Shakr by Data
89
Figura 44. Grafico scatter plot e istogrammi in Makr Shakr by Data
90
Figura 20. The New York Times, The Ebb and Flow of Movies: Box Office Receipts 1986-2008 48
Figura 45. Grafico ad aree in Makr Shakr by Data
Figura 21. Harry Beck, Underground Map
Figura 46. Grafico a coordinate parallele in Makr Shakr by Data
92
Figura 47. Grafico a istogrammi impilati in Makr Shakr by Data
93
50
Figura 22. Cleveland e McGill, Dieci compiti percettivi elementari Figura 23. Esempio di interazioni
53
Figura 24. Edward Segel e Jeffrey Heer. Sette generi narrativi Figura 25. Corum, Design process framework
56
54
52
91
88
11
Introduzione Graphic excellence is nearly always multivariate (Edward Tufte)
Obiettivo del seguente progetto è dimostrare il potenziale comunicativo della Data Visualization, quale nuovo strumento cognitivo in grado di rappresentare modelli intuitivi di rappresentazione di sistemi complessi di dati. Il tema si riferisce in particolare ai cosiddetti “big data” (termine usato per descrivere una raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l’estrazione di valore) rivelatisi come un punto chiave di interesse dell’ultimo decennio sul quale molte importanti aziende del settore tecnologico stanno lavorando al fine di rendere questi sistemi di dati comprensibili per gli utenti attraverso la Data Visualization e i visual analytics. Questi ultimi stanno ponendo sempre più attenzione ad un modello di rappresentazione qualitativa, visualizzando i dati in maniera efficace e creativa attraverso grafica, diagrammi interattivi e ambientazioni tridimensionali, dando così informazioni più rilevanti e comprensibili. Obiettivo ultimo della data visualisation è quindi quello di individuare modelli di rappresentazione delle informazioni che ne consentano letture in grado di evidenziarne le relazioni, le grandezze in campo, le proporzioni fra le parti, restituendone un’interpretazione leggibile e intuitiva. In un senso più ampio, si potrebbe parlare di “strumento epistemologico”, facendo riferimento alla prerogativa della data visualization di estrarre dalla rappresentazione dei dati nuovi significati della realtà che essi rappresentano. In molti casi, l’inserimento di dinamiche di interazione da parte dell’utente finale costituisce una amplificazione delle potenzialità delle rappresentazioni, moltiplicando le possibilità di relazione e lettura degli insiemi di dati. La ricerca alla base della tesi parte dai modelli storici della Data Visualization e dall’analisi delle sue principali teorie, percorrendo quelle che sono state le tappe nel corso dei secoli per arrivare fino ai giorni nostri, evidenziando come l’emergere di strumenti sempre più sofisticati di rappresentazione di dati sia stato, nel tempo,
12
conseguenza di un processo di trasformazione della conoscenza e risposta alla necessità di determinare nuove modalità di concettualizzazione e descrizione delle mutazioni sociali, economiche, demografiche, geografiche e statistiche. Si passa poi ad affrontare le prospettive future della disciplina e i campi del design a cui è possibile estenderla (communication design, interaction design, architettura), facendo riferimento alle innovazioni che si sono messe in moto nell’ultimo periodo. Il capitolo successivo scende nell’aspetto pratico della progettazione, trattando quelle che sono le tecnologie e gli strumenti a disposizione di un designer quando affronta un progetto di Data Visualization, partendo dalle forme base alle situazioni più complesse, portando ad esempio alcune case history. L’ultima parte dell’elaborato consiste nello sviluppo, partendo dall’individuazione di un sistema di dati e dalla necessità di essere comunicati e analizzati attraverso una visualizzazione efficace e intuitiva, di un progetto reale di Data Visualization per il pluripremiato bar robotico Makr Shakr (progettato da ricercatori e ingegneri del MiT, implementato e gestito dallo studio di tecnologia applicata all’architettura Carlo Ratti Associati, presentato al mondo ai Google I/O nel 2013). Il progetto mira a rappresentare, per mezzo di una data visualization, i dati relativi a quattro bar robotici installati su quattro navi da crociera della Royal Caribbean. Dal progetto è possibile evidenziare e incrociare i dati di quelli che sono gli usi e i costumi del consumo di bevande alcoliche e analcoliche legate al paese di appartenenza e l’età dei consumatori e al periodo dell’anno. Costruendo così un percorso informativo a partire dal prodotto per arrivare a delle statistiche delineanti il profilo del consumatore. Il progetto va così a dimostrare la tesi, rappresentando dati che diversamente sono difficili da comprendere e analizzare e impossibili da comunicare.
CAPITOLO 1
Breve storia della Data Visualization
16 Breve storia della Data Visualization
La rappresentazione visuale è “sempre stata fondamentalmente uno strumento cognitivo trasversale. Strumento utile un tempo a comprendere gli eventi naturali, quando l’esperienza del mondo era diretta e soggettiva, fondamentale oggi per tenere insieme la frammentazione di dati, informazioni, punti di vista e interessi che emerge ogni qualvolta ci si confronta con un problema complesso.” (The Visual Agency, 2012). La trasversalità si manifesta anche a partire dalle pietre miliari della storia della visualizzazione, frutto della costante ricerca della conoscenza da parte di scienziati e professionisti appartenenti ad ambiti diversi, quasi mai progettisti della visualizzazione di professione: da Charles Joseph Minard, ingegnere civile autore di quella che Tufte considera la migliore visualizzazione statistica di sempre, a Florence Nightingale, appassionata di statistica e fondatrice della disciplina dell’infermieristica negli anni della guerra di Crimea; fino a Otto Neurath, filosofo della scienza e sociologo.
Breve storia della Data Visualization 17
Nella pagina precedente. Info We Trust, A History of Data Visualization. Moderna rappresentazione ispirata agli atlanti di Ogilby.
tempo. È degno di nota il moto dei pianeti che è rappresentato da linee sinusoidali che si intersecano tra loro, così come l’utilizzo di una griglia, che suggerisce il concetto implicito di un sistema di coordinate, simile in parte alla carta millimetrata. In seguito tali idee non sarebbero state pienamente sviluppate fino al 1600-1700.
Ante-XVII secolo: le prime mappe e i primi diagrammi I primi semi della visualizzazione sorsero nell’ambito degli schemi geometrici, nelle tabelle delle posizioni delle stelle e altri corpi celesti e nella realizzazione di mappe che potevano essere di aiuto durante la navigazione e l’esplorazione. L’idea delle coordinate è stata utilizzata inizialmente da antichi geometri egiziani nella raffigurazione delle città, prendendo a riferimento le stelle per avere un dato espresso in latitudine e longitudine, a partire dal 200 a.C.; mentre la proiezione cartografica di una terra sferica in latitudine e longitudine di Claudio Tolomeo ad Alessandria fu lo standard di riferimento fino al XIV secolo d.C. Tra le prime rappresentazioni grafiche delle informazioni quantitative (quantitative information, da cui il famoso titolo The Visual display of Quantitative Information di Tufte) vi è un anonimo grafico multi-temporale del X secolo che descrive il cambiamento di posizione nello spazio e nel tempo dei sette corpi celesti più importanti per l’epoca. L’asse verticale è suddiviso in dodici parti, rappresentanti lo zodiaco; mentre l’asse orizzontale è diviso in trenta parti, dove ogni parte rappresenta un’unità di
Con il XVI secolo, tecniche e strumenti per la precisa osservazione e misurazione di grandezze fisiche, posizioni geografiche e posizioni celesti, erano ben affermate (come ad esempio il Quadrans Muralis costruito da Tycho Brahe [1546-1601], coprente un’intera parete del suo osservatorio). Particolarmente importante è stato lo sviluppo della triangolazione e di altri metodi per la determinazione di una posizione precisa su una mappa (Frisius, 1533, Tartaglia, 1556). Allo stesso modo iniziano i primi esperimenti per la cattura diretta di immagini (la camera oscura, usata da Reginaldo Gemma-Frisius nel 1545 per registrare un’ eclissi di sole), la registrazione di funzioni matematiche in tabelle (tabelle trigonometriche di Georg Retico, 1550) e nasce il primo atlante
Figura 1. Autore sconosciuto, si pensa risalga al IX secolo.
18 Breve storia della Data Visualization
Breve storia della Data Visualization 19
cartografico moderno (Teatrum Orbis Terrarum di Abraham Ortelius, 1570). Questi primi passi segnano il sorgere della Data Visualization.
multipli” (small multiples), per mostrare le mutevoli configurazioni delle macchie solari nel corso del tempo. Le molteplici figure rappresentano le registrazioni di punti sul sole (sunspots) dal 23 ottobre al 19 dicembre del 1611. La grande area in alto a sinistra individua sette gruppi di macchie dalla lettera A alla F. Questi gruppi sono similmente identificati nelle 37 immagini più piccole, disposte da sinistra a destra e dall’alto verso il basso. Un altro esempio degno di nota (Figura 3) mostra un grafico del 1644 di Michael Florent van Langren [1600-1675], astronomo fiammingo alla corte di Spagna, che si ritiene essere la prima rappresentazione visiva di dati statistici (Tufte, 1997). A quel tempo, la mancanza di un mezzo affidabile per determinare la longitudine in mare ostacolava la navigazione e l’esplorazione. Questo grafico a linee mostra le dodici stime conosciute all’epoca sulla differenza di longitudine tra Toledo e Roma e il nome degli astronomi che le teorizzarono (Mercator, Tycho Brahe, Tolomeo, ecc.).
1600-1699: misurazione e teoria Tra i problemi più importanti del XVII secolo vi erano quelli legati alla misurazione fisica di tempo, distanza e spazio per l’astronomia, la navigazione e l’espansione territoriale. Questo secolo ha visto inoltre una nuova e ampia crescita nella teoria e nell’applicazione empirica: l’ascesa della geometria analitica e dei sistemi di coordinate (Cartesio e Fermat), le teorie sugli errori di misurazione e stima (i primi passi sono di Galileo nelle analisi basata sull’osservazione della stella di Tycho Brahe del 1572), la nascita della teoria della probabilità (Pascal e Fermat) e gli inizi delle statistiche demografiche ( John Graunt) e della “aritmetica politica” (William Petty) ossia lo studio della popolazione, della terra, delle tasse e del valore delle merci al fine di comprendere la ricchezza dello stato. In questo secolo Christop Scheiner (1630) introduce un’idea, che Tufte (1983) avrebbe poi chiamato il principio dei “piccoli
Figura 2. Christop Scheiner, Tres Epistolae de Maculis Solaribus (1630).
Van Langren avrebbe potuto presentare queste informazioni su diverse tavole ordinate per autore per mostrarne l’origine, per data o per distanza. Tuttavia egli realizzò un grafico atto a mostrare le ampie variazioni nelle stime. Da notare che l’intervallo di valori copre quasi metà della lunghezza della scala. Van Langren utilizzó come spazio per il sommario il centro della visualizzazione, dove dedicò un ampio spazio alla scritta “ROMA”. Purtroppo tutte le distanze furono sovrastimate. La reale distanza (16°30’’) è indicata dalla freccia. Il grafico di Lengren è considerato il più antico esemplare conosciuto del principio di “effect ordering for data display” (Friendly e Kwan, 2003), principio che si applica alla disposizione di fattori disordinati per dati quantitativi e dati di frequenza, e alla
Figura 3. Langren (1644). Grafico sulla determinazione della distanza longitudinale tra Toledo e Roma. La distanza corretta indicata dalla freccia è 16°30’.
20 Breve storia della Data Visualization
Breve storia della Data Visualization 21
disposizione di variabili e di osservazioni in diverse visualizzazioni. Alla fine del secolo, gli elementi necessari per lo sviluppo di un metodo grafico erano quindi: dati di notevole interesse, una teoria per dar loro un senso e alcune idee per la loro rappresentazione visiva. Questo secolo si può così considerare come fonte del pensiero visivo come dimostrano gli esempi di Scheiner e van Langren. Figura 4. Edmund Halley, New and Correct Chart Showing the Variations of the Compass (1701).
aspetti verso nuovi domini e nuove forme grafiche. In cartografia i cartografi tentano di mostrare più di una semplice posizione geografica su una mappa. Di conseguenza vengono inventate nuove rappresentazioni di dati (isolinee e contorni) e mette radici la cartografia tematica di grandezze fisiche. Verso la fine di questo secolo si osservano poi i primi tentativi di rappresentare, attraverso la cartografia tematica, dati geologici, economici e medici. L’uso di isolinee per mostrare contorni di egual valore su una griglia di coordinate (mappe e grafici) è sviluppato da Edmund Halley (1701). La visualizzazione di Halley (Figura 4) mostra le isogone, linee di uguale declinazione magnetica, ed è tra i primi esempi di cartografia tematica che utilizza la sovrapposizione di più dati direttamente su mappa. Le linee del tempo (timeline), o “cartes chronologiques”, sono introdotte da Jacques Barbeu-Dubourg, sotto forma di un grafico con annotazioni di tutta la storia (dalla Creazione in poi) su un rotolo lungo 16,5 metri. Joseph Priestley, presumibilmente in modo indipendente, utilizzò per primo una forma più efficiente di linea del tempo attraverso due famose visualizzazioni. La prima (Figura 5) riassume i dati di oltre 200 personaggi che segnarono la storia vissuti dal 1200 a.C. al 1800 d.C. . I segmenti rappresentano il tempo in cui visse il suddetto personaggio. I punti che appaiono accanto ad alcuni dei segmenti indicano che le date di nascita e di morte sono incerte. I nomi sono classificati in sei categorie (le linee orizzontali): 1. Statisti e militari, 2. Teologi e metafisici, 3. Matematici e
1700-1799: nuove forme di visualizzazione Con alcuni rudimenti di teoria statistica, dati di interesse e di importanza e l’idea di una rappresentazione grafica sufficientemente stabile, il XVIII secolo testimonia l’espansione di questi
Figura 5. Joseph Priestley, A Biographical Chart.
22 Breve storia della Data Visualization
Breve storia della Data Visualization 23
medici , 4. Poeti e artisti, 5. Oratori e critici , 6. Studiosi e storici. La seconda è una mappa temporale (Figura 6) che descrive il corso dei diversi avvenimenti storici dall’origine dei tempi fino al XVIII secolo. Organizzata in forma di tabella, ad ogni riga corrisponde una diversa zona geografica, mentre le colonne indicano il succedersi dei secoli. L’autore aiuta la lettura tramite l’uso del colore, evidenziando sulla tavola quelle che sono state le civiltà principali. A causa del posizionamento delle varie divisioni sull’asse verticale, spesso una stessa civiltà è suddivisa tra più aree.
quella che viene considerata la prima applicazione di un diagramma a torta. I cerchi rappresentano l’area dei singoli stati; la linea sulla sinistra indica la popolazione, espressa in milioni sull’asse verticale; la linea sulla destra le tasse raccolte espresse in milioni di sterline inglesi. La linea diagonale di connessione mostra dove, in relazione alla propria popolazione, il paese considerato è gravato da pesanti tasse.
William Playfair [1759-1823] è considerato l’inventore della maggior parte delle forme grafiche usate ormai quotidianamente: il grafico a linee e il grafico a barre (istogramma) (Playfair, 1786), il grafico a torta e il grafico a cerchio (Playfair, 1801). La visualizzazione grafica di Figura 7 si caratterizza per la molteplicità delle tecniche di rappresentazione utilizzate in una stessa tavola, per l’utilizzo delle aree ad indicare la quantità e per
Figura 6. Joseph Priestley, A New Chart of History.
Figura 7. William Playfair, Chart Representing the Extent Population & Revenue of the Principal Nations in Europe.
24 Breve storia della Data Visualization
Un grafico più tardo (Figura 8) esemplifica il meglio che Playfair avesse da offrire alla data visualization. Egli utilizzò tre serie di tempo in parallelo per mostrare il prezzo del grano, i salari settimanali e il monarca regnante, in un arco di circa 250 anni (1565-1820). Inoltre sfruttò il grafico per sostenere come fosse migliorata di recente la qualità dei lavoratori. Mentre la grafica prese piede nelle applicazioni scientifiche, la visualizzazione dei dati rimase espressione rara per altri 30 anni circa, forse in gran parte per la mancanza di grandi set di dati (a parte la misurazione astronomica, geodetica e le misurazioni fisiche) la cui complessità fosse tale da richiedere nuovi metodi e applicazioni. Le statistiche ufficiali, per quanto riguarda la popolazione e la mortalità, e i dati economici erano generalmente frammentarie e spesso non disponibili al pubblico. Le cose però sarebbero presto cambiate.
1800-1850: il principio delle grafiche moderne Le precedenti innovazioni di design e tecnica avevano preparato un terreno fertile grazie al quale, nella prima metà del XIX secolo, si assistette ad una crescita esplosiva nella grafica statistica e nella cartografia tematica, con una frequenza che non sarebbe stata eguagliata fino ai tempi moderni. Nell’ambito della grafica statistica furono inventate tutte le moderne forme di visualizzazione dei dati: barre e grafici a torta, istogrammi, grafici lineari e diagrammi di serie temporali, planimetrie con curve di livello, a dispersione, e così via. In cartografia tematica, l’arte della cartografia progredisce e passa dalle mappe singole ad atlanti completi, rappresentando i dati in una vasta gamma (economica, sociale, morale, medica, fisica, etc.) di argomenti, introducendo un ampio numero di nuove forme simboliche. Durante questo periodo l’analisi grafica dei fenomeni naturali e fisici (linee di magnetismo, tempo, le maree, ecc. ) cominciarono ad apparire regolarmente nelle pubblicazioni scientifiche. Nel 1801 in Inghilterra furono introdotte da William Smith [1769 1839] le prime carte geologiche, impostando così il modello per la cartografia geologica. Queste e altre carte tematiche portarono presto a nuovi metodi per la visualizzazione di
Breve storia della Data Visualization 25
Figura 8. William Playfair, Chart Showing at One View The Price of The Quarter of Wheat. (vedi pagina precendente)
informazioni quantitative su mappa. Nel 1820 il barone Carlo Dupin [1784-1873] inventò l’uso di sfumature continue (dal bianco al nero) per mostrare la distribuzione e il grado di analfabetismo in Francia, creando forse la prima mappa statistica tematica in stile moderno. Più significativamente, nel 1825, il Ministero della Giustizia francese istituì il primo sistema nazionale centralizzato di cronaca nera, che raccoglieva dati trimestralmente da tutti i reparti e registrava i dettagli di ogni processo portato davanti alla corte di Francia. Nel 1833, André-Michel Guerry, un avvocato con un debole per i numeri, utilizzò questi dati (insieme ad altri dati sull’alfabetizzazione, suicidi, donazioni ai poveri e altre variabili “morali”) per produrre un lavoro sulle statistiche morali della Francia, progetto che può essere considerato come il fondamento della moderne scienze sociali. Nel mese di ottobre 1831, il primo caso di colera asiatico si verificò in Gran Bretagna e più di 52.000 persone morirono nell’epidemia che seguì durante i successivi 18 mesi. Le seguenti epidemie di colera (1848-1849 e 1853-1854) produssero un ammontare simile di morti, ma che l’origine della malattia fosse l’acqua rimase sconosciuta fino al 1855, anno in cui il Dr. John Snow produsse la sua famosa mappa per punti “Dot Map” (Figura 9) che mostrava i decessi da colera raggruppati intorno alla pompa d’acqua di Broad Street a Londra.
Figura 9. John Snow, Dot Map (1855). Mappa del quartiere Soho di Londra
26 Breve storia della Data Visualization
Durante lo stesso periodo (1830-1850), l’uso dei grafici cominciò a diffondersi in alcuni ambienti ufficiali per la pianificazione economica: dove costruire ferrovie e canali? Qual è la distribuzione delle importazioni e delle esportazioni? Questo modo di utilizzare le metodologie della rappresentazione grafica è illustrato al meglio nelle opere di Charles Joseph Minard [1781-1870], la cui prodigiosa invenzione grafica ha portato Funkhouser (1937) a chiamarlo il Playfair della Francia. A dimostrazione si può osservare il suo “Tableau Figuratif ” del 1844 (Figura 10). Sulla superficie Minard introduce importanti novità: l’uso di barre divise e proporzionalmente larghe, disegnate in modo che la superficie abbia una interpretazione visiva concreta. Il grafico mostra il trasporto di merci lungo un canale in Francia di larghezza variabile. La larghezza di ciascuna barra verticale mostra la distanza lungo il percorso; i segmenti che dividono la barra hanno un’altezza pari circa alla quantità dei diversi prodotti, quindi l’area di ciascun segmento rettangolare è proporzionale al costo del trasporto.
Breve storia della Data Visualization 27
1850-1900: La crescita delle grafiche statistiche Entro la metà del 1800, tutte le condizioni per la rapida crescita della visualizzazione erano stati stabilite: una “tempesta perfetta” per la rappresentazione di dati. Sono istituiti in tutta Europa uffici statistici di Stato, in riconoscimento della crescente importanza delle informazioni numeriche per la pianificazione sociale, l’industrializzazione, il commercio e il trasporto. La teoria statistica, iniziata da Gauss e Laplace, ed estesa alla sfera sociale da Guerry e Quetelet, fornì i mezzi per dare un senso a grandi quantità di dati. Figura 11. Luigi Perozzo, Numero Assoluto dei Nati Vivi Maschi in Svezia. Figura 10. C. J. Minard, Tableau Figuratif (1844).
Escaping Flatland Escaping Flatland è un’espressione utilizzata da Tufte per indicare il passaggio dalla bidimensionalità alla tridimensionalità nella data visualization. Nonostante alcuni tentativi di visualizzare più di
28 Breve storia della Data Visualization
due variabili contemporaneamente si fossero verificati in precedenza attraverso diverse timeline (Playfair, 1801, Minard, 1826), e una varietà di mappe tematiche, di lì a poco una serie di sviluppi significativi avrebbe esteso la grafica al di là dei confini di un pezzo di carta. Gustav Zeuner [1828-1907] in Germania e più tardi Luigi Perozzo [? -1875] in Italia costruirono grafici tridimensionali su dati relativi alla popolazione. Il primo elabora una proiezione assonometrica mostrandone alcune “fette”, mentre il secondo progetta un grafico 3D della popolazione svedese divisa per anno e fascia di età, che è stato poi stampato in rosso e nero e disegnato come uno stereogramma (Figura 11). Delle planimetrie con curve di livello erano state utilizzate anche in precedenza in contesti di mappatura, che mostrano le curve di livello ISO su superfici 3D, ma la gamma di problemi e di dati a cui sono state applicate aumentò considerevolmente nel tempo attraverso tentativi atti a comprendere le relazioni tra più di due variabili di dati, dove le relazioni sono statistiche, piuttosto che funzionali.
Breve storia della Data Visualization 29
quegli elementi utili alla narrazione, come il nome delle città o il percorso dei fiumi; il flusso temporale e le temperature incontrate lungo il percorso, posizionati nella parte inferiore della mappa, aggiungono informazioni circa le condizioni climatiche affrontate” (The Visual Agency, 2012).
Figura 12. C. J. Minard, Carte figurative des pertes successives en hommes de l’armée française dans la campagne de Russie 1812-1813 (1869).
Le innovazioni in campo grafico Con la nuova utilità conferita dalla data visualization per la comprensione di sistemi di dati complessi e fenomeni stabiliti, sono state inventate e sono state estese a nuove aree di indagine nuove originali forme grafiche, poi utilizzate in particolare nella sfera sociale. Minard sviluppò l’uso di diagrammi divisi per cerchi applicato alle mappe. In seguito trasformò in una forma d’arte l’utilizzo di linee per la rappresentazione di un flusso su mappe di larghezza proporzionale alla quantità (persone, merci, importazioni, esportazioni), per mostrarne lo spostamento geografico. L’opera di Minard “Carte figurative des pertes successives en hommes de l’armée française dans la campagne de Russie 18121813” è considerata una delle più famose infografiche mai realizzate. Questa mappa, disegnata nel 1869, visualizza attraverso una rappresentazione a flussi la disfatta della campagna russa del 1812 di Napoleone. “Il grafico mostra in una singola immagine bidimensionale un gran numero di variabili: la dimensione dell’esercito è rappresentata dall’ampiezza dei flussi, in ocra (avanzata verso Mosca) e nero (rientro in patria), e fornisce una chiara rappresentazione visiva dell’assottigliamento delle truppe; i riferimenti geografici sono ridotti al minimo, mantenendo solo
La Figura 13 è una grafica per la determinazione della deviazione magnetica in mare in relazione alla latitudine e alla longitudine senza calcolo da parte di Charles Lallemand, direttore generale della misurazione geodetica di altitudini in tutta la Francia. Essa combina molte variabili in un nomogramma multi-funzione, utilizzando la tridimensionalità, la giustapposizione di mappe anamorfiche, le coordinate parallele e le griglie esagonali. Atlanti Statistici La raccolta, l’organizzazione e la diffusione delle statistiche ufficiali del governo sulla popolazione, gli scambi e il commercio, le questioni sociali, morali e politiche si diffusero in gran parte
Figura 13. Charles Lallemand, Abaque (1885).
30 Breve storia della Data Visualization
Breve storia della Data Visualization 31
dei paesi d’Europa dal 1825 circa al 1870. I rapporti contenenti grafici di dati furono pubblicati con una certa regolarità in Francia, Germania, Ungheria e Finlandia, Svezia, Olanda e Italia. Allo stesso tempo vi fu un forte impulso a sviluppare delle norme (standard) per rappresentare visualizzazioni di dati al Congresso Internazionale di Statistica che era nato nel 1853 in Belgio ed era strettamente collegato con la banca dati dello stato. I principali partecipanti alla sezione grafica furono Georg von Mayr, Hermann Schwabe, Pierre Emilio Levasseur ed Emilio Cheysson. Gli atlanti statistici sponsorizzati dallo stato che ne scaturirono sono uno dei motivi principali per cui questo periodo viene chiamato “l’età dell’oro della grafica”.
L’esempio più bello tra gli album statistici di quel periodo sponsorizzati dallo stato è senza dubbio “L’Album delle Statistiche Grafiche”, pubblicato ogni anno dal Ministero francese dei lavori pubblici dal 1879 al 1897 sotto la direzione di Emile Cheysson. Si trattava di libri di grande formato (circa 28 x 43 cm): molte delle piante in essi contenute potevano essere spiegate fino a quattro o sei volte la loro dimensione ed erano tutte stampate a colori con una grande attenzione al layout e alla composizione. Vi sono molti esempi degni di nota, ma forse i più interessanti sono le visualizzazioni dei trasporti ferroviari, realizzate per i volumi 1884-1886, la prima delle quali è qui visibile in Figura 14. Il cartogramma utilizza un grande “mosaico” (in basso a sinistra) per visualizzare il numero di passeggeri e le tonnellate di merci spedite dalle quattro principali stazioni ferroviarie di Parigi. Del totale delle merci che lasciano la capitale francese, le quantità per ogni grande città sono indicate da “mosaici” più piccoli, colorati secondo le linee ferroviarie; di tali quantità, la distribuzione verso le città più piccole è indicata allo stesso modo, evidenziando le connessioni lungo le linee ferroviarie. Figura 15. Emile Cheysson, Interstate Migration (1890).
Figura 14. Emile Cheysson, Expeditions de Voyageurs et de Marchandises (1884).
I volumi tra il 1880 e il 1890 sono invece degni di nota per la combinazione multi-modale di diverse forme grafiche (mappe, tabelle, grafici a barre, poligoni bilaterali) in numerose tavole. Ad esempio, la Figura 15 mostra l’immigrazione interstatale in relazione all’emigrazione per i 49 stati americani esistenti nel 1890. La parte destra indica la perdita di popolazione allineata secondo l’emigrazione. Il lato sinistro mostra i luoghi di destinazione degli emigranti: Illinois, Missouri, Kansas e Texas hanno avuto il “successo” maggiore. È chiaro che le persone stessero lasciando gli stati
32 Breve storia della Data Visualization
Breve storia della Data Visualization 33
orientali attratte da quelli della valle a ovest del Mississippi.
1900-1950: i tempi bui della data visualization Se gli ultimi decenni del 1800 possono essere definiti come il “periodo d’oro” della grafica statistica e delle cartografie tematiche, gli inizi del 1900 possono essere chiamati “i tempi bui moderni” della data visualization. (Friendly e Denis, 2000). Figura 16. Arthur Bowley, Total Value of British and Irish Produce Exported from The United Kindom, 1855-1898 (1901).
Le innovazioni grafiche furono in generale molto poche. Inoltre, verso la metà degli anni ‘30, l’entusiasmo per la visualizzazione, che aveva caratterizzato la fine del XIX secolo, era stato soppiantato dal sorgere di quantificazioni e di modelli formali nelle scienze sociali, spesso di ordine statistico. I numeri, le stime parametriche, e specialmente quelle che erano più soggette a errori, erano diventate precise. Le immagini erano ormai solo immagini. A volte belle o suggestive, ma incapaci di affermare un dato a più cifre decimali.
D’altro canto in questo periodo le grafiche statistiche e le metodologie conosciute della rappresentazione grafica divennero di uso comune, tanto che furono inseriti in diversi libri di testo. Il più famoso di quel periodo fu scritto da Sir Arthur Bowley e si intitola Elementi di Statistica (Elements of Statistics). Due capitoli di questo testo sono dedicati ai grafici, ai diagrammi, alle curve di frequenza (con metodi grafici per trovare la mediana) e agli effetti della scelta di scale precise e linee di base per la resa visiva di differenze e rapporti. Bowley nell’esempio della Figura 16 illustra il carattere del suo approccio, dimostrando il proprio metodo di normalizzazione di una serie temporale: medie di tre, cinque e dieci anni sono confrontate attraverso una curva disegnata a mano libera che passa per i quattro punti rappresentanti le medie dei successivi periodi di dieci anni. Nello stesso arco di tempo si era iniziato a confrontare l’efficacia delle molte forme grafiche. Infine furono adottate da una commissione congiunta una serie di norme e regole di rappresentazione grafica e fu sviluppata una guida contenente aiuti pratici per la visualizzazione. Verso la fine di questo periodo, nuove idee e metodi multi-dimensione nel campo della statistica e della psicologia avrebbero fornito l’impulso di guardare al di là del piano bidimensionale. L’innovazione grafica era anche in attesa di nuove tecnologie: lo sviluppo della moderna metodologia statistica e l’avvento delle macchine computazionali e dei dispositivi di visualizzazione consentirà un’ondata di innovazione nel campo della data visualization.
1950–1975: La rinascita della data visualization Dalla metà degli anni ‘60 la data visualization riprese a crescere, principalmente grazie a tre sviluppi significativi: • Negli Stati Uniti, John W. Tukey [1915-2000], in un documento che divenne un punto di riferimento per tutta la teoria della data visualization, “The Future of Data Analysis”, invita a un pubblico riconoscimento dell’analisi di dati come ramo legittimo della statistica, distinto dalla statistica matematica.
34 Breve storia della Data Visualization
Da lì a poco, inventa una vasta gamma di nuove, semplici ed efficaci visualizzazioni grafiche: il diagramma ramo-foglia, i grafici a box, l’istogramma a rettangoli appesi, e così via, molte delle quali entrano nel vocabolario statistico e informatico. • In Francia, Jacques Bertin [1918-] pubblicò il famoso “Semiologie Graphique”. Per alcuni, la sua opera fece per la grafica quello che Mendeleev fece per la chimica: infatti organizzò gli elementi visivi e percettivi della grafica a seconda delle caratteristiche e delle relazioni interne ai dati. • Il trattamento informatico dei dati statistici inizia nel 1957 con la nascita del FORTRAN, il primo linguaggio ad alto livello per la computazione. La diffusione dei computer permise la creazione di nuove forme grafiche. Furono sviluppate applicazioni statistiche interattive e grafiche ad alta risoluzione, ma per divenire di uso comune saranno necessari ancora diversi anni. Nello stesso periodo cominciarono a emergere nuovi temi, per lo più come suggerimenti iniziali: • rappresentazioni di dati sotto forma di storie; • lo sviluppo di varie tecniche di riduzione dimensionale, ridimensionamento multidimensionale; • resa animata di processi statistici; • teorie basate sulla percezione e relative a esperimenti attorno allo studio della miglior resa visiva dei dati al fine della loro comprensione. Entro la fine di questo periodo, sarebbero apparsi i primi esemplari dei moderni sistemi GIS (Geographic Information System, un sistema progettato per ricevere, immagazzinare, elaborare, analizzare, gestire e rappresentare dati di tipo geografico) e dei sistemi interattivi 2D e 3D per la grafica statistica. Queste innovazioni fissarono nuovi obiettivi e prospettive per futuri sviluppi ed estensioni della data visualization.
Breve storia della Data Visualization 35
1975 a oggi: visualizzazioni di dati interattive, dinamiche e ad alta definizione A partire dall’inizio dell’ultimo quarto del XX secolo fino ai giorni nostri, la data visualization è sbocciata in una matura e vibrante area di ricerca multidisciplinare - e trasversale - e in strumenti software utili per qualunque, o quasi, tipo di visualizzazione, accessibili tramite un semplice personal computer. Eppure, è difficile fornire una breve panoramica dei più recenti sviluppi della data visualization, poiché sono diversi tra loro e si sono verificati a un ritmo molto accelerato, andando a toccare tantissime discipline diverse tra loro. A ogni modo si possono evidenziare alcuni temi principali che hanno segnato lo sviluppo della rappresentazione di dati negli ultimi decenni: • lo sviluppo di sistemi di calcolo statistici interattivi e plasmabili secondo le esigenze; • nuovi paradigmi per la manipolazione diretta per l’analisi di dati visivi; • nuovi metodi per la visualizzazione di grandi quantità di dati (scatterplot matrix, spread plot, ecc.); • l’invenzione (o re-invenzione) di tecniche grafiche per dati discreti e categorizzati; • uno studio crescente legato agli aspetti percettivi e cognitivi della data visualization. Questi sviluppi nei metodi e nelle tecniche di visualizzazione sono dipesi, più che in altri periodi, dagli avanzamenti nella teoretica e nelle infrastrutture tecnologiche. Alcuni di questi sono: • software engineering (disciplina che si occupa dei processi produttivi e delle metodologie di sviluppo finalizzate alla realizzazione di sistemi software) per programmi di statistica e grafica applicati su larga scala, sia in ambito commerciale (come SAS) che non (per esempio Lisp-Stat e The R project). Questi sono stati notevolmente sfruttati per la presentazione di informazioni e di interazioni (ad esempio Java e Tcl / Tk);
36 Breve storia della Data Visualization
• estensione della classica modellizzazione statistica lineare a dominii sempre più ampi (modelli lineari generalizzati, modelli misti, modelli per i dati geografici, ecc.); • incremento esponenziale della velocità dei processori (come indicato anche dalla prima legge di Moore, secondo la quale il numero di transistor per chip raddoppia ogni 18 mesi, con un conseguente aumento di velocità), che permette l’utilizzo di metodi computazionali complessi (metodi di bootstrap, ecc.) e l’uso di enormi sistemi di dati finiti (nell’ordine dei terabyte) e di dati in tempo reale (tramite la tecnologia streaming). I progressi in questo settore specifico spingono la data visualization sempre più avanti, verso rappresentazioni di dati sempre più complesse, graficamente perfette (pixel-perfect) e dinamiche. Grazie alle nuove tecnologie, quindi, la data visualization vive da anni un periodo di grande crescita che l’ha resa quasi ubiqua, la si trova oggi infatti su giornali, riviste e siti web. “Non mancano ovviamente abusi, schemi e grafici inutili, errati o semplicemente non necessari, nati sull’onda della nuova moda e considerati nel settore junkcharts (“grafici spazzatura”), a cui è dedicato anche un blog che raccoglie il peggio del peggio del settore” (Pietro Minto, 2012). Per difendere la data visualization da lavori di scarsa qualità e/o onestà, due specialisti di “giornalismo visivo” (settore che racconta la realtà con numeri e forme), Albert Cairo e Juan Antonio Giner, hanno scritto e firmato lo Statuto Internazionale degli Infografici, i cui princìpi sono riassumibili in pochi punti fondamentali: 1 Un’infografica è per definizione una resa visuale di fatti e dati.
Perciò non è possibile fare un’infografica senza informazioni affidabili;
2 Le infografiche non devono contenere elementi non sostenuti
da fatti e prove attendibili;
3 Le infografiche non possono essere presentate come fattuali
quando sono inventate o basate su teorie non verificate;
4 Nessuna infografica dev’essere pubblicata senza indicarne
Breve storia della Data Visualization 37
tutte la/e fonte/i; 5 Gli infografici professionisti devono rifiutare di inserire
nelle loro rappresentazioni visuali elementi immaginari atti a renderle più “spettacolari” e “affascinanti”. I direttori creativi devono trattenersi dal richiedere grafici che non rappresentino dati certi;
6 Le infografiche non sono né illustrazioni né opere d’arte.
Sono giornalismo visivo e devono essere gestite con gli stessi standard etici delle altre aree di tale professione.
La data visualization e tutte le sue discipline assumono dunque una crescente autorità e maggiore consapevolezza, di cui l’intreccio porta a stupefacenti risultati, come in Underworlds, un progetto realizzato dal Senseable City Lab del MiT di Boston: una visualizzazione web interattiva che mostra e categorizza i dati sui batteri e i virus presenti nelle acque fognarie di Boston raccolti attraverso dei dispositivi dotati di più sensori. Si viene dunque a formare un enorme database da cui raccogliere informazioni che si possono rivelare di grande utilità nel campo medico e ambientale.
Figura 17. Senseable City Lab, Underworlds (2015). underworlds.mit.edu
38 Breve storia della Data Visualization
Information Visualization 39
CAPITOLO 2
Information Visualization
40 Information Visualization
L’ Information Visualization (visualizzazione dell’informazione) è una branchia della Human Computer Interaction (HCI) che racchiude a sua volta la Data Visualization. Sono state elaborate molte definizioni nel corso degli anni, ma quella che forse ne racchiude al meglio il significato è descritta dal The Information Visualisation Research Group: La visualizzazione dell’informazione (information visualization) si concentra sullo sviluppo e sull’analisi di metodi per rappresentare informazioni astratte in forma visiva. La visualizzazione delle informazioni permette alle persone di entrare a conoscenza di fatti essenziali più facilmente, per comprendere velocemente le regolarità o le anomalie nei dati, e quindi sviluppare una più profonda comprensione dei dati. La visualizzazione interattiva può inoltre sfruttare le capacità delle persone di identificare fatti degni di nota al mutamento della visualizzazione, permettendogli di manipolare la visualizzazione o i dati sottostanti per esplorare i loro cambiamenti (The Information Visualisation Research Group at the Institute for Software Research at University of California).
Edward Tufte Edward Tufte è sicuramente l’esperto più prominente nel campo della visualizzazione dell’informazione per tutto ciò che coinvolge l’eccellenza della rappresentazione visiva e la grafica statistica. Le sue opere The Visual Display of Quantitative Information, Envisioning Information, Visual Explanations e il suo ultimo lavoro, Beautiful Evidence, sono vere pietre miliari nel campo dei grafici statistici e della data visualization stessa. Tufte è un difensore e promotore del minimalismo nella rappresentazione del dato e dell’eliminazione di tutti gli attributi “accessori” che disturbino la sua comprensione: da questa metodologia deriva dunque il termine “chartjunk” che letteralmente indica quegli elementi contenuti in un grafico che non sono necessari a comprendere la rappresentazione delle informazioni nel grafico stesso. Tufte pone la sua attenzione sulla completa ed efficace comprensione del messaggio che si desidera comunicare e al processo necessario per raggiungere tale obiettivo usando la quantità minima di “inchiostro” (Tufte, 1983). Quella dell’inchiostro è
Information Visualization 41
una metafora che Tufte usa spesso e che può essere ad ogni modo applicata anche al mondo digitale.
L’information visualization secondo Tufte Un buon design ha due elementi fondamentali: l’eleganza grafica si trova spesso nella semplicità del design e nella complessità dei dati. Grafiche visivamente attraenti si rafforzano anche grazie a contenuti e interpretazioni al di là della visualizzazione immediata di alcuni numeri. (Tufte, 1983)
Secondo Tufte, una buona immagine è una presentazione ben costruita di dati interessanti (ossia di dati che hanno veicolano e/o comunicano un contenuto), che unisce la statistica e la progettazione. Essa intende presentare e comunicare idee complesse in modo chiaro, preciso ed efficiente. Più in generale, l’immagine mira a fornire allo spettatore “il maggior numero di idee, nel minor tempo possibile, utilizzando la minor quantità di inchiostro, in uno spazio ridottissimo”. Se alcune di queste caratteristiche vengono meno, possono formarsi numerosi casi di rappresentazione visiva che, più o meno intenzionalmente, possono portare a interpretazioni errate. Difatti Tufte introdusse il concetto di “integrità visiva”, secondo cui l’immagine non deve in alcun modo distorcere i dati che si desiderano rappresentare o creare false interpretazioni dei dati. Le rappresentazioni di dati numerici devono dunque essere direttamente proporzionali alla quantità numerica rappresentata. Uno dei criteri a cui, secondo Tufte, è perciò necessario prestare attenzione è la quantità di elementi presenti all’interno di una rappresentazione visiva: non bisogna sovraccaricare il lettore con un numero di elementi eccessivi che potrebbero essere inutili o dannosi ai fini della comprensione della visualizzazione. Per evitare la rappresentazione di informazioni ridondanti e inutili, Tufte asserisce che, sempre attraverso la metafora dell’inchiostro, è necessario calcolare quanto inchiostro sia stato utilizzato per rappresentare senza ambiguità i dati reali e poi confrontarlo con la quantità di inchiostro utilizzata per arricchire visivamente le immagini con decorazioni e altri elementi visivi. L’obiettivo di tale procedimento è quello di massimizzare il rapporto tra i dati
42 Information Visualization
e l’inchiostro, eliminando eventuali elementi non essenziali. Un modo per farlo è quello di revisionare e riprogettare la visualizzazione, eliminando gradualmente gli elementi decorativi, gli inserti, i confini e tutti gli elementi visivi non attinenti ai dati, cercando dunque di ridurre al minimo la quantità di elementi grafici non essenziali. L’integrità grafica può quindi essere riassunta in sei principi:
Information Visualization 43
di una data visualization in favore della sola espressione dei dati, è rappresentato nelle differenze tra le due opere di Playfair elaborate tra il 1785 e il 1786 (Figura 18 e Figura 19). La prima presenta una quantità di inchiostro eccessiva, con griglie ed etichette troppo elaborate. Si tratta di un’opera realizzata all’inizio della sua carriera, quindi ancora immatura.
1 La rappresentazione di numeri, misurati fisicamente sulla
superficie della grafica stessa, deve essere direttamente proporzionale alle quantità numeriche rappresentate;
2 Per sconfiggere la distorsione e l’ambiguità grafica si deve
usare una chiara e dettagliata etichettatura (labeling). Bisogna descrivere i dati presenti ed evidenziarne gli elementi più importanti;
3 Vanno mostrate, e non progettate, le variazioni dei dati; 4 La migliore misurazione di valori economici in un arco di
tempo è data dall’uso di unità di misura standardizzate e valori che non sono stati “gonfiati”;
5 Il numero di informazioni veicolate ed espresse dalle dimen-
sioni visualizzate non deve superare il numero di dimensioni dei dati;
6 Le rappresentazioni grafiche non devono riportare dati de-
contestualizzati.
Secondo Tufte l’eleganza visiva si raggiunge quando la complessità dei dati corrisponde alla semplicità del design. La grafica è elegante quando è progettata con grande attenzione al dettaglio, evitando decorazioni prive di contenuto e scegliendo un formato appropriato e un design coerente. Si può quindi, con buona certezza, asserire che Tufte fosse d’accordo con il famoso enunciato “Less is More” di Ludwig Mies van der Rohe, architetto tedesco che promuoveva un’architettura che non guardasse più allo sfarzo e alla complessità di risultato come qualcosa di buono. Tufte sostiene che il principio fondante della grafica statistica di qualità è “prima di tutto, mostrare i dati” (Tufte, 1983). Un esempio interessante di quello che è inteso come un processo di miglioramento
Nella seconda Playfair ha eliminato molti elementi non necessari in favore di un design più chiaro in modo da concentrare l’attenzione sulla linea temporale.
Figura 18. William Playfair, Chart of Imports and Exports of England to and from all North America (1785).
44 Information Visualization
Information Visualization 45
principio rispettare: • mostrare i dati; • indurre l’osservatore a riflettere sulla sostanza piuttosto che sulla metodologia, la progettazione grafica, la tecnologia di produzione grafica, o qualcos’altro; • evitare di distorcere quanto i dati stanno comunicando; • presentare molti numeri in uno spazio ridotto; • rendere coerenti data-set di grandi dimensioni; • incoraggiare l’occhio a comparare differenti porzioni di dati; • rivelare i dati a diversi livelli di dettaglio, da una visione ampia alla struttura di base; • guardare a uno scopo preciso: descrizione, esplorazione, tabulazione o abbellimento; • integrarsi con le descrizioni statistiche e verbali del dataset. I principi dell’eccellenza grafica: ll design è una scelta. La teoria della visualizzazione delle informazioni quantitative consiste in principi che generano opzioni di progettazione [...]. I principi non dovrebbero essere applicati in modo rigido [...]; non sono logicamente o matematicamente certi; ed è meglio violare un principio che posizionare marchi sgraziati o poco eleganti sulla carta. La maggior parte dei principi di progettazione deve essere accolta con un certo scetticismo, [...]. Ciò che è da ricercarsi nei design per la visualizzazione delle informazioni è la chiara rappresentazione della complessità. Non la complicazione del semplice; piuttosto il compito del progettista è di dare accesso visivo al sottinteso e al difficile, ovvero la rivelazione del complesso. (Tufte, 1983)
Riassumendo, i principi di Tufte, elaborati nella sua opera del 1983 e che costituiscono le pietre miliari su cui si fonda la letteratura in materia di Information Visualization riguardano delle regole che le rappresentazioni grafiche dovrebbero in linea di
Figura 19. William Playfair, Exports and Imports to and from Denkmakr & Norway from 1700 to 1780 (1786).
• l’eccellenza grafica è la presentazione well-designed di dati interessanti; • l’eccellenza grafica consiste in idee complesse comunicate con chiarezza, precisione ed efficienza; • l’eccellenza grafica è ciò che dà all’osservatore il più gran numero di idee nel minor tempo possibile, con il minimo di inchiostro (data-ink) nello spazio più piccolo possibile; • l’eccellenza grafica si raggiunge raccontando la verità con i dati. L’estetica: • utilizza insieme parole, numeri e figure;
46 Information Visualization
• riflette un equilibrio, una proporzione; • mostra una complessità di dettagli accessibile; • ha una qualità spesso narrativa, una storia da raccontare sui dati; • è disegnata in modo professionale, con dettagli tecnici di produzione accurati; • evita il chartjunk.
Progettando l’information design Il vero valore di un’immagine è quando ci costringe a notare ciò che non ci saremmo mai aspettati di vedere. ( John Tukey)
Come possono essere paragonati i 3.1 miliardi di lettere A, C, G, E, T del genoma umano con quello del topo o di uno scimpanzè? Di tutte le mail che una persona ha scritto nell’arco della sua vita, qual è la più lunga e di quanto? Applicando a queste domande le metodologie appartenenti ai settori dell’informatica, della statistica, del data mining, del graphic design e della progettazione visiva, si possono iniziare a elaborare delle risposte significative e accessibili a più persone. Tutte le domande precedenti coinvolgono una grande quantità di dati, che rendono estremamente difficile comprenderne il senso generale. Il problema si accentua quando si ha a che fare con dati in continua evoluzione. Questa costante crescita dei dati necessita di nuovi strumenti software e di alcune considerazioni. Ogni qualvolta si analizzano dei dati, l’obiettivo deve essere quello di evidenziare le caratteristiche del dataset in ordine di importanza, rivelando ripetizioni (pattern), e allo stesso tempo mostrando caratteristiche coesistenti su più livelli dimensionali (Ben Fry, 2007). Ogni libreria di dati ha particolari esigenze di visualizzazione e lo scopo per il quale si sta utilizzando quella determinata libreria è altrettanto importante e ha un effetto diretto sulla visualizzazione. Ci sono decine di semplici e rapidi strumenti per lo sviluppo
Information Visualization 47
di elementi grafici in Office, sul web, e altrove, ma sistemi di dati complessi richiedono un trattamento ad-hoc. Diventa perciò essenziale comprendere quali siano le caratteristiche dei dati che aiutano a determinare che tipo di visualizzazione sia più efficace. I primi passi Quando si comincia a progettare una data visualization è abitudine comune concentrarsi su tutti i dati che sono stati raccolti. Le quantità di informazioni potrebbero essere enormi, spesso ci si vanta di quanto sia stato difficile gestire i dati e di quanti gigabyte si tratti. Ma una buona data visualization non comincia dalla libreria dei dati; comincia con delle domande. Perché sono stati raccolti i dati, cos’hanno di interessante, e quali storie possono raccontare? Il punto più importante per la comprensione dei dati è identificare le domande a cui si desidera rispondere. Piuttosto che pensare ai dati ottenuti, è importante concentrarsi su come verranno utilizzati, lavorando a ritroso fino ad arrivare alla metodologia di raccolta. Più è specifica la domanda che ci si pone, più sarà specifico e chiaro il risultato visivo. Quando le domande hanno un ampio campo di applicazione, come in analisi “esplorative” di dati, le risposte saranno a loro volta generiche. John Tukey, che ha coniato il termine Exploratory Data Analysis, ha asserito che “... pictures based on exploration of data should force their messages upon us”. Molte grafiche di tipo “esplorativo” costringono dunque il lettore a carpire il loro messaggio, se presente, in autonomia, anziché comunicarlo direttamente. Un esempio è dato dalla data visualization interattiva del New York Times (Figura 20) sul fatturato di ogni film uscito dal 1986 al 2008. Sebbene la parte interattiva sia molto interessante e metta in evidenza come in realtà, nonostante l’aumento della popolazione, il numero di biglietti venduti resti più o meno sempre lo stesso, è lasciato al lettore il compito di scoprire le informazioni sepolte nei dati, come ad esempio l’affermazione esposta nell’intestazione che sostiene che i film da premio Oscar richiedono tipicamente più tempo dei cosiddetti “blockbuster” per raggiungere il successo al botteghino. Una delle competenze più importanti (e meno tecniche) nella comprensione dei dati è quella di porsi delle buone domande. Una domanda appropriata condivide l’interesse nei confronti del dato,
48 Information Visualization
Information Visualization 49
cerca di comunicarlo agli altri, ed è mossa da curiosità più che dalla matematica. La data visualization è proprio come qualsiasi altro tipo di comunicazione: il successo è definito dalla capacità del pubblico di capire il senso del progetto ed esserne entusiasta (Ben Fry, 2007).
statistica, il data mining, la progettazione grafica e la information visualization. Il visual design, il campo in cui si fa una mappatura dei dati per trasformarli in una forma visiva, non è in grado di gestire migliaia e migliaia di dati. Le tecniche di data mining hanno tali capacità, ma sono sconnesse dal concetto di interazione con i dati. La information visualization basata sull’uso di software permette la progettazione di interfacce utente (user interfaces) e blocchi (visual blocks) per l’interazione e la rappresentazione di dati astratti, ma in genere sottovaluta i principi estetici del visual design piuttosto che sfruttare i loro punti di forza (come ad esempio la capacità di veicolare un messaggio con efficacia). La scelta di un metodo di rappresentazione è dunque ardua e il rischio di fare la scelta sbagliata è sempre presente. Ma quando è davvero necessario scegliere? Al fine di realizzare una data visualization al massimo delle sue potenzialità è necessario conciliare questi campi come parti di un unico processo. Ben Fry nel suo libro Visualizing Data afferma che il processo di comprensione dei dati inizia con un insieme di numeri e una domanda. Le seguenti fasi formano un percorso per la risposta: • Acquire: acquisizione dei dati, sia che la loro origine sia un file, un disco o da risorse di rete. Questa definizione è migliorabile: si può acquisire qualunque tipologia di dato, purché sia trasformabile in formato digitale per i successivi passaggi. • Parse: strutturazione dei dati e ordinamento in categorie al fine di conferire un significato.
In breve, una buona visualizzazione di dati è una sorta di racconto che fornisce una chiara risposta a una domanda, senza inutili dettagli. Focalizzando l’attenzione su l’intento originale della domanda, è possibile eliminare questi dettagli poiché la domanda conferisce un punto di riferimento per distinguere informazioni utili e inutili. Combinazione di discipline in un unico processo Utilizzare un sistema di dati complesso per fornire una soluzione piena di significato richiede approfondimenti da diversi campi: la
Figura 20. The New York Times, The Ebb and Flow of Movies: Box Office Receipts 1986-2008 (2008).
• Filter: rimozione di tutti i dati non di interesse. • Mine: applicare metodi della statistica e del data mining al fine di definire modelli o organizzare in un contesto matematico i dati. • Represent: individuare un modello visivo di base come ad esempio un grafico a barre, una lista o un albero. • Refine: migliorare e affinare la rappresentazione visiva per renderla più chiara ed esteticamente attrattiva.
50 Information Visualization
Information Visualization 51
• Interact: aggiungere metodi di manipolazione dei dati o di controllo delle opzioni (anche visive). Naturalmente, questi passaggi non possono essere seguiti pedissequamente. Nello sviluppo di un progetto ci si può aspettare siano prima o poi coinvolti, ma è possibile che non vengano rispettati tutti. Parte del problema dovuto a un approccio per campi singoli per il trattamento di dati è la separazione delle categorie di interesse che porta persone diverse a seguire i singoli problemi separatamente. Quando questo succede si verifica una perdita di qualità per ogni passaggio da un campo all’altro. Il formato iniziale dei dati (derivato dal modo in cui sono acquisiti e analizzati) determina spesso il modo in cui verranno poi considerati nelle fasi di filtering e data mining. Il metodo statistico utilizzato per la raccolta delle informazioni utili potrebbe veicolare il tipo di presentazione visiva. La rappresentazione finale rispecchia dunque i risultati
in uscita dal trattamento dei dati, piuttosto che dalla domanda iniziale. Va tenuto presente che il termine visualization è spesso indicato per descrivere l’arte della rappresentazione di un rapporto fisico, come le odierne mappe della metropolitana (in Figura 21 si può osservare la prima mappa metropolitana che utilizza un metodo di rappresentazione visiva che è stato poi riutilizzato fino ai giorni nostri). Si tratta di un tipo di analisi e di rappresentazione visiva dunque diversa dalla information visualization (visualizzazione di informazioni), dove i dati sono principalmente numerici o simbolici.
Figura 21. Harry Beck, Underground Map (1933).
Gli strumenti di rappresentazione della Data Visualization Molte sono le tecniche di rappresentazione visiva a disposizione nelle prime fasi di progettazione di una Data Visualization. È però opportuno studiare quelli che sono gli strumenti principali, di cui una prima rassegna si delinea nella teoria di William S. Cleveland e Robert McGill, due studiosi della percezione grafica, che elaborano una serie di metodologie grafiche utili allo sviluppo di visualizzazioni di dati. La loro teoria è un tentativo di suddividere la costruzione percettiva in moduli facilmente identificabili per poi descrivere un aspetto del loro comportamento. Il valore dato dall’identificazione di elementi basici e della loro interazione permette di sviluppare un framework per organizzarne la conoscenza e prevedere il comportamento (Cleveland and McGill, 1984). Ad esempio, la teoria dei textons (le unità pre-attentive della percezione umana di texture) di Bela Julesz (1981) identifica quella che viene chiamata visione pre-attentiva, ossia la percezione visiva istantanea e priva di sforzo eseguita dal cervello senza focalizzare l’attenzione su un dettaglio preciso. Egli scrive che “ogni scienza matura è stata in grado di identificare i suoi elementi di base (‘atomi’, ‘quark’, ‘geni’, etc.) e di spiegare i suoi fenomeni conosciuti come interazioni tra questi elementi”. Perciò se anche la data visualization vuole definirsi come scienza, è importante stabilire quali siano i suoi elementi di base.
52 Information Visualization
La Figura 22 illustra i 10 compiti percettivi elementari, individuati da Cleveland e McGill, che l’essere umano utilizza per estrarre informazioni quantitative dai grafici (in questa figura originale non furono rappresentati il colore e la saturazione, da tono a tono, per evitare di aumentare il costo di stampa). Essi si identificano in: posizione (associata rispetto a una scala), lunghezza (determinata da una linea), direzione (data da una linea con un apparato grafico ad una delle due estremità), angolo, area (meglio espressa attraverso un cerchio), volume (rappresentato da un cubo), curvatura, ombreggiatura (disegnata attraverso una texture sempre più fitta), saturazione e colore. È importante sottolineare che ogni simbolo rappresentato potrebbe anche suggerire significati percettivi diversi da quelli descritti. Ad esempio, a un cerchio viene associata comunemente l’area, ma nulla vieta che un individuo possa porre l’attenzione sulla sua circonferenza o sul suo diametro ed utilizzarli come metro di paragone. Cleveland & McGill hanno scelto il termine “elementary perceptual task” poiché quando una persona guarda un’immagine esegue uno o più di questi compiti visivi, per estrarre i valori delle variabili reali rappresentate nella maggior parte dei grafici. Alcuni degli elementi di base non devono essere necessariamente percepiti attraverso dei compiti distinti, possono essere infatti svolti in contemporanea.
Information Visualization 53
Figura 22. Cleveland e McGill, (1933). Dieci compiti percettivi elementari.
non solo estremamente attraente, ma anche utile, mettendo in evidenza diverse tipologie di informazione in modo molto più efficace di quanto un’immagine statica possa mai fare. Può però capitare di imbattersi in data visualization interattive che rendono il dato più confuso e di difficile comprensione ,o al contrario, nonostante un’ottima pulizia grafica, interagendo con esse ci si renda conto che non comunicano nulla. Dunque perché spendere tempo a fare un grafico interattivo, quando non è necessario? La Figura 23 mostra con semplicità come spesso l’aggiunta di interazioni sia inutile: nel grafico a barre visualizzare le quantità dei dati al passaggio del mouse (hover) è un’interazione inutile, esse possono infatti essere mostrate direttamente. L’interattività è uno strumento ormai alla portata di mano di ogni designer, che deve però essere usato quando è atto a migliorare l’efficacia di comunicazione di una grafica statica, aggiungendo valore al messaggio che si desidera veicolare e conferendo un nuovo livello di informazioni al dato. Figura 23. Esempio di interazioni.
Un errore comune Al giorno d’oggi si possono definire tre tipologie principali di visualizzazione di dati: statica, dinamica e interattiva. Ciascuna di esse ha dei pro e dei contro ed è adatta a scopi differenti. Un errore in cui spesso si cade è quello di considerare le visualizzazioni interattive e dinamiche superiori per qualità e attrattività a quelle statiche; ma l’errore ancora più significativo è quello di scegliere il tipo di tecnologia visiva da applicare al progetto a prescindere dal dato. Come discusso in precedenza, sono i dati e le domande che ci si pongono su di essi che definiranno l’aspetto e la tecnologia della data visualization. Realizzare una grafica interattiva diventa ogni giorno più facile grazie agli ultimi software e applicazioni. L’interattività può essere
Visualizzazioni narrative Negli ultimi anni molti si sono spesi a discutere ed elogiare il potenziale narrativo della data visualization. Produttori di notizie come il New York Times, il Washington Post, e il Guardian, incorporano regolarmente all’interno dei loro siti grafiche interattive. I politici, gli attivisti e i reporter televisivi utilizzano come sfondo per le loro storie sull’economia, la salute globale e i risultati elettorali delle visualizzazioni dinamiche (Edward Segel and Jeffrey
54 Information Visualization
Information Visualization 55
Heer, 2010). Le data visualization statiche sono utilizzate da tempo per sostenere la narrazione, solitamente sotto forma di diagrammi e grafici incorporati, in un corpo testo più grande: il testo esprime la storia, e l’immagine fornisce tipicamente prove a sostegno o relativi dettagli. Un emergente settore della data visualization tenta di combinare le narrazioni con la grafica interattiva. I cosiddetti storyteller, e in particolare i giornalisti online, stanno integrando con sempre maggior frequenza visualizzazioni di informazioni complesse all’interno delle loro narrazioni. Realizzare “storie di dati” di successo richiede un insieme di competenze diversificate. Gershon e Page (2001) denotano che una narrazione efficace “richiede competenze simili a quelle dei registi, oltre a un’esperienza nei campi dell’informatica e della scienza.” Mentre le tecniche d’orazione, la prosa, i fumetti, i videogiochi e la produzione di film sono applicabili alle visualizzazioni interattive, bisogna comunque aspettarsi che questo nuovo media entri in possesso di tecniche uniche. Ad ogni modo bisogna specificare che le storie basate sul dato, differiscono dallo storytelling. Difatti le storie nei testi o nei film presentano degli eventi in un’unica progressione controllata, mentre le visualizzazioni di dati possono sì essere organizzate in una sequenza lineare, ma possono anche essere interattive, con un aperto invito alla verifica dei fatti e all’interpretazione critica.
flusso, fumetto, slide show, e il film / video / animazione. Identificano inoltre che questi generi variano soprattutto in termini di (a) il numero di fotogrammi, ossia immagini distinte moltiplicate nel tempo e / o nello spazio che ciascuno contiene, e (b) l’ordine dei loro elementi visivi. Ad esempio, un’immagine di una rivista (stile magazine) in una pagina di testo ha incorporato un solo fotogramma, mentre un fumetto può avere molti fotogrammi; un poster partizionato non suggerisce un ordine di lettura, mentre il fumetto ha un percorso di fruizione lineare e rigoroso. Questi generi non si escludono a vicenda: possono funzionare come oggetti modulari, che se uniti tra di loro, danno vita a generi visivi più complessi. Inoltre, anche se ognuno di essi può essere utilizzato per raccontare una storia, ogni genere funziona meglio con un determinato tipo di narrazione. Scegliere quello appropriato dipende da una varietà di fattori, tra cui la complessità dei dati, l’articolazione della storia, il pubblico di riferimento e il medium prescelto. Ci sono casi evidenti in cui per uno scopo particolare è più appropriato un genere. Le presentazioni commerciali, per esempio, solitamente fanno uso di slideshow anziché di fumetti, gli spot televisivi utilizzano video invece dei diagrammi di flusso. Si tratta di esempi comuni e intuitivi, ma non tutti i casi sono così evidenti. Ad esempio, non è chiaro se gli studenti possano imparare con più efficacia da una presentazione o un video o anche un fumetto. La scelta giusta dipende anche dal contenuto che viene presentato e il background degli studenti. In generale, non vi sarà alcuna “risposta giusta” a priori, ma diverse possibilità, ciascuna con vantaggi e svantaggi (Edward Segel and Jeffrey Heer, 2010).
I generi della visualizzazione narrativa Edward Segel e Jeffrey Heer, grazie ai loro studi, definiscono sette generi di data visualization narrativa (Figura 24): stile magazine, grafico con annotazioni, manifesto partizionato, diagramma di
Le assi della visualizzazione narrativa Corum, un editore e grafico del New York Times, ha realizzato un framework per descrivere il suo design process (insieme di passaggi attraverso il quale si realizza un progetto) e il modo in cui effettua le scelte di progettazione che gli si pongono davanti. Descrive le tensioni tra l’interattività e il racconto, tra la semplificazione e un dettaglio travolgente, e tra l’esplorazione e la decorazione. Altre “assi” del design includono elementi come la messa a fuoco contro la profondità di campo e l’autore rispetto al pubblico. Figura 24. Edward Segel e Jeffrey Heer. Sette generi narrativi.
56 Information Visualization
Information Visualization 57
L’autore ed educatore Alberto Cairo espone strumenti di progettazione simili tra loro nel suo libro, “The Functional Art”, che traccia le funzioni lungo le quali le data visualization narrative possono variare (Figura 25) (Nick Diakopoulos, 2013).
Figura 25. Corum, Design process framework.
Nella pagina affianco. Tatiana Plakhova, esempio di arte generativa. Questo tipo di composizioni prendono forma partendo dai dati ma ciò nonostante non sono considerabili delle vere e proprie data visualization poichè non rappresentano i dati in un modello facilmente riconoscibile e non comunicano nulla rispetto al dato di partenza, se non aspetti più legati all’essenza artistica del progetto.
58 Information Visualization
Case history significative 59
CAPITOLO 3
Case history significative
60 Case history significative
Nei capitoli precedenti sono stati definiti quelli che sono i pilastri della data visualization e, allargando il campo, dell’information visualization. Quando si affronta un progetto è importante avere ben chiare le teorie da cui partire e le basi storiche a cui fare riferimento, ma è altrettanto fondamentale confrontarsi con il presente e con i progetti che, in questi anni, hanno contribuito, per motivi diversi, all’evoluzione della data visualization. Sono molti le aziende e i designer che negli ultimi anni hanno realizzato progetti di grande qualità da un punto di vista progettuale e di forte interesse ed attualità, andando a mostrare ed evidenziare, grazie ai dati, aspetti della realtà che pur essendo sempre stati sotto gli occhi di tutti, non si erano colti nel profondo. La data visualization è dunque diventata un nuovo strumento di visione della realtà, sia come medium (in quanto veicolo di informazioni) che come messaggio, poiché comunica e rappresenta informazioni diversamente incomunicabili e di cui spesso non si sarebbe neppure saputa, o compreso a pieno, l’esistenza. Di seguito sono state selezionate quelle data visualization che rappresentano un punto di riferimento per ogni designer alla prese con la rappresentazione di dati e mostrano le potenzialità dei principali media e delle migliori tecnologie al momento disponibili: grafica generativa, data journalism (sottocategoria dell’ infografica), infografica, motion graphic, data stream e installazioni. Per ciascuna di esse sono descritte le caratteristiche progettuali più importanti e il loro significato.
L’evoluzione dell’idea di evoluzione Ben Fry introduce così quello che forse è stato il suo progetto di data visualization più significativo, The Preservation of Favoured Traces: “Spesso pensiamo alle idee scientifiche, come la teoria dell’evoluzione di Darwin, come nozioni fisse accettate come finite. In realtà, L’origine delle Specie di Darwin si è evoluta nel corso delle diverse edizioni che ha scritto, curato e aggiornato nell’arco della sua vita. La prima edizione inglese è stata di circa 150.000 parole mentre la sesta la supera arrivando a 190.000 parole. Nelle modifiche vi sono rifiniture e cambiamenti nelle idee, sia aumentando il
Case history significative 61
peso di una dichiarazione, aggiungendo dettagli, o anche apportando un cambiamento nell’idea stessa. La seconda edizione, per esempio, aggiunge un’interessante “by the Creator” al paragrafo di chiusura, dando una maggiore attribuzione a un potere superiore. In un altro esempio, la frase “la sopravvivenza della specie più adatta”, di solito considerata centrale per la teoria, spesso associata a Darwin, è invece da attribuirsi al filosofo inglese Herbert Spencer, che non appare fino alla quinta edizione del testo. Utilizzando le sei edizioni come una guida, possiamo vedere il dispiegarsi e susseguirsi delle idee di Darwin per capire come abbia cercato di sviluppare ulteriormente durante la vita la sua teoria” (Ben Fry, 2009). L’idea che si possa realmente vedere il cambiamento del pensiero di una persona nel corso del tempo è affascinante. Gli studiosi di Darwin hanno certamente familiarità con questa evoluzione, ma grazie a questa data visualization (Figura 26) si possono visualizzare direttamente, sia in larga scala durante l’animazione, che parola per parola mentre si esaminano più da vicino pezzi del testo, tutte le revisioni di ogni singola parte con chiarezza e
Figura 26. Ben Fry, On The Origin of Species - The Preservation of Favoured Traces (2009).
62 Case history significative
Case history significative 63
leggibilità. Il progetto è stato realizzato con Processing, un ambiente di sviluppo open source, progettato dallo stesso Ben Fry con Casey Reas, che consente di programmare applicazioni come giochi, animazioni, contenuti interattivi, come la data visualization in analisi, e opere d’arte generativa. Pensato proprio per costituire l’ambiente di sviluppo di riferimento per i designer, eredita la sintassi, i comandi e il modello di programmazione orientata agli oggetti dal linguaggio Java ma in più mette a disposizione numerose funzioni ad alto livello mirate a una facile gestione degli aspetti grafici e multimediali. Le varie creazioni sono chiamate sketch e sono organizzate in uno sketchbook. Ogni sketch contiene in genere, oltre alle classi di oggetti che lo compongono, una cartella data in cui è inserito il materiale multimediale utile all’applicazione, come, ad esempio, immagini, font, file audio e ovviamente dati. All’apertura della pagina web la visualizzazione presenta la prima versione del testo (Figura 27), essendo la dimensione del font troppo piccola per essere letta, il motore grafico è impostato per semplificare la renderizzazione (rendering è un termine inglese che in senso esteso indica la resa o restituzione grafica di un oggetto) delle parole che dunque sintetizza in una serie di piccoli rettangoli inizialmente di colore grigio. La visualizzazione è suddivisa in tre parti: l’intestazione (header), dove sono presenti il titolo sulla sinistra e l’interfaccia utente (user interface) a destra; l’apparato centrale con il contenuto che predomina l’impaginazione; il piè di pagina (footer) contenente la legenda utile a comprendere la visualizzazione.
Figura 28. Ben Fry, On The Origin of Species - The Preservation of Favoured Traces (2009). Visualizzazione delle modifiche della prima edizione in rosso.
All’apertura si avvia in automatico il caricamento dei dati che mostra come si è evoluto il testo di Darwin nelle sette edizioni (in Figura 28, 29 e 30 sono visualizzati i cambiamenti rispettivamente della seconda edizione in rosso, della terza in viola e della quarta in arancione). Grazie all’interfaccia utente è possibile fermare (pulsante “Pause”), rallentare (pulsante “Slow”), velocizzare (pulsante “Fast”) e resettare (pulsante “reset”) l’animazione. In questa data visualization è inoltre presente un secondo
Figura 27. Ben Fry, On The Origin of Species - The Preservation of Favoured Traces (2009). Aspetto della visualizzazione prima dell’animazione.
Figura 29. Ben Fry, On The Origin of Species - The Preservation of Favoured Traces (2009). Visualizzazione delle modifiche della terza edizione in viola.
livello di informazione (come osservabile in Figura 31), accessibile grazie all’interattività: passando sopra alle colonne con il mouse,
64 Case history significative
Case history significative 65
Figura 30. Ben Fry, On The Origin of Species - The Preservation of Favoured Traces (2009). Visualizzazione delle modifiche della quarta edizione.
vengono visualizzati in automatico in una piccola finestra (tooltip) gli apparati testuali, evidenziati dal colore corrispondente all’edizione.
Figura 31. Ben Fry, On The Origin of Species - The Preservation of Favoured Traces (2009). Interattività.
The Preservation of Favoured Traces è dunque un fantastico esempio di come la data visualization possa trasformare sistemi di dati complessi, che in questo caso si sviluppano attraverso sette edizioni di uno stesso libro, in visualizzazioni comprensibili a chiunque. Da un punto di vista della rappresentazione del dato il progetto di data visualization interattivo di Ben Fry è ineccepibile, mentre poteva essere realizzata con maggior qualità l’interfaccia utente, che non rispetta le principali regole di usabilità (per usabilità si intende l’efficacia, l’efficienza e la soddisfazione con le quali determinati utenti raggiungono determinati obiettivi in determinati contesti). Difatti le funzioni di pausa e riavvio non sono chiare, la risposta visiva dei pulsanti dopo la pressione non è coerente e inoltre non è presente un pulsante per poter saltare l’animazione. La rappresentazione dei dati è dunque di buona qualità, ma l’interattività non è stata utilizzata al massimo della sue potenzialità. Il progetto può dunque essere considerato come una data visualization di ricerca che fa dell’animazione e della rappresentazione grafica i suoi punti di forza e che, pur essendo interattiva, non ne fa un uso altrettanto degno di nota.
Tutta la forza di una goccia Form and content have to work together to deliver an idea that is enjoyable, useful and informative. Francesco Franchi
Francesco Franchi, giornalista italiano e direttore creativo dell’inserto IL del Sole 24 Ore che sta attualmente segnando la storia della data visualization grazie alle sue infografiche narrative editoriali, ha rimodellato il medium tipografico di oggi (Typeroom, 2015). Riconosciuto in tutto il mondo, i suoi lavori sono dotati di una stupefacente pulizia grafica e di una chiarezza del contenuto disarmante. Secondo Franchi “nella società contemporanea la parola tecnologia sta subendo un cambiamento e attualmente stiamo abbracciando più linguaggi. La più grande sfida del momento è quella di combinare tutti questi linguaggi per aumentare la comprensione. Nel cuore della progettazione editoriale (editorial
66 Case history significative
Case history significative 67
68 Case history significative
design) vi è la funzione di comunicare un’idea giornalistica o una storia attraverso l’uso mirato di immagini e parole che, nel corso del tempo, trasformano l’informazione in comprensione. La progettazione grafica (graphic design) non si riferisce solo a una soluzione estetica, ma deve anche aspirare a diventare un aspetto etico per un prodotto giornalistico. Pertanto, il design è contenuto e un designer lavora come facilitatore per semplificare la comunicazione, collaborando con gli editori per ottenere il miglior prodotto. Design non significa necessariamente qualcosa di bello. La bellezza è evocata come armonia proveniente dalla funzionalità e utilità dell’oggetto. Così i criteri di composizione devono essere fondati sulla logica intrinseca degli oggetti, sulla loro funzione e sul loro contributo alla vita di tutti i giorni”. In queste parole sono riassunti alcuni dei valori del data journalism, o giornalismo di precisione, una disciplina che racchiude inchieste, dossier e approfondimenti “realizzati con gli strumenti della matematica, della statistica e delle scienze sociali e comportamentali, che sono applicate alla pratica del giornalismo”. “Tutta la forza di una goccia” (Figura 32) è uno dei tanti progetti di Francesco Franchi che rispecchia perfettamente il suo punto di vista e fa parte di una serie di infografiche pluripremiate. La progettazione editoriale si evolve in due pagine affiancate. La tavola vuole presentare lo stato (alla data di pubblicazione) della produzione di energia rinnovabile in Europa, ponendo un accento sulla situazione in Italia, la quale si trova al quinto posto in classifica, con un primato nella produzione geotermica. L’Italia però è fanalino di coda per quanto riguarda le politiche sulla regolamentazione dell’energia rinnovabile, argomento in cui eccelle il Regno Unito. Franchi utilizza con grande maestria cinque strumenti della data visualization: • Mappa geografica con aree a cerchio: sulla sinistra della composizione sono rappresentate tre cartine geografiche dell’Europa con delle aree di forma circolare che rappresentano per le piccole mappe il consumo pro-capite di energia nel 1967 e nel 2007 (una differenza in quarant’anni degna di nota) e per la cartina più grande la produzione di energia rinnovabile. Franchi aiuta il lettore alla lettura attraverso due scale, una posta subito dopo il corpo testo così da consentire la facile comprensione delle due mappe inscritte nei cerchi, e una sotto la visualizzazione più grande.
Case history significative 69
Figura 32. Francesco Franchi, Tutta La Forza di Una Goccia(2009). (vedi pagina precedente)
• Grafico a istogrammi combinati: la classifica centrale è sostanzialmente un grafico ad istogrammi orientato in verticale, diviso per stati e ordinato dal valore maggiore a quello minore. Per ogni stato vi sono quattro barre, che indicano rispettivamente la produzione di energia idroelettrica, solare, eolica e geotermica (o biomasse). In fondo è riportato il totale dato dalla somma di tutti gli stati europei. • Grafico a torta: Franchi ne fa uso due volte. La prima per approfondire la produzione di energie rinnovabili del Portogallo, la seconda per mostrare come dal 1990 al 2010 ci sia stato un forte incremento della quantità di energia rinnovabile rispetto alle altri fonti energetiche (petrolio, gas, carbone e altri). Nel secondo caso viene poi realizzato un focus sull’energia rinnovabile per mostrare in che percentuali è composta. • Grafico ad area: vi sono due grafici di questo tipo, entrambi presentano sull’ascissa il tempo e sulla ordinata la quantità di terawatt ora. Nel primo grafico è visualizzata la crescita di energia rinnovabile in Portogallo, secondo rappresenta lo sviluppo delle energie rinnovabili con un focus sulla crescita dell’eolico e del solare. • Grafico a dispersione (scatter plot): Franchi ne fa uso a destra della composizione per mostrare come l’Italia abbia una produzione di energia rinnovabile assolutamente in linea con gli altri stati europei, ma anche di come non ci siano praticamente sforzi politici al riguardo. L’ordinata presenta l’indice di performance climatica mentre l’ascissa l’indice di responsabilità climatica. Con un’area trasparente viene poi evidenziata la parte del grafico per cui si può considerare un paese performante. Alla sua destra viene conseguentemente riportata la classifica degli stati interni alla suddetta area. “Tutta la forza di una goccia” dimostra dunque come sia possibile rappresentare grandi quantità di dati attraverso un racconto chiaro, lineare e semplice. Franchi guida il lettore attraverso il suo racconto senza che si rischi di perdere dei pezzi. Tutti gli apparati sono perfettamente identificabili, separati grazie all’uso degli spazi e delle linee, ma sono allo stesso tempo anche in armonia tra di loro, formando un senso estetico comune.
70 Case history significative
Case history significative 71
The Fallen of World War II The Fallen of World War II, medaglia d’oro ai Kantar Awards del 2015 nella categoria “motion infographic”, è una data visualization programmata, animata (motion graphic) e interattiva che esamina il costo umano della seconda guerra mondiale e il calo dei morti in battaglia negli anni successivi. Realizzata da Neil Halloran, dura circa quindici minuti e utilizza tecniche di narrazione cinematografica per offrire agli spettatori una nuova e drammatica prospettiva di un momento cruciale della storia. La narrazione è lineare, ma permette agli spettatori di metterla in pausa durante i momenti chiave, di interagire con le classifiche e scavare più in profondità i numeri. Halloran commenta il suo progetto dicendo che “I grafici a barre sono fantastici per mostrare una scala relativa, ma possono sembrare scollegati da quello che essi rappresentano. Costruendo le barre impilando figure umane, ciascuna rappresentante 1000 persone decedute, ho cercato di farle percepire più grandi e pesanti”. I grafici a barre a cui Halloran si riferisce sono esattamente come ha descritto: i dati, che prendono la forma di esseri umani, sono raccolti in colonne, ciascuna delle quali ha un diverso colore per meglio rappresentare il paese a cui si sta facendo riferimento. Le icone maschili vestono colori diversi per rendere meglio evidente la nazionalità di appartenenza. Le icone rappresentano i
civili e i soldati, facilmente distinguibili tra loro per il fucile che le icone soldato portano sulla spalla.. Come scritto sopra, ogni icona civile rappresenta 1000 vittime tra i civili, mentre ogni icona soldato, rappresenta 1.000 soldati uccisi e oltre 1.000 feriti. (Figura 33). The Fallen of World War II è stata vista da oltre 10 milioni di persone, il che dimostra il potenziale che può avere la data visualization quando è ben progettata. Volgendo lo sguardo al numero di soldati deceduti,, l’animazione rappresenta una visione d’insieme del coinvolgimento militare degli Stati Uniti per enumerare successivamente i morti nello scenario europeo. Dopo un interludio, durante il quale è possibile interagire con il grafico a barre grazie a un sistema interattivo (Figura 34), i morti civili si portano al centro della scena con il terrificante numero di oltre ventidue milioni. La grafica animata (motion graphic) stringe più volte il campo su porzioni di dati, animandole per evidenziare gli eventi caratterizzati da un grande numero di deceduti.
Figura 33. Neil Halloran, The Fallen of World War II (2014). Definizione quantità.
Le icone rimangono in una sorta di flusso costante, possiedono una loro fisicità e possono essere spostate e riordinate a seconda delle esigenze (in Figura 35 è rappresentata una di queste transizioni). Tutte le animazioni sono generate dal codice scritto da Halloran, che ha realizzato con un programma ad-hoc in
Figura 34. Neil Halloran, The Fallen of World War II (2014). Parte interattiva.
72 Case history significative
JavaScript e WebGL. “Realizzare una data visualization animata utilizzando il codice anziché strumenti video tradizionali, mi ha permesso di coreografare da vicino l’animazione in base ai dati di riferimento”. Questo approccio può essere considerato come il più corretto quando si desidera realizzare una narrazione animata di dati, poiché gestirli tramite codice permette di non fare errori di quantificazione, rende più semplice apportare modifiche utilizzando nuovi dati e rende la gestione di migliaia di elementi grafici molto più gestibile rispetto a come sarebbe in un software di programmazione video, sia da un punto di vista visivo che di potenza di calcolo necessaria. L’errore che Halloran commette è quello di voler aggiungere un ulteriore livello di informazioni grazie alle funzioni interattive all’interno del sito web ufficiale. Si evince che il progetto è stato realizzato senza tenere conto di quest’ultima peculiarità, che è probabilmente stata aggiunta ad animazione completata.
Case history significative 73
Nobels, no degrees La visualizzazione analizza l’evoluzione dell’assegnazione dei premi Nobel, dal 1901 al 2012. Per ciascun vincitore (dallo studio sono escluse le organizzazioni) si evidenziano: anno di conseguimento del Nobel, ambito del premio, età al momento dell’assegnazione, genere. Per ciascun ambito sono restituiti: livello di istruzione, principali università di appartenenza e città di nascita dei vincitori. (Accurat, 2012).
Figura 35. Neil Halloran, The Fallen of World War II (2014). Animazione.
“Nobels, no degrees” è un progetto di pura data visualization realizzato dallo studio milanese Accurat, vincitore del premio più ambito dei Kantar Awards del 2013 nella categoria “data visualization”. La visualizzazione esamina i 555 premi Nobel (Nobel Prize) e le 893 nomine (Nobel Laureate) a partire dalla fondazione del premio nel 1901. La grafica è ispirata agli spartiti del famoso compositore contemporaneo John Cage, che si traduce nella rappresentazione nel tempo delle sei categorie del premio Nobel come note colorate lungo una linea del tempo inclinata (scelta dettata anche dal fatto che è stata realizzata per l’inserto La Lettura del Corriere della Sera, formato che pone degli inevitabili limiti di spazio). Nella parte testuale, oltre a una breve introduzione, è spiegato come leggere la data visualization: ogni pallino rappresenta un candidato al premio Nobel e la sua posizione lungo l’asse orizzontale è determinata dall’anno in cui è stato premiato mentre la posizione lungo l’asse verticale dipende dall’età del vincitore. In alto a destra Accurat realizza una grafica di esempio per spiegare il significato di ogni singolo componente della timeline. Non vi è una vera e propria legenda ma il senso espresso dal colore è chiaro: ogni cromia rappresenta una categoria del premio. Nella spiegazione è inoltre descritto che il sesso del vincitore è dato da un pallino con un cerchio concentrico se donna, solo con pallino se uomo. I grafici a barre sull’estremità della timeline descrivono il livello di educazione per ogni categoria (dal dottorato a nessuna). Gli archi sulla destra rappresentano le principali università di appartenenza per ogni materia e ne mostrano la distribuzione: la visualizzazione mostra come chimica, fisica e medicina siano suddivise nelle sette università, mentre i Nobel per la letteratura e la pace (in giallo e arancione) non appartengano quasi del tutto a questi famosi centri di eccellenza (Figura 37).
74 Case history significative
Figura 36. Accurat, Nobels, no degrees (2012).
Case history significative 75
76 Case history significative
Case history significative 77
tipologie di visualizzazioni, chiare e visivamente interessanti. Unica nota di demerito è quella che forse, trasportato dall’impeto del concept di inserire i dati come “note” su di uno spartito, sviluppa un linguaggio non immediato e che anche con il supporto della legenda, richiede uno sforzo in più al lettore.
Emoto: real time online visualization Emoto è un progetto realizzato dallo studio NAND che ha catturato e visualizzato la risposta globale su Twitter dei Giochi Olimpici di Londra 2012 in una visualizzazione online interattiva e in una installazione fisica.
Il grafico in basso rappresenta le principali città dei Nobel Laureate, colorati per categoria e raggruppati ogni trent’anni. È interessante notare come negli ultimi anni ci sia stato un incre-
mento nei candidati americani, quando invece all’inizio del secolo la maggioranza erano chiaramente europei (Figura 38). In basso a destra sono invece presenti sette note che forniscono interessanti dettagli e informazioni riguardanti la timeline. Sono numerate e la loro corrispondenza può essere ritrovata più volte nel grafico principale. Lo studio Accurat elabora dunque il dato attraverso nuove
Figura 37. Accurat, Nobels, no degrees (2012). Vincitori di premi Nobel e relative università di appartenenza.
Figura 38. Accurat, Nobels, no degrees (2012). Principali città di provenienza dei vincitori di un premio Nobel.
Una data visualization che dunque, durante le olimpiadi, era visualizzabile in tempo reale nel rispettivo sito web grazie allo streaming (flusso di dati audio/video trasmessi da una sorgente a una o più destinazioni e riprodotti man mano che giungono a destinazione) dei dati.
Figura 39. NAND Studio, Emoto real time online visualization (2012).
78 Case history significative
Usando una combinazione di due visualizzazioni interattive, gli utenti sono in grado di esplorare i flussi e i riflussi delle discussioni on-line. Le forme ad origami sono un simbolo per comunicare i sentimenti positivi (dal rosso al giallo) e negativi (dal blu all’azzurro) relativi ai singoli argomenti, che successivamente si fondono in data visualization e rappresentazioni di facile lettura per la rappresentazione delle emozioni globali. Questi sono stati dunque la base per una vasta profilatura di Londra 2012, che è stata successivamente tradotta in una rappresentazione fisica dei dati attraverso un’installazione scultorea e interattiva rappresentante tutti i dati raccolti dal software di Emoto.
La scultura rappresenta i volumi dei messaggi, aggregati per orario, e il livello delle emozioni in fasce orizzontali che si muovono verso l’alto o verso il basso a seconda del numero di tweet lanciati in quel lasso di tempo. Attraverso un’interfaccia interattiva i visitatori possono esplorare tutta la cronologia delle Olimpiadi. Sebbene Emoto sia un progetto di ormai quasi cinque anni,
Case history significative 79
Figura 40. NAND Studio, Emoto real time online visualization (2012). Installazione interattiva.
rappresenta a pieno il potenziale della data visualization e, ancor più, della trasformazione di dati in elementi tangibili e materici. L’interattività permette inoltre di comunicare con maggiore efficacia il senso dei dati e di poterne esplorare i dettagli. Non bisogna però farsi ingannare: aggiungere livelli di rappresentazione non equivale a migliorare una data visualization. Sono strumenti potenti ma vanno utilizzati quando rendono un servizio utile al messaggio che vuole essere veicolato. L’elemento che non consente di definire perfetto questo progetto è l’aspetto estetico, che nonostante sia dichiaratamente minimale, lascia alcune perplessità come nella scelta di impiegare una forma ad origami per descrivere le emozioni.
80 Case history significative
Makr Shakr by Data 81
CAPITOLO 4
Makr Shakr by Data
82 Makr Shakr by Data
Makr Shakr by Data 83
prodotti dal funzionamento dei bar robotici a bordo delle sopracitate navi da crociera, a partire dalla loro installazione, e mira a fornirne una visualizzazione chiara ed esteticamente piacevole. Il progetto dimostra dunque che, grazie alla data visualization, è possibile comunicare con efficacia e pregnanza di significato un sistema complesso, nel caso specifico, di oltre quattro milioni e mezzo di dati.
Trattamento dei dati
Makr Shakr è un bar robotico progettato dallo studio di design e innovazione Carlo Ratti Associati in collaborazione con il MiT di Boston e vincitore del premio D&AD e Core77. Il progetto è stato presentato ufficialmente alla famosa conferenza del Google I/O il 15 maggio del 2013. L’obiettivo alla base di Makr Shakr è quello di incoraggiare le persone a pensare ai cambiamenti e alle implicazioni sociali introdotti dall’ormai quotidiano trend della “robotizzazione”. Il bar è costituito da uno o più braccia robotiche che sono in grado di servire qualunque tipo di cocktail ed effettuare diversi trattamenti per ingrediente; i robot sono stati programmati inoltre per “shakerare”, filtrare, pestare e mescolare tutte le componenti. Makr Shakr trasforma i clienti in veri e propri bartender, offrendo loro la possibilità di creare proprie ricette e di vederle realizzate. Il successo ottenuto ha portato all’installazione di quattro bar su quattro navi da crociera della Royal Carribean che, a partire dal 2014 a oggi, hanno già servito più di trecentomila cocktail. Makr Shakr by Data (in allegato) prende in analisi tutti i dati
Figura 41. Makr Shakr (2014), Robotic bartender su una nave da crociera della Royal Carribean.
Il database è stato scaricato dai bar robotici all’interno delle navi nel dicembre del 2016 attraverso un sistema VPN (rete privata virtuale) che ha permesso di connettersi via satellite con il server locale presente a bordo. Per ogni installazione Makr Shakr, i file che si sono potuti acquisire per ogni nave sono sei e in formato Json (acronimo di JavaScript Object Notation, è un formato adatto per lo scambio dei dati in applicazioni client-server): nomenave_cocktail_actions, nomenave_ingredient_categories, nomenave_ingredient_supercategories, nomenave_ingredients, nomenave_ recipes, nomenave_orders. Sono stati successivamente convertiti in formato csv (comma separated values, ossia un file molto semplice con tutti i valori separati da una virgola) per poterne effettuare il parsing. Parsing Per ognuno dei quattro bar è stato svolto il seguente procedimento. Tra i sei file scaricati ve ne sono due principali. Il primo, e più importante, è quello contenente tutti gli ordini effettuati nel tempo (nomenave_orders). Ogni riga della tabella rappresenta un cocktail ordinato e ogni colonna determina per ciascun ordine rispettivamente le seguenti informazioni: • orderID: un numero esadecimale che rappresenta univocamente solo e soltanto quell’ordine; • country: il paese di origine della persona che ha effettuato
84 Makr Shakr by Data
l’ordine; • age: l’età di chi ha effettuato l’ordine; • sex: il sesso di chi ha effettuato l’ordine; • drinkName: il nome del cocktail di cui è stata richiesta la produzione; • cost: il costo del drink; • date: la data e l’orario esatto in cui è stato effettuato l’ordine. Il secondo file più importante è quello contenente le ricette (nomenave_recipes), ovvero la composizione di ogni cocktail, sia che fosse a menù, che realizzato da un utente. In questa tabella ogni riga corrisponde a una ricetta e per ogni colonna sono definiti i seguenti dati: • orderID: lo stesso numero univoco che si trova nel file degli ordini • drinkName: il nome della ricetta • recype_type: indica il tipo di ricetta e può avere principalmente due valori che indicano se appartenente al menù oppure se realizzata dal cliente (custom) Da recype_type in poi le colonne seguono un pattern che viene ripetuto tante volte quanti sono gli ingredienti che vanno a comporre la ricetta (fino a un massimo di diciannove) e sono riassumibili in tre informazioni: • category_name_n: il nome della categoria dell’ingrediente • ingredient_name_n: il nome dell’ingrediente • ingredient_quantity_n: la quantità dell’ingrediente da versare nel bicchiere (preimpostata da Makr Shakr ma anche ridimensionabile dall’utente) I due file principali, dopo un’attenta analisi, sono stati fusi tra
Makr Shakr by Data 85
di loro (merging) al fine di ottenere un unico database contenente tutte le informazioni principali, così da poter iniziare a pulire e filtrare le tabelle e ragionare sui dati per capirne gli aspetti più interessanti di cui tenere conto durante la progettazione visiva. Le restanti quattro tabelle per nave non sono state trascurate, ma sono anzi servite per l’incrocio dei dati e per sostituire gli iD univoci degli ingredienti con i nomi corrispondenti. A causa dell’ingente quantità di dati, il trattamento dei file è stato eseguito senza fondere i dati delle quattro navi, in quanto i software di gestione database, come Microsoft Excel, tendono a rallentare una volta che si inseriscono delle formule con riferimenti multipli, in questo caso necessarie per collegare tra loro i file originali attraverso una ricerca di valori per colonna utile a fondere righe tra loro in un’unica tabella. Filtering and mining Per ragionare sui dati e cercare di comprenderne aspetti che ad una prima analisi sarebbero sfuggiti, è stato assemblato un unico file per nave contenente una riga per ogni cocktail ordinato e per ogni colonna i seguenti valori: country, age, sex, drinkName, date, recype_type, category_name_n, ingredient_name_n e ingredient_quantity_n. Dopodichè sono state apportate le seguenti modifiche: • date è stato suddiviso in date e time con rispettivamente all’interno la data in cui è stato ordinato il cocktail e l’orario preciso al secondo. È stata inoltre creata la colonna timeSlot, contenente la fascia oraria (in intervalli di un’ora) in cui è stato effettuato l’ordine. • Sono state eliminate tutte le righe (circa 2000) a cui mancavano delle informazioni e avrebbero dunque condotto a dei risultati poco significativi. • Per mezzo di un algoritmo programmato appositamente per analizzare gli ingredienti all’interno di ogni cocktail e che determina se è vi contenuto dell’alcol, è stata creata una nuova colonna di informazione denominata isAlcoholic contenente i valori true o false (cosiddetta variabile booleana) rispettivamente per i drink alcolici o analcolici.
86 Makr Shakr by Data
• è stata aggiunta una colonna denominata ageGroup al cui interno è stata inserita la fascia di età della persona che ha ordinato il drink. I gruppi di età sono stati determinati secondo quelli che sono gli standard di analisi demografica usata dalle principali aziende nel settore informatico, come Google, Facebook e Amazon. Una volta elaborate le nuove tabelle per ciascuna delle quattro navi, sono state unite tra di loro in modo da ottenere un unico database sul quale effettuare operazioni di analisi statistica e di rilevazione delle relazioni tra i dati. A operazione conclusa, la tabella finale presenta 309.987 righe per 23 colonne, per un totale di 7.129.701 dati. Il che rende Makr Shakr il più grande database sugli usi e i consumi di bevande alcoliche al mondo. Attraverso lunghe e complesse operazioni di filtraggio si è cercato di capire quali “racconti” i dati portassero con sé, quale messaggio comunicassero. Sono dunque state poste una serie di domande a cui i dati avrebbero potuto rispondere:
Makr Shakr by Data 87
• Qual è la fascia di età che beve di più? • La media dei consumi di bevande alcoliche per ogni stato cambia quando si è in vacanza?
How might we?
• Qual è il cocktail più apprezzato nel contesto analizzato?
Prima di iniziare la fase creativa e progettare la visualizzazione, è importante avere ben chiaro cosa si intende risolvere con il proprio design, a quali domande si desidera dare una risposta, come e perchè. Una tecnica molto utile che permette di trasformare i problemi in opportunità è quella denominata “how might we?” (abbreviata spesso come HMW, come potremmo...?): partendo dall’analisi degli insight (termine di origine inglese usato in psicologia che definisce il concetto di “intuizione”, nel design è utilizzato per indicare una verità legata all’argomento su cui si sta lavorando, può essere una parola, un’affermazione o una domanda) si cercano delle opportunità per la progettazione. Dopo una serie di tentativi, rifiniture e ripensamenti è stata posta la seguente domanda a cui la data visualization avrebbe dovuto dare risposta: come potremmo visualizzare gli step che da un ingrediente, passando per un prodotto, si traducono in abitudini di consumo?
• Qual è il cocktail più apprezzato dalle donne e quale dagli uomini?
Represent
• Qual è la nazionalità e il genere che fanno più uso di alcol e a quale età si bevono più bevande alcoliche? • Quali sono i paesi più moderati nel consumo alcolico? • Quali sono gli ingredienti più usati?
• Quali sono i gusti e le preferenze di paesi di culture diverse? • In che modo gli ingredienti si distribuiscono nei cocktail? • Qual è l’ingrediente più usato? • Quali sono le fasce orarie in cui si beve di più? • Esistono persone che bevono bevande alcoliche anche al mattino?
Sulla base della domanda posta nel paragrafo precedente si è iniziato a progettare la rappresentazione visiva, stabilendo che dati mostrare, quali modelli di base utilizzare e infine in quale ordine. Per limiti tecnici, si è scelto di realizzare una visualizzazione statica adatta ad essere stampata, nulla esclude che possa essere successivamente implementata in una rappresentazione interattiva. La sequenza logica secondo la quale è stato progettato il racconto dei dati, rappresentata nello schema di Figura 42, prevede di mostrare all’inizio come gli ingredienti compongono i dodici cocktail, indifferentemente dal contenuto alcolico, più bevuti in assoluto (di cui si possiedono dunque i dati più significativi).
88 Makr Shakr by Data
Makr Shakr by Data 89
INGREDIENTI
COCKTAIL (RICETTA)
CONSUMO PER PAESE
CONSUMO ALCOLICO
CONSUMO PER SESSO
CONFRONTO CON DATI ESTERNI
ANALISI DEMOGRAFICA DEI CONSUMI PER ETÀ E SESSO
ANALISI DEMOGRAFICA DEI CONSUMI PER FASCIA DI ETÀ E ORARIO Dopodichè si indagano i gusti e i consumi, divisi anche per sesso, dei quindici paesi statisticamente più importanti, mettendo in evidenza quali sono i cocktail più apprezzati per ogni stato, analizzando il rapporto tra il consumo di bevande alcoliche e analcoliche e indicando i drink più graditi dagli uomini e dalle donne. Il passaggio successivo consiste nell’evidenziare le differenze statistiche dei paesi individuati nei consumi di alcol tra i dati raccolti a bordo delle navi e quelli provenienti dai censimenti ufficiali rilevati ed emessi da enti internazionali certificati. Infine si passa ad un’analisi demografica del consumatore, per capirne in profondità le abitudini rispetto all’età e al sesso; andando poi ad analizzare i momenti della giornata in cui si fa uso o abuso di bevande alcoliche (o analcoliche).
Figura 42. Schema del flusso dei dati della data visualization Makr Shakr by Data
Per realizzare le visualizzazioni è stato nuovamente rielaborato il database, andando così a creare sei dataset separati. Grazie a questa operazione è stato possibile applicare filtri e formule di analisi statistica, in funzione della tipologia di rappresentazione del dato scelta, con più semplicità e fluidità di calcolo. Concluso questo passaggio, che ha richiesto un ingente quantità di tempo, si è passato a elaborare i dati attraverso dei software o web app (tra cui RAWGraphs, del laboratorio Density Design) utili alla loro rappresentazione secondo i moduli descritti di seguito. Questi programmi permettono di scegliere il tipo di grafico da rappresentare e, dopo opportune regolazioni, di esportarlo nel formato svg (Scalable Vector Graphics, indica una tecnologia spesso utilizzata nel web, in grado di visualizzare oggetti di grafica vettoriale e, pertanto, di gestire immagini scalabili dimensionalmente senza perdita di qualità). I file vettoriali sono così pronti per essere trattati con software di manipolazione grafica come Adobe Illustrator, Sketch App e altri. Questa operazione permette di dimensionare i grafici con assoluta precisione e coerenza rispetto al dato. Sarebbe Figura 43. Schema di tipo Sankey del progetto Makr Shakr by Data
90 Makr Shakr by Data
Makr Shakr by Data 91
infatti impossibile rappresentare manualmente milioni di informazioni senza commettere errori o ricorrere ad approssimazioni che diminuiscono il valore della data visualization, oltre al fatto che se ci fossero dei cambiamenti nel dato di partenza, bisognerebbe ripetere tutto da capo.
sono gli stati. In ogni intersezione è stato posizionato un primo cerchio la cui area determina la percentuale in cui quel specifico stato ha bevuto quel tipo di cocktail e un secondo la cui circonferenza indica la proporzione di uomini, in colore azzurro, e la proporzione di donne, in colore giallo, che hanno consumato quel genere di drink.
Sankey
Grafico ad aree e istogrammi
Per visualizzare come gli ingredienti vanno a comporre i cocktail, tenendo conto della domanda a cui si vuole rispondere, è stato adottato il diagramma denominato Sankey, una tipologia specifica di diagramma di flusso che pone un accento visivo sui principali legami all’interno di un sistema. Ogni singolo ingrediente è collegato alle ricette che va a comporre. I dodici cocktail selezionati sono ordinati dal più bevuto al meno bevuto e differenziati per colore, la barra rettangolare indica la percentuale in cui è stato consumato il drink.
Al fine di mostrare le percentuali di consumo dei dodici tipi di cocktail da parte degli uomini e delle donne, è stato progettato un grafico ad aree il quale evidenzia che, ad esempio, il cocktail più apprezzato dalle donne è analcolico, mentre quello più apprezzato dagli uomini è alcolico.
Scatter Plot Per la visualizzazione quantitativa dei gusti nel consumo di cocktail da parte dei quindici paesi statisticamente più significativi è stato manipolato un grafico a dispersione (scatter plot): sulle ascisse compaiono le ricette più gradite mentre sulle ordinate vi
Figura 44. Grafico scatter plot e istogrammi (sul lato destro) in Makr Shakr by Data.
A destra del grafico a dispersione sono stati posti, per ogni paese, due istogrammi che rappresentano la percentuale di consumo totale di drink alcolici e analcolici. Questa visualizzazione pone in rilievo, per esempio, che gli Stati Uniti sono i più forti consumatori di bevande alcoliche, con l’ottantaquattro per cento, mentre sul fronte opposto si trova la Cina, con solo il quarantadue per cento. Considerando il fatto che sono tutti dati reperiti durante una vacanza di piacere, la differenza di abitudini è degna di nota.
Figura 45. Grafico ad aree in Makr Shakr by Data. Indica ad esempio che il cocktail preferito dalle donne è analcolico, mentre quello preferito dagli uomini è alcolico.
92 Makr Shakr by Data
Makr Shakr by Data 93
Grafico a coordinate parallele Il grafico a coordinate parallele è un modo comune di visualizzare dati multivariati. Per mostrare un insieme di punti in uno spazio di dimensione arbitraria, vengono impostati degli assi verticali paralleli e un punto su questi assi rappresenta la sua coordinata in funzione dell’asse su cui è posto.
In questo caso è stato applicato per mostrare come si compone, di volta in volta, la classifica dei quindici paesi selezionati, in funzione ai seguenti termini di paragone: numero di cocktail ordinati, consumo medio di bevande alcoliche, consumo di alcol pro capite e numero di morti a causa dell’alcol. È interessante analizzare come nell’ordine dei paesi ci siano tante costanti quante nette diversificazioni. Ad esempio, gli Stati Uniti vincono il primato per il consumo di alcol in vacanza ma per quanto riguarda le abitudini annuali, scendono di diversi posti in classifica. I passeggeri russi invece sono più morigerati in vacanza mentre sono i primi nelle classifiche di alcol bevuto pro capite e di morti causate dall’alcol. Istogrammi e aree impilati A conclusione della data visualization sono stati progettati due grafici che analizzano il consumatore da un punto di vista statistico/demografico. Il primo attraverso un grafico a istogrammi impilati e
Figura 46. Grafico a coordinate parallele in Makr Shakr by Data.
normalizzati (ogni quadrato corrisponde a 250 persone) visualizza il numero di persone che hanno bevuto un cocktail divise per sesso, grazie al colore; per età, lungo l’ascissa; per consumo di bevande alcoliche o analcoliche, rispetto all’ordinata positiva o negativa. Il secondo fa uso di un grafico ad aree poste una sopra l’altra, in cui ciascuna corrisponde a una fascia di età. L’ascissa rappresenta una linea del tempo di una giornata. Vengono così rappresentati i consumi di bevande alcoliche o analcoliche rispetto all’orario, mettendo in evidenza buone e cattive abitudini rispetto all’età e rispetto al momento della giornata.
Figura 47. Grafico a istogrammi impilati in Makr Shakr by Data. Ogni piccolo quadrato corrisponde a 250 persone, il giallo indica le donne e l’azzurro indica gli uomini.
94 Makr Shakr by Data
Refine Conclusa la progettazione delle tipologie di rappresentazione, e la loro esportazione nel formato svg, si è passati al design della veste grafica. Il concept che ha ispirato il progetto visivo è quello di realizzare una data visualization per moduli, ossia una serie di apparati che possono essere letti separatamente, ma che visti insieme esprimono un senso comune. L’ordine di lettura può essere sia dall’alto verso il basso, sia dal basso verso l’alto. Lungo tutta la data visualization sono presenti alcuni elementi visivi ricorrenti che aiutano nella lettura delle informazioni: • Cocktail, ingredienti e dati sono rappresentati con il rosso se alcolici e con un blu pallido se analcolici. • Per l’uomo e la donna sono stati scelti rispettivamente il colore azzurro e il giallo. • Dei piccoli triangoli segnalano gli aspetti della data visualization più interessanti e degni di nota, che generalmente corrispondono a dei picchi di consumo. • Negli ultimi due grafici, i consumi di drink alcolici sono sopra all’ordinata e quelli analcolici sotto. Da un punto di vista puramente grafico si è mantenuta una coerenza estetica, cercando di conservare il più possibile un’eleganza stilistica, utilizzando una palette desaturata e ponendo gli accenti sugli aspetti più interessanti dei dati. La scelta tipografica è ricaduta su un unico font lineare.
95
Conclusioni By visualizing information, we turn it into a landscape that you can explore with your eyes, a sort of information map. And when you’re lost in information, an information map is kind of useful. (David McCandless)
La Data Visualization è una scienza che fa della trasversalità disciplinare il suo punto di forza. Nei secoli si è evoluta attingendo da matematica, statistica, arte, cartografia, economia, filosofia, sociologia e psicologia. I principali passaggi storici hanno dimostrato come ci sia sempre stata, fin dai tempi antichi, la necessità di rappresentare dei dati e di comunicarli e di come grazie a queste visualizzazioni si siano inoltre rivelati aspetti della realtà di cui non si era a conoscenza. Il progetto Makr Shakr by Data può essere interpretato come un semplice racconto analitico dei dati dell’omonimo bar robotico, ma si ritiene che sarebbe una valutazione parziale e restrittiva. Questo progetto si propone come paradigmatico rispetto ad una tipologia di rappresentazione dei dati che può essere ri-applicata ad altre tematiche in cui vi sia la necessità di rappresentare la filiera che parte da un prodotto e arriva a individuare la modalità e il tipo di consumo all’interno di determinate condizioni, raffrontandolo e comparandolo con dati di origine diversa. È stata dunque dimostrata la tesi: grazie alla data visualization è possibile rappresentare un sistema complesso di dati, facendo emergere significati e contenuti che non si sarebbero mai rivelati dalla semplice lettura analitica del dataset originale. Il progetto vuole evidenziare soprattutto le potenzialità comunicative della rappresentazione di dati, che emergono proprio nel passaggio da una logica di lettura puramente quantitativa ad una narrazione strutturata che, filtrata dagli strumenti del design, diviene ciò che oggi assume il nome di “data telling”. Proprio quest’ultima definizione identifica uno scenario importante e ancora da esplorare nell’era del big data, ovvero il racconto, in forma visiva, della complessità del mondo attraverso i numeri che compongono i fatti che lo determinano. Le potenzialità della data visualization sono innumerevoli e anche se, come si evince dal primo capitolo, è una scienza che
96 Makr Shakr by Data
esiste già da secoli, si inizia soltanto adesso a intuire dove potrà arrivare. Tecnologie come la robotica, la realtà aumentata e il mondo dell’internet of things stanno completamente rivoluzionando la concezione che si ha della realtà che ci circonda. Ogni giorno vengono realizzate nuove modalità di rappresentazione che potranno essere a servizio della data visualization. Ciò detto, le teorie alla base di questa materia resteranno in larga parte invariate, poiché i modelli rappresentativi compresi dall’essere umano restano circa sempre gli stessi e si evolvono alla stessa velocità della cultura.
97
Bibliografia
Ben Fry (2007). Visualizing Data. O’Reilly Media Edward Segel and Jeffrey Heer (2010), Narrative Visualization: Telling Stories with Data. The MiT Press Fayyad, Grinstein, and Wierse. Information Visualization in Data Mining and Knowledge Discovery. Morgan Kaufm Friendly, M. and Denis, D. (2000). The roots and branches of statistical graphics. Journal de la Sociéte’ Francaise de Statistique Friendly, M. and Kwan, E. (2003). Effect ordering for data displays. Computational Statistics and Data Analysis Funkhouser, H. G. (1936). A note on a tenth century graph. Osiris John Maeda (1999). Design By Numbers. The MiT Press N. Gershon and W. Page (2001). What storytelling can do for information visualization. Commun. ACM Robert Klanten, Nicolas Bourquin, Thibaud Tissot. Data Flow. Gestalten Robert Klanten, Nicolas Bourquin, Thibaud Tissot. Data Flow 2. Gestalten
98 ‌
Selly Busetto (2016). Comunicare attraverso i principi del Data Design e della Information Visualization: un approccio user-oriented alla comunicazione di dati statistico-scientifici. UniversitĂ di Bologna Tufte, E. R. (1983). The Visual Display of Quantitative Information. Cheshire, CT: Graphics Press Tufte, E. R. (1990). Envisioning Information. Cheshire, CT: Graphics Press Tufte, E.R. (1997). Visual Explanations. Cheshire, CT: Graphics Press Tufte, E.R. (2006). Beautiful Evidence. Cheshire, CT: Graphics Press William S. Cleveland and Robert McGill (1984). Graphical Perception: Theory, Experimentation, and Application to the Development of Graphical Methods. Taylor & Francis, Ltd.
99
Sitografia
Accurat, 2012. https://www.behance.net/gallery/14159439/Nobel-nodegrees Density Design. http://rawgraphs.io/ Fathom, 2009. https://fathom.info/traces/ Francesco Franchi. http://www.francescofranchi.com/ Neil Halloran, 2015. http://www.fallen.io/ Nick Diakopoulos, 2013. http://www.nickdiakopoulos.com/2013/04/12/ storytelling-with-data-what-are-the-impacts-on-the-audience/ Pietro Minto, 2012. http://rivistastudio.com/standard/data-visualization-2/ Studio NAND, 2012: http://www.nand.io/projects/clients/emotoinstallation/ http://junkcharts.typepad.com/junk_charts/2008/02/stacked-area-ch.html http://senseable.mit.edu/ http://thecreatorsproject.vice.com/blog/
100 Makr Shakr by Data
inside-look-data-visualizing-wwiis-death-toll http://underworlds.mit.edu/ http://www.informationisbeautifulawards.com/ http://www.nytimes.com/interactive/2008/02/23/ movies/20080223_REVENUE_GRAPHIC.html http://www.typeroom.eu/article/how-francesco-franchiremodeled-typographic-medium-today