VERS UNE ÉDUCATION
À LA DONNÉE Cindy Le Bot
Sous la direction d’Anthony Masure
Mastère international en design graphique 2014 Campus de la fonderie de l’image, CNA-CEFAG 80 rue jules ferry - 93170 bagnolet
RÉSUMÉ La donnée jonche et anime nos vies, que nous la voyions, le souhaitions ou non. Dans les médias, l’éducation, la parole politique, elle fait office d’argument d’autorité, et est rarement questionnée. L’aspect froid et objectif des données n’en fait pourtant pas une vérité. Leurs représentations graphiques sont empreintes de responsabilités, et le travailleur de la donnée s’expose parfois à des problèmes éthiques et techniques. La donnée se fait même parfois tellement étouffante qu’on s’y perdrait, malgré les outils à notre disposition pour la traiter. Il doit pourtant bien y avoir une manière de faire de ces données foisonnantes un atout, de ne plus réserver leur pouvoir déjà démontré à de nombreuses reprises à une part de la population très étroite, et de l’étendre à ceux pour qui aujourd’hui l’image de ces informations est celle d’un mur opaque. Un moyen de s’y retrouver, entre small data, big data, crawl data, et de provoquer une prise de conscience autour du pouvoir de la donnée. L’objectif de ce mémoire est de tenter de cerner ce que le graphisme peut apporter aux données, et dans quelle mesure. Données, Transformateur, Interprétation, Objectivité, Manipulation, Education, Appropriation, Citoyenneté, Open data, Big data
SUMMARY Data strews and drives our lives, whether we see and wish it or not. In the media, education, political discourses, it behaves as an authority argument, and is almost never questioned. Though data may look cold and objective, it may not reflect the truth. Graphic data interpretation is full of responsibilities, and data workers are exposed to ethical and technical issues. Data may even be so stifling that we might be lost, even though we have at our disposal many tools to understand its meanings. But a way to make these numerous informations an asset should exist, so that we can share their power, that’s been shown so many times, not only with that narrow proportion of the population, but with the big amount of people perceiving these informations like some abstract and opaque material. A way to navigate with ease in small, big, and crawl data, and to provoke a new level of awareness about the power of data. The aim of these pages is to try refining what graphic design can bring to data and in what extent.
Data, Transformer, Interpretation, Objectivity, Manipulation, Education, Appropriation, Citizenship, Open data, Big data
NOTRE VIE EN DONNÉES
P.6
LES OBJECTIVITÉS DU GRAPHISME DE DONNÉES
P.13
DÉFINITION DES PROCESSUS DE L’OBJECTIVITÉ P.14 LA RECHERCHE DE L’OBJECTIVITÉ DANS L’ART P.23 CODES ET CULTURES DE LA DONNÉE P.31
TRAVAILLER LA DONNÉE
P.37
LES INTENTIONS DE LA VISUALISATION DE DONNÉES P.38 Du scientifique au militaire P.38 Un enjeu sociétal de vulgarisation P.42
LES TRAVAILLEURS DE LA DONNÉE P.49 Le rôle du transformateur P.49 L’éthique de la donnée P.54
MANIPULATION ET ORGANISATION DES DONNÉES P.61 ACCÈS INSTANTANÉ : LABEUR DE COLLECTE ET DE LA REPRÉSENTATION DES DONNÉES P.68
P.77
L’UTILISATEUR FACE AUX DONNÉES EXPÉRIENCE UTILISATEUR, DONNÉES ET TECHNOLOGIE P.78 Mirage et technologie P.78 Quand l’utilisateur s’empare de la donnée P.83
SOUMETTRE DES DONNÉES À UNE VALEUR COMMUNE P.87 DES ESTHÉTIQUES AU DÉTRIMENT DU SENS P.92 LE TOUT, ALTERNATIVE AU PEU ? P.99
P.109
APPRENONS ! DONNÉES ET CITOYENNETÉ
P.117
BIBLIOGRAPHIE
P.121
REMERCIEMENTS
P.123
ANNEXES
Vers une éducation à la donnée
NOTRE QUOTIDIEN NOUS CONFRONTE À UNE MULTITUDE D’IMAGES. LES VISUALISATIONS DE DONNÉES EN FONT PARTIE : INFOGRAPHIES, GRAPHES, GRAPHIQUES ET SCHÉMAS SONT PRÉSENTÉS POUR ILLUSTRER ET TRADUIRE DES DONNÉES ABSTRAITES. En période électorale, les médias relaient tous les jours des chiffres et des statistiques. Les données y sont alors représentées sous forme graphique, dans une optique de banalisation des informations numériques, qui paraissent au premier abord abstraites, voire illisibles. Sur internet, les sites d’information s’emparent des mêmes données. On ne trouve pas toujours la source de ces productions, ni les mentions de l’auteur ou des contextes dans lesquels elles ont été produites. Utilisés à outrance dans les médias, les nombres et par extension les données semblent faire foi. Les exemples de manipulation de données sont pourtant légion, et ce avant même leur représentation graphique. Le Figaro est d’ailleurs à l’origine d’une controverse. En ce début d’année est paru un article titré «Tourisme : Londres Florentin Collomp, «Tourisme : Londres détrône Paris», le Figaro, le 16/01/2014, (en ligne)
détrône Paris». Le sujet en lui-même est déjà sensible Paris, ville ayant pour réputation d’être «la plus visitée au monde» depuis des années, aurait été supplantée par la capitale anglaise. Seulement, les données sur lesquelles le correspondant du Figaro à Londres s’appuie sont discutables. Là où les chiffres du tourisme à Londres prennent en compte la grande agglomération toute entière, Les chiffres de Paris ne concernent que l’intra-muros. Pire encore, les chiffres
/6
Vers une éducation à la donnée
référents pour Londres sont ceux de 2013, tandis que ceux de Paris sont ceux de 2012, les suivants n’ayant pas encore été révélés au moment de la parution de l’article. Les référents ne sont donc pas les mêmes, que ce soit spatialement ou temporellement. Il est également à noter que la source des estimations est partiale, ayant été établie par le site Visit Britain. Si l’ensemble de l’agglomération parisienne avait été prise en compte, le nombre de touristes aurait été considérablement augmenté, par la présence de grands sites touristiques tels que le parc Disneyland. De l’aveu du correspondant, le titre de l’article est exagéré, et en écrivant ces mots il voulait, comme le statut d’un correspondant à l’étranger le sous-tend, adopter un point de vue anglais sur les chiffres du tourisme et leur interprétation. Mauvaise foi ou non, le Figaro a publié sous un titre accrocheur un article aux sources non vérifiées, et présenté des données
Voir Vincent Coquaz, «”Londres détrône Paris”, le Figaro en flagrand délit de Paris Bashing», Arrêt sur Images, 17/01/2014 (en ligne)
comme étant véridiques. Il publiera également un article traitant de l’image de la capitale Française à l’étranger, et de ses habitants. Des lecteurs, comme Arrêt sur Images, y verront même une tentative de manipulation à l’approche des élections municipales, les thèmes de l’insécurité, l’insalubrité et des magasins fermés le dimanche étant notamment au centre de la campagne de la candidate Nathalie Kosciusko-Morizet. Un simple emploi du conditionnel aurait pu éviter une telle controverse, mais la force de l’article aurait alors peut-être été moins importante. Si les données sont déjà manipulées, il peut en être de même pour les visualisations de données, en modifiant, pourquoi pas, très légèrement une échelle ou une graduation. C’est un parfait exemple de ce genre de manipulation
/7
Ibid.
Capture de la vidéo de l’intervention de Netanyahu
de visualisation de données que s’est permis de présenter le dirigeant israélien Benyamin Netanyahu en présentant aux Nations Unies un diagramme en forme de bombe pour traiter de la menace de l’enrichissement de l’uranium par Une vidéo de son intervention et du passage avec ce diagramme est disponible sur youtube (
le gouvernement Iranien. Ce diagramme présente les trois étapes de la confection d’une bombe atomique, et le président explique que l’Iran se trouve d’ores et déjà à la fin de la première étape, qui constitue 70% de la bombe. Outre l’esthétique contestable du diagramme, Claude Henri Mélédo
«Les graphiques politiques : communication ou manipulation ?», decideo.fr, 4/10/2012, en ligne
remarque un décalage dans la représentation des pourcentages sur ce cercle. Quand bien même la surface prise en compte pour la visualisation de ces pourcentages ait été la bombe entière, les lignes figurant les limites n’auraient pas été placées aussi haut. Le politicien, pendant cette intervention, soulignera même d’un large trait rouge la limite des 90% pour alarmer les Nations Unies. Le résultat aurait eu moins d’impact s’il avait souligné la ligne représentée ici en bleu, et la notion d’urgence moins présente.
Diagramme proposé par Claude Henri Mélédo avec les représentations de pourcentages correctes. /8
Vers une éducation à la donnée
Les données ont donc leur importance et ne supportent pas d’approximation quand on en vient à les représenter, qui plus est à visée argumentaire. Elles sont cependant régulièrement détournées pour leur capacité à faire affaire d’argument d’autorité quand on en vient à la discussion. On peut alors se demander d’où lui vient cette puissance. Une des définitions proposées de la notion de donnée est «Ce qui est connu et admis, et qui sert de base, à un raisonnement, à un examen ou à une recherche.»; elle serait donc une base ra-
tionnelle à toute réflexion valable. À l’opposé de cette ratio-
Trésor de la Langue Française Informatisée (en ligne)
nalité scientifique, la donnée peut être définie comme «idée fondamentale d’une œuvre, ensemble des circonstances principales, et aussi des sentiments, des passions, des caractères qui servent de base à un poème dramatique ou narratif, à un roman». La donnée
serait, au delà de son aspect scientifique, la base sensitive de la narration. Elle servirait à l’auteur d’une œuvre d’inspiration. Cette définition prend en compte les dispositions dans lesquelles le donateur se trouvait au moment de se saisir de cette base à son écriture. La donnée est communément perçue comme un argument d’autorité, peu importe sa source ; elle a pourtant été collectée dans un contexte, par un donateur avec sa culture et son vécu, à une fin qui a pu être définie. On ne peut pour considérer la donnée dans son entièreté que chercher à voir sa genèse et son donateur. Comme dans un article ou un dossier, les données visualisées ont besoin que leur source soit mentionnée pour gagner en crédit auprès de ceux qui les lisent. Après première lecture ou impression, donnée par un titre ou un orateur, le récepteur du message doit pouvoir s’emparer des sources et processus de représentation des données, ce qui évitera qu’il ne soit influencé ou pire, floué comme il a pu l’être par
/9
Ibid.
Vers une éducation à la donnée
la performance du premier ministre israélien ou le correspondant du Figaro. Un lecteur décrypte un texte à l’aide de son expérience de lecture, et peut lire une image en disposant de sa culture, son vécu, et des clés qu’on lui donne. Il construit alors son avis et son interprétation en pouvant se détacher de ce que l’auteur lui montre. L’argument d’autorité incarné par les données numériques ne prend pas en compte cette hérédité contextuelle. On évoque communément, pour parler des données représentées sous forme graphique, l’expression de «visualisation de donnée». Le mot visualisation est ici discutable, étant défini comme «Action de rendre visible un phénomène qui ne l’est pas.». Les visualisations de données ne rendent pas visibles tous les phénomènes démontrables par les données. Il s’agirait plutôt d’une représentation spécifique d’un sens que pourraient avoir ces données, une fois interprétées par un auteur. On peut faire dire aux données ce qu’elles ne disent pas au premier abord, en les abordant selon un certain point de vue. Le graphiste, pour représenter des données, les manipule. Ce terme de «manipuler» n’est pas innocent. Il induit une transformation, et un écart avec cette impression d’objectivité qui ne cesse d’être questionnée dans de nombreux domaines, de l’art à la politique en passant par la philosophie. Les données numériques brutes répondent à une organisation et des codes qui permettent leur utilisation à des fins précises. Les représentations et interprétations de ces données sont alors réalisées à différentes visées, et établissent des codes visuels qui impactent leur lisibilité et le message porté. Que peut apporter le graphisme à la compréhension des données ?
/10
Vers une éducation à la donnée
La représentation graphique des données est emprunte de responsabilités. En choisissant la forme comme le fond, le graphiste peut faire mentir les données, par choix, par obligation, ou par ignorance. Le graphisme peut cependant enrichir les données, en donnant une forme plus concrète à des éléments qui, au premier abord, paraissent abstraits pour un lecteur n’en ayant ni la culture, ni les codes. On peut se demander si le graphisme de données peut se rapprocher d’un certain détachement, en s’attardant sur les processus de l’objectivité, qui sont nombreux, et les tentatives de s’en approcher en art, notamment dans la photographie. L’objectivité étant indissociable de la subjectivité, il faut cependant prendre en compte les codes et la culture de la donnée pour constater la réalité des difficultés de la recherche d’objectivité dans le graphisme de données. Le terme même de «visualisation», rapporté aux données, peut porter à confusion, et il convient donc de caractériser cette expression passée dans le langage courant, et la confronter à ses contradictions. Qui dit visualisation de donnée, dit travail de la donnée. Ce travail implique un but avoué à ces représentations, ainsi que des travailleurs oeuvrant pour l’accomplir. Ces artisans de la donnée la manipulent, l’articulent pour faire passer le message qu’ils ont à leur charge. Cependant, il existe un accès instantané aux données, passant souvent sous silence leurs conditions de récolte et dissimulant ainsi à leurs lecteurs le travail initial de la donnée, malgré le regard que pourraient leur fournir un tels regard. Ces données émergent sous des noms comme open data, personnal data ou encore big data, et remettent en question l’image de la donnée telle que nous la connaissons. On est tenté de soumettre les données à
/11
Vers une éducation à la donnée
une valeur commune, dans leur récolte comme dans leur présentation, en sacrifiant peut-être du sens sur l’autel de la simplification. L’esthétique appliquée à ces données peut alors l’être au détriment du sens, et en empêcher la compréhension, volontairement ou involontairement. Cette nouvelle accessibilité de la donnée, étroitement liée à la technologie, amène sur le devant de la scène des questions d’expérience utilisateur et d’opacité des formats. Quand on propose à un utilisateur n’ayant accès à aucune donnée de s’emparer de millions d’entre elles, l’efficacité du procédé peut être remise en question. Il existe cependant peut-être une réponse toute en nuances aux problématiques que posent ces pratiques de la donnée.
/12
LES OBJECTIVITÉS DU GRAPHISME DE DONNÉES AU PREMIER ABORD, LES CHIFFRES PARAISSENT NE PAS POUVOIR MENTIR. LES DONNÉES RÉPONDENT POURTANT À DES CODES, ET, SELON LA CULTURE, PEUVENT ÊTRE LUES DE DIFFÉRENTES MANIÈRES. L’OBJECTIVITÉ A LONGTEMPS ÉTÉ QUESTIONNÉE, DANS L’ART COMME DANS LA POLITIQUE OU DANS LE GRAPHISME. L’UTILISATION DE L’EXPRESSION «MANIPULATION DES DONNÉES», POUR PARLER DE LEUR REPRÉSENTATION N’EST PAS INNOCENT.
Vers une éducation à la donnée
DÉFINITION DES PROCESSUS DE L’OBJECTIVITÉ La notion d’objectivité est indissociable de celle de subjectivité, et ne peut se définir ni se justifier sans évoquer les deux termes. Le sujet, du grec hupokeimenon «ce qui sert de fondement à une discussion, texte, matière» traduit par le terme
latin subjectum, est défini en 1580 par Montaigne comme « ce à propos de quoi s’exerce la pensée, la réflexion; ce qui est soumis à Montaigne, «Au lecteur», Essais, 1580, éd. P. Villey et V.-L. Saulnier, p. 3
l’esprit à fin d’examen». Ce terme induit donc une implication,
un avis, un sentiment. La subjectivité en elle-même peut être définie comme «qualité (inconsciente ou intérieure) de ce qui
Trésor de la Langue Française Informatisée, en ligne
appartient seulement au sujet pensant.». Par corollaire à défaut
d’opposition, l’objectivité pourrait donc être ce qui appartient à tous les sujets pensants, et posséder, par la même occasion, une dimension universelle. Le mot objet, duquel est issu le terme objectivité est lui défini comme «toute chose
N. Oresme, Ethiques, éd. A. D. Menut, La table des moz divers et estranges, fol. 223c, p.545
qui affecte les sens et en particulier la vue». Là où le sujet serait
l’affecté, l’objet serait l’affectant. Du latin objectum, «ce qui est placé devant soi», il semblerait que l’objet désigne le pas-
sif et le sujet l’actif, le penseur. L’objectivité est elle définie comme «qualité de ce qui existe en soi, indépendamment du sujet Trésor de la Langue Française Informatisée, en ligne
pensant.». Selon Gianni Paganini, Montaigne dans ses Essais
Skepsis: le début des modernes sur le scepticisme, Vrin, 2008, p. 113
disposer d’un «juge indifférent», un «juge qui ne fut jamais» : il
montre que dans la recherche de l’objectivité, il faudrait faut donc pour atteindre le statut de juge n’avoir eu aucune expérience de vie, aucun ressenti, en somme ne pas avoir existé avant le moment du jugement. Celui qui est objectif
Définition des processus de l’objectivité /14
Vers une éducation à la donnée
voit celui qui est devant lui et l’objet tel qu’il est, il dit l’objet et le redonne tel quel, sans subjectivité. L’objectivité ne saurait pourtant être assimilée à la vérité. Si l’on pense quelque chose en toute objectivité, c’est à dire en considérant l’objet tel qu’il est, est-on pourtant porteur de la vérité ? Le chercheur, par exemple, tente de se faire une image objective d’un processus. Il tente d’en établir un déroulé logique, fonctionnant avec la réalité telle qu’il la constate objectivement. Albert Einstein et Leopold Infeld tirent un constat de ce procédé scientifique : Le chercheur croit certainement qu’à mesure que ces connaissances s’accroîtront son image de la réalité deviendra de plus en plus simple et expliquera des domaines de plus en plus étendus de ses impressions sensibles. Il pourra aussi croire à l’existence d’une limite idéale de la connaissance que l’esprit humaine peut atteindre. Il pourra appeler cette limite idéale la vérité objective.
La vérité n’est donc pas seulement, comme l’objectivité,
L’évolution des idées en physique, Petite bibliothèque Payot, 1963, p. 34-35
considérer un objet tel qu’il est, mais elle suppose aussi de penser à ce qu’on ne peut considérer, rechercher les procédés qui se trouvent derrière son apparence d’objet. La restitution de la vérité passe par des analyses et des questionnements qui impliquent finalement le sujet par sa pensée, ses suppositions et son idéal de connaissance. Dans l’ouvrage Objectivité, Lorraine Daston et Peter Gallison opposent à l’«objectivité» la «vérité d’après nature». Les auteurs décrivent une situation où furent dessinées et gravées les nombreuses espèces végétales d’un jardin. Ils précisent alors que «la vérité préexiste à l’objectivité et s’en distingue» . La pensée naturaliste se distingue notamment de l’objectivité par sa capacité non seulement à observer mais aussi à se
Définition des processus de l’objectivité /15
Objectivité, Les presses du réel, 2012, p.72
Gravure de Carl Von Linné dans Hortus Cliffortianus, Amsterdam, 1737, table 6
Définition des processus de l’objectivité /16
Vers une éducation à la donnée
remémorer et synthétiser. Linné, naturaliste qu’évoquent les auteurs à titre d’exemple, n’aurait su, pour atteindre cette vérité d’après nature, prôner l’oubli de soi (et donc du sujet) et la distanciation du chercheur et de son carac-
Naturaliste suédois du XVIIIe siècle, fondateur des bases de la nomenclature binominale, assumant de nommer les choses par la combinaison de deux termes.
tère par rapport à l’objet de ses recherches. De plus, au lieu de se concentrer sur un specimen, il tirait des généralités propres à toute l’espèce, et la définissait également en la différenciant des autres. Ces études tendaient vers la normalisation des objets étudiés, et la diffusion du savoir scientifique. Cette diffusion passe par des dessins, par lesquels il tente de retranscrire la généralisation des observations en représentant un savoir type. Carl von Linné avait par exemple défini une table de classification des feuilles via leur forme et aspect général. Très schématique, cette planche sert de base à la caractérisation des végétaux. Elle se trouve d’ailleurs dans les premières pages du livre dont elle est extraite. Réaumur, d’autre part, apportait lui-même des modifications aux représentations commandées à un artiste. Il était cependant incapable de produire une illus-
René-Antoine Ferchault de Réaumur, scientifique et naturaliste Français du début du XVIIIe siècle
tration représentant à son goût et conformément à ses observations les données et observations qu’il avait collectées. Il présentait donc ses souhaits sous forme d’annotations et de schémas qu’il soumettait ensuite à l’illustrateur afin qu’il effectue les changements nécessaires. Le dessin était alors un moyen rapide et synthétique de montrer une idée, et de faire passer un savoir scientifique de manière concrète. L’objectif de ces savants était bien de trouver l’idée ressortant des multiples variations décelées par leurs observations. Contrairement à l’objectivité, «la sélection, la synthèse et l’idéalisation leur paraissaient [à ses partisans] être des déformations subjectives.» . La science n’a d’ailleurs pas
Définition des processus de l’objectivité /17
Objectivité, Les presses du réel, 2012, p.130
La figure de l’Homunculus selon Hartsoeker en 1697, Essay de dioptrique, Paris: Jean Anisson, 1694, p. 230. 24.5 x 18.5 cm (détail)
toujours eu ce souci d’objectivité, et alors que les observations microscopiques n’étaient pas d’actualité, il n’était pas rare de faire appel à des suppositions et à son imagination pour expliquer ou détailler une observation. À la découAndré et séverine Giordan, «le spermatozoïde a aussi une histoire», andregiordan.com, en ligne
verte du spermatozoïde par Louis Hamm en 1675, Nicolas Hartsoeker, biologiste et physicien néerlandais, reprend ses observations pour réaliser ce qu’il pense être une représentation fidèle du gamète. Le scientifique considérait que l’enfant était déjà à l’état embryonnaire dans le spermatozoïde, et qu’il pénétrait ainsi dans l’ovule où il continuait à grandir. Leeuwenhoek, à qui fut finalement attribuée la découverte de ces êtres minuscules et complexes, les appelait des «animacules». Incapables de les scruter en détail et de comprendre leur fonctionnement, les théoristes de la reproduction humaine furent donc contraints à l’élaboration de théories, et à s’opposer sur des croyances plutôt que sur des observations. Ainsi, alors que Hartsoeker produisait ce dessin, certains pensaient que le petit être humain était contenu originellement dans l’ovule, et d’autres étaient
Définition des processus de l’objectivité /18
Vers une éducation à la donnée
partisans de la théorie du mélange des semences. Hartsoeker accompagne son dessin d’une description précise du développement de l’embryon: L’enfant, après avoir demeuré courbé et comme en peloton, brise [le placenta] en s’étendant et en s’allongeant le plus qu’il peut[...] et posant les pieds contre le placenta, qui reste attaché au fond de la matrice, se pousse ainsi avec sa tête hors de sa prison [...]. L’on peut pousser bien plus loin cette nouvelle pensée de la génération, et dire que chacun de ces animaux mâles, renferme lui-même une infinité d’autres.
Bien que cela nous paraisse aujourd’hui invraisemblable, la pensée scientifique ne considérait en rien cette théorie comme invalide. Les idées des savants de cette époque étaient publiées et présentées comme fiables dans des ouvrages sérieux, pour être ensuite critiquées et remises en question par des partisans d’autres idées. «L’objectivité mécanique» est, au contraire, une réponse aux
interrogations de la science qui choisit de prendre en compte toutes les étapes de l’observation d’un phénomène en se détachant de tout aspect idéalisant. Les images commencèrent donc à être créées mécaniquement par les chercheurs, et ce dès les balbutiements de cette méthode, au milieu du XIXe siècle. Il s’appuyèrent sur des machines, prenant pour acquis que celles-ci seraient moins corruptibles que les esprits humains. Bien qu’elles ne fonctionnent pas seules, et doivent être actionnées par une intervention humaine, les machines permettent tout de même de mettre un frein à la tentation du scientifique de faire représenter à l’illustrateur sa propre vision de l’élément étudié, tordant la réalité pour s’approcher de ce qu’il souhaite démontrer. C’est par la recherche de cette inflexibilité que se
Définition des processus de l’objectivité /19
Essay de dioptrique, Paris: Jean Anisson, 1694, p. 230.
La comparaison de trois éléments pour démontrer leur ressemblance donne lieu à des modifications pour tordre la vérité et corroborer la thèse de Haeckel Ernst Haeckel, “embryons de trois mammifères”
Définition des processus de l’objectivité /20
Vers une éducation à la donnée
caractérise l’objectivité mécanique. La volonté scientifique
Ibid., p.147
à rechercher la représentation la plus exacte de la réalité est d’ailleurs au centre de nombreuses tensions. La photographie, au début du XIXè siècle, vint enrichir les techniques de représentation scientifique. Les images prises au microscope peuvent être fixées telles qu’elles sont perçues par une réaction chimique, et bien que les photographies prises soient reproduites dans les livres grâce à des procédés de gravure, elles sont considérées comme reflet fidèle ce la réalité. Cette avancée ne signera cependant pas la fin de l’illustration scientifique. Ernst Haeckel, biologiste et philosophe allemand, produit en 1874 une planche illustrée intitulée embryons de trois mammifères, dans laquelle il compare l’évolution de l’embryon d’un porc, d’une vache, d’un lapin et d’un être humain. Fidèle partisan de la théorie de l’évolution de Charles Darwin, il fut accusé par Wilhelm His de déformer et exagérer certains traits de l’embryon humain pour mieux supporter ses idées, alors qu’il connaissait l’existence de méthodes de représentation plus fidèles. L’intéressé lui répondit que ses illustrations n’avaient pour
Objectivité, Les presses du réel, 2012, p.223
but que de relater l’important, et non de se faire le reflet de la réalité; il s’affranchissait donc du superflu. Car qui dit représentation fidèle ne dit pas forcément résultat objectif, et en supprimant des détails ou des couches dérangeant l’observation, on la facilite. On permet ainsi de se concentrer sur l’essentiel, et c’est ce que confirme Camillo Golgi, qui aimait dessiner d’après nature, mais n’hésitait pas dans son atlas de 1886 à indiquer sur certaines figures qu’elles avaient été simplifiées. L’objectivité peut en effet se situer à plusieurs niveaux, et non pas seulement à celui de la vérité d’après nature. L’objectivité structurale et conceptuelle est
Définition des processus de l’objectivité /21
Objectivité, Les presses du réel, 2012, p.223
Vers une éducation à la donnée
aussi à faire paraître, et si le visuel induit le spectateur en erreur, il peut être toléré, si tant est qu’il soit signalé et sujet à un éclaircissement. Il existe plusieurs objectivités et ses processus sont nombreux. Selon les domaines et les objectifs, les méthodes changent, et les définitions se transforment. Considérer un objet tel qu’il s’avère difficile voire impossible à atteindre, un jugement étant empreint de l’expérience et des idées que l’on possède. Rien n’empêche cependant de tenter de s’en rapprocher.
Définition des processus de l’objectivité /22
Vers une éducation à la donnée
LA RECHERCHE DE L’OBJECTIVITÉ DANS L’ART L’objectivité a longtemps été poursuivie dans l’art. Elle donne même son nom au courant de la Nouvelle objectivité allemande, initiée dès les années 1920, à la suite de la première guerre mondiale. Prenant part à ce mouvement, Bernt Becher initie avec sa femme Hilla Becher dans les années 1960 un travail documentaire ayant pour sujet l’industrie. Leur but est alors de photographier tous les bâtiments industriels, notamment les sites d’industrie lourde, mines de charbon ou de calcaire. Fascinés par ces bâtiments, ils réalisent petit à petit que ces sites sont en train de disparaître, en conséquence des avancées de l’industrie. Ils prennent alors conscience que leurs photographies sont peut être les derniers témoins de ces architectures en voie de disparition. Bernd et Hilla Becher réalisent alors des panneaux de leurs photographies documentaires, regroupant les monuments par type et apparence. Par exemple, avec Küehltürme (Tours de refroidissement) (voir page suivante) ils mettent en scène des tours de refroidissement saisies entre 1963 et 1975. Chaque photographie est prise sur un ciel uni que les photographes pouvaient attendre des jours durant, l’édifice y est représenté intégralement. Aucun élément environnant ne vient perturber son architecture, si bien qu’une fois alignées, les neuf images présentent des similitudes troublantes. La distance du photographe à son sujet a été calculée, de sorte que l’objet se trouve au
La recherche de l’objectivité dans l’art /23
Yvan Toulouse, Technique et création, Editions L’Harmattan, 1 juin 2012, p.191
Bernd et Hilla Becher, Küehltürme (Tours de refroidissement), 1963 - 1975, épreuves gélatino-argentiques sur carton 53,5 x 76,5 x 3 cm, chaque photo : 40 x 30 cm
Bernd et Hilla Becher, “Gas Tanks/Gasbehälter”, 1963 - 1983, épreuves gélatino-argentiques sur carton 53,5 x 76,5 x 3 cm, chaque photo : 40 x 30 cm
La recherche de l’objectivité dans l’art /24
centre, et la perspective est diminuée au maximum pour représenter les tours le plus possible de face. La lumière, uniforme, et la netteté de l’image tendent à rapprocher ces photographies d’un dessin industriel. Ces images, montrées en séries, sont par leur multiplicité un véritable témoignage de l’ère industrielle, sa puissance, sa majestuosité et la reproductibilité des biens. Ces formes, à la limite de l’épuré, ne sont pas sans rappeler les figures dépouillées des représentations de données, notamment celles des graphes, mais pas seulement : les époux Becher récoltent des données photographiques, puis les représentent et les mettent en scène afin de témoigner de l’industrie. Il s’agit, au final, de représentations de données photographiques. Et malgré le moyen employé, son objectivité n’a rien d’un saisissement spontané de la réalité, elle est stratégique. La stratégie n’est peut être pas au centre de tous les genres de photographie objective. Selon Bourdieux, l’objectivité dans la photographie de presse se heurte à certaines contradictions : la photographie composée transgresse les règles qui font la légitimité de la photographie. Il cite un photographe de l’agence magnum «C’est terrible parce que la photo vraie n’a plus aucun sens [...] la photo étant ce qui se passe, c’est très grave d’en faire un dessin. C’est comme photographier des manoeuvres et dire que c’est la guerre» . Il mentionne également une vérité
sociale de la photographie : le photographe de presse se sentirait différent du photographe d’art. Il précise néanmoins que pour les photographes de presse, une bonne photographie doit avoir «quelque chose de plus» que le réel : elle doit surprendre et mettre en évidence la difficulté de la surprise. Il faut donc, pour une photographie réaliste, que le contexte et les conditions fassent partie de
La recherche de l’objectivité dans l’art /25
Un art moyen, essai sur les usages sociaux de la photographie, Les éditions de minuit,1965, p. 189-193
Evgueni Khaldei, Le Drapeau rouge sur le Reichstag, Berlin, 2 mai 1945
l’image. Il appuie donc sur le flou comme garant du vrai, allié à «l’accentuation des contrastes, les maladresses de cadrage, la grosseur du grain (…) comme la trace des difficultés rencontrées Ibid, p.193
au moment de la prise de vue.». Le flou et le cadrage hasardeux
relèvent de l’imprévu, de la difficulté, et non de la stratégie. Mais ces garants de réalité sont aussi des outils pour tromper le lecteur, et, ajoutés superficiellement et stratégiquement, ils peuvent induire que la photographie était spontanée et dépeignait un événement dans son intégrité, alors qu’il s’agit d’artifices. Ces manipulations d’image tenant de la manipulation sont d’ailleurs régulièrement au centre de controverses. Par exemple, le photographe de guerre Evgueni Khaldei réalise le 2 mai 1945 une photographie qui sera largement diffusée et connue de tous (voir ci-dessus). Cette photographie semble prise sur le vif. C’est pourtant le parfait exemple d’une photographie organisée, puis encore éditée. En effet, il s’agit d’une réponse à une photographie de guerre
La recherche de l’objectivité dans l’art /26
Vers une éducation à la donnée
américaine, proposée par son auteur. Les protagonistes avaient pour objectif de produire ce tableau, et étaient présents dans le cadre de la photographie et seulement dans celui-ci. Elle a notamment fait polémique quand, bien des années plus tard, il fut révélé que des modifications avaient été effectuées sur l’image pour supprimer une des deux montres que le porteur du drapeau portait à son poignet et ainsi couper court à des accusations de pillages. Il en est de même pour les données et les représentations qui nous sont présentées, nous ne pouvons a priori pas savoir si le résultat
Communiqué de presse de l’exposition Controverses, photographies à histoires, bnf, en ligne
enjolive la réalité, si des ajouts ou des retraits ont été effectués pour faire dire au résultat autre chose. Même quand les photographies ne veulent pas dire autre chose une fois manipulées, elles sont, une fois les modifications découvertes, au centre de polémiques. Certains photographes en paient le prix fort. Ainsi, un photographe de l’agence Associated Press et récompensé pour sa couverture de la guerre Syrienne en 2013, Narciso Conteras, a été sanctionné pour avoir retouché une de ses photographies et radié de l’agence. Il avait retiré numériquement une caméra présente dans le cadre. En supprimant une donnée visuelle, le photographe aurait fait mentir l’image, alors que l’agence se targue de montrer la vérité au travers de ses photos.
Camille Gévaudan, «Associated press efface un photographe photoshoppeur», Libération.fr, 23/01/2014
Cette modification esthétique aurait donc transformé le témoignage en usurpation. Selon la charte de l’Associated Press, les images produites par ses reporters seraient donc toutes garantes de la vérité. Mais quelle vérité ? Il semble compliqué de concevoir qu’une agence de photographies de presse puisse définir la vérité photographique alors que le terme même de vérité peut mentir. Si l’on analyse l’une des photographies d’un des autres lauréats du Pulitzer de La photographie de Narciso Conteras
La recherche de l’objectivité dans l’art /27
Une des photographies Lauréates du Pulitzer 2013 Khalil Amra, Free Syrian Army fighters sit in a house on the outskirts of Aleppo, Syrie, 12 Juin 2012
2013 affilié à cette agence, peut-être obtiendrons-nous des réponses sur cette conception de la vérité. La photographie ci-dessous représente des membres de l’armée rebelle syrienne. Assis dans la pièce avec des mines peu réjouies, ils ne posent apparemment pas et vaquent à leurs occupations tandis que le photographe saisit le moment. La première chose que l’on remarque dans cette pièce, ce sont les armes suspendues au mur, très nombreuses. Le regard est également attiré par des tableaux, dans le coin supérieur gauche de l’image, présentant vraisemblablement des martyrs de guerre et dissidents politiques. Les couleurs, tout comme les visages des hommes posant sur cette photographie, sont ternes. Une télévision diffuse des images sous les photographies des tombés au combat, et bien que leur environnement soit spartiate, les hommes semblent en bonne santé et propres. D’autres éléments ressortent : une bouteille de Pepsi vide, un ordinateur Toshiba, des cigarettes et cendriers pleins. L’image entière donne une impression d’attente, de contraste entre la détente et le rappel des armes
La recherche de l’objectivité dans l’art /28
Vers une éducation à la donnée
et des morts. Nous pouvons maintenant nous attacher à la vérité, censée ressortir de cette image - comme de toutes les autres photographies publiées par l’agence- selon l’AP. Si cette image est l’exact reflet de la vérité, nous pouvons dire que les soldats de l’armée syrienne pour la liberté sont surarmés, et attendent dans des pièces insalubres en regardant ordinateurs, télé, en buvant des boissons américaines et fumant des cigarettes. En réalité, cette interprétation est peut-être le reflet d’une vérité parmi tant d’autres. Car, ailleurs, peut-être que cette situation n’est pas la même. On ne sait pas non plus ce qu’il se passe derrière le photographe, s’il n’y a pas des femmes par exemple, des blessés, ou bien cinquante personnes de plus qui feraient de ce petit groupe sur-armé un énorme groupe sous-armé. Il se pourrait même que cette bouteille de Pepsi ait été amenée par le photographe. Comment parler de vérité lorsque l’on sélectionne un cadrage, un moment, une luminosité ? Le photographe donne un point de vue, parce qu’il choisit d’en adopter un. La vérité ici n’existe pas, il s’agit d’une vérité parmi tant d’autres, d’une image de la guerre, sans autre prétention. László Moholy-Nagy, dans son enseignement au Bauhaus, prône l’étude quasi scientifique des expériences de perception que l’artiste fait quotidiennement. Il s’attache à l’aspect optique de la photographie, comme dans From the
Dossier pédagogique de l’exposition Expérimentations photographiques en europe
Radio Tower. Bird’s Eye View. Berlin : la prise de dessus de la photographie rend l’image quasi abstraite. La lumière et les contrastes très prononcés renforcent ces impressions. Le titre implique pourtant une vue objective, celle d’un animal, l’oiseau. La vue du dessus transforme quasiment
1928 Tirage 8/25. Épreuve gélatino-argentique collée sur carton, 24,5 x 18,9 cm
La recherche de l’objectivité dans l’art /29
Vers une éducation à la donnée
l’image en plan, dépeignant l’architecture et les volumes avec une précision qui la rend abstraite. Comme dans une visualisation de données, le spectateur doit interpréter la photographie et s’interroger pour la comprendre, et en tirer des informations. Ce n’est pas une vision toute faite de l’architecture que lui fournit l’artiste, il s’agit d’une vue contrastée, symbolique, et précise. L’objectivité visuelle a déjà été questionnée, avec l’établissement de protocoles précis, d’éthique de l’image de guerre ou encore un travail de perspective rendant l’image quasiment abstraite. La donnée, si elle peut trouver écho dans ces différentes tentatives, reste cependant un matériau à part entière, à traiter en prenant en compte ses codes et la culture l’entourant.
La recherche de l’objectivité dans l’art /30
Vers une éducation à la donnée
CODES ET CULTURES DE LA DONNÉE Qui dit représentation dit impact de la culture sur les symboles utilisés. La culture peut être définie comme la fructification des dons naturels permettant à l’homme de s’élever au-dessus de sa condition initiale et d’accéder individuellement ou collectivement à un état supérieur. La culture est donc accessible à tous et propre à chacun,
Trésor de la Langue Française Informatisée, en ligne
elle s’acquiert à force de temps et de vécu. Un être «noncultivé» n’existe donc pas. Claude Lévi Strauss disait d’ail-
leurs qu’on «refuse d’admettre le fait même de la diversité culturelle ; on préfère rejeter hors de la culture, dans la nature, tout ce qui ne se conforme pas à la norme sous laquelle on vit.». Il existe plu-
sieurs cultures, outre celle dans laquelle nous évoluons. Ces cultures ne peuvent pas être niées, il faut les prendre en compte lorsque nous créons une image. Elles semblent cependant sensiblement se regrouper selon divers critères, comme notre situation géographique, notre milieu social, nos référents linguistiques, notre époque etc. Les créations ayant pour cible l’une ou l’autre de ces cultures regroupées prennent en compte des facteurs communs. C’est par exemple le cas des cartes, géocentrées selon le lieu de vie des populations à qui elles sont destinées. Des conventions ont été trouvées et un planisphère mondial édité, tout comme les globes terrestres sont une alternative, étant centrés selon notre vision et notre bon-vouloir. Nos cartes géographiques peuvent toutefois être centrées sur notre
Codes et cultures de la donnée /31
Claude Lévi-Strauss, Race et Histoire, Albin michel, 2002
Vers une éducation à la donnée
position, car nous regardons déjà notre situation pour la comparer et la confronter à celle des autres. Notre référent culturel est notre hexagone, tout comme celui d’un brésilien sera l’amérique du sud. A l’heure du GPS, notre position est plus que jamais au centre de notre monde. Notre entourage s’arrête aux quelques routes qui nous entourent et, en dé-zoomant, nous devenons l’objet autour duquel notre monde tourne. D’un repère collectif et généralisé, on passe alors à un regard personnel, changé par la technologie, reflet de notre impression de toute puissance. Mais ces cartes, dont nous constituons le centre, répondent à des codes précis. La norme, en référence à la statistique, peut être définie Trésor de la Langue Française Informatisée, en ligne
comme «état habituel, régulier, conforme à la majorité des cas.» Elle s’inscrit donc dans une moyenne, dans une généralité qui en fait un indicateur vague de la réalité. Tout comme la représentation de données fait ressortir une vérité parmi d’autres, la norme est un à peu près qui ne saurait concerner tous les cas de figure. Elle met en valeur une certaine régularité, quelques règles de fonctionnement auxquelles il
Patricia Falguières, «L’empire des normes», RosaB.net, en ligne
est aisé de déroger. Dans son article «L’empire des normes», Patricia Falguières choisit de prendre pour référent à la définition d’une norme le container, par son aspect «d’être à la
Ibid.
fois un objet et un standard – une norme faite objet» Le container
en effet répond à des normes très précises, en terme de couleur, de taille, de matériaux... Pas un aspect de notre vie qui échappe aux calibrages, aux gabarits, aux standards et aux normes, mais nous n’en prenons conscience que par exception : lorsqu’ils changent.
Codes et cultures de la donnée /32
Vers une éducation à la donnée
Nous sommes tellement habitués aux normes que nous ne nous rendons compte de leur présence que lorsque nous sommes dépaysés, perdus et interloqués par d’autres normes. L’auteur évoque une tentative de normalisation qui nous est familière à tous, la création du mètre par les conventionnels de 1791 comme substitut aux autres mesures de taille en usage à cette époque. Cette norme doit alors permettre à tout le monde de s’entendre, de gagner en temps et en compréhension. Elle précise néanmoins que contrairement à ce que l’on serait tenté de penser, la définition d’une norme n’est pas forcément un reflet de la vérité, mais bien une règle parmi d’autres, et auxquelles on aurait pu en substituer une autre. Ces normes sont définies au prix d’âpres négociations et débats, de calculs et de persévérance. Elle précise qu’une norme «n’avance jamais seule» et s’inscrit dans une «chaîne normative» : considérer une
norme seule serait alors inefficace, et on doit lui préférer la considération d’un ensemble de normes. Elle considère également les normes comme des marchandises, «précieuses et produites». Mais à qui rapportent-elles, ces marchandises
? Aux établissements qui les définissent et les valident ceux qui doivent y répondre, comme par exemple les normes ISO internationales, que l’on peut acheter sur leur site web. La mention «Souhaitez-vous acheter une norme ISO ?» est d’ailleurs présente dès sa page d’accueil, et il en existe plus de 19 500. La norme constitue donc bien, outre son aspect de définition et de standard, un marché très lucratif. L’écriture des normes a pu s’identifier avec la cause de la modernité, comme l’affirmait en 1925 Le Corbusier dans L’Art décoratif aujourd’hui, ou ce manifeste du graphisme d’avantgarde, La Nouvelle typographie publiée en 1928 par Jan Tschichold
Ibid.
Codes et cultures de la donnée /33
Vers une éducation à la donnée
La normalisation graphique est un prolongement logique à l’établissement de nombreuses normes dans tous les domaines. Dans la cartographie par exemple, les normes sont nombreuses. Selon Françoise de Blomac, beaucoup trop justement : avec ses 400 000 règles fixées par des lois et décrets, la france est au centre d’une ridicule accumulation de règles qui mises les unes face aux autres en viennent même «énormes normes», decryptageo.fr, 12/12/2013, en ligne
à ne plus produire de sens. Au final, les normes ne sont pas forcément respectées, et frisent parfois l’absurdité. Dans ce cas, mieux vaut se référer aux standards, qui prennent plus la position du guide et du conseil que de l’obligation. L’image la plus courante de la donnée est souvent liée à des éléments culturels communs, et les médias se chargent de véhiculer ces images de la représentation de l’information. Au cinéma, par exemple, le film Matrix a véhiculé une image de la donnée très codifiée qui est restée ancrée dans les esprits. Ces images de chiffres défilant sont restées dans les annales, cultivant un aspect numérique et obscur de la donnée. C’est également le cas lorsqu’on représente des données à la télévision, dans les séries policières où les hacking sont légion et nous montrent des écrans du même acabit. Les autres modes de la représentation de données qui viennent à l’esprit sont également normés en fonction de nos habitudes logicielles et de notre éducation. Les camemberts et autres graphiques sont entrés dans le langage graphique commun. Si la donnée répond à des normes, l’absence de données se traduit également graphiquement. De nombreux lieux considérés comme sensibles par les gouvernements des pays concernés sont régulièrement effacés, floutés, et rem-
Codes et cultures de la donnée /34
Le site du HAARP (High Frequency Active Auroral Research Program), flouté sur Google Maps
placés par d’autres clichés dans les vues satellites. Si dans certains cas ces censures sont difficilement remarquables, elles sont régulièrement notées et mises en avant sur des pages dédiées. Parmi ces zones «obscures», des complexes militaires ou bâtiments sensibles, floutés et pixellisés sans qu’aucune justification n’apparaisse. Certaines zones franches sont de plus très compliquées à représenter fidèlement pour des raisons politiques, et n’existent même pas en version amoindrie, comme c’était le cas de la Corée du Nord jusqu’au début de l’année 2013. Ces codes de l’anonymat, du caché, sont véhiculés dans beaucoup de médias, notamment à la télévision, où les visages sont dénaturés, les voix transformées, et où la présence des données est modifiée de telle façon qu’on ne puisse plus les exploiter ni reconnaître l’élément principal. On continue pourtant de le montrer et, au lieu de complètement cacher en substituant une autre image à celle d’origine, on garde la base de la donnée comme preuve que cette image existe. On se contente alors de la corrompre visiblement, et celle-ci
Codes et cultures de la donnée /35
Sébastien Falletti, «La Corée du Nord n’est plus un trou noir dans Google Maps», le Figaro, 29/01/2013, en ligne
Vers une éducation à la donnée
devient à la fois preuve et relique d’une donnée. On peut donc non seulement représenter la donnée, son absence, mais également sa censure. Les modes de représentation de la donnée ne sont de plus pas forcément visuels, et ses codes et la culture s’appliquent aussi aux sons. Ainsi, l’IonE (University of Minnesota’s Institute on the Environment) en collaboration avec une école d’art a créé Song of our warming planet, une mélodie basée sur des données de la NASA répertoriant les températures au sol dans le temps, de 1880 Todd Reubold, «A song of our warming planet», ensia.com, 28/06/2013, en ligne
à 2012. La mélodie qui en résulte est, selon ses auteurs, un moyen de toucher plus de personnes à travers la visualisation de données. En effet, les images et graphes produits pour sensibiliser la population ne sont pas forcément accessibles, et un nouveau média n’est pas de trop pour partager les données alarmantes récoltées par les scientifiques ces dernières années. A l’écoute, le son est tout d’abord grave, et devient progressivement aigu jusqu’à atteindre un ton alarmant. Fascinante, cette expérience démontre que la représentation de données ne passe pas forcément par l’image et que sa culture est aussi applicable à d’autres moyens. L’écart de température se mesure aussi bien en écart d’octaves, et l’effet produit est aussi saisissant. Si notre culture définit notre compréhension des images qui nous sont données à voir et des sons qui nous sont donnés à entendre, elle reste ouverte et influencée par les médias et nos expériences. Pour représenter la donnée, les choix effectués doivent prendre en compte l’impact culturel et l’implication demandée au spectateur dans sa compréhension et son appréciation.
Codes et cultures de la donnée /36
TRAVAILLER LA DONNÉE LES SOURCES ET LES MANIPULATIONS AFFECTENT LES DONNÉES ORIGINELLES. LA TRANSFORMATION, SÉLECTION ET PRÉSENTATION DE L’INFORMATION PRODUISENT DU SENS. IL S’AGIT DONC DE DÉTERMINER QUEL IMPACT ONT LES MÉTHODES DE COLLECTE DE DONNÉES SUR LE CONTENU, PUIS CELUI DES MANIPULATIONS VISANT À L’ESTHÉTIQUE ET À LA COMPRÉHENSION DE CES DONNÉES SUR LEUR SENS ET LEUR EFFICACITÉ.
Vers une éducation à la donnée
LES INTENTIONS DE LA VISUALISATION DE DONNÉE Du scientifique au militaire L’expression « visualisation de données» n’est pas si récente, elle existe sous de multiples formes depuis des centaines voire des milliers d’années, et ces représentations de données textuelles ou numériques ont été réalisées dans des visées Exécuté sur les parois ou la voûte d’une grotte préhistorique.
différentes. Dès les premières découvertes d’art pariétal, les chercheurs s’orientèrent vers des significations mystiques et religieuses. Cependant, en établissant un système joignant topographie et motif pariétal à partir de données statistiques, le scientifique André Leroi-Gourhan détermina que ces représentations répondaient à une organisation
«Interprétations», lascaux.culture.fr, en ligne
bien précise. Par la suite, les recherches de Norbert Aujoulat menées à Lascaux le menèrent à la conclusion que les motifs étaient représentés dans un ordre précis, répondant à la saisonnalité des animaux : «Chacune de ces espèces a été représentée à une phase bien particulière du cycle annuel, celle des
Norbert Aujoulat, Lascaux. Le geste, l’espace et le temps, Paris, Seuil, 2004, p.194
prémices de l’accouplement.». Les grottes mêmes de Lascaux,
D’après les dernières datations radiocarbone réalisées par Henri breuil et Séverin blanc en 1998 puis 2002 [«Datation des figures de Lascaux», lascaux.culture.fr, en ligne]
ans, porteraient donc la représentation graphique des don-
dont les figures sont datées d’il y a entre 18 600 et 18 900 nées récoltées par les hommes de l’époque à propos des périodes de reproduction et de migration des animaux qui leur étaient contemporains. La communauté scientifique reste cependant encore divisée sur les objectifs de cette visualisation de données vieille de milliers d’années. Plus
Les intentions de la visualisation de données /38
Détail d’une paroi des grottes de Lascaux
récemment, Galilée représentait au XVIIe siècle les taches solaires qu’il observait grâce à son télescope. Dans une visée d’observation scientifique donc, il représente le soleil sous la forme d’un cercle vide et parfait, sur lequel il vient reporter minutieusement les tâches qu’il observe. Au lieu de représenter le soleil tel qu’il le voit, il se concentre sur l’important et ce qu’il veut montrer. Michel Toulmonde explique que Galilée, lorsqu’il représente les satellites de Jupiter qu’il a découverts en 1610 grâce à une lunette astronomique modifiée par ses soins, observe pour la première fois un alignement surprenant entre Jupiter et plusieurs étoiles. Lorsqu’il étudie à nouveau la planète le soir suivant, il découvre que les étoiles ont changé de position. Il en conclura plus tard qu’il existe donc des objets gravitant autour d’une autre planète que la Terre. C’est ce qu’il représente trois ans plus tard sur un système horizontal, en schématisant Jupiter par un cercle, et les étoiles par des points. La graduation verticale temporise les observations du scientifique. La symbolisation des éléments et leur or-
Les intentions de la visualisation de données /39
Galileo Galilei, Istoria e dimostrazioni intorno alle macchie solori, Rome, Appresso Giacomo Mascardi, 1655. Michel Toulmonde, Galilée et les satellites de Jupiter, au service de la cartographie du XVIIème siècle, Fleurance, 14 août 2009, p.1, en ligne
Carte de Cassini de la commune de saint Germain en Laye (détail)
Carte d’état major de la commune de saint Germain en Laye (détail)
Les intentions de la visualisation de données /40
Vers une éducation à la donnée
ganisation sur deux axes font de ces feuillets une des premières visualisations de données scientifiques notables. Ces notes seront qui plus est la base de calculs révolutionnant la conception de l’astronomie et de la géographie de l’époque. D’autres représentations de données apportant à la géographie et inscrites dans l’Histoire ont une visée différente. Les cartes sont au centre des stratégies d’armées et de nations entières, et élaborées selon des codes précis. Ces codes ont cependant évolué avec le temps : on peut le constater en observant l’évolution de la cartographie à la charnière du XVIIIe et XIXe siècle. Créées à l’initiative de Louis XV en 1747, les cartes de Cassini représentent le relief par des ombres gravées à l’eau-forte. La représentation du dénivelé est illustrative et approximative, les outils de l’époque ne permettant pas encore de prendre des mesures précises. C’est avant tout l’impression de relief qui est recherchée, plus qu’une transcription d’une mesure de ce dénivelé. Bien que les coordonnées des éléments soient triangulées et calculées avec une grande précision, les dénivelés sont juste esquissés (voir ci-contre). Une fois ces cartes publiées, Jean Dominique Cassini ne pourra pas empêcher leur retour dans le domaine de la guerre en 1793. Alors que les premières cartes réalisées servaient exceptionnellement à l’Etat, elles sont quelques années plus tard revues et deviennent les cartes d’état major : les mesures pouvant être effectuées avec plus de précision, il fut décidé de reprendre le travail colossal effectué pendant 36 ans à travers la France, nécessaires à la collecte des données de base pour l’établissement de 182 cartes. Remplaçant peu à peu la carte de Cassini, la carte d’état major
Les intentions de la visualisation de données /41
Monique Pelletier, Les Cassini à l’Observatoire de Paris, BNF, en ligne
Vers une éducation à la donnée
présente des hachures et des points côtés pour signifier le dénivelé. Là où les cartes précédentes figuraient une impression de hauteur, les cartes d’état-major les présentent avec une précision beaucoup plus élevée. Elles laissent de Exposition virtuelle «CARTE TOPOGRAPHIQUE DE LA FRANCE A L’ECHELLE de 1/80 000 dite carte d’Etat-Major», Institut catholique de Paris, en ligne
côté l’aspect illustratif pour se rapprocher de l’informatif. Avec sa visée militaire, la cartographie prend donc des dimensions plus précises.
Un enjeu sociétal de vulgarisation La cartographie donne donc des indices importants sur la perception de la visualisation de données depuis des années. Mais les données géographiques ne sont pas les seules autour desquelles les esprits scientifiques se sont concentrés. Des données ont été collectées très tôt et certains ont tenté de trouver les meilleurs procédés pour les traduire. Robin Kinross, expert dans les domaines de la typographie et de la communication visuelle, s’intéresse de près au travail d’Otto Neurath, pionnier dans le domaine des diagrammes isotypes. Dans Le transformateur, il distingue Marie Neurath et Robin Kinross, Le transformateur, principes de création des diagrammes isotypes, traduit par Damien Suboticki, B42, 2013, p. 98
deux types de «statistique graphique»: la première destinée aux statisticiens, et la seconde au grand public. Aux statisticiens, elle sert d’aide à l’analyse des données, tandis que pour le public, elle tend à rendre les informations plus accessibles, lisibles et intéressantes. Le travail de l’autrichien Otto Neurath concerne cette dernière tranche de population. Pour leur parler, il choisit le diagramme isotype, appellation qui apparaît en 1935. Selon ce principe de re-
Les intentions de la visualisation de données /42
Diagramme d’exposition réalisé vers 1933, récupéré par l’isotype institute, collection de Reading
présentation, chaque symbole sert à représenter une quantité fixe. Quand cette quantité est dépassée, on duplique ce symbole (voir ci-dessus). Cette solution de visualisation de données quantifiées résout, comme montré sur le diagramme d’exposition expliquant ce principe, de nombreux problèmes. Elle constitue une base de représentation plus parlante. La représentation en proportion de carrés de tailles différentes ne permet pas assez de précision visuelle, et permet de représenter peu de données (seulement deux sont indiquées sur ce diagramme). La représentation en parts de disques, elle, permet seulement de tirer trois conclusions, et le modèle retenu pour les diagrammes isotypes en présente quatre. Il ne s’agit là, comme l’explique Robin Kinross, que d’une base de travail qui ne saurait se suffire à elle même et encore moins conduire à une automatisation de la visualisation de données, cela reviendrai en effet à «transformer d’ennuyeuses rangées de chiffres en ennuyeuses rangées de symboles». Otto Neurath fait le choix de
remettre les données en question, en les mettant en écho
Les intentions de la visualisation de données /43
Kinross cite ici Neurath, ibid, p. 105
Diagramme traitant de la taille des exploitations agricoles en Allemagne en 1925 Publié en 1932 dans Herbert G Wells, Arbeit, Wohlstand und das Glück der Menschheit [“Le travail, la prospérité et le bonheur de l’humanité”], reproduit à partir du livre Le transformateur, principes de création des diagrammes Isotype, p. 38
Les intentions de la visualisation de données /44
Vers une éducation à la donnée
les unes des autres et poussant le lecteur vers une réflexion. Outre l’aspect quantitatif des diagrammes isotypes, il ne faut pas négliger leur aspect symbolique. Avec son travail de représentation de données via des isotypes, Otto Neurath développa un véritable catalogue de pictogrammes qu’il mit sous forme d’un précis en 1933. Marie Neurath note que certains symboles furent aisés à créer, tandis que d’autres tels que les arbres nécessitèrent une réflexion de fond pour apporter plus de précision aux représentations proposées. Ce fut un long travail de documentation, de création et d’organisation. Le diagramme traitant de la taille des exploitations agricoles en Allemagne en 1925 est un bon exemple du travail d’Otto Neurath quant à la quantification et la symbolisation des données. En effet, il a été choisi ici d’organiser les données dans un carré composé lui-même de 25 unités (cinq lignes de cinq). Le fait qu’il s’agisse d’un ensemble est symbolisé par la ligne noire plus épaisse entourant le carré principal. Nous avons donc affaire ici à une unité subdivisée en plusieurs catégories. Assumant, comme le postule Neurath dans la base de son travail, qu’une unité représente une quantité fixe, on trouve ici des proportions dès le premier regard. Les pictogrammes, lisibles de loin, représentent les différents types d’exploitations. les petites exploitations sont représentées au centre par une bêche. Sa position centrale donne un équilibre à l’ensemble, et permet une lecture fluide du diagramme. Elle permet également de constater que les deux premières catégories représentées (petits et moyens exploitants) sont plus présentes que les deux dernières catégories réunies (plus gros exploitants). La couleur rouge met en avant, elle, la culture mécanisée (aidée par des tracteurs),
Les intentions de la visualisation de données /45
Otto Neurath, Basic by Isotype, Londres, Kegan Paul, 1937
Vers une éducation à la donnée
bien que ce ne fut pas indispensable. Le diagramme aurait pu aussi bien fonctionner en noir et blanc, et la couleur n’a ici été rajoutée que pour appuyer le discours présent dans Comme expliqué par Marie Neurath, ibid.
le livre. Otto Neurath et son équipe eurent à répondre à des commandes très diverses dont des demandes d’expositions. Ce travail de vulgarisation scientifique fit en effet très tôt l’objet de démonstrations dans des lieux éclectiques, comme par exemple le Volkshalle du nouvel hôtel de ville
Ibid, p.23
de Vienne, qu’ils inaugurèrent le 7 décembre 1927 : seuls les diagrammes furent éclairés, à défaut de toute la salle comme habituellement, cachant de nuit les voûtes majestueuses de l’endroit pour mettre en valeur les images exposées. À l’entrée de l’exposition se trouvait une carte agrémentée de symboles aimantés, innovation à l’époque mise en doute par le Pr Lehmann, un géographe avec qui Neurath collaborait, en raison de la très forte simplification du relief. Il fut finalement convaincu, et le procédé réutilisé. Neurath était donc non seulement un précurseur de la vulgarisation scientifique, mais il aimait en plus prendre des risques et innover en matière de présentation au public. Il ne se contentait pas de s’approprier les moyens habituels d’exposition, il cherchait d’autres moyens de rendre les données intéressantes, et réussissait d’ailleurs avec les procédés proposés à passionner les enfants qui avaient tendance à se saisir de certains éléments exposés qui disparaissaient, ce que Neurath souhaitait pallier non pas en renforçant la sécurité mais en prévoyant plus d’éléments à exposer. Il souhaitait avant tout que le public se saisisse de l’information, quitte à l’emporter avec lui. La programmation fut également, quelques années après
TLes intentions de la visualisation de données /46
Vers une éducation à la donnée
la production des premiers ordinateurs, une solution envisagée pour la traduction et la représentation des données. Le langage SAS, abréviation de Statistical Analysis System et créé en 1966 par Anthony J. Barr en est le parfait exemple. Utilisé depuis 1976, ce langage permet, outre le traitement des données, de procéder à des analyses statistiques, de les représenter à l’aide de graphiques, de faire de la recherche et développer des applications. Le graphe ci-contre, servant d’exemple sur le site du support SAS, a été généré
Documentation en ligne de SAS, sas.com
automatiquement selon un modèle prédéfini à l’aide d’une applet java. Le résultat est en 3D simulée, avec des couleurs basiques distribuées aléatoirement. On voit sur l’image ci-dessus que le référentiel qui se porte sur trois axes est
Une applet java est utilisée pour compléter ce qui ne peut pas être fait en langage html. Elle peut fonctionner grâce à une machine virtuelle Java.
représenté par un quadrillage plutôt net. Le graphe représentant les revenus par an par média comporte en hauteur des graduations de 5000 en 5000 dollars, en largeur deux années et en profondeur trois médias. Ceux-ci ne sont aucunement schématisés, et les couleurs ne semblent pas chercher à s’en approcher. Le plus frappant dans cette représentation de données est le manque de clarté dans le résultat : sur cette image, il semble s’agir de la comparaison d’une année à l’autre des revenus. Or les proportions sont telles que l’écart de hauteur entre deux barres verticales est très léger à cause de l’échelle choisie, et ne permet pas d’interprétation directe. L’ajout de la profondeur ne fait que renforcer cette impression, la perspective perturbant encore plus la lecture de cet exemple. Ce modèle de représentation de données comporte donc des écueils à ne pas négliger, les outils performants étant mis à disposition de l’utilisateur ne se justifiant pas dans tous les cas de figure. Bien que la représentation de données via SAS
Les intentions de la visualisation de données /47
Graphe généré par SAS, en exemple sur le support en ligne
Vers une éducation à la donnée
soit possible, on ne peut pas oublier que la première visée du langage est de porter des analyses statistiques, et donc de produire des données à partir d’autres données. Utilisé de la mauvaise manière, comme sur ce graphe, le résultat de la génération de visualisation de données peut vite devenir illisible, trompeur. La visualisation de données efficace passe, au final, par des choix pertinents de couleurs, d’échelles, de mise en avant. En s’appuyant sur un modèle générique, l’utilisateur de cette application du langage SAS s’expose non seulement à une esthétique discutable, mais également à une image inefficace et compliquée. En faisant l’effort de se pencher lui même sur cette visualisation de données, il aurait pourtant pu produire un résultat pertinent. A travers ces quelques exemples choisis, nous avons vu que les données pouvaient être traitées à des fins pratiques, culturelles, scientifiques, commerciales, militaires, etc. Derrière tout ce travail de la donnée, derrière ces collectes, ces interprétations, se trouvent des travailleurs dont on ne peut pas négliger l’impact.
Les intentions de la visualisation de données /48
Vers une éducation à la donnée
LES TRAVAILLEURS DE LA DONNÉE Le rôle du transformateur Lorsque Marie Neurath décrit le mode de fonctionnement de l’atelier de son oncle, Otto Neurath, elle mentionne l’action du «transformateur». Otto Neurath avait une idée qu’il soumettait à un statisticien en charge de se procurer les données, avec qui il s’entretenait en présence du transformateur. Celui-ci prenait alors possession des données et soumettait à Neurath une proposition de présentation, réalisée au crayon. Le tout, une fois validé, était donné au dessinateur qui se chargeait du design et de la finalisation, toujours sous la direction d’Otto Neurath et du transformateur. Le rôle de cet intervenant était donc de s’emparer et de s’approprier les données, sans se contenter de les visualiser graphiquement, cet aspect étant à la charge du dessinateur. Il s’agit plutôt d’une conceptualisation suivant la logique des données, leur ordre de grandeur, leur caractère propre. Le processus de transformation s’explique comme suit : Le transformateur est celui en qui le public place toute sa
Marie Neurath et Robin Kinross, Le transformateur, principes de création des diagrammes isotypes, traduit par Damien Suboticki, B42, 2013, p.77
confiance. Il doit se souvenir des règles et les respecter, en y ajoutant de nouvelles variations là où elles sont conseillées, et en évitant dans le même temps toute déviation inutile qui ne ferait que semer la confusion.
Pour évaluer le rôle du transformateur, il faut donc prendre en compte non seulement les données brutes, mais aussi le
Les travailleurs de la donnée /49
Marie Neurath, «Isotype»,Instructional Science, vol.3, n°2, 1974, p136-137, repris par Robin Kinross (ibid)
Vers une éducation à la donnée
processus de réflexion incluant les réunions, esquisses, retours, interactions avec le dessinateur, le tout jusqu’à la maquette finale. Il produit d’ailleurs lui-même les premières ébauches du diagramme, où il fixe un certain nombre de détails qui ont leur importance, parmi lesquels se trouvent le titre, l’agencement, la typographie, le nombre de symboles et leur couleur etc. Ensuite seulement, le dessinateur prend le relais pour donner à l’image son aspect final. Le fait que la NSA se révèle aussi inefficace malgré la possession de toutes les données qu’elle collecte, légalement ou illégalement, ou que nous ayons retiré si peu des documents mis en ligne via Wikileaks montre bien qu’il ne suffit pas de posséder les données brutes pour gagner avec elles un pouvoir immédiat. Il faut quelque chose de plus : en faire ressortir la substance au moyen d’un travail long et fastidieux. Wikileaks est une organisation à but non lucratif qui révèle au grand jour des documents jusqu’alors classés et dissimulés au public. La publication de ces documents est souvent soumise à controverse, ces informations étant susceptibles selon certains d’atteindre la sûreté internationale. C’est donc dans un contexte légal mitigé que la plateforme de l’organisation a par exemple publié en collaboration avec de grands journaux 91.000 documents relatifs à la guerre en Afghanistan, ou encore 400.000 warlogs concernant l’Irak. Il ne suffit cependant pas de prendre des données et de leur appliquer un algorithme, mais il faut les remettre dans leur contexte et le prendre en compte pendant leur traitement : les notes militaires sont rédigées dans un langage aux codes forts, et ne prennent souvent sens qu’une fois regroupées et documentées. OWNI propose ce-
Les travailleurs de la donnée /50
Vers une éducation à la donnée
pendant dès octobre 2010 d’explorer ces notes de guerre, en proposant à la demande du directeur de Wikileaks, Julian Assange, une application collaborative. S’ensuit un live blogging des découvertes réalisées dans ce cadre, variées et documentées, malgré les exhortations des gouvernements
Olivier Tesquet, «Warlogs Irakiens : l’interface de visualisation», owni.fr, 22/10/2010, en ligne
à ne pas divulger les documents. Les travailleurs de la donnée, professionnels ou non, sont un maillon de la chaîne vers l’utilisation effective de l’open data et des big data qu’on ne saurait négliger. Sans eux, les documents seraient restés certes disponibles, mais flous et mis de côté. Il résulte sûrement que la mise en ligne de ces centaines de milliers de documents peut encore s’avérer être une source de révélations, mais sans un travail de longue haleine, la mine d’informations semble improductive. À leur manière, les films et séries de science-fiction, ces mondes dans lesquels d’un clic la donnée-est-le-résultat ont, eux aussi, largement contribué à invisibiliser le travail et les travailleurs de la donnée.
L’image des travailleurs de la donnée véhiculée dans les séries ou films est réductrice : il suffirait de cliquer sur une image floue pour la nettoyer, dépixelliser, zoomer et
Irène Bastard, Dominique Cardon, Guilhem Fouetillou, Christophe Prieur, Stéphane Raux «Travail et travailleurs de la donnée», InternetActu. net,13/12/2013, en ligne
distinguer un numéro de plaque à partir d’une photographie satellite, ou encore de fournir une série de données pour qu’un ordinateur visualise le lieu où se trouve vraisemblablement le tueur. Ces débordements ne sont pas faits pour être identifiés par les spectateurs, quoique certains remarquent tout de même l’absurdité de ce genre de scènes et s’en emparent en les parodiant ou les détournant. Diminué, le travailleur de la donnée perd sa légitimité aux yeux d’une population pourtant avide de visualisation. Selon les auteurs d’un article sur le travail et les travailleurs
Les travailleurs de la donnée /51
Un certain nombre de blogs et de vidéos sont publiées régulièrement par des spectateurs, et largement diffusées sur des réseaux tels que youtube ou tumblr. Par exemple, la vidéo «let’s enhance» a reçu plus de deux millions de vues depuis sa publication.
Vers une éducation à la donnée
de la donnée, ces derniers ne sont pas les seuls à pâtir de la nouvelle tendance aux données web, les données ellesmêmes sont au centre de négligences : certains peuvent se contenter des données collectées sur internet ou sur les réseaux sociaux, négligeant le travail d’enquête de terrain. Il n’y a cependant pas assez de recul pour affirmer que les interactions sur les réseaux sociaux virtuels sont identiques à celles que nous explorons dans la réalité. C’est ce contre Hubert Guillaud, «Julie Denouël et Fabien Granjon : les usages en question», InternetActu.net, 15/6/11, en ligne
quoi mettent en garde Julie Denouël et Fabien Granjon, en dénonçant le manque de prise de contexte dans l’utilisation des données issues de ce type de sources. Les traces laissées par les utilisateurs ne sont pas forcément révélatrices des usages de ceux-ci. Dans l’optique de caractériser ces rapports entre contacts
Algopol, en ligne, http://app. algopol.fr/info
sur les réseaux sociaux a été créée l’application ALGOPOL, qui permet de visualiser ses liens avec ses amis sur une carte interactive. en se connectant sur le compte Facebook de l’utilisateur, l’application récupère les données qui lui seront nécessaires à la détection des liens théoriques entre l’utilisateur et ses amis. Mais une fois ces informations récupérées, un travail d’enquête complémentaire à la donnée préexistante commence : des questions précises quant aux rapports de l’utilisateur à certains de ses interlocuteurs lui sont posées. Ces questions, à propos de la longueur de la relation établie, sa teneur, son caractère, complètent les données par leur contexte. Une fois les réponses à ces questions fournies, nous sommes amenés à découvrir la visualisation de notre réseau d’amis. Non seulement les
L’export de la visualisation de mon réseau via l’application ALGOPOL
liens de nos amis entre eux sont modélisés, mais également le nombre d’interactions que nous avons eues. Certaines
Les travailleurs de la donnée /52
Vers une éducation à la donnée
options permettent de se plonger dans les statistiques de nos interactions avec notre réseau, ou de se replonger dans une période précise. Sous cet aspect ludique pour l’utilisateur se trouve une source de données utiles à la recherche des créateurs de l’application. Scientifiques et sociologues, il leur est déjà évident que les données produites sur les réseaux sociaux ne sont pas distanciées de leur contexte, et qu’elles relèvent plus d’une manière d’utiliser la plateforme que d’une manière de vivre en général. Ces données seraient le reflet des habitudes des utilisateurs sur les réseaux sociaux, et non dans leur vie réelle. Restait alors à étudier le rapport entre ces relations virtuelles et les relations en chair et en os. La restitution en visualisation des données n’est alors qu’un prétexte et une contrepartie aux données fournies par l’utilisateur, qui contribue ainsi à ce travail de la donnée. Le plus gros du travail est cependant fait par la suite, mais le meilleur moyen d’obtenir des données fiables et de compléter les préexistantes est bien, dans ce cas, de passer par une enquête de terrain. Ce travail de la donnée repose sur une autorisation de la part de l’utilisateur, qui est informé tout au long du processus des utilisations de celles-ci et des autorisations qu’il fournit exactement. Ce n’est pas toujours le cas, et des problèmes de déontologie de l’utilisation des données se posent régulièrement. Des débordements sont régulièrement révélés, et des collectes d’information sont souvent dénoncées.
Les travailleurs de la donnée /53
Exemple de report de positions par Google
L’éthique de la donnée La collecte des positions des utilisateurs de Google sur terminaux mobiles est régulièrement mise en avant sur des Une fois le tracking google accepté par l’utilisateur, celuici peut le consulter à cette adresse : https://maps.google. com/locationhistory
sites grand public, liens à l’appui. En effet, les utilisateurs de comptes Google peuvent voir, s’ils l’autorisent, leurs déplacements enregistrés en temps réels. Les informations ainsi récoltées sont représentées sur une carte, adresses et heures à l’appui. Ces données ne sont pas accessibles à tout un chacun, mais seulement à l’utilisateur en question et à la firme. L’interface disponible en ligne permet de supprimer ces données, ainsi que de les exporter. Mais outre ces deux options, aucun indice sur l’utilisation qui peut être faite de ces données sur cette page. En cherchant un peu, on peut cependant trouver un rapport de transparence de
Rapport interactif disponible en ligne en français https://www.google.com/ transparencyreport/
Google. Celui-ci rapporte les demandes effectuées par les administrations pour avoir accès aux données des utilisateurs, fournissant ainsi des données sur des demandes de données. Nos données sont donc sous le coup de la loi et
Les travailleurs de la donnée /54
Vers une éducation à la donnée
peuvent être saisies le cas échéant. Mais est-ce la seule utilisation qui en est faite ? Ces données de navigation que nous fournissons en utilisant le moteur de recherche sont déterminantes pour la vie de la société Google : si elles ne sont pas directement vendues, elles sont le support de sa stratégie de vente d’espaces publicitaires. les récentes affaires d’espionnage remettent en question le concept de vie privé dans un monde où tout le numérique peut être surveillé. Ainsi, alors qu’Edward Snowden révélait les agissements de la NSA, passant dans le même temps à un statut d’ennemi de la nation, les voix s’élèvent dans le monde entier contre l’espionnage. Il travaillait pour l’Agence Nationale de Sûreté Américaine, quand l’employé fut témoin d’écoutes illégales et abusives à l’échelle planétaire, qu’il dénonça en juin 2013. Il fut alors la cible d’une véritable chasse à l’homme, recherchant l’asile de pays en pays afin d’échapper à la justice américaine l’accusant de crime contre la nation. Dans le même temps, les rédactions des journaux auxquels Snowden avait fourni les informations subtilisées furent la cible de pressions, et durent se débarrasser des données fournies par l’ex-agent, à l’image du Guardian qui a publié récemment une vidéo de la destruction des disques durs fournis par Snowden. Ces données circulent pourtant toujours, et sèment le doute sur la politique des états unis tout en révélant toujours plus de contradictions et d’ingérence par le gouvernement américain dans la politique occidentale. Aujourd’hui encore, des articles paraissent révélant des connivences sur la base des données subtilisées. La constitution de bases de données relève-t-elle seulement vraiment de l’espionnage, ou est-ce le travail autour et sur ces données qui en témoigne ? Ces données existent en
Les travailleurs de la donnée /55
Sheila Fitzsimons, Ken Macfarlane et Mustafa Khalili, «Revealed: the day Guardian destroyed Snowden hard drives under watchful eye of GCHQ – video», theguardian.com, 31 Janvier 2014, en ligne
Vers une éducation à la donnée
l’état, et ont été collectées dans l’ignorance la plus totale de la population. C’est ce qui semble le plus inquiéter l’occident, alors que l’utilisation faite de ces données comporte encore des parts obscures. L’utilisation des données ne se fait pas forcément à des fins de sécurité nationale, bien loin de là : Facebook par exemple utilise à son compte les statistiques utilisateurs pour les orienter vers du contenu choisi. Les entreprises ne se cachent pas d’utiliser nos données, et le revendiquent même en créant des produits visant à faire passer un maximum de notre navigation par leurs services. En témoignent la multitude de produits proposés par Google ou encore la prochaine application proposée par Facebook, Paper, disponible dès le 3 février 2014. Celle-ci présente une reprise L’application paper sur iPhone
du site en lui-même avec une expérience de navigation différente, tout en y ajoutant, comme l’indique son nom, une fonctionnalité supplémentaire : la lecture d’articles en
Un article décrivant les fonctionnalités de l’application est disponible : Dieter Bohn, «With Paper, Facebook just blew its own iPhone app out of the water», theverge.com, 30/01/2014, en ligne
ligne, via l’application. On peut imaginer que, plus tard, les données collectées grâce à cette application soient réutilisées à des fins commerciales en proposant à nouveau du contenu sponsorisé personnalisé. Cette valeur marchande de la donnée n’est pas nouvelle, et depuis l’avènement de l’ordinateur sa circulation n’est pas un secret. Les locations et ventes de bases de données sont légion, et constituent un marché important. Les données les constituant sont généralement basiques, contenant le nom et l’adresse email d’un utilisateur, ou plus qualifiées, jusqu’aux domaines l’intéressant, et sont soumises en France à une réglementation qui se veut stricte. Les données sont collectées via l’inscription des internautes et soumises à la loi informatique et
Les travailleurs de la donnée /56
Vers une éducation à la donnée
libertés. Il est pourtant possible qu’une entreprise revende ses fichiers à une autre, comme Virgin a pu le faire lors de sa liquidation en vendant pour la faible somme de 54 000 euros sa base de clients d’1,2 millions d’adresses email valides à la Fnac. Ces adresses ont une valeur marchande bien plus importante sur le marché de l’emailing. elles permettent un ciblage très précis des internautes, accru par de nouvelles technologies de tracking. En enregistrant le parcours des internautes, il est aisé pour les éditeurs de savoir sur quelle page se sont arrêté les potentiels clients, et de leur envoyer des messages comportant des produits qu’ils ont consultés. Il est également possible de savoir à quelle étape de l’achat ces mêmes clients potentiels sont sortis du site afin de leur proposer de retrouver leur panier initial : cette technique, appelée email retargeting, est possible si l’on dispose des adresses email concernées. Pour cela, les éditeurs de site internet passent par des méthodes de “recrutement”, redoublant d’ingéniosité pour pousser l’internaute à leur fournir un maximum d’informations, via des enquêtes, des jeux concours, des inscriptions... Aussitôt que nous fournissons nos informations et donnons notre accord aux entreprises les récoltant, nos données semblent donc ne plus nous appartenir, puisqu’elles sont revendues comme une autre marchandise. La loi informatique et liberté stipule pourtant à propos des données recueillies qu’«elles sont conservées [...] pendant une durée qui n’excède pas la durée nécessaire aux finalités pour lesquelles elles sont collectées et traitées.». Ces données ayant été collectées pour le compte
de l’entreprise Virgin, à des fins propres à son commerce, et à l’occasion par exemple d’établissement de cartes de fidélité, l’entreprise n’en avait plus l’utilité première. Ces
Les travailleurs de la donnée /57
Chloé Dussapt, «La Fnac gagne la base clients de Virgin pour 54.000 euros», Challenges.fr, 03/07/2013
Vers une éducation à la donnée
données seront pourtant retravaillées par un commerçant du même domaine, sans que les fournisseurs de ces données aient leur mot à dire. «If you have something that you don’t want anyone to know, maybe you shouldn’t be doing it in the first place» Eric Schmidt, directeur de Google
Le directeur de Google, interrogé en 2009 à propos de son projet de Google glasses et des questions de protection de la vie privée alors soulevées, a répondu à son interlocuteur que s’il voulait faire quelque chose sans que personne ne soit au courant, alors peut-être qu’il ne devrait pas le faire du tout. Certaines personnes, quand on leur demande si cela ne les dérange pas que toutes ces informations soient enregistrées, arguent qu’ils ne font rien de mal et n’ont donc rien à cacher. Eben Moglen, professeur de droit à la Columbia Law School, explique cependant que le danger n’est pas que les données collectées révèlent de sombres secrets, mais qu’il réside au contraire dans le fait d’enreDans l’émission radio de Daniel Mermet, «Le bon dieu te regarde même quand tu es aux cabinets ! (2)», Là bas si j’y suis, France inter, 05/02/2014
gistrer nos faits quotidiens, nos habitudes. Cette multitude de données collectée depuis des années et qui constitue les Big Data n’a cependant pas que des applications négatives. Ainsi Alex Pentland, directeur du laboratoire de dynamiques humaines au MIT de Boston, explique qu’avec le concours de l’entreprise Orange en Côte d’Ivoire, il a été possible d’agréger énormément de données, plongeant du même coup chaque entité dans l’anonymat du nombre, et de constituer une base de travail qui a permis de cartographier non seulement des épidémies en devenir, mais également des tensions inter-communautaires avant que le mal ne soit fait. En déterminant les zones où les communautés risquent de s’entrechoquer, les travailleurs de
Les travailleurs de la donnée /58
Vers une éducation à la donnée
la donnée ont pu prévoir les zones à risque et mettre en oeuvre des travaux de sensibilisation. Ces données peuvent également prévoir et permettre d’endiguer une épidémie. Il reconnaît tout de même que la précision de ces données peut effrayer, mais qu’au lieu de se concentrer sur les mauvais usages qui peuvent en être faits, on peut en voir les effets positifs. La question est alors de savoir s’ancrer dans ce monde qui, de toutes manières, est déjà baigné dans les big data. Cependant, Eben remarque une contradiction dans l’usage des big data de nos jours : toutes les données collectées par les entreprises ne sont que très rarement restituées aux utilisateurs qu’elles concernent, alors qu’elles pourraient leur être utiles. Les téléphones Android sont même capable de calculer notre pouls en voyant notre visage, et sont une mine d’information concernant le temps que l’on met à se lever, l’énergie dépensée dans la journée, notre activité… Et pourtant, si l’on demandait à un opérateur de nous restituer ces données, il nous répondrait que ce n’est pas possible et que ces données lui appartiennent. Ma demande à ce propos est d’ailleurs restée sans réponse. Ces informations personnelles, aussi appelées small data, ne seraient donc plus notre propriété car nous ne les collectons pas nous-mêmes. On entre alors dans une vision politique et éthique de la donnée et de son travail. C’est précisément ce à quoi Jérémie Zimmerman, co-fondateur de l’association La Quadrature du Net, fait allusion lorsqu’il précise que nous avons bien tous quelque chose à cacher, qui nous empêche d’accepter que tous nos faits et gestes ne soient surveillés et révélés : l’intimité, que nous pouvons choisir de partager mais qui reste sensible car nous présentant sans carapace. Il ajoute alors que pour que ce monde composé
Les travailleurs de la donnée /59
Ibid.
Vers une éducation à la donnée
de big data soit plus juste et équilibré, il est temps de parIbid.
tir à la reconquête de nos données personnelles. Mais ce n’est pas encore gagné : le reporter David Griner alarme le public dans un article à propos de marques figurant dans son historique, qui le suivraient à la suite de sa visite sur Twitter. Les listes d’abonnés étant publiques, cette pratique
David Griner, «Sites I Visit Are Now Following Me on Twitter, and It’s Super Creepy : With retargeting, private browsing has public consequences», Adweek. com, 5/02/2014, en ligne
reviendrait à révéler son historique au monde entier.
Le transformateur a un rôle très important dans la représentation de données, et les responsabilités qui s’y attachent engagent son savoir faire. S’il est parfois appelé à traiter des données pour permettre leur exploitation scientifique, il n’est pas rare qu’après leur collecte et au moment de leur transformation ces informations posent des problèmes d’ordre éthique. Les collecteurs de ces données traversent des frontières difficilement définissables, aux bords desquelles est souvent confiné le transformateur. Car si la collecte n’est pas de son ressort, la manipulation de l’organisation des données n’est pas sans effet sur leur sens et leur impact.
Les travailleurs de la donnée /60
Vers une éducation à la donnée
MANIPULATION ET ORGANISATION DES DONNÉES Jacques Rancière part du principe qu’il a longtemps été pensé que « Celui qui voit ne sait pas voir ». Le spectateur devrait alors être assisté, pris par la main vers ce qu’il doit voir,
Le spectateur émancipé, La fabrique éditions, 2008
car ignorant. Sa prise de conscience serait donc totalement dépendante d’un acteur extérieur, détenteur de la vérité. Il note cependant que ces “a priori” selon lesquels le savoir est l’apanage des sages pousse à son émancipation le spectateur sous-estimé. Dans Le maître ignorant, Rancière raconte l’histoire d’un jeune professeur à qui l’on demande
Le maître ignorant : Cinq leçons sur l’émancipation intellectuelle, 10 X 18, 1 septembre 2004
d’enseigner une langue qu’il ne parle pas. En feignant de savoir la parler, il réussit à l’enseigner : portés par la volonté d’apprendre, ils se sont émancipé de leur professeur jusqu’à le dépasser. Finalement, l’enseignant n’a pas besoin de savoir : on peut laisser les étudiants créer le leur. Ce n’est pas une histoire de transmissions, ni de flux d’informations. Le spectateur aussi agit, comme l’élève ou le savant. Il observe, il sélectionne, il compare, il interprète. Il lie ce qu’il voit à bien d’autres choses qu’il a vues sur d’autres scènes, en d’autres sortes de lieux
Le spectateur émancipé, La fabrique éditions, 2008, p. 19
Le spectateur serait donc, au final, «spect-acteur», par le fait même de convoquer ses souvenirs et son expérience lorsqu’il reçoit une information. Il n’est pas seulement récepteur du savoir d’un maître, il s’en affranchit. Donner à voir en gardant à l’esprit un impératif de sens envers celui qui voit, c’est entrer dans une logique abrutissante
Manipulation et organisation des données /61
Vers une éducation à la donnée
impropre à la définition même du savoir. Le spectateur est selon cette logique au metteur en scène ce que l’élève est au maître. Mettre en scène des données, leur donner une autre forme intelligible ne doit faire tomber le designer dans l’abîme de l’impératif de forcer à voir; le designer met à disposition une présentation de données, qui pourront et devront être interprétées et questionnées par le spectateur. La manipulation des données n’équivaut pas alors à la manipulation des esprits, si tant est qu’elle ne soit pas absolue et garde cet aspect abordable qui permette à son destinataire de s’en affranchir et de la dépasser. Lorsque les données sont manipulées à visée politique, elles doivent être doutées et faire l’objet d’une réflexion particulière. Les données, lorsqu’elles sont collectées, sont déjà impactées par la méthode et l’organisation initiale qu’elles ont. Elles ne peuvent pas à ce sens être brutes. Elles sont néanmoins inintelligibles dans leur globalité, c’est pourquoi elles doivent être traduites. La présentation de données transforme les données en informations lisibles. Il faut néanmoins définir dans quelle mesure se fait l’impact du transformateur sur les données : ce qu’induit le mot manipulation n’est pas innocent ici, quelle est la différence entre manipulation et organisation, et existe-t-elle seulement ? Jacques Bertin, dans la Sémiologie Graphique, expose sa vision de la visualisation de données. Il s’agit pour lui de réduire une multitude de données à une quantité réduite d’informations, susceptibles de répondre à un problème Jacques Bertin, Sémiologie graphique, Les diagrammes – Les réseaux – Les cartes, Paris, Editions de l’EHESS, 4e éditions, 2005 (1ère édition : Paris, Editions Gauthier-Villar, 1967), pp. VII-XI et 5-14.
précis, et donc de choisir les raccourcis et les informations survivant à cette coupe. S’il reconnaît l’intérêt de l’arrivée des nouvelles technologies pour trier ces données, Ber-
Manipulation et organisation des données /62
Vers une éducation à la donnée
tin précise que les chercheurs, pourtant tentés de ne plus réfléchir, sont plus que jamais nécessaires pour pallier les questions que l’ordinateur ne peut se poser, et faire travailler mémoire et intuition. Le choix et le contexte font donc encore partie intégrante du processus de visualisation de données, malgré l’aspect parfois automatisé du traitement des données. Il donne, de plus, les clés de la lecture des graphiques : en observant graphiques et cartes, le lecteur doit pouvoir en dégager une construction solide. Et s’attarder sur les propriétés de la visualisation de données doit le pousser à chercher des réponses, questionnant sa légitimité. C’est à travers cette analyse de l’image, et seulement à travers elle, que son lecteur pourra en dégager l’idée et l’information. Mais cette idée qui se dégage est dépendante d’un ensemble de signes utilisés ou perçus : entre un signe et sa signification se trouve le vécu et le contexte du récepteur. Dans le graphique cependant, chaque élément est défini à l’avance, et une signification lui est appliquée indépendamment des référents du récepteur, ce qui la différencie d’une autre image. Libre de son choix, le rédacteur graphique peut par exemple traduire une composante géographique par une seule dimension du plan et il construit un diagramme, ou par les deux dimensions du plan et il construit une carte, est libre d’utiliser la variation de couleur ou celle de valeur. Construire 100 FIGURES différentes à partir d’une même information ne demande que de la patience
Ibid.
En utilisant les règles de la sémiologie graphique, il est donc possible de produire de nombreuses versions d’une visualisation présentant les mêmes informations. Les règles strictes énoncées par Bertin peuvent être assimilées par tout-un-chacun et ainsi donner les clés de la com-
Manipulation et organisation des données /63
Vers une éducation à la donnée
préhension inconditionnelle et ne laissent pas de place à l’approximation. Il s’agirait donc d’une solution à la visualisation de données détachée, qui tiendrait plus de l’apprentissage par le lecteur que de la volonté de distanciation de l’auteur. Cependant, Bertin parle de la représentation des données sans s’attarder sur le choix des données et leur interprétation. Faire porter à des données un message en dépit de ce pour quoi elles sont collectées est chose courante. Edward Tufte Visual Explanations: Images and Quantities, Evidence and Narrative, Graphics Press USA, 31 mars 1997
mentionne dans son ouvrage Visual explanations le «design de désinformation». Il commence par considérer la magie et ce qu’elle implique en terme de narration, notamment au moment où ses secrets sont révélés. Ces révélations nécessitent une explication détaillée et illustrée, et les magiciens présentent à leur manière des informations : ce qu’on constate à première vue n’est fidèle qu’à ce qu’il se passe derrière les apparences. Les techniques de magie se fondent sur des manipulations optiques, et selon Tufte, ces tours de passe-passe visuels constituent la base du design de désin-
Ibid, p.64
formation (disinformation design). Il y a tout d’abord le design d’information exempt de magie, presque involontaire, dû à des effets d’optique, rendant par exemple accidentellement les limites des marches d’un escalier confuses en parant le sol d’un motif inapproprié. Lorsqu’il est emprunt de magie, le design de désinformation dissimule volontairement ce qui se trouve derrière son apparence. Parfois, bien sûr, les données elles-mêmes conduisent à la désinformation, c’est pourquoi il faut les étudier et les choisir avec attention. Visualisations trompeuses et efficaces sont parfois difficilement distinguées et on peut d’ailleurs trou-
Manipulation et organisation des données /64
Vers une éducation à la donnée
ver des points communs, puisqu’elles présentent toutes deux une réalité alternative convaincante. Dans ce but, les deux types de visualisation filtrent des informations et utilisent les mêmes outils. Elles ont cependant des objectifs opposés, puisque l’une vise à informer et l’autre à trom-
Marchak, The magic of visual interaction design, Newsletter ACM SIGCHI Bulletin, Juillet/ Aout 2000, p.9, consultée en ligne le 05/02/2014 en anglais (traduction personnelle)
per. Un problème fréquent advient lorsque l’information est représentée d’après des décisions arbitraires au lieu de décisions basées sur des principes du design, ou quand les principes suivis ne sont pas ceux du design d’information : les visualisations produites sont difficiles à lire, utiliser et comprendre. Ces éléments ne semblent malheureusement pas être remarqués la plupart du temps par le public. Les informations, vraies ou fausses, ne sont pas discutées mais acceptées. Mais pour éviter dans un premier temps de désinformer le public, il conviendrait de rééduquer les designers à la donnée et ses représentations pour éviter qu’ils n’induisent involontairement leur cible en erreur. L’information peut être détournée avant même sa représentation, par le choix des données de référence. On peut faire dire ce que l’on veut aux données, même en utilisant un système élaboré et précis. Une visualisation de données produite par la Kansas State University Geography/USACE constitue un bon exemple de ce que l’on peut faire dire aux données. Une cartographie des sept péchés capitaux a tout d’abord été publiée en 2011, pour revenir régulièrement sur le début de la scène depuis. Le sensationnalisme de cette visualisation de donnée lui donne une visibilité remarquable dans le temps. Elle présente, d’après son titre, La répartition spatiale des sept péchés capitaux en Amérique du Nord. Les concepteurs de cette visualisation n’ont pour-
Manipulation et organisation des données /65
Mitchel Stimers, Ryan Bergstrom, Thomas Vought, Michael Dulin, Capital Vice in the Midwest: The Spatial Distribution of the Seven Deadly Sins, Department of Geography, Kansas State University, 2011
Extrait de la visualisation des 7 péchés capitaux telle que rpésentée sur Wired, présentant l’avarie (greed) l’envie (envy) et la colère (wrath)
tant pas collecté eux-mêmes les données en rapport avec ces vices, mais se sont ré-approprié des statistiques disponibles en libre accès, telles que celles de la police ou encore du recensement. Le résultat est une série de cartes très contrastées, mettant en évidence les «pics de péchés» et les endroits où ils sont notablement bas. Pour chaque péché, les types de données utilisées sont précisées. Par exemple, concernant l’avarice, les données utilisées concernent le salaire moyen comparé au nombre de personnes sous le seuil de pauvreté, là où il aurait été intéressant de collecter des données concernant directement les dons réalisés par rapport à la richesse. Deux catégories de données sont sélectionnées, sans rapport et sans intention au moment de la collecte, pour donner une définition personnelle de la réalité, et de la définition du péché. Le but des auteurs de ces cartes était de mettre en avant, s’il en existait, des concordances spatiales avec les différents types de péchés ; pour nuancer leurs résultats, plaçant certains états les plus croyants parmi les plus touchés par le péché, ils proposent
Manipulation et organisation des données /66
Vers une éducation à la donnée
l’établissement, a contrario, d’une carte des vertus, qui prendrait en compte la fréquentation des églises, les dons ou encore les quantités d’alcool vendu. peut-être, au lieu de s’emparer de données collectées à d’autres fins, pourraientils plutôt se concentrer sur une nuance de leur étude en établissant un protocole de collecte de données crédibles et plus poussées concernant la définition même du péché. Le spectateur n’est pas aussi passif qu’on l’induit, et le designer peut lui donner ou lui enlever les clés du savoir en lui rendant inintelligible l’information. Si celui-ci remplit bien le contrat de la représentation de données en produisant une image accessible par la sémiologie graphique, le spectateur n’a aucune raison d’être manipulé en prenant le recul nécessaire à l’acquisition du savoir. En réutilisant des données sans en garder les premières intentions et en les tordant pour leur donner un autre objectif que celui initialement prévu, certains designers et statisticiens font cependant mentir leurs représentations de données. Cet accès instantané au matériel statistique laisserait donc au designer et au chercheur le choix de tomber dans les affres de la manipulation.
Manipulation et organisation des données /67
Vers une éducation à la donnée
ACCÈS INSTANTANÉ : LABEUR DE COLLECTE ET DE LA REPRÉSENTATION DES DONNÉES L’accès instantané aux données mises à disposition du public, des designers et des chercheurs leur permet d’obtenir des chiffres pré-produits, sans en connaître les conditions de récolte. La notion de labeur relative au travail du collecteur disparaît, ainsi que les conditions dans lesquelles celles-ci ont été enregistrées et qui pourraient pourtant influencer ces données et fournir des éléments clé à leur interprétation. Nous sommes à l’ère de l’open data. Par open data, comprenons jeux de données mis à disposition du public de manière ouverte ; de plus en plus d’entreprises fournissent leurs données et créent une communication à propos de ces informations fournies. Plus encore, à l’échelle nationale, le gouvernement français a récemment lancé son site data.gouv.fr, et apparaît en première position de résultats de recherche Google en tapant «open data» en France, avant les sites dédiés aux grandes villes, et ceux des entreprises. On peut alors se demander quel est l’intérêt pour le gouvernement ou les grosses entités de mettre cette masse de données en accès libre, et d’où vient ce matériel fourni
Accès instantané : labeur de collecte et représentation des données /68
Vers une éducation à la donnée
gracieusement. Sur la foire aux questions du site data.gouv. fr, on apprend que les fournisseurs de données peuvent être n’importe qui, des collectivités aux services publics en passant par les citoyens. Cette agrégation de données porte sur beaucoup de domaines différents, des impôts en passant par les résultats politiques ou la délinquance. Des sujets divers et potentiellement sensibles. La mise en ligne de ces données résulte pourtant d’un choix, on s’attend donc peu à découvrir en leur sein des révélations dangereuses pour ceux qui les proposent. Il est également aisé de fournir à ces sites des données modifiées, erronées, ou collectées aléatoirement. Le but de cette plateforme est de mettre en relation des données qui n’auraient peut-être pas été rapprochées si elles n’avaient pas été agrégées sur le même support. La structure concernée garde toutefois le contrôle du contenu publié à son sujet, et peut retirer tout jeu de données qui lui paraîtrait incorrect. On ne se trouve donc pas encore dans un cas de figure à la Wikileaks, mais bien une base de données à destination des chercheurs et de l’innovation. De même, un utilisateur remarquant une information douteuse peut le signaler via l’interface. L’ef-
Voir la F.A.Q du site data.gouv.fr
fort est tout de même notable, car mettant à disposition plus aisément une matière de recherche, bien qu’il faille prendre de la distance face à ses conditions de collecte. En recherchant des données précises, comme par exemple sur la répartition des centres de tri de déchets dans l’agglomération lyonnaise, on a accès à un certain nombre de données, dans différents formats de fichiers. Mais y accède-ton vraiment ? On s’expose parfois à la question de l’opacité des formats : les données sont là, à portée de main, et pourtant si éloignées de ce que nous avons l’habitude de
Accès instantané : labeur de collecte et représentation des données /69
Vers une éducation à la donnée
voir. En effet, les jeux de données sont proposés dans des formats inhabituels pour qui n’est pas statisticien : WMS, KML, GML… Et la clé à la compréhension de ces données est inscrite dans un autre fichier avec une syntaxe particulière, dans cet exemple précis : {«fields»: [«nom», «adresse», «commune», «activite», «miseajourattributs», «miseajourgeometrie», «gid»], «nb_results»: 0, «values»: [], «layer_name»: «gic_collecte.gicsitetraitement», «table_href»: «https://download.data.grandlyon.com/ws/ grandlyon/gic_collecte.gicsitetraitement.json», «field_name»: contenu du fichier «gic_collecte. gicsitetraitement/all.json», annoté comme «description des données dans le format texte JSON»
«gid»}
Il faut donc s’armer de patience et, avant même d’entamer la recherche dans ces fichiers, en commencer une afin de trouver les outils permettant d’y accéder. Et même s’il est difficile de les trouver, il est possible de bénéficier de quelques conseils à cet effet sur le site data.gouv.fr, sous
«Transformer les données», data. gouv.fr, en ligne
forme d’un wiki. On est loin de l’automatisation induite par la mise à disponibilité de ces masses de donnée. Mais là où il y a des difficultés d’accès, il y a aussi de bons élèves. En recherchant un jeu de données sur les crimes en France, on peut trouver des fichiers fournis par l’Institut national des hautes études de la sécurité et de la justice (INHESJ), toutes sous le format .XLS, format ouvert et démocratisé par le logiciel de bureautique Excel, et donc beaucoup moins
Les données en question sont consultables sur le site data.gouv.fr
opaque. La présence d’un fichier d’explication très précis, éclaire le lecteur de ces données sur la signification des chiffres fournis : il doit bien y avoir une distinction entre le nombre de victimes, de plaignants, de procédures… Tout est donc fait, efficacement ou non, pour que l’utilisateur puisse réutiliser ces données le plus aisément possible, d’autant plus que ce même jeu de données est fourni de
Accès instantané : labeur de collecte et représentation des données /70
Vers une éducation à la donnée
1996 à 2009. Les données, qui peuvent être notées par les utilisateurs, ont d’ailleurs un score bien plus élevé que le premier cas étudié. Si de nombreuses données sont disponibles pour tous et en libre accès, les conditions dans lesquelles elles ont été collectées sont néanmoins obscures dans bien des cas. On s’expose ainsi à une automatisation de la recherche à partir de données qui ne portent pas la notion de labeur relative à leur collecte, et par la même occasion à des dérives de sens et d’objectifs. De nombreux outils de visualisation de données existent déjà, mis à disposition des internautes afin de leur permettre de transformer leurs fichiers automatiquement en modèles pré-conçus de visualisations de données. ils permettent de formater les données sans effort ni recherche de forme et de cohérence, en laissant le choix à leur utilisateur des couleurs et des échelles tout au plus. Un catalogue des formes de visualisation de données rencontre un fort succès sur la toile, et a pour objectif de répertorier et expliquer chaque mode de représentation, en détaillant les meilleurs usages qui peuvent en être faits. On peut rechercher, sur ce site web, les techniques de vi-
Severino Ribecca, The datavisualisation catalogue, en ligne
sualisation par fonction. Ainsi, j’apprends que si je souhaite exprimer la probabilité et la chance, l’histogramme est le plus approprié. Ce n’est pourtant qu’une façon de visualiser des données, et il serait possible, avec de la recherche et en s’attachant précisément aux données mêmes, de trouver des moyens de représentation plus cohérents. L’outil de visualisation de données RAW fonctionne sur le principe du modèle graphique à personnaliser. Après avoir copié/ collé ses données dans un champs texte, l’utilisateur a ac-
Accès instantané : labeur de collecte et représentation des données /71
Un exemple de modélisation graphique de données via RAW
cès à un choix restreint de types de graphiques. Une fois le modèle de son choix sélectionné, l’utilisateur est libre de disposer ses données comme il le souhaite sur plusieurs catégories. Le résultat est alors généré automatiquement. en utilisant un jeu de données de démonstration tel que les caractéristique des passagers du titanic, on peut essayer les différentes options de visualisation; le résultat est parfois surprenant, tenant plus du «bidouillage» que de la réflexion graphique autour de la donnée. Pour ce modèle de visualisation, les trois variables disponibles étaient la hiérarchie, la couleur et la taille. En sélectionnant le référentiel de l’âge pour la hiérarchie, de la classe pour la couleur, et du prix du billet pour la taille, le résultat obtenu est tout sauf clair ou convainquant. En effet, lorsque ces choix ont été faits, ils n’avaient pas pour but de démontrer quelque chose, mais juste de représenter des données, sous quelque forme que ce soit. L’outil, en lui même, est rapide, clair et efficace. C’est l’usage qu’on en fait qui est dangereux. si l’on entre dans une logique d’automatisation de la représentation de
Accès instantané : labeur de collecte et représentation des données /72
Vers une éducation à la donnée
données, et que l’on se contente de rentrer des informations pour générer un graphique, quel qu’il soit, l’outil est plus un piège, un carcan qu’autre chose. En revanche, si au cours de recherches poussées sur ces données, il arrive que l’on déduise qu’un des moyens les plus efficaces de démontrer notre thèse est applicable via cet outil, qui pourrait faire gagner du temps en proposant un prototype de l’idée du chercheur, il n’y a aucun inconvénient à son utilisation. Il est donc question de mesure et de recul dans l’automatisation du traitement et de la représentation des données. L’automatisation peut en effet provoquer une affectation cognitive. Elle l’a déjà fait dans l’industrie, avec l’arrivée des automates et des usines de production à la chaîne, et maintenant, avec nos ordinateurs et internet. Après que l’automatisation se soit attaquée à la force mécanique de l’homme, voilà qu’elle s’attaque à notre esprit, à notre mémoire, à nos capacités intellectuelles elles-mêmes, capable de faire bien plus d’opérations à la seconde que nous.
Le nombre d’opérations à la seconde n’est cependant pas
Hubert Guillaud, «Travail : l’automatisation en question», internetactu.net, 14/01/2014, en ligne
la seule caractéristique du cerveau humain, et ne constitue qu’une des capacités nécessaires à l’établissement d’un travail. Nicolas Carr, dans son essai «Internet rend-il bête ?», démontre que les outils numériques ont d’ores et déjà modifié notre cerveau, qui est un organe très plastique et
Internet rend-il bête ? : Réapprendre à lire et à penser dans un monde fragmenté, Robert Laffont, 6/10/2011
change en permanence. L’ordinateur nous sert en quelque sorte de mémoire externe, ce qui peut avoir des inconvénients si on délègue trop à la machine : l’intelligence de l’homme se rapprocherait alors de celle de la machine qu’il a lui même créée. Selon Jean Philippe Lachaux, neurobiologiste et directeur de recherche à l’Inserm, il s’agit d’un
Accès instantané : labeur de collecte et représentation des données /73
Vers une éducation à la donnée
témoignage à charge contre les technologies, mais surtout «L’impact des nouvelles technologies sur le cerveau», La tête au carré, sur France inter, 17/10/11
leur utilisation. Tout ce dans quoi on est immergé modifierait cependant le cerveau. C’est avant tout l’interaction de l’être humain avec ce qui l’entoure qui forge son esprit. Si le chercheur se repose sur la machine pour visualiser ses données, la recherche est alors limitée aux capacités du programme. Donc, s’il se contente non seulement de données détachées de tout contexte et de tout labeur, puis qu’il utilise des outils fermés pour les travailler, il est à noter que le travailleur de la donnée n’a, au final, pas de raison d’être puisqu’il substitue à son action celle qu’il commande à l’ordinateur, celle qui est automatisée et irréfléchie. Jean Philippe Lachaux note que l’information arrivant en un clic, le lecteur n’est pas dans l’attente, et donc dans la possibilité de laisser à l’information le temps de circuler et de trouver la place de ces données dans son édifice cognitif, et ainsi de construire une pensée. L’information est imposée brutalement. Si, en revanche, on cherche et on fabrique l’information, il y a fort à penser que le temps passé à penser la donnée plutôt que s’en nourrir ne soit profitable à la compréhension même de l’information. Il en revient de même pour les personnes qui reprennent des données sans en avoir ni la confirmation, ni la source, à des fins détournées. Il existe de parfaits exemples de ces tentatives, volontaires ou non, de désinformation dans la sphère politique. Nombreux sont en effet les politiciens qui s’emparent de chiffres gonflés, déformés ou même inventés. Ils se posent en automates de l’information/désinformation, et exposent leur électorat aux mêmes comportements. Ces discours frôlant l’absurdité sont régulièrement dénoncés, notament dans les médias. En collaboration avec la chaîne de télévision
Accès instantané : labeur de collecte et représentation des données /74
Vers une éducation à la donnée
Arte, le journal Libération réalise une émission sur format court intitulée «Libé désintox» et s’empare de paroles de personnages influents du paysage politique et les décrypte, puis les corrige. Ainsi, l’émission épingle Brice Hortefeux sur le bilan de l’immigration, en sélectionnant, vidéo à l’appui, une phrase qu’il a prononcée selon laquelle il aurait été le premier à avoir fait diminuer le nombre de clandestins
Arte, 2P2L et Libération, Désintox, «Brice Hortefeux et le bilan de l’immigration», 29/01/2014
en France depuis des décennies. Avec humour et force de précisions, on apprend que le calcul du pourcentage d’immigrés clandestins effectué par l’ancien ministre est basé sur des données qui, bien qu’ayant trait à l’immigration, ne sont en aucun cas un indicateur fiable de la clandestinité en France. Pire encore, les données sur lesquelles il s’appuie ne sont pas collectées depuis des décennies, comme il semblait l’indiquer. Ces révélations ont été possible grâce à un travail d’investigation et de réflexion, et les journalistes chargés de cette émission n’ont pas simplement assimilé et repris ce que l’homme politique laissait entendre.
Un regard critique sur l’information est nécessaire, et même si les données semblent accessibles, présentées de manière agréable, elles ne sont pas forcément garantes de fiabilité. Elles peuvent être mises en forme de façon générique et n’apprendront rien à leur lecteur, s’il ne les remet pas en question et se laisse noyer dans cette multitude d’informations.
Accès instantané : labeur de collecte et représentation des données /75
L’UTILISATEUR FACE AUX DONNÉES LA PLACE DU TRAVAILLEUR DE LA DONNÉE EST INDUBITABLE; SANS LUI, RIEN NE SERAIT DONNÉ À VOIR. LE SPECTATEUR, QUANT À LUI, N’EST PAS FORCÉMENT VOUÉ À RESTER PASSIF, ET À SE CONTENTER DES MODES DE REPRÉSENTATION QU’ON LUI PROPOSE. L’EXPÉRIENCE QU’IL A DE LA DONNÉE ET DE SES MODES DE REPRÉSENTATION DÉPEND ALORS NON SEULEMENT DE L’INTERFACE PROPOSÉE, MAIS AUSSI DE L’ÉTENDUE DU SAVOIR À PORTÉE.
Vers une éducation à la donnée
EXPÉRIENCE UTILISATEUR, DONNÉES ET TECHNOLOGIE La technologie peut permettre de sélectionner, représenter, personnaliser et instaurer ainsi un libre arbitre. Mais on est en droit de se demander si elle ne constitue pas également un mirage, une poudre aux yeux, et ne se contente d’enjoliver un procédé pauvre.
Mirage et technologie La technologie porte un aspect magique : petits, on a pu croire que les personnages dans notre télévision étaient en vie, et que les images qui nous étaient présentées étaient réelles. Tout comme dans le mythe de la caverne de Platon, la connaissance de ce qui est hors de notre portée sensorielle est équivalente à une ombre sur un mur lorsqu’on s’attache à la technologie, à ceci près qu’il s’agit d’une image Hubert Guillaud, «une société de simulation», internetactu.net, 2/10/2013, en ligne
sur un écran, ou créée numériquement. Nous sommes habitués à cette dualité d’existence réelle/numérique, mais même si nous nous sommes adaptés aux médias, une part de nous garde la relation instinctive à l’image : une image de nourriture donnera faim, une image effrayante fera reculer. Une étude du docteur Kathleen Page a démontré, en 2006, que le cerveau de jeunes femmes obèses répondait d’une façon spécifique à la vue d’images d’aliments hautement caloriques. Pour ce faire, les sujets ont été analysés
Expérience utilisateur, données et technologie /78
Vers une éducation à la donnée
grâce à un IRM, en les soumettant à la vision de nourriture très calorique, puis lors d’un second passage à des aliments sains. Les participantes ont ensuite noté leur faim et leur envie de manger sur une échelle de 1 à 10. Les “zones de récompenses” des cerveaux des sujets ont été activées lors du passage d’images d’aliments caloriques. Les images ont donc bien un impact sur notre cerveau, qu’elles soient réelles ou créées technologiquement.
University of Southern California - Health Sciences, «Viewing images of high-calorie foods brings on high-calorie cravings, research finds», sciencedaily. com, 25/06/2011, en ligne
Nos usages de la technologie ont évolué, et fait évoluer nos usages communs. Lorsqu’on considère l’exemple de la lecture, on s’aperçoit qu’internet, les sms et les emails aidant, nous lisons sûrement plus que dans les années 70-80. Mais notre façon de lire est différente, et notre façon de penser la lecture même diverge de ce que nos ancêtres ont connu. Ce changement drastique dans notre manière de penser la
Hubert Guillaud, «Nicholas Carr : est-ce que google nous rend idiot ?», internetactu.net, 23/01/09, en ligne
lecture, et par extension la recherche, amène à penser que les nouvelles technologies nous affecteraient notre intellect. C’est la question que se pose Nicholas Carr au sujet d’internet : il constate, il y a quelques années, qu’il a de plus en plus de difficultés à lire des livres ou de longs articles, et entame alors une «vaste enquête sur les transformations majeures
Nicholas Carr, Internet rend-il bête ? : Réapprendre à lire et à penser dans un monde fragmenté, Robert Laffont, 2011
que subit le rapport «lecture-réflexion» sous l’effet de la technologie numérique». Il s’appuie pour ce faire sur des études scienti-
fiques et sur son vécu, et décrit ainsi son calvaire de «désintoxication d’internet», et le ressenti de son entourage alors qu’il ne peut plus être contacté à tout moment. Il dénonce l’aspect distractif du net, allant jusqu’à parler de drogue pour notre cerveau. Pour lui, la dispersion dont nous faisons preuve en nous connectant sur internet et le fait de capter notre attention pour mieux la détourner font d’in-
Expérience utilisateur, données et technologie /79
Nicholas Carr, interviewé par Elias Levy, «Internet menace l’intelligence», quebecscience. qc.ca, 15/02/2013 en ligne
Vers une éducation à la donnée
ternet un danger pour notre intellect. Mais la technologie ne se réduit pas à internet. En somme, la technologie a du bon, et Nicholas Carr se définit même comme un technoIbid.
phile. Ce qui est à redouter, c’est l’usage qu’on en fait. La technologie et ses usages touchent de près les pratiques du designer. Comme pour tant d’autres disciplines, arrive le moment où l’on se demande si elle ne pourrait pas simplement remplacer le professionnel dans certaines de ses décisions. Que devient l’instinct et le savoir faire du designer face aux données récoltées grâce à la technologie ? C’est la question que se pose Braden Kowitz, dans un article
Braden Kowitz, Should Tech Designers Go With Their Guts — Or the Data?, wired.com, 11/11/2013
pour le site Wired. Il part de la constatation que dans beaucoup de firmes, le design n’est plus à l’échelle humaine, mais à l’échelle de la donnée : de nombreux outils existent, qui permettent de garder une trace des comportements des utilisateurs face à un design, et génèrent toujours plus de données. L’«instinct» du designer, jusqu’alors glorifié, a donc été sacrifié sur l’autel du «data», pouvant causer une certaine frustration face à ce flux de données entrantes. D’innombrables tests sont effectués pour la moindre dé-
Deux boutons de Checkout pour le compte de google : si le second génère plus de clics, et est donc plus approprié selon les données récoltées, il n’est cependant pas indiqué dans le cadre d’une démarche qualitative.
cision, malgré le fait que cet instinct du designer, et cette efficacité, se basent selon l’auteur sur l’expérience et l’échec qui s’y joint parfois. Créer un bouton qui génère plus de clics n’est pas forcément cohérent avec le but même de cette création. Un bouton tape-à-l’oeil attirera peut être plus d’actions de la part d’un visiteur, mais ne véhiculera pas l’image souhaitée s’il n’y est pas conforme graphiquement. Ce qu’on appelle “instinct du designer” n’est de plus pas inné, mais fabriqué. Le designer, à sa manière, intègre les données de ses années d’expérience et d’apprentissage,
Expérience utilisateur, données et technologie /80
Capture de l’outil analytics
et les lie à une recherche poussée avant de produire un signe. Il décrypte les réactions de sa cible, par un processus de réflexion acquis. Les données ne sauraient donc pas se substituer aux designers, mais peuvent venir les compléter en cas de doute, de choix d’options restreint, ou pour conforter une décision à court terme. Le travailleur de la donnée pourrait, si l’on en croit les outils qui se multiplient en ligne, être remplacé par la technologie. Sur certains sites, on peut visualiser automatiquement des données nous concernant sous la forme de graphes de toutes variétés. L’un des plus connus et fréquemment critiqué est l’outil Analytics de Google. Celui-ci propose la visualisation d’une multitude de données à ses utilisateurs, présentées selon un modèle défini et fermé. Il permet a comparaison, plus ou moins efficacement, de ces données dans le temps et selon des segmentations de base assez précises. Utilisé autant par des professionnels que des particuliers, il a donc été du ressort de Google de trouver
Expérience utilisateur, données et technologie /81
Vers une éducation à la donnée
des modes de représentation qui conviendraient autant à des pages visitées centaines de milliers de personnes que par une une petite dizaine, et sur des laps de temps très variables. Les écueils de ce mode de traitement de la donnée ne sont pas toujours évités, mais Google permet quand même de sélectionner les données que l’on souhaite traiter avec un degré de précision élevé, afin de générer des rapports personnalisés. La visualisation automatique est un phénomène incontournable, notamment lorsqu’elle s’empare de nos données personnelles : elle amène la visualisation au niveau du storytelling. en marketing, ce terme concerne le fait de raconter une histoire à des fins de definitions-marketing.com, en ligne
communication. Cette technique vise nos émotions, et, au lieu de présenter les faits tels qu’ils sont, les entoure d’un contexte. Ces visualisations automatisées peuvent concerner nos propres données, que nous fournissons volontai-
SumAll est un outil en ligne créé par l’entreprise du même nom
rement. Par exemple, l’outil SumAll permet aux utilisateurs de réseaux sociaux d’analyser leurs interactions en conectant leurs comptes au service qui, régulièrement, enverra des rapports à ses utilisateurs sous la forme de graphiques. En souscrivant à ce service, nous n’avons rien d’autre à faire que d’attendre et regarder, plus ou moins en détail. Pour un utilisateur curieux, cet outil constitue un complément utile à une action sur les réseaux sociaux, qui ne proposent pas ces options par défaut. Mais ce n’est pas pour autant que ces représentations générées automatiquement sont cohérentes. En visualisant mes tweets sur cette interface, on peut remarquer qu’à part un écart conséquent, je ne produits pas de contenu à haut dose. Mon intervention est cependant régulière, mais suite à un pic d’activité, la visualisation produite est disproportionnée. Il existe pour-
Expérience utilisateur, données et technologie /82
Détail de la visualisation de mes tweets via SumAll
tant des modèles qui auraient pu être plus parlants pour représenter mon interaction, comme en utilisant d’autres codes, ou en morcelant la visualisation de données selon les périodes. Cette même plateforme est en constant changement, ses designers et développeurs étant à l’écoute des demandes et cherchant à produire un outil le plus intuitif et performant possible. C’est une bonne base à la visualisation de données, mais cela ne saurait suffir ou se substituer au travailleur de la donnée. La technologie donne une illusion de savoir, alors qu’elle peut lui être nocive. Cependant, elle est un outil utile pour le designer, et si elle ne se suffit pas à elle même, l’usage que l’on en fait est déterminant.
Quand l’utilisateur s’empare de la donnée Nous avons déjà pu constater que la plupart des sites internet dédiés à la génération de visualisations de données per-
Expérience utilisateur, données et technologie /83
Vers une éducation à la donnée
mettaient peu de marge de manoeuvre et ne convenaient pas forcément à une réflexion poussée. Il y existe cependant plusieurs alternatives qui, au lieu de se présenter en tant que simple outils, constituent plutôt une boîte à outils complète, personnalisable et accessible. Il s’agit de solutions Du nom du mouvement créé en 1997 par Eric S. Raymond.
Open Source : du contenu sous licence libre, permettant à tous de s’emparer des moyens mis à leur disposition, mais aussi de les modifier et s’en servir de base. Sur ce modèle, quelques solutions sont proposées aux utilisateurs pour leur permettre de s’approprier la donnée. Par exemple,
http://d3js.org/
grâce à une librairie javascript, D3.js, livrée à l’utilisateur avec sa documentation, et qui se présente sous la forme d’une suite de lignes de codes. Au premier abord obscure, elle constitue en réalité une succession d’outils permettant de représenter graphiquement les données, tout en personnalisant soi-même au maximum les modes de représentation. Couleur, forme, interactivité, sous couvert d’un peu de patience, il est possible de s’emparer de tous les modes de représentation. Le travail n’est cependant pas pré-mâché : un certain nombre d’exemples existent, mais il ne suffit pas de rentrer un jeu de données dans un logiciel pour qu’en ressorte une visualisation, il s’agit d’un outil pour quelqu’un ayant une idée assez précise du rendu souhaité. L’analyse des informations ne saurait donc pas être réalisée a posteriori. Pour cette analyse statistique existent
https://gephi.org/
également des solutions open source, à l’image de Gephi : si l’on s’affranchit de la possibilité via le logiciel de créer des “posters imprimables en haute résolution”, il permet surtout l’analyse statistique des données. Le logiciel met à disposition de son utilisateur des modèles d’analyse sociologique, et une navigation intuitive au possible. L’esthétique n’est
Expérience utilisateur, données et technologie /84
Capture du logiciel Gephi
pas la première visée de ces représentations, la part de la recherche est beaucoup plus importante. Les données ne sont pas seulement lisibles sur un plan, mais un moteur 3D est intégré afin de pouvoir examiner toutes les dimensions des liens éventuels des données entre elles. Bien qu’il ait à sa disposition un panel de solutions lui permettant de s’emparer de la donnée, l’utilisateur n’a pas forcément connaissance des usages et enjeux de sa production comme un travailleur de la donnée pourrait l’avoir. Pour palier certains manquements auxquels l’amateur pourrait faire face se sont créées des communautés qui abordent l’aspect critique de ces représentations de données tout en mettant à disposition des participants des alternatives exemples variés. Sur le blog Helpmeviz.com, les contributeurs sont amenés à publier leur production et l’exposer aux critiques constructives des visiteurs. Certaines visualisations sont même susceptible d’être reprises par d’autres visiteurs, qui en proposent leur version en guise d’alternative. L’idée de ce blog est de créer une communauté basée sur l’échange et
Expérience utilisateur, données et technologie /85
Vers une éducation à la donnée
les critiques constructives. Il faut bien sûr encore sélectionner et garder un esprit critique vis à vis des retours effectués, les commentaires sur ces articles étant anonymes et pouvant être aussi bénéfiques qu’illégitimes, mais la plupart des retours sont documentés et argumentés. Sur ce même espace, on trouve cependant une demande incongrue. Un set de données a été publié, sans début ni trace de visualisation, à la demande d’une association. Celle-ci livrait ses données aux utilisateurs afin qu’ils s’en emparent et proposent une visualisation. Or, la visualisation de données constitue un travail, un effort à part entière. La limite entre le participatif et le bénévolat est mince, et ce genre de propositions peut porter à confusion. Grâce à des outils mis à sa disposition, l’utilisateur peut s’emparer des données et produire lui même la visualisation de sa conception du message qu’elles peuvent porter. Bien qu’il ne soit pas un professionnel de la donnée, il peut faire sa propre sélection, et a accès aux données à toutes les étapes : il travaille en toute connaissance de cause.
Expérience utilisateur, données et technologie /86
Vers une éducation à la donnée
SOUMETTRE DES DONNÉES À UNE VALEUR COMMUNE
On peut être tenté de dire que la sélection et la représentation des données ayant pour objectif de produire du sens conduit à une manipulation du lecteur, et l’induisent donc en erreur. Une solution face à ce peu de données serait donc de lui substituer le tout : toutes les données collectées, sans tri ni ordre précis, fournies au lecteur dans une visée d’objectivité. Une des idées récemment mises en avant par Yann Alary, étudiant à l’ESAD Valence, a été de soumettre les données à une valeur commune, dans une visée d’homogénéisation et d’objectivité. Dans son projet DatArchive, il crée un modèle de présentation des informations, sous la forme de panneaux formant une mosaïque, et pouvant être réorganisés selon différents modèles d’organisation. Selon lui,
Soumettre des données à une valeur commune /87
http://yannalary.com/ datArchive/ Capture ci-dessus
Vers une éducation à la donnée
«soumises à une unité de valeur commune, les publications Etapes 216, écoles et diplômes, Novembre/Décembre 2013
sont perçues de manière objective». Mettre toutes les données sous la même forme, sans les hiérarchiser, permettrait donc de prendre de la distance. L’idée est intéressante car elle reflète la volonté de montrer la donnée pour ce qu’elle est, et non pour ce que son collecteur voulait en faire. Il en résulte néanmoins que les codes choisis semblent obscurs, et que l’ensemble est illisible, voire inutilisable. Ce projet s’inscrit, selon son créateur, dans la nécessité de pérenniser la documentation et produire des outils pertinents pour l’archivage et la consultation de documents. Cependant, il présente des données exemptes du but de leur collecte. Lorsqu’on s’empare d’informations sans s’emparer du contexte de leur établissement, on leur enlève du sens. La volonté d’objectivité se manifeste donc au détriment d’une partie des informations, et le modèle choisi présente une certaine opacité, proche de celle d’une base de données. Si on prend ce projet comme une base de données améliorée, avec un mode de fonctionnement plus accessible, on peut tout de même considérer qu’à une échelle plus importante, ce projet trouverait son intérêt dans la légèreté de son approche : seules des données textuelles sont produites, permettant un affichage rapide, quel que soit le nombre de résultats. Mais cette homogénéisation des modes de représentation de l’information est-elle si rare ? Si l’on fait une recherche sur un site d’informations, les résultats sont souvent proposés de façon homogénéisée. Sur le site du journal Libération par exemple, les résultats concernant les articles sont tous présentés de la même manière, on les met en avant sans les hiérarchiser autrement que par un
Les premiers résultats de la recherche “média” sur liberation.fr
indicateur temporel. Yann Alary a donc étendu un mode
Soumettre des données à une valeur commune /88
Vers une éducation à la donnée
de présentation déjà connu à un projet regroupant plus de sources. L’esthétique du projet est cependant regrettable en cela qu’elle rend le résultat difficilement lisible. Et une pérennisation de la documentation n’a d’intérêt que si elle est consultable et exploitable le plus aisément possible. Garder une empreinte illisible d’une réflexion reviendrait, au final, à la perdre. Les données peuvent être automatiquement mises au même niveau par des moyens logiciels. C’est une des méthodes retenues par de nombreux sites ecommerce afin de traiter les données toujours plus nombreuses qu’ils récoltent en suivant la progression de leurs clients potentiels. Pour aider à la gestion de l’ensemble de ces données existe aujourd’hui le machine learning, ou apprentissage automatique. Grâce à des algorithmes, les informations traitées sont homogénéisées, anonymisées, réduites et mises bout à bout, créant un ensemble illisible par un cerveau humain. Les corrélations ainsi révélées fournissent les clés pour réaliser des recommandations, du classement ou des analyses prédictives de données. Ces algorithmes qui traitent les données avec l’efficacité qu’un humain ne saurait égaler forment en quelques sortes une intelligence artificielle, surpassant les capacités cognitives de l’humain qui ne saurait être aussi rapide et précis dans ses analyses. Mais à ces fins de rapidité et de traiter toujours plus de données est sacrifiée la lisibilité de celles-ci, ainsi que la possibilité de remonter leur processus de traitement. Bien sûr, les algorithmes traitant les informations sont issus de cerveaux humains, mais le propre du machine learning est d’apprendre des données qu’on entre à la base du fonction-
Soumettre des données à une valeur commune /89
Guillaume Belfiore, «BLEND Web Mix : Machine Learning, aux frontières de l’IA», pro.clubic. com, 01/10/13, en ligne
Vers une éducation à la donnée
nement de la solution logicielle. Ainsi, lorsqu’on fournit des données mal préparées ou choisies, on s’expose à des Kernix Lab, «Le machine learning», 30/10/2013
résultats peu pertinents. Il en résulte qu’un certain savoirfaire est nécessaire à l’implémentation de ces méthodes, d’apprentissage automatisé, non seulement pour les préparer, mais également pour les mettre en place et ressortir du travail de l’algorithme un résultat lisible. On assiste de plus à une étrange personnalisation des moyens utilisés pour remplacer l’être humain sur ces tâches pénibles et compliquées. De l’algorithme, on peut dire qu’ «il travaille», et qu’ «il apprend». La limite entre l’homme et la machine semble ténue, du moins au niveau du vocabulaire, déformé par des pratiques technologiques. A l’application de codes graphiques communs, on peut proposer comme proche alternative une comparaison à une valeur commune. Afin de passer d’une entrée subjective dans les données à une entrée objective, on peut comparer des données spécifiques à des moyennes catégorielles, ce qui permettrait ainsi de garder le bénéfice critique de la vue d’ensemble. C’est ce que pense Dominique
«Zoomer ou dézoomer? Les enjeux politiques des données ouvertes», owni.fr, 21/02/2011, en ligne
Cardon, qui propose de préserver le lien entre zoom et dézoom. Nos données sont si poussées qu’un lecteur peut se voir lui-même, mais l’intérêt n’est pas grand lorsqu’il ne s’inscrit pas dans la chaîne d’interdépendances qui le catégorise. Les liens du global au particulier sont donc particulièrement importants pour l’établissement d’une représentation cohérente. Avant de nous voir nous-même, il est important de se situer dans une réflexion dans son ensemble, et ce qui a mené à cette transformation des données. Bruno Latour traduit cette traçabilité de la réflexion
Soumettre des données à une valeur commune /90
Vers une éducation à la donnée
et des actions autour de la donnée par le concept de chaîne de transformation. Propriété essentielle, cette chaîne doit rester réversible. La traçabilité des étapes doit permettre [...] de la parcourir dans les deux sens. Qu’on l’interrompe en n’importe quel point et voilà qu’elle cesse de transporter le vrai, de le produire, de le construire, de le conduire.
Cette valeur commune préconisée par Dominique Cardon doit rester accessible et visible, comme on verrait les piliers d’un bâtiment. cette traçabilité est garante de l’origine des données et de l’absence de modification de la substance même de l’information. Soumettre les données à la comparaison avec une valeur commune est pertinent, notamment lorsque cette démarche s’inscrit dans une volonté de garder une trace de la chaîne de transformation des données. En revanche, si l’homogénéisation des modes de représentation n’est pas nouvelle, et pourrait cependant être étendue dans une visée documentaire, on s’expose à ce que l’esthétique choisie ou rejetée prenne le pas sur le sens ou la lisibilité.
Soumettre des données à une valeur commune /91
Bruno Latour, «Sol amazonien et circulation de la référence» [1993], dans : L’espoir de Pandore. Pour une version réaliste de l’activité scientifique, Paris, La Découverte, 2007, p. 74.
Vers une éducation à la donnée
DES ESTHÉTIQUES AU DÉTRIMENT DU SENS Un choix esthétique peut, volontairement ou non, nuire à la compréhension et au sens des éléments traités. En faisant choix, nous n’apportons donc pas forcément quelque chose à notre tentative de représentation de l’information; il se peut même qu’on lui nuise. En philosophie, l’esthétique propose l’étude de la sensibiDéfinition issue du TLFI, en ligne
lité artistique et de la définition du beau. Kant considère les jugements esthétiques comme des «jugements de goûts»,
Emmanuel Kant, Critique de la faculté de juger, Editions Flammarion,17 janvier 2000
le goût étant la faculté de juger du beau. Ce terme a été
Ce terme est le titre de l’ouvrage d’Alexander Baumgarten, Æsthetica, Francfort-sur-l’Oder, 1750-58
d’æsthetica en partant d’un texte d’Aristote, statuant qu’il n’y
créé en 1750 par Baumgarten, qui invente alors le terme a pas d’essence sans sensation. Fondés sur la base subjective de nos sentiments, les jugements esthétiques portent cependant une contradiction : personnels, ils ont souvent une visée universelle. Notre part la plus subjective chercherait donc à produire de l’objectif. La conception que nous avons de l’objet lorsque nous le considérons nous est propre, et nous ne le voyons pas tel qu’il est dans sa nature mais bien tel que nous le concevons. Le “beau” est alors le reflet de notre plaisir propre lorsqu’on voit cet objet, et non une description de celui-ci, et ce quelles que soient les raisons énoncées pour le justifier. D’après Platon, le sensible ne permet pas une connaissance pérenne puisque tout y est changeant. Le sensible, qu’il oppose à l’intelligible, est
Des esthétiques au détriment du sens /92
Vers une éducation à la donnée
le règne de la différence. Il était donc dévalorisé, comme c’est toujours le cas aujourd’hui. Baumgarten le contredit : dans le sensible il y aurait un savoir que, justement, la logique ne pourrait pas atteindre. L’étude du sensible per-
Bruno Latour, «Sol amazonien et circulation de la référence» [1993], dans : L’espoir de Pandore. Pour une version réaliste de l’activité scientifique, Paris, La Découverte, 2007, p. 74.
mettrait d’avoir un autre savoir, et le logos serait limité. On trouverait selon lui la pensée dans ce qui était rejeté dans la logique. Ce que l’on entend aujourd’hui dans le langage courant par esthétique se résumerait donc à un jugement esthétique, et il en existerait autant que de sujets et de personnes. Lorsqu’on parle d’une esthétique particulière, on évoque plutôt une apparence visant à produire un effet universel. Elle peut résulter d’un choix, mais également dépendre de possibilités techniques. Avec l’avènement des logiciels de bureautique, nous sommes arrivés à une homogénéisation des modes de représentation, au détriment de l’information. Le formatage involontaire des données selon un modèle logiciel est alors gratuit et abrutissant. C’est ce que dénonce Frank Frommer dans La pensée Powerpoint : enquête sur le logiciel qui rend stupide. Alors que le logiciel Microsoft PowerPoint, lancé en 1987, est présent dans quasiment
La pensée Powerpoint : enquête sur le logiciel qui rend stupide, Pocket, 25 Octobre 2012, p.80
toutes nos entreprises et institutions, et même sur nos ordinateurs personnels, il est des voix qui s’élèvent contre son utilisation systématique. Dès le début des années 2000, les premières critiques voient le jour, et parmi elles un article du journaliste du New Yorker Ian Parker, qui paraît en 2001 sous le titre «comment un logiciel édite nos pensées», et dans lequel il fustige l’ascension du logiciel et son omniprésence. Dans l’armée américaine, il devient même l’ennemi principal, désigné en 2010 par le général Stanley
Des esthétiques au détriment du sens /93
ibid, p.9
Vers une éducation à la donnée
A. McChrystal. Les raisons de ces critiques sont multiples. Tout d’abord, le logiciel lisserait nos pensées et permettrai d’user de distraction visuelle, néfaste au message à passer. Il induirait même, selon Tufte, en erreur : en décryptant une slide de présentation de la NASA, il statue que l’accident de la navette Columbia aurait pu être évité si les mécanismes graphiques induits par l’utilisation du logiciel Edward Tufte, The cognitive style of PowerPoint: Pitching out corrupts within, Graphics Press LLC, Cheschire, 2006
n’avaient pas fait diversion d’informations importantes. Ce logiciel est tellement présent que son usage est passé dans le langage courant, on entend d’ailleurs fréquemment parler de “faire un powerpoint”, en remplacement de “faire une présentation”. L’homogénéisation de la présence de ce logiciel et son aspect ludique et créatif en font un élément incontournable de la vie en entreprise, mais la présentation supplante souvent le sens. En effet, l’utilisateur du logiciel dispose d’un espace de travail fixé, un format paysage optimisé pour l’affichage sur l’écran. Pour la composition, il doit simplifier le propos afin de le faire rentrer dans cette slide étroite. Désincarné, le discours est transformé et
La pensée Powerpoint : enquête sur le logiciel qui rend stupide, Pocket, 25 Octobre 2012, p.80
une “syntaxe ppt” se crée pour répondre aux exigences de concision et de présentation imposées par le logiciel. Pire encore, ces présentations sont souvent ponctuées, sans que ce soit nécessaire, d’images visant à mettre un peu d’animation dans un monde sérieux. Cette volonté d’illustrer à tort et à travers, facilitée par l’usage, toujours, du logiciel qui met en avant cette fonction, mène à des présentations
Ibid, p.134
maladroites et décrédibilisantes. Les fonctions de PowerPoint recèlent de dangers pour la représentation de données, et parmi elles se trouvent les fameux “modèles de présentation” : les schémas sont préfabriqués, les mises en pages figées, et le salarié n’est pas poussé à la réflexion lors
Des esthétiques au détriment du sens /94
Vers une éducation à la donnée
de l’élaboration de sa présentation. Il passera plus de temps à choisir une mise en page qu’à penser à la mise en valeur de ses informations. Encore une fois, si le logiciel n’est pas responsable de l’usage qui en est fait, le manque de discernement et de distance par rapport à ses attraits pousse à une contradiction entre sa première visée, qui était de simplifier la présentation d’informations, et le résultat de nos jours, l’adoption de réflexes graphiques et de composition au détriment de l’information représentée. L’homogénéisation peut cependant avoir du bon, comme chez Otto Neurath lorsqu’il met en place des principes de fonctionnement et de représentation qui doivent se transformer en automatismes, afin de permettre à ses collaborateurs de produire du contenu pertinent et sous une certaine unité. La représentation au détriment de l’information n’est pas surprenante, le sentiment, et donc l’esthétique, prenant une part importante dans le processus de visualisation. On peut rapidement perdre de vue un objectif sur l’autel de notre conception du beau. De nombreux amateurs de la donnée décident de faire passer leurs messages via des représentation de données, et produisent des erreurs de symbolique, de représentation, ou de choix de données de base. Mais les travailleurs de la donnée ne sont pas non plus à l’abri de tels écueils. Beaucoup de contenu est diffusé sur internet, répondant à une tendance d’utilisation de ce mode de représentation qui s’étend depuis quelques années. Ce contenu plus ou moins porteur est parfois recensé à des fins de critique ou de moquerie, comme par exemple sur le blog «WTF visualisation ?». Ce blog a pour vocation de montrer le ridicule de certaines visualisations réalisées en dépit du bon sens.
Des esthétiques au détriment du sens /95
http://wtfviz.net/
Vers une éducation à la donnée
Pour exemple, sur la visualisation ci-contre, l’auteur a apparemment souhaité représenter les densités des pays européens, en produisant un conglomérat de disques de faible opacité. Le tout est illisible, chaque disque étant difficilement apparenté à un pays, et l’échelle n’étant pas indiquée. Ce que n’indique ni le titre, ni aucun des éléments de cette visualisation, c’est que les auteurs ont volontairement créé cet amas aux parties indistinctes pour prôner Comme expliqué sur le site visual.ly en ligne
l’unité de l’Europe plus que ses disparités. Mais que ce soit pour un discours ou un autre, ce mode de représentation ne fonctionne pas et n’a pas l’impact souhaité. Le visuel a pourtant été partagé, notamment sur les réseaux sociaux. Les tentations d’appliquer des principes graphiques qui nous semblent impactant, quel que soit le message à passer, ne sont pas forcément à suivre. Edward Tufte note d’ailleurs qu’utiliser de gros contrastes pour montrer l’information n’est pas forcément cohérent, et nuit plutôt à la lisibilité. Par exemple, si l’on souhaite représenter les
Visual Explanations: Images and Quantities, Evidence and Narrative, Graphics Press USA, 31 mars 1997, p.77
niveaux de profondeur des côtes japonaises. Les contrastes élevés et les couleurs saturés ne donnent pas réellement d’indication sur les informations représentées, et ne font pas écho à des codes logiques.En revanche, de petites différences de teinte sont plus efficaces et rendent la carte plus lisible. Parfois graphiquement la nuance est préférable au contraste, et savoir s’adapter à la donnée, et non tordre la donnée pour correspondre à un modèle est primordial. Le journal The Guardian, pourtant friand de visualisation de données dont ses articles sont régulièrement ponctués,
Visual Explanations: Images and Quantities, Evidence and Narrative, Graphics Press USA, 31 mars 1997, p.77
publie un article intitulé «16 infographies inutiles». En préambule, Mona Chalabi explique que si une image explique une information clairement et simplement, il s’agit d’une
Des esthétiques au détriment du sens /96
Exemple de visualisation présentée sur le blog «WTF dataviz ?» avec le commentaire «Grape soda is bubbly.»
Sur cette carte, présentée par Edward Tufte dans Visual Explanations, on a utilisé une échelle composée de couleurs saturées et contrastées.
Des esthétiques au détriment du sens /97
Vers une éducation à la donnée
infographie, mais qu’il existe parmi elle des cauchemars visuels qui plongent leurs lecteurs dans l’incompréhension. S’ensuit un diaporama de 16 visualisations de données, commentées avec humour, et auxquelles l’auteur ajoute un commentaire ironique demandant à quiconque comprenant une des images de la contacter. Les nombreux commentaires de cet article montrent l’intérêt porté par le public à ses fautes de goût et de bon sens. Le fait qu’un grand journal mette en lumière les choix esthétiques au détriment du sens montre une prise de conscience collective successive à l’emballement de ces dernières années face à ce mode de représentation. Si l’esthétique relève avant tout du sensible, et est propre à chacun, ce que nous produisons et qui répond à notre conception du beau n’est pas forcément efficace. Que ce soit par la faute de l’utilisation d’un logiciel trop envahissant, ou de tentative maladroite de notre part de faire passer un message, il n’est pas rare de produire une image très écartée du sens que nous souhaitions lui donner. Il en résulte que l’attention portée au détail et aux choix effectués doit être à la hauteur de l’exigence propre à la représentation de données, et ne pas s’inscrire dans un automatisme aveugle.
Des esthétiques au détriment du sens /98
Vers une éducation à la donnée
LE TOUT, ALTERNATIVE AU PEU ? Avec le crawl data, nous avons accès à une quantité incroyable de données numériques, sans tri ni choix. Ces données sont notamment à disposition de ceux qui n’ont accès à rien, et sont fournies de manière la plus brute possible. Se pose alors la question de l’expérience faite par les utilisateurs de ces données. Les révélations de données et d’informations ont fait la une des journaux ces dernières années. La donnée tend à devenir citoyenne et son importance d’un point de vue politique comme pratique n’est plus à prouver. Mais si nous sommes, notamment en Europe, entourés de données libres parfois plus nombreuses que ce que nous voudrions, nous avons tendance à oublier que ne n’est pas le cas partout. L’importance de la donnée citoyenne ne cesse de grandir, grâce à sa démocratisation à la suite de grands scandales politiques. Nous sommes habitués à la multitude de données qui nous entoure, quid des pays qui n’y ont pas accès dans la même mesure que nous ? Le “bouclier doré” chinois est un bon exemple de la censure du net par certains gouvernements. Ce dispositif mis en place depuis 1998, ce projet a été effectif en 2003. Il bloque notamment le contenu et les internautes pour limiter l’accès à certaines informations. Il existe même, depuis 2007, une “cyber police” chargée de faire appliquer les différentes limitations, et de repérer
Le tout, alternative au peu ? /99
On appelle crawl data l’ensemble des données récoltées par un crawler, logiciel qui sonde et indexe une masse de contenu en explorant automatiquement le web.
Vers une éducation à la donnée
François d’Alençon, «La grande muraille autour de l’internet chinois», reproduit sur le site european-security.com, Paris, 29 Juin 2008, en ligne
les contrevenants. Toujours en 2007, des multinationales comme Microsoft ou Yahoo ont signé un «pacte d’autodiscipline», d’après lequel ils devaient non seulement censurer, mais également fournir des informations personnelles à propos de blogueurs qui s’opposeraient à la loi. Les censeurs chinois filtrent donc le contenu disponible par mots clés et présentent des messages d’erreur à cet effet. Le régime iranien est aussi un fervent opposant à la liberté d’internet, et malgré ces 150 fournisseurs d’accès, dont la plupart sont privatisés, le pouvoir garde la main mise sur le web. Les réseaux sociaux sont notamment dans le collimateur du pouvoir, après les révolutions arabes auxquelles
Reporters sans frontières, Iran, en ligne
ils ont largement contribué. Ces pays ennemis d’internet, que Reporters Sans Frontières dénonce, sont plus nombreux qu’on pourrait le penser, et comptent également dans leurs rangs Barheïn, la Syrie et le Vietnam… Face à cet accès restreint, il existe néanmoins un certain nombre de solutions techniques, mais elles ne sont pas à portée de tous. Avec le crawl data cependant, le web est plus à portée. Certains organismes ont pour vocation, grâce à cette technologie, d’indexer la totalité du web. L’ensemble des données collectées en 2013 par commoncrawl.com, contient 2 billions de pages internet et pèse, non-compressée, 102TB. S’y ajoutent ensuite des questions plus techniques sur les formats et l’organisation employée pour répertorier les données. L’équipe s’est fixé pour objectif de maintenir un «crawl» à jour et de permettre à tout un chacun d’analyser les données ainsi collectées. A plus grande échelle, ils souhaitent un web ouvert et un accès universel aux informations, afin de permettre une plus grande innovation dans divers domaines. Il est précisé dans cette section que le web
Le tout, alternative au peu ? /100
Vers une éducation à la donnée
crawl data peut être utilisé pour identifier des modèles en politique, économie, santé, culture et beaucoup d’autres aspects de notre vie. Vouloir créer une base de données contenant tous les contenus disponibles sur le web est très ambitieux : selon un article de Mashable, en 2011, 150 000 URL étaient créées par jour, soit 21% de plus que l’année précédente. Outre la performance technique, on voit ici une portée sociale, culturelle et scientifique. Il y a également un accès utopique dans ce souhait de partage. Dans certains pays où l’accès aux données est très limité et le téléchargement bridé, ces données pourraient permettre à des populations d’avoir accès à une totalité de contenu et d’effectuer des recherches en toute liberté. encore faut-il que les données produites soient lisible, aussi bien techniquement que graphiquement. Face à des milliards de données portant sur des sujets divers, des questions de présentation et d’interface se posent également. La lecture de ce genre de bases de données est réservée à des initiés, et à vouloir en montrer toujours plus, l’intention des créateurs de ce genre de fichiers peut vite se perdre dans le marasme d’informations qu’ils agrègent eux-même. Le traitement de la multitude de données fournies dans le cadre de wikileaks et l’opacité de l’interface produite pour y accéder est un exemple même du mal que la quantité peut faire à la lisibilité. Le résultat d’une recherche mène sur une page munie d’une interface pauvre, et les documents semblent peu classés. lls sont pourtant au contraire indexés dans des catégories précises, si l’on en croit les critères de recherche avancée. Mais l’exploration pure de ces documents est à proprement parler quasi impossible, surtout si l’on ne possède que peu d’expérience dans le domaine militaire. Cette
Le tout, alternative au peu ? /101
Jolie O’Dell, «How big is the web & how fast is it growing ?», mashable.com, en ligne
Un exemple de page de résultat de recherche sur Wikileaks
interface opaque d’un archivage massif de documents démontre bien les difficultés de rendre accessible une multitude de documents non seulement par leur présence en ligne, mais aussi du point de vue de la lisibilité. A contre courant, la sélection du contenu que l’on souhaite archiver semble une solution logique à ces accès temporaires ou limités aux documents publiés. De nombreuses solutions existent, en tant qu’extensions de navigateurs internet ou Une liste non exhaustive de ces méthodes est disponible en ligne, sur le site wiki.korben.info
sites à part entière qui permettent de garder des traces et de contourner une éventuelle censure. Nous bénéficions d’une marge de manoeuvre apparemment élevée sur internet. Mais notre liberté est toutefois relative. Les moteurs de recherche indexent le contenu web mis à leur portée automatiquement. Certains contenus non protégés peuvent donc être référencés et accessibles indépendamment de la volonté de leurs possesseurs. Le Hacktiviste Bluetouff, de son vrai nom Olivier Laurelli, a été attaqué en justice par l’Agence nationale de sécurité
Le tout, alternative au peu ? /102
Vers une éducation à la donnée
sanitaire de l’alimentation, pour avoir selon l’établissement exploité une faille de sécurité pour accéder à des documents confidentiels. L’accusé nie avoir avoir eu connaissance du caractère confidentiel des documents auxquels il a eu accès, ceux-ci étant disponibles sans restriction à partir d’une simple recherche sur Google. Les fichiers étaient en réalité destinés à un échange privé sur l’intranet de l’ANSES, qui estime que, puisqu’ils se trouvaient dans une arborescence à la base de laquelle était demandé une authentification, il coule de source qu’ils requièrent également d’être un utilisateur autorisé pour les consulter. J’ai fait ce que tout internaute fait sans y prêter attention chaque jour quand il surfe sur des pages web. J’ai posé à un moteur de recherche une question, il m’a répondu sous forme de liens, j’ai cliqué sur un lien, le serveur m’a répondu ok voici le document
Une fois qu’il a accédé à ces fichiers, il est remonté dans l’arborescence du site et aurait, selon ses accusateurs, alors dû comprendre qu’il n’avait pas le droit d’avoir accès à ces documents et le fait de se maintenir dans un système public constituant un délit, il aurait dû arrêter de les utiliser. Alors qu’il publie de articles basés sur ces informations, l’agence porte plainte pensant avoir été piratée, à défaut d’avoir conscience que son extranet met à disposition du public les documents incriminés. Le premier jugement passé, il semblerait que l’ANSES ait pris conscience que le problème venait de son système et, bien que l’accusé n’ait pas été condamné, elle ne fait pas appel, contrairement au parquet qui obtint sa condamnation à une amende. Cette affaire constitue un exemple des dangers de l’accès à tout : si nos recherches nous donnent pour résultat des contenus
Le tout, alternative au peu ? 103
Bluetouff, «Du délit de maintien dans un espace public», bluetouff.com, 10/02/2014, en ligne
Ibid.
Vers une éducation à la donnée
mis en ligne, il n’est pas pour autant garanti que ceux-ci soient voués à être découverts. Les questions de sécurisation et de référencement sont d’autant plus importants qu’avec le crawl data et le développement d’algorithmes de recherche et d’indexation de plus en plus performants, les limites du référencement sont repoussées. La nécessité de cacher et de sécuriser est donc au centre des attentions. Que ce soit pour des questions d’éthique, de confidentialité, ou de nécessité commerciale, la volonté de rendre la donnée illisible pour n’en montrer que l’effet est souvent pressante. Ainsi, le cryptage de données est sujet à de nombreuses recherches, aux résultats parfois surprenants. Lorsque nous envoyons nos données dans le cloud, un espace de stockage en ligne, nos données sont à disposition des fournisseurs de service, et nous ne les cryptons pas. Ceci pose des problèmes de confidentialité, et nous n’avons techniquement pour le moment que peu de recours pour éviter la dispersion de nos informations. Sans garantie que nos fichiers ne seront pas analysés et disséminés, nous sommes donc tenus de faire preuve de recul et de retenue. Des recherches concluantes menées par le professeur Amid Sahai ont cependant été menées pour permettre le cryptage de données de manière efficace avant l’envoi. Par une méthode de chiffrage complexe, nous pourrions donc garder les clés de nos propres documents. Cette avancée soulève néanmoins d’autres problèmes, à savoir le partage des données moins aisé, mais également une question d’espace, le chiffrage alourdissant considérablement «Sotchi, Psychopathes & Cryptographie», La tête au carré, France inter, 05/02/2014
les fichiers. Si des progrès restent à faire, cette volonté de cryptage révèle néanmoins que si nous sommes prêts à tout partager, nous ne souhaitons parfois le faire qu’avec
Le tout, alternative au peu ? /104
Vers une éducation à la donnée
un nombre réduit d’interlocuteurs, et tout en gardant le contrôle sur nos données. Que nous souhaitions les protéger, y accéder ou non, nous sommes bien nourris d’une quantité astronomique de données. C’est la cause d’une certaine «infobésité» dont sont la proie les acteurs de notre temps. L’homme est exposé à plus d’informations qu’il ne peut traiter, à tel point qu’il finit par ne plus voir de sens ni de hiérarchie dans les éléments proposés. Cette surcharge d’informations apportée par nos technologies et l’usage que nous en faisons, joignables 24h/24, capables d’effectuer des recherches plus rapidement que nous les pensons, semble aux yeux de certains constituer un problème de santé publique. Ainsi, alors qu’on peut calculer notre «infobésité» en ligne, ce qui nous expose d’ailleurs à encore plus de données, on en vient à se demander comment se protéger de ces don-
Le site www.calculermoninfobesite. fr, édité par Mindjet, permet en dix questions de se situer sur l’échelle de l’«infobésité»
nées qui deviennent envahissantes. Ce sujet est au centre de livres, d’articles, de méthodes de management, et ce qui était perçu auparavant comme une manne financière est vu comme une menace, notamment dans le monde de l’entreprise. Le temps passé à répondre à des mails ou à rechercher et traiter des informations porterait atteinte au bien-être du salarié, et causerait même une addiction. Et pourtant, même les articles traitant de ce sujet regorgent de sondages et autres statistiques pour appuyer ces dires. Les données sont prétextes à de nombreuses contradictions, le tout n’est pas toujours préférable au peu, surtout lorsqu’il s’agit de d’assimiler de l’information dans le cadre d’une activité professionnelle. On peut alors se demander si tenter de simplifier tous ces apports d’informations ne
Le tout, alternative au peu ? /105
L’Expansion.com avec AFP, «L’infobésité, le nouveau fléau de l’entreprise», lexpansion. lexpress.fr, 31/08/2012, en ligne
Vers une éducation à la donnée
serait pas préférable pour le bien-être et la compréhension des récepteurs. Mais la simplification n’est pas toujours la solution : à ce sujet, John Maeda énonce sa neuvième loi de John Maeda, De la simplicité, Petite bibliothèque Payot, Paris, 2009
la simplicité, l’échec. Le designer doit en effet savoir accepter que tout ne puisse pas être simplifié, et certaines choses n’ont pas intérêt à l’être. Parmi le flux d’informations complexes qui nous parvient, il serait aisé de dire qu’il nous suffit de peu pour comprendre ce que cette masse de données peut nous apporter. Et pourtant, à trop vouloir simplifier, on se risque à perdre l’essence même de l’information. Tenter de simplifier une interprétation est honorable, si tant est que l’on sache s’arrêter et, le cas échéant, revenir en arrière. Sur la visualisation ci-contre par exemple, la tentation de simplifier le budget au maximum et d’une manière originale a été plus forte que le message et le sens. Le diagramme choisi ne semble pas convenir, et les proportions ne sont pas respectées ni indiquées, et on ne comprend pas vraiment le but de cette représentation. L’auteur de cette visualisation aurait pu, en prenant un peu de recul vis à vis
Une visualisation ultra-simplifiée. Wond, «Fifa World Cup - Now and Then - 2014 vs 1950», visal.ly, en ligne
de l’image, remarquer son erreur et la corriger. S’il avait choisi un autre mode de présentation, en y ajoutant ce qu’il a supprimé, c’est à dire une échelle ou un référent, la représentation des données aurait gagné en clarté. La limite est donc fine entre le trop et le trop peu, mais tout bon transformateur de donnée se doit donc d’avoir le recul nécessaire sur l’image qu’il produit. Une représentation simple doit tout de même contenir assez d’informations pour ne pas perdre son essence. Parfois le moins peut le plus, il suffit de trouver le juste milieu et ne pas se laisser impressionner par les quantités de
Le tout, alternative au peu ? /106
Vers une éducation à la donnée
données qui nous sont accessibles. Le choix, quand il est possible, est préférable à la masse et nous permet d’orienter une réflexion et de la construire plus efficacement. Face au big data et au crawl data, l’orientation personnelle n’est donc pas à écarter, et une fois l’attrait de la quantité passée, on est vite tenter de revenir à une échelle plus raisonnable et assimilable à échelle humaine. L’utilisateur n’est pas forcément voué à être face aux données. Une fois affranchi du mirage des technologies, il peut les utiliser pour s’emparer de la donnée. Encore faut-il seulement qu’il ait à sa portée des outils efficaces, qui remettent en question les modes de représentation communs de la donnée. L’homogénéisation des aspects de la donnée est en effet à la fois un atout et un danger pour la représentation de l’information, et, si elle permet par des interfaces simplifiées un travail d’archivage et de lecture rapide de la donnée, elle est parfois gratuite et inutile. Quand l’esthétique choisie par un auteur l’est au détriment du message qu’il veut passer, le choix peut être l’ennemi du bien. Mais ce n’est pas pour autant qu’une absence du choix est préférable dans tous les cas : nous avons une quantité astronomique de données à notre disposition, tant et si bien que s’y perdre est plus probable qu’y trouver son compte. Le changement d’échelle, sur le principe du zoom et du dézoom, nous permet en variant les référents d’arriver à une conception plus humaine de la donnée et de la restituer dans son aspect le plus utile.
Le tout, alternative au peu ? /107
APPRENONS ! DONNÉES ET CITOYENNETÉ
Vers une éducation à la donnée
L’objectivité est, du point de vue du chercheur comme du philosophe, hors de portée. Le juge qui pourrait en faire preuve n’existe pas, car il devrait ne pas avoir vécu et donc ne pas avoir d’expérience du monde. Mais l’être humain n’est pas incapable de s’en rapprocher et y a vocation dans de nombreux domaines. Si les méthodes diffèrent et sont sujet à polémiques, elles prennent toutes en compte l’expérience préalablement acquise, et par extension la culture du créateur comme du spectateur. Traitées à des fins variées, les données n’échappent pas à cette règle dans leur représentation, et ce dès leur collecte, effectuée par des transformateurs de l’information dont le travail est primordial. Leur savoir-faire et les responsabilités qui incombent à la manipulation des données quelle que soit l’exploitation qui en est faite sont la source d’un apprentissage, et donc la base d’un savoir. Comme toute base, elle ne peut se permettre d’être totalement erronée ou orientée, et nécessite un recul, d’ordre scientifique mais aussi social. En effet, l’éthique est engagée dès la collecte, parfois jugée outrancière, de données qui concernent la population. Et même si celle-ci n’est pas du ressort du transformateur, à la fois designer et chercheur, il est impliqué dans la mise en avant d’informations parfois sensibles, à la frontière de la vie privée. Le sens donné à l’image produite est livré à un spectateur qui n’est pas totalement passif, qui est plus vraisemblablement proche du “spect-acteur” que de l’image d’élève amorphe qu’on pourrait en avoir. Si lors de son action de transformation, le designer s’applique à répondre au contrat d’une sémiologie graphique claire, et à donner à son interlocuteur les clés de l’information en la rendant intelligible, le spectateur n’a pas de raison d’être manipulé,
Apprenons ! Données et citoyenneté /109
Vers une éducation à la donnée
tant qu’il garde la distance à l’image comme il la garderait vis à vis d’un article qui cite ses sources. Mais en “tordant” graphiquement l’information et lui donnant un sens qui n’y figure pas naturellement, que ce soit volontairement ou indépendamment de sa volonté, il a le pouvoir de faire mentir une image qui provoque pourtant la confiance par le poids des chiffres. La donnée n’est pas garante de fiabilité, et ce quel que soit le moyen choisi pour la représenter. Les possibilités qui s’offrent au transformateur sont multiples, et parmi elles la technologie et le numérique constituent des moyens dont l’attrait n’est pas négligeable. L’usage que l’on en fait est déterminant et n’est pas réservé au designer, mais à la portée du public lui-même. Attention cependant à ne pas succomber aux mirages de la technologie qui, sous des aspects de facilité et d’accessibilité, risque de produire des images insensées voire trompeuses. Mais le fait que le spectateur puisse, dans une certaine mesure, faire lui-même son choix dans un jeu de données et en extraire le sens grâce aux options qui lui sont offertes constitue une avancée sociale non négligeable. En soumettant les données à une valeur commune, on ouvre la possibilité d’effectuer un travail de documentation efficace, et d’établir des codes de la donnée à une échelle qui pourrait permettre leur démocratisation. On s’expose néanmoins à une homogénéisation des modes de représentations de données qui, noyés dans la masse, voient leur sens disparaître. L’esthétique et les codes choisis seraient alors établis aux dépens du sens et l’image produite, malgré une bonne volonté, trompeuse. L’attention portée aux détails et aux choix effectués par le transformateur est donc la base d’une représentation graphique efficace et sensible, et
Apprenons ! Données et citoyenneté /110
Vers une éducation à la donnée
empêcherait de s’enfermer dans un automatisme aveugle. Les grandes quantités de données peuvent justement tenter leurs récepteurs d’utiliser ces procédés automatiques, mais à l’ère du big data et de l’information de masse, il est plus qu’important de savoir changer d’échelle et mettre en exergue son approche personnelle, en revenant au niveau humain. Que nous le souhaitions ou non, c’est un fait, nos vies sont jonchées de données. Il en faut peu pour qu’elles régissent notre quotidien, nous envahissent, prennent le pouvoir, ce pouvoir que nous leur donnons inconsciemment. Comment éviter que les “artisans de la donnée” et ceux qui ont compris leur potentiel les utilisent à nos dépens ? Si la collecte et la transformation des données relèvent d’un métier, elles sont donc sujettes à apprentissage. Voir et saisir la donnée, c’est avant tout apprendre à en comprendre les codes et à assimiler les réflexes à avoir face à l’information. Il est donc dans la logique de notre accès croissant aux données d’éduquer le public à leur appréhension. Et pourquoi pas créer une école de la donnée : c’est l’ambition de la School of Data de l’Open Knowledge Foundation, créée en mai 2012. Le but de cette structure est, en donnant aux citoyens les clés de la compréhension des données, de leur rendre plus de pouvoir. Pour ce faire sont créés des cours complets et accessibles, et leur adaptation en plusieurs langues a été lancée. Trouver des données, dissiper les idées reçues, produire du sens sont autant de sujets autour desquels se construisent des instructions. La donnée citoyenne, c’est quelque part le «retour sur investissement» des fournis-
Apprenons ! Données et citoyenneté /111
http://ecoledesdonnees.org/ handbook/cours/
Vers une éducation à la donnée
seurs de données. Ces informations, nous les produisons, et nous les laissons partir dans la nature. Il ne tient alors qu’à nous de nous en emparer et d’en faire un atout. C’est ce qu’on compris depuis longtemps les journalistes, et une nouvelle discipline a vu le jour pour mieux dévoiler les «dessous» des données. Sur des blogs, sur Twitter, sur les sites des journaux ou même dans leur version papier, ils sont là, les datajournalistes, forts de leur expérience de décryptage, mettent à portée du public leurs analyses. Chacun d’entre nous a en lui ce potentiel de curiosité et d’engagement qui peut le pousser à aller plus loin que ce qu’on lui montre, à prendre parti face à l’abrutissement de masse et à enfin remettre en question ce que les puissances économiques, commerciales et politiques prennent pour acquis : le pouvoir aveugle des chiffres. Ces démarches permettent de s’attaquer à des amas de données au premier abord inatteignables et, par la force de la collectivité, d’en faire ressortir l’important. L’application collaborative produite par Owni pour l’exploration collective des warlogs irakiens à la révélation des documents sur wikileaks John Maeda, De la simplicité, Petite bibliothèque Payot, Paris, 2009
est un bon exemple de ce que le crowdsourcing utilisé à bon escient peu apporter à l’exposition de l’information. Tout comme la vulgarisation scientifique est entrée dans les moeurs, étant le sujet de nombreuses émissions de télévision, de cours à l’école publique, ou encore de sites internet et d’applications numériques, la vulgarisation de la donnée commence à faire son chemin. Car si les objets connectés mettent à notre portée des utilisations très précises des données qu’ils collectent, ils pourraient aussi nous les restituer telles que réceptionnées et nous donner, pourquoi pas, la possibilité de reprendre une vision plus personnelle de
Apprenons ! Données et citoyenneté /112
Vers une éducation à la donnée
ce qui nous appartient. Après des années d’exploitation de l’écrit tel qu’il le connaît, l’utilisateur pourrait appréhender un nouveau langage, s’emparer d’un nouveau médium. Le graphisme de données ne pourrait alors que s’enrichir et supporter ce nouvel engouement, en mettant à disposition des citoyens des interfaces et des outils clairs, mais aussi en les éduquant à la représentation de la donnée. Cette tendance est déjà en marche et de plus en plus de sites internet promeuvent l’entraide et l’éducation aux données.
Apprenons ! Données et citoyenneté /113
Vers une éducation à la donnée
BIBLIOGRAPHIE PAR ORDRE CHRONOLOGIQUE Les livres
Sous la direction de Pierre Bourdieu Robert Castel, Luc Boltanski et Jean-Claude
Montaigne, «Au lecteur», Essais, 1580, éd. P.
Chamboredon, Un art moyen, essai sur les
Villey et V.-L. Saulnier
usages sociaux de la photographie, Les éditions de minuit,1965
N. Oresme, Ethiques, La table des moz divers et estranges, éd. A. D. Menut fol. 223c, p.545
Claude Lévi-Strauss, Race et Histoire, Albin michel, 2002
Gianni Paganini, Skepsis: le début des modernes sur le scepticisme, Vrin, 2008, p. 113
Norbert Aujoulat, Lascaux. Le geste, l’espace et le temps, Paris, Seuil, 2004
Albert Einstein et Leopold Infeld, L’évolution des idées en physique, Petite bibliothèque
Galileo Galilei, Istoria e dimostrazioni in-
Payot, 1963
torno alle macchie solori…, Rome, Appresso Giacomo Mascardi, 1655.
Loraine Daston et Peter Gallison, ObjectiMarie Neurath et Robin Kinross, Le trans-
vité, Les presses du réel, 2012
formateur, principes de création des diaNicolaas Hartsoeker, Essay de dioptrique,
grammes isotypes, traduit par Damien Subo-
Paris: Jean Anisson, 1694
ticki, B42, 2013
Yvan Toulouse, Technique et création, Edi-
Otto Neurath, Basic by Isotype, Londres,
tions L’Harmattan, 1 juin 2012
Kegan Paul, 1937 Jacques Rancière, Le spectateur émancipé, La fabrique éditions, 2008
Bibliographie par ordre chronologique /115
Vers une éducation à la donnée
Jacques Rancière, Le maître ignorant : Cinq
Edward Tufte, The cognitive style of Power-
leçons sur l’émancipation intellectuelle, 10 X
Point: Pitching out corrupts within, Graphics
18, 1 septembre 2004
Press LLC, Cheschire, 2006
Bertin, Jacques, Sémiologie graphique, Les
John Maeda, De la simplicité, Petite biblio-
diagrammes – Les réseaux – Les cartes, Paris,
thèque Payot, Paris, 2009
Editions de l’EHESS, 4e éditions, 2005 (1ère édition : Paris, Editions Gauthier-Villar, 1967)
Les articles
Edward Tufte, Visual Explanations: Images
Florentin Collomp, «Tourisme : Londres
and Quantities, Evidence and Narrative, Gra-
détrône Paris», le Figaro, le 16/01/2014, (en
phics Press USA, 31 mars 1997
ligne)
Nicolas Carr, Internet rend-il bête ? : Réap-
Vincent
prendre à lire et à penser dans un monde frag-
Paris”, le Figaro en flagrand délit de Pa-
menté, Robert Laffont, 6 octobre 2011
ris Bashing», Arrêt sur images, publié le
Coquaz,
«“Londres
détrône
17/01/2014, en ligne Etapes 216, écoles et diplômes, Novembre/ Décembre 2013
«Les graphiques politiques : communication ou manipulation ?», decideo.fr,
Bruno Latour, «Sol amazonien et circula-
4/10/2012, en ligne
tion de la référence» [1993], dans : L’espoir de Pandore. Pour une version réaliste de l’acti-
André et Séverine Giordan, «le spermato-
vité scientifique, Paris, La Découverte, 2007
zoïde a aussi une histoire», andregiordan. com, en ligne
Emmanuel Kant, Critique de la faculté de juger, Editions Flammarion,17 janvier 2000
Communiqué de presse de l’exposition Controverses, photographies à histoires, bnf,
Franck Bromer, La pensée Powerpoint : en-
en ligne
quête sur le logiciel qui rend stupide, Pocket, 25 Octobre 2012
Camille
Gévaudan,
«Associated
press
efface un photographe photoshoppeur», Libération.fr, 23/01/2014
Bibliographie par ordre chronologique /116
Vers une éducation à la donnée
Dossier pédagogique de l’exposition Expé-
phane Raux «Travail et travailleurs de la
rimentations photographiques en europe, en
donnée»,
ligne
ligne
Patricia Falguières, «L’empire des normes»,
Hubert Guillaud, «Julie Denouël et Fabien
RosaB.net, en ligne
Granjon : les usages en question», Interne-
InternetActu.net,13/12/2013,
en
tActu.net, 15/6/11, en ligne Françoise de Blomac, «énormes normes», decryptageo.fr, 12/12/2013, en ligne
Chloé Dussapt, «La Fnac gagne la base clients de Virgin pour 54.000 euros», Chal-
Sébastien Falletti, «La Corée du Nord n’est
lenges.fr, le 3/07/2013
plus un trou noir dans Google Maps», le Figaro, 29/01/2013, en ligne
David Griner, «Sites I Visit Are Now Following Me on Twitter, and It’s Super
Todd Reubold, «A song of our warming
Creepy : With retargeting, private brow-
planet», ensia.com, 28/06/2013, en ligne
sing has public consequences», Adweek. com, 5/02/2014, en ligne
Michel Toulmonde, Galilée et les satellites de Jupiter, au service de la cartographie du
Marchak, The magic of visual interaction
XVIIème siècle, Fleurance, 14 août 2009, p.1,
design, Newsletter ACM SIGCHI Bulletin,
en ligne
Juillet/Aout 2000, p.9, consultée en ligne le 05/02/2014
Monique Pelletier, Les Cassini à l’Observatoire de Paris, BNF, en ligne
Mitchel Stimers, Ryan Bergstrom, Thomas Vought, Michael Dulin, Capital Vice in
Marie
Neurath,
«Isotype»,
Instructional
Science, vol.3, n°2, 1974
the Midwest: The Spatial Distribution of the Seven Deadly Sins, Department of Geography, Kansas State University, 2011
Olivier Tesquet, «Warlogs Irakiens : l’interface de visualisation», owni.fr, 22/10/2010,
Hubert
en ligne
tisation
Guillaud, en
question»,
14/01/2014, en ligne Irène Bastard, Dominique Cardon, Guilhem Fouetillou, Christophe Prieur, Sté-
Bibliographie par ordre chronologique /117
«Travail
:
l’automa-
internetactu.net,
Vers une éducation à la donnée
Hubert Guillaud, «une société de simula-
Bluetouff, «Du délit de maintien dans un
tion», internetactu.net, 2/10/2013, en ligne
espace public», bluetouff.com, 10/02/2014, en ligne
University of Southern California - Health Sciences, «Viewing images of high-calorie
L’Expansion.com avec AFP, «L’«infobési-
foods brings on high-calorie cravings, re-
té», le nouveau fléau de l’entreprise», lex-
search finds», sciencedaily.com, 25/06/2011,
pansion.lexpress.fr, 31/08/2012, en ligne
en ligne Hubert Guillaud, «Nicholas Carr : est-ce
Les sites web
que google nous rend idiot ?», internetactu. net, 23/01/09, en ligne
Trésor de la Langue Française Informatisée, http://atilf.atilf.fr/
Guillaume Belfiore, «BLEND Web Mix : Machine Learning, aux frontières de l’IA»,
Site officiel de Lascaux lascaux.culture.fr
pro.clubic.com, 01/10/13, en ligne Exposition virtuelle «CARTE TOPOGRA«Zoomer ou dézoomer? Les enjeux poli-
PHIQUE DE LA FRANCE A L’ECHELLE
tiques des données ouvertes», owni.fr,
de 1/80 000 dite carte d’Etat-Major», Institut
21/02/2011, en ligne
catholique de Paris
Mona Chalabi, «16 useless infographics»,
Site officiel du langage SAS SAS.com
the Guardian, 01/08/2013, en ligne Site de l’application ALGOPOL http://app. François d’Alençon, «La grande muraille
algopol.fr/info
autour de l’internet chinois», reproduit sur le site european-security.com, Paris, 29 Juin
Site de l’open data du gouvernement Fran-
2008, en ligne
çais data.gouv.fr
Jolie O’Dell, «How big is the web & how
Site de la librairie D3.js http://d3js.org/
fast is it growing ?», mashable.com, en ligne Site de l’application Gephi https://gephi.org/
Bibliographie par ordre chronologique /118
Vers une éducation à la donnée
Projet en ligne de Yann Alary, datArchive
Arte, 2P2L et Libération, Désintox, «Brice
http://yannalary.com/datArchive/
Hortefeux et le bilan de l’immigration», youtube.com, 29/01/2014
Blog WTF datavisualizations http://wtfviz. net/
Les émissions radio Daniel Mermet, «Le bon dieu te regarde même quand tu es aux cabinets ! (2)», Là bas si j’y suis, France inter, 05 Février 2014 «L’impact des nouvelles technologies sur le cerveau», La tête au carré, sur France inter, 17/10/11 «Sotchi, Psychopathes & Cryptographie», La tête au carré, sur France inter, 05/02/2014
Les vidéos Jim Hoft, «Netanyahu Brings Visual Aid «Bomb Drawing» To UN General Assembly Speech», youtube.com, 27/09/2012, en ligne Sheila Fitzsimons, Ken Macfarlane et Mustafa Khalili, «Revealed: the day Guardian destroyed Snowden hard drives under watchful eye of GCHQ – video», theguardian.com, 31 Janvier 2014, en ligne
Bibliographie par ordre chronologique /119
Vers une éducation à la donnée
REMERCIEMENTS Je tiens tout d’abord à remercier Anthony Masure et l’ensemble de l’équipe pédagogique de la Fonderie de l’image pour leur suivi. Ma pensée va également à mes collègues de travail, qui m’ont soutenue et ont toujours eu de petites attentions et des mots d’encouragement. Merci également à ma famille pour l’écoute et le soutien, plus particulièrement ma mère qui m’a relue avec patience et ma petite sœur qui a sû m’aiguiller. Un petit mot également pour Bertram, mon pilier, toujours là et toujours patient. Mon périple dans les méandres du mémoire n’aurait pas été le même sans Aurore (toujours connectée, même dans l’adversité), Caroline (avec qui j’ai pu régresser dans les moments difficiles), Yannis, et tant d’autres partenaires de joies et de galères. Et comment ne pas remercier tous ces travailleurs de la donnée qui m’ont fourni la matière première à ces quelques pages ? Quelques lignes de plus pour exprimer ma reconnaissance à toutes les personnes qui ont répondu à mes questions avec beaucoup de sympathie, tous ceux qui sont à l’origine de ce mémoire et l’ont enrichi par leurs interventions.
Remerciements /121
Vers une éducation à la donnée
ANNEXE 1 : ENTRETIEN AVEC PIERRE ROMERA Pierre Romera, directeur général et cofondateur de Journalism++, fait l’expérience du data-journalisme depuis ses débuts chez OWNI. Comment expliqueriez-vous en quelques mots à quelqu’un qui n’en a pas connaissance la visualisation de données et ses objectifs ? La data visualisation c’est l’art d’accélérer la compréhension d’une donnée à l’aide d’une représentation graphique qui parle d’avantage à l’oeil qu’au cerveau.
Depuis 2010, vous officiez à répandre la pratique du datajournalisme. Comment, ces quatre dernières années, avez-vous vu cette pratique évoluer ? Au fil des années ma position a toujours été complexe : les rédactions ont rapidement compris que le data-journalisme n’était pas juste un buzzword mais bien une discipline nécessaire à la bonne pratique du journalisme. Toutefois, les solutions apportées par le data-journalisme ont pourtant du mal à percer car elles restent coûteuses et les rédactions manquent toujours de personnes formées. Même si nous avons eu la chance d’intervenir en formation dans de nombreux média, force est de constater qu’il n’y a toujours pas eu de mouvement globale pour généraliser l’usage du data-journalisme.
Annexes /123
Vers une éducation à la donnée
Le crowdsourcing est de plus en plus au centre de l’exploitation des données. Comment développer l’aspect social et citoyen de la donnée ? Le crowdsourcing est un bon exemple d’usage social et citoyen de la donnée car en faisant appel aux contributions des utilisateurs, il provoque un engouement. C’est un aspect dont on parle peu mais l’un des avantages implicite du crowdsourcing c’est de créer une communauté autour du projet. Du coup, la donnée devient presque un prétexte pour fédérer des lecteurs et peut devenir une manière plus immersive d’informer.
Annexes /124
Vers une éducation à la donnée
ANNEXE 2 : ENTRETIEN AVEC PIERRE LOUIS MUCKENSTURM Cet entretien concerne le rapport aux normes dans un métier qui est confronté à celles-ci en permanence. D’abord, un constat, dans le monde de la cartographie, il y a effectivement quelques normes. Aucun répertoire exhaustif n’existe à ma connaissance. Cependant, tout bon géomaticien (francophone) citera l’OGC, l’EPSG et l’IGN comme prescripteur de norme. On y ajoutera l’Union Européenne pour faire bonne mesure. Et puis il y a les normes issues d’habitudes, les sémiologies graphiques, tout ce qui relève du «bon usage». La norme EDIGEO de la DGfip, les standards proposés par le CNIG, le CERTU, etc. L’Open Geospatial Consortium (OGC). On va distinguer les recommandations, qui sont des définitions de standard, des normes ou référentiels. Les standards ne sont généralement pas mon affaire : ils me facilitent la vie puisqu’ils sont implémentés (gérés) par les logiciels que nous utilisons. Ils sont même facilitateurs de la transmission de données, puisqu’un standard est documenté et ouvert (soumis à discussion et pouvant être amélioré). Donc l’OGC fournit la description des standards, par exemple la description du standard de catalogue de métadonnées géographiques ou du KML. L’un comme l’autre sont des docu-
Annexes /125
Vers une éducation à la donnée
ments consultés par les fournisseurs de solution logicielle pour créer ou trouver les bibliothèques que leurs solutions utiliseront afin de permettre à l’utilisateur, par exemple, de charger un kml, ou d’écrire un kml. Ces standards sont donc l’assurance pour moi de pouvoir fournir des données, de la matière géographique, de qualité et interprétable par la majorité des outils utilisés par mes interlocuteurs. L’EPSG ou European Petroleum Survey Group Cet organisme fournit une norme pour les systèmes de coordonnées de références. (voir wikipedia pour géoïde, projection conique, etc en bref tous les articles expliquant le domaine mathématique de la représentation d’une terre non ronde, de dimension 3, sur une planisphère (la carte)). Personne (ou presque) n’utilise les codes EPSG lorsqu’il parle du système de projection qu’il a utilisé pour créer sa carte. Il va parler de Lambert 1, de Lambert Etendu, de RGF93, de Lambert 93, de CC49, mais pas de EPSG:2154 ou de EPSG:27572. Ou bien EPSG:3785 voire EPSG.900913 dans la description des kml. Ce dont il faut avoir conscience, c’est qu’il y a des raisons pour utiliser un système de projection plutôt qu’un autre. Et donc qu’un même phénomène géographique a des coordonnées différentes selon le système utilisé. La conséquence est que les logiciels doivent connaître ces systèmes de projection pour pouvoir superposer dans une même carte des données projetées diversement. L’utilisateur doit donc : soit indiquer correctement ce qu’il utilise, soit avoir confiance dans la façon dont ses outils codent cette information. D’où les problèmes. Le nombre de systèmes utili-
Annexes /126
Vers une éducation à la donnée
sés en France est limité et encadré par la loi. Petite citation d’un compte rendu d’une journée du Conseil National de l’Information Géographique en 2008 :
Denis DELERBA rappelle le contexte légal mis en place par la loi de 1999, dont l’art 89 concerne tous les travaux topographiques et cartographiques, conduits aussi bien par les services de l’État, des collectivités locales ou des entreprises chargées de l’exécution d’une mission de service public. Ce texte entraîne une forte évolution car depuis 1948, seules la DDE et les collectivités locales avaient obligation de rattacher leurs données au système légal. M. DELERBA mentionne le décret de 2000, qui n’a jamais été appliqué, bien que ce texte prévoie l’application de l’art 89 de la loi de 1999. Pour rappeler le contexte de ce texte, l’art 1 dispose que le système géodésique en France est le RGF93 à projection unique, celle du Lambert-93. Ce texte rappelle que l’IGN doit entretenir, diffuser, informer et assister dans le cadre de cette transformation : l’IGN continue d’être le garant de la géodésie. L’art 3 indique que le système de rattachement des informations géolocalisées au système national peut être réalisé selon trois modalités différentes : - soit en fournissant les informations directement dans le système, - soit en fournissant les informations dans un autre système de données, en donnant les informations nécessaires à leur transformation dans le système légal - soit en reportant les informations sur un fond de plan graphique ou numérique lui-même rattaché selon l’une des deux modalités précédentes avec le même niveau de précision que celui du fond de plan utilisé
Et bien, aujourd’hui encore des services de l’Etat utilisent un autre système (par habitude, parce que leurs outils sont comme ça, les raisons peuvent être multiples, elles me sont inconnues), fournissent ces données, parfois dans des systèmes «anormaux». Parfois avec des définitions de systèmes «anormées». Le passage d’une projection à une autre est une matrice mathématique (pas au sens excel, au sens mathématique,
Annexes /127
Vers une éducation à la donnée
fonction). Les paramètres pour passer de l’un à l’autre sont connus, calculables. Si la définition est incorrecte, le résultat d’une reprojection le sera. Parfois de manière critique (reprojeter une rue de Paris en Antarctique par exemple ou 10 mètres à côté). Les normes comme lois. J’ai déjà un peu évoqué ce point au dessus, mais dans le domaine des lois s’applique un principe, celui de la subsidiarité. Et son corollaire, toute initiative législative européenne doit être traduite dans les textes nationaux. Donc, l’Union Européenne ayant publié une norme, la norme INSPIRE. Obligation est faite de publier des métadonnées (pour les données figurant aux annexes 1, 2 et 3 du texte), dans les délais prescrits. Celles ci devront respecter les prescriptions de l’extension INSPIRE de la norme ISO19115. Où est le problème ? Pour la majorité des entités ayant à se conformer à cette norme, nulle part. On peut noter par exemple que l’Ifremer, le portail GeoBretagne, Rennes Metropole, ou tout autre entité ayant publié sur http://www.geocatalogue.fr/, ont réalisé des catalogues exhaustifs, précis de leurs données; Par contre, en Champagne Ardennes... c’est le grand vide. Je n’en dirais donc pas plus. Mais même par exemple à la communauté d’agglomération du Grand Lyon, les réticences à appliquer cette norme existent. Les doléances sont d’ordre organisationnelles, techniques (la norme existe, mais les outils pour déployer cette norme sont encore soumis à contribution pour amélioration ou une meilleure connaissance de leur utilisation : un exemple, la liste de diffusion http://sourceforge.
Annexes /128
Vers une éducation à la donnée
net/p/geonetwork/mailman/geonetwork-users-fr/). Les normes, l’habitude et l’irraisonné La norme de l’habitude aussi : prescription dans un cahier des charges d’un utilisateur issue de l’habitude, d’une tradition non écrite (par exemple une symbologie) qui doit être respectée, même si le rendu final de l’application, ou du plan est absurde (utilisation d’une même symbologie pour décrire deux événements distincts par exemple). Forte culture métier qui rend le dialogue entre deux corps de métiers impossible. Exemple : certains métiers souhaitent représenter l’emprise au sol de leurs réseaux (réseaux d’assainissement) d’autres ne représentent que le fil d’eau de leurs réseaux (EDF, adduction en eau). Et quid si la norme est le papier à l’ère du numérique ?
Réfléchir à la notion de norme, cela a eu pour corollaire de parler des standards. L’un s’applique à nous, ou doit être appliqué par nous, utilisateurs ou producteurs de données, et est vécu comme une contrainte. Le standard est bien plus une aide. Un point de repère. Mais tous deux permettent, si les structures sont là, de participer, dans le domaine de l’information géographique, à leur construction, leur amélioration. Il serait faux de penser que ce domaine n’est pas collaboratif.
Annexes /129
Vers une éducation à la donnée
ANNEXE 3 : EXTRAIT DE L’INTERVIEW DE NICHOLAS FELTON AVEC THEGREATDISCONTENT.COM Interview publiée le 26 Février 2014 à l’adresse http://thegreatdiscontent. com/nicholas-felton, traduction personnelle
Quel type d’héritage espérez-vous laisser ? C’est une question très difficile. Il existe tout un univers de données autour de nous. Ce que j’essaye de faire avec mon travail, c’est connecter les gens avec les empreintes et les données qu’ils créent. J’espère, dans une certaine mesure, libérer ces données. Je pense qu’il existe une énorme inégalité entre les informations que les services, entreprises, gouvernements ont à propos des gens et ce à quoi les individus ont accès. Tout ceci nécessite d’être au minimum mis à niveau, si ce n’est retourné en faveur des personnes qui génèrent ces données. J’essaye de lever le voile sur la taille, le pouvoir, l’humanité, l’humour et le potentiel narratif de nos données en créant des outils afin que le public puisse en tirer profit. Au niveau légal, j’espère qu’en rendant les gens plus conscient des données et de leur valeur, cela aura des conséquences en termes de ce que les services, compagnies, et gouvernements en font et comment ils les partagent.
Annexes /130