été 2012 FlashInformatique.epfl.ch
Data Digital Diffusion Document Données DRM
p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11
21.08.2012
Les couvertures auxquelles vous avez échappé Richard.Timsit@epfl.ch, EPFL – Domaine IT, illustrateur de la couverture
SP
On the importance of visual display tools in the new data world. De l’importance des outils de visualisation dans le nouveau monde des données.
DONNÉES O C U M E N SPÉCIAL T ÉTÉ 2012 S
21.08.2012
FlashInformatique.epfl.ch
p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11
Sur le point de prendre un fusain ou un crayon pour dessiner une couverture de ce numéro spécial D (Documents, Données,…), pourquoi ne pas en choisir un bon échantillon, en faire un graphe et le proposer à la maquettiste pour une adaptation?… Gephi, (www.gephi.org), qui mériterait un bel article dans la rubrique Logiciel Libre m’a permis de réaliser rapidement la chose en prenant des données en provenance du réseau. Les routeurs d’une certaine importance délivrent les traces de tous les flux qui les traversent à des fins de facturation ou de sécurité. Netflow est un format SP bien répandu de ces flux qui donnent, entre autres, SP ÉTÉ 2012 D O D adresse source, adresse O CU destination, port source, N E M port destination ainsi que N N TE É le nombre de bytes acheS S minés. En prenant un tout petit échantillon de ce qui a traversé en sortie notre routeur vers Switch la journée du 15 juin entre 10h et 12h avec les ports utilisés par le Web (80 et 443) et en agrégeant les adresses de l’EPFL par subnet on se retrouve avec assez de nœuds pour faire de belles images… Nous sommes submergés de données. Tous les automates en fournissent et nous en concevons tous les jours de nouveaux et de plus en plus complexes pour nous simplifier la vie… Heureusement, parmi ceux-ci, il y en a qui permettent de visualiser les données, pour y voir plus clair ou pour les faire parler plus SP vite. Comme le dit VitSP ÉTÉ 2012 toria Rezzonico dans la D O D O conclusion de son article C N UM E sur R: «L’affichage des N N données est un art…» TE É S S (FI5/2012, flashinformatique.epfl.ch/spip.php ?article2552). Dans le domaine scientifique pour leur interprétation autant que dans les médias pour la qualité de la communication, la visualisation des données ou l’infographie a pris une importance exceptionnelle. Les nouveaux dispositifs de lecture qui sont devenus les supports de prédilection pour les revues scientifiques ou grand public, ne sont pas pour rien dans cette évolution. Datavisualization.ch suit de très près l’état de cet art et offre une sélection impressionnante d’outils. La conjugaison de plusieurs savoirs (informatique, design, communication) s’impose aujourd’hui pour réussir une visualisation correcte des données, l’haptique viendra demain se rendre indispensable pour permettre de toucher leur public. 21.08.2012
FlashInformatique.epfl.ch
p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11
21.08.2012
Pour en savoir plus sur Gephi, voir l’article An Open Source Software for Exploring and Manipulating Networks de Mathieu Bastian, Sebastien Heymann et Mathieu Jacomy – gephi.org/publications/gephi-bastian-feb09.pdf. n
2 flash informatique
87.248.121.190 193.169.66.18 66.231.94.105 199.59.149.243 183.91.4.73 89.207.18.181 77.75.72.52 64.4.61.95 183.60.52.68 184.73.219.64 74.86.70.106 91.202.121.21 130.223.28.155 78.46.70.205 68.67.185.208 174.35.7.3 64.215.255.1674.125.13.54 199.127.194.80 88.255.82.102 69.171.224.55 174.35.6.24 171.67.113.220 94.127.76.140 192.33.203.7266.235.139.166 EPFL-34 192.167.23.210 67.215.229.165 46.105.9.255 50.19.104.28 95.131.121.196 50.116.55.164 74.125.79.94 173.194.35.19 68.67.179.135 46.105.100.222 FlashInformatique.epfl.ch 80.74.154.241 202.108.23.27 87.248.125.23 195.24.233.57 124.193.167.1 174.35.6.9 EPFL-14 70.48.126.210 67.195.186.127 173.194.35.20 23.21.160.167 8.20.213.76 65.52.110.143 94.100.179.68 EPFL-55 173.194.32.77 EPFL-53 199.7.55.72 74.125.13.82 EPFL-153 160.92.7.69 208.94.1.92 81.26.166.70 EPFL-238 77.72.113.34 212.47.171.86 123.125.50.28 217.26.52.8 59.98.107.139 80.239.255.107 93.88.240.99 114.108.157.112 184.72.228.198 83.221.236.51 208.94.0.99 65.52.109.72 208.94.0.161 217.163.21.36 EPFL-239 207.46.13.163 EPFL-87 212.95.67.200 8.20.213.100 193.49.247.199 72.250.245.121 193.247.166.73 193.200.220.200 212.25.65.1 85.218.94.112 195.12.228.164 84.16.76.181 193.247.166.51 74.15.179.217 182.118.12.156 193.134.74.26 66.220.151.82 149.20.69.23 74.86.70.107195.141.85.9366.244.153.192 184.154.163.58 83.43.195.135 180.76.5.136 93.88.240.50 EPFL-157 17.154.66.38 212.103.75.210 124.247.239.63 2.19.79.144 p/a EPFL - Domaine IT - Station 8 - CH93.17.88.225 1015 Lausanne - tél. +41 66.220.151.94 21 69 322EPFL-82 11 62.211.72.133 EPFL-195 EPFL-203 85.13.135.248 23.22.95.8 64.34.200.15446.211.9.16 206.53.176.104 74.125.13.25 80.237.153.97 173.194.32.116 81.88.105.182 EPFL-48 EPFL-244 66.249.72.146 199.59.241.216 173.194.35.10 208.81.234.117 92.123.74.64138.108.7.20 194.54.81.182 199.7.57.72 192.33.202.3 68.67.185.252 62.212.85.145 195.176.255.84 174.35.7.22 176.34.197.122 74.125.232.104 217.163.21.40 195.24.233.55 204.160.120.126 174.35.6.20 195.176.255.143 91.198.174.225 74.125.232.121 92.123.65.194 84.16.80.92 81.19.88.103 EPFL-140 138.100.41.103 EPFL-99 EPFL-125 EPFL-154 99.198.125.117 223.132.27.137 208.74.76.163 198.151.217.248 EPFL-247 EPFL-5 173.194.35.38 68.232.35.119 192.33.203.124 EPFL-11 195.186.17.100 180.76.5.53206.17.82.1 EPFL-241 74.125.13.56 12.130.81.249 184.154.197.3 213.180.204.90 84.16.68.224 80.77.144.35 61.8.48.57 193.50.216.106 92.123.74.72 203.209.224.55 EPFL-183 173.194.35.40 220.181.181.221 46.182.41.58 66.220.151.78 157.55.17.194 85.218.94.154 79.183.195.243 91.232.96.13 91.189.89.90 94.245.70.55 71.45.133.177 173.178.205.109 212.71.120.204159.245.16.100 173.194.32.127 74.125.232.122 79.125.16.23 50.97.151.194 EPFL-156 85.218.29.30 66.220.146.94 61.158.249.138 195.81.229.100 173.194.35.49 199.59.148.82 37.59.16.162 83.201.39.190 31.186.231.25 192.33.204.216 EPFL-209 61.55.171.32 93.184.220.33 83.172.200.234 85.125.84.133 212.47.171.87 173.194.35.58 EPFL-67 173.194.32.83 220.181.181.226 195.141.85.90 212.227.192.198 173.194.35.56 EPFL-62 EHE-66 212.170.239.12 216.191.247.139 EPFL-152 208.66.66.71 88.198.41.164 66.249.72.26 188.121.55.80 80.239.255.120 EPFL-13 46.0.19.156 74.125.232.100 205.186.187.171 EPFL-104 220.181.181.230 67.228.66.123 220.181.181.227 78.111.253.47 173.194.35.35 69.171.224.37 61.158.249.154 62.28.70.52 180.76.6.231 109.214.139.195EPFL-37 54.240.162.172 174.37.214.243 193.46.238.92 2.14.89.153 69.171.227.71 91.191.146.206 195.176.255.88 71.116.245.210 66.249.72.80 194.112.241.5 61.182.131.25 194.150.236.159 EPFL-222 174.35.7.26 217.163.21.38 123.125.46.36 90.52.194.142 207.46.13.114 EPFL-50 114.113.158.55 192.33.210.16 EHE-101 188.60.88.121 217.163.21.37 208.71.123.72 2.19.73.133 219.142.127.2062.210.65.204 213.5.132.15 216.115.111.47 68.67.179.212 83.139.126.203 199.7.51.190 212.239.41.101 113.142.3.12 68.67.185.210 195.176.255.83 130.190.36.39 208.94.0.105 199.168.13.75 208.94.2.106 93.88.243.116 193.218.102.53 157.166.224.246 EPFL-196 81.7.230.121 173.192.42.179 195.176.255.89 174.92.229.9 23.21.182.111 50.57.4.218 207.241.148.88 74.125.71.105 82.199.80.141 180.76.5.196 82.192.95.92 91.220.100.250 81.18.191.158 81.22.37.155 180.76.5.170 174.35.7.21 65.93.127.113 EPFL-240217.146.179.200 70.167.227.245 EPFL-237 EPFL-246 66.196.66.212 184.105.67.85 222.128.196.101 173.194.35.48 77.75.72.19 95.172.94.62 174.35.6.10 110.49.241.190 74.125.232.96 195.154.120.71 194.20.158.105 174.35.6.12 38.100.179.210 EPFL-232 218.104.71.174 86.194.220.48 50.16.231.96 23.21.183.70 79.110.86.233 68.67.185.247 93.88.240.54 119.188.40.81 83.140.105.187 208.91.128.58 195.24.233.60 23.21.182.156EPFL-77 174.35.6.7 EPFL-155 EHE-99 184.169.79.33 91.213.227.150 130.158.6.56 EPFL-21 66.220.145.44 EPFL-36 194.126.157.11 68.168.112.46 180.149.135.236 EPFL-135 EPFL-65 85.17.80.120 208.92.53.43 87.248.202.160 69.171.229.74 188.132.215.82 110.75.34.138 50.116.55.35 93.91.236.98 89.93.216.254 EPFL-253 74.125.232.97 195.141.85.94 178.250.0.100 213.205.32.19 194.150.245.142 EPFL-129 64.215.255.80 122.11.51.16 217.108.165.25 217.174.118.194 180.76.5.111 70.25.39.180 84.16.80.85 174.35.7.7EPFL-42 198.151.217.241 87.248.203.253 173.194.35.24 205.251.209.161 67.228.183.35 74.125.232.98 72.21.214.15981.26.216.23 213.199.181.90 EPFL-245 217.29.163.117 82.98.105.20 60.28.212.53 17.171.8.16 173.194.35.5 85.17.80.124 174.35.4.134 199.59.148.87 62.2.105.154 194.62.234.39 74.125.232.124 31.24.80.31 199.16.173.23 212.147.54.162 66.235.138.18 194.7.148.38 212.239.25.139 176.34.132.201 66.249.72.75 174.35.4.144 62.161.94.223EPFL-134 178.154.205.251 180.76.5.98 173.194.35.4 195.176.255.81 EPFL-49 93.57.15.123 46.137.187.111 94.23.243.218 EHE-100 EPFL-20 77.238.178.122 91.121.118.146 74.117.185.150 EPFL-201 184.72.11.140 178.94.46.121 81.22.37.125 EPFL-94 95.172.94.28 62.109.145.80 174.35.5.6 78.40.123.10 EPFL-160 124.83.195.239 129.194.8.73 77.75.76.72 173.194.35.15 184.184.112.165 74.125.232.103 137.254.16.69 195.176.255.135 EPFL-46212.47.171.72 188.62.41.102 123.125.65.93 EPFL-89 83.140.105.62 217.163.21.34 67.225.203.125 173.194.35.0 EPFL-105 184.72.234.3 205.251.242.13360.29.242.148 204.145.91.20 2.19.76.20 85.4.91.201 24.139.31.55 194.149.246.24 195.1.229.60 EPFL-38 173.194.35.13 157.56.248.9 195.141.38.31 EPFL-6 EPFL-43 75.101.163.8 199.59.150.41 123.125.114.64 74.125.13.73 174.35.4.146 123.125.115.75 85.218.7.66 174.35.6.3 192.33.202.32 207.46.13.211 173.194.35.42 182.55.248.100 213.92.10.33 129.132.95.202 173.194.32.113 78.109.88.177 130.14.29.10988.190.36.183 123.125.115.62 141.249.145.40 184.73.198.91 87.249.105.26 217.20.138.66 195.176.255.151 86.219.132.103 208.94.2.104 122.226.169.183 EPFL-179 199.7.50.72 208.69.152.105 193.110.128.199 50.17.243.165 83.79.82.180 EPFL-110 94.245.68.221 64.95.73.13 31.186.231.31 130.14.29.110 61.135.201.238 61.135.218.37 64.236.124.229 66.220.151.88 80.251.169.132 184.73.200.194 69.36.34.24 221.123.170.40 174.35.4.151 217.154.245.50 213.202.98.213 85.218.96.175 65.52.109.7 66.249.72.117 EPFL-121 EPFL-76 173.194.35.8 193.110.128.197 62.161.94.222 125.39.120.140 173.194.35.59 212.95.67.222 205.251.209.29 EPFL-41 216.52.208.152 46.228.164.14 65.55.255.16 EPFL-90 114.80.190.99 95.172.94.35 EPFL-187188.61.27.235 72.55.189.164
e-Dito Richard.Timsit@epfl.ch, EPFL – Domaine IT
D comme data, D comme donnée, D comme document? Pour ne pas trancher, il nous est apparu pratique et prudent de nous en tenir à la lettre D. Cette quatrième lettre de l’alphabet est le symbole de la porte, c’est bon signe ! Le dessin même de la lettre évoque le chambranle de celle-ci dans la cité ou le triangle de l’ouverture de la tente pour les nomades que l’on retrouve dans le delta. Initiale d’un Début ou d’un Départ pour un numéro spécial du Flash informatique qui voulait traiter de ce que deviennent les documents en ce début du XXI° siècle où nous ne lisons plus, n’écrivons plus, n’archivons plus, ne pensons plus comme hier. Bien sûr, nous ne nous baignons jamais deux fois dans la même encre et les formes du livre n’ont toujours fait que changer, en nous changeant profondément. Ce numéro est constitué d’un grand nombre d’articles sur les Données dans tous leurs états, en toutes les langues, sur tous les supports, au point de laisser le Document somnoler sur son étagère. Il ne se fait pas oublier pour autant ! Tout départ est une aventure et celui du numérique dans lequel nous sommes engagés prend l’allure d’un grand saut inquiétant. Nous sommes encore peu habitués à ces chiffres astronomiques et à ces croissances exponentielles et même si la terminologie du nuage ou de l’immatériel se veut rassurante, il est bien légitime de s’inquiéter et de penser confiance et pérennité. Un Exaoctet (Eo) de données représente environ 10.000 fois la capacité de la Bibliothèque du Congrès Américain. L’humanité a produit environ 5 Eo de données depuis son avènement jusqu’en 2003. En 2010, il suffisait de deux jours environ pour produire la même quantité [1]. Ce numéro du FI nous le révèle une fois de plus, nous n’avons jamais été aussi merveilleusement outillés, mais toute technique étant à la fois remède et poison, il nous faut bien compter sur l’acquisition de savoirs pour apprendre à Discerner. [1] blog.dewost.com/big-data-petitesreflexions
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
3
Safecast Mesures citoyennes de la radioactivité à l’âge de l’Internet Robin Scheibler, fakufaku@gmail.com, designer, fabricant et réparateur de bGeigie (senseur mobile de radioactivité) à Safecast Japan
Information technology and open-source: powerful tools for post-Fukushima environmentally concerned citizens. Les technologies de l’information et les logiciels ouverts: de puissants outils pour les citoyens soucieux de l’environnement après Fukushima. Le triple meltdown de la centrale de Fukushima, conséquence du terrible tremblement de terre et tsunami ayant ravagé le nord-est du Japon en mars 2011, a réveillé le spectre dormant de la peur nucléaire. Née à Hiroshima et Nagasaki, puis nourrie abondamment durant la guerre froide et l’intensive période d’essais nucléaires atmosphériques l’accompagnant, cette peur a finalement atteint pleinement la population civile lors des accidents de Three Mile Island, aux États-Unis, puis le pire jusqu’à Fukushima, Tchernobyl, en Ukraine quelques années plus tard. C’est pourquoi en ce beau week-end de mars 2011 suivant la catastrophe, de multiples questions se posaient. Faut-il, en plus des tremblements de terre et des tsunamis, craindre un danger invisible, pouvant potentiellement mener à des problèmes graves de santé, des cancers ? Mon environnement a-t-il été contaminé ? Est-il raisonnable de rester à Fukushima ? À Tokyo ? Au Japon ? Seules des données indépendantes de qualité peuvent non seulement commencer à répondre à toutes ces questions, mais aussi permettre une investigation détaillée des conséquences de l’accident, ainsi qu’un travail de décontamination où cela est nécessaire. Durant les premières semaines suivant la catastrophe, les seules sources publiant de telles données étaient le Ministère de l’Éducation, de la Culture, des Sports, des Sciences et de la Technologie du Japon (MEXT) et Tokyo Electric Company (TEPCO). Malheureusement, les données publiées par ces deux entités étaient au mieux lacunaires, avec seulement quelques points dans la préfecture de Fukushima, mais souvent aussi terriblement anciennes, de plusieurs jours, semaines, voire mois. Ajoutés à cela, un manque de transparence total dans les communications ainsi qu’un intérêt clair à manipuler les données ont contribué à décrédibiliser les mesures officielles de la radioactivité.
Safecast: crowdsourcing et radioactivité C’est cette pénurie d’informations officielles qui a poussé un nombre important de citoyens à prendre la responsabilité de mesurer la radioactivité afin de garantir leur sécurité et celle de leur famille. Bien qu’un simple compteur Geiger soit suffisant pour cela, face à une demande aussi soudaine que massive, les stocks mondiaux furent épuisés après seulement une semaine. Et c’est
4 flash informatique
à ce moment-là que quelque chose de magique est arrivé. Les citoyens ayant pu se procurer un compteur commencèrent à diffuser leurs mesures sur l’Internet, par l’intermédiaire d’un graphe en temps réel, ou simplement en posant l’appareil devant une webcam. En une semaine, plusieurs dizaines de flux de données étaient déjà disponibles en particulier sur Pachube & (renommé Cosm récemment), une plate-forme de partage ciblant l’Internet des objets. C’est dans ces conditions, durant la semaine suivant le 11 mars 2011, qu’est né Safecast (www.safecast.org), une organisation bénévole dont le but est de fournir une information de qualité sur les niveaux de radioactivité. La première itération fut de rassembler toutes les données accessibles sur l’Internet, mais jusque-là éparses, et de les visualiser sur une seule carte. Cette première carte incluait alors aussi bien les données gouvernementales que citoyennes. Cependant, tous ces senseurs disponibles en ligne à ce moment-là étaient des senseurs fixes offrant certes une excellente résolution temporelle, mais peu de couverture spatiale, laissant de grandes zones vides de mesures, ou presque, après avoir zoomé sur une zone particulière. Cet effet rendait en pratique cette carte d’un intérêt limité étant donné que dans la plupart des cas, chaque individu est concerné tout particulièrement par les niveaux dans son environnement direct. Afin de répondre à ce besoin et remplir la carte simultanément, la première idée fut l’utilisation collective des compteurs Geiger et le partage en ligne des données collectées. Safecast prêta alors des compteurs contre la promesse de partager les résultats via un formulaire sur notre site Web. Ce fut le début du crowd-sourcing &.
BentoGeigie: vers une mobilité des senseurs Ce système bien que répondant efficacement à un besoin humain a cependant rapidement montré ses limites quant à son efficacité en matière de collecte de données. Principal obstacle, l’aspect manuel demandant beaucoup de temps pour un nombre de mesures récoltées finalement pas si élevé. Toutefois, ce système a introduit l’élément crucial de la mobilité des senseurs eux-mêmes afin de couvrir un territoire extrêmement large avec un nombre d’appareils limité. La suite logique fut donc de fixer un compteur Geiger sur une voiture et d’enregistrer le niveau de radioactivité ainsi que la position à intervalles réguliers et pour toute la durée du voyage. Il est intéressant de noter que la toute première incarnation de ce système n’utilisait que des éléments accessibles à tout un chacun, mis à part le compteur Geiger. Le compteur est scotché contre la vitre côté passager, écran contre l’intérieur du cockpit, senseur pointant à l’extérieur. La valeur affichée est alors photographiée avec un smartphone, les données GPS sont automatiquement
Safecast, mesures citoyennes de la radioactivité à l’âge de l’Internet ajoutées au fichier qui est ensuite transféré vers un compte Flickr. Par la suite, une carte peut être générée avec un logiciel comme iPhoto par exemple. Cette méthode, bien que difficilement extensible à grande échelle à cause de son format difficile à lire automatiquement (photographie d’un écran), montre que tous les outils nécessaires sont disponibles.
déplacements quotidiens. Après avoir couvert ce qu’ils peuvent, les senseurs sont renvoyés à Safecast afin d’être redéployés chez d’autres bénévoles. Cette méthode a permis en moins d’une année, de récolter plus de trois millions de points de mesure uniques, principalement dans le nord-est du Japon, mais aussi dans le reste du monde, entre autres Hong Kong, la Californie, la Finlande, et même la Suisse.
Open source et action citoyenne
Après un premier prototype utilisant un netbook, un simple GPS USB, un Arduino ainsi que l’indispensable compteur Geiger, le Bento Geiger, ou bGeigie pour faire court, est finalement développé au Tokyo Hackerspace. Il s’agit d’un système indépendant entièrement contenu dans une boîte rectangulaire faisant penser à une boîte à déjeuner, ou bento en japonais. Le cœur du système est un Arduino, une plate-forme de développement rapide conçue à la base pour les artistes et bricoleurs, munie d’une carte d’extensions spécialement créée pour Safecast et qui inclut un GPS, une carte SD et une connexion à la sortie audio du compteur Geiger. Une fois fermé, le senseur est complètement étanche et peut être attaché à une voiture au moyen de deux sangles que l’on fixe dans une fenêtre et quelques ventouses pour la stabilité. Une fois allumé, le senseur compte le nombre d’impulsions venant du compteur dans un intervalle de 5 secondes puis enregistre cette valeur, accompagnée des coordonnées géographiques et du temps dans un fichier sur la carte SD. Une fois le voyage terminé, les données récoltées sont extraites de la carte et transférées dans la base de données, à partir de laquelle peut maintenant être créée une carte détaillée des niveaux de radiation. Depuis le premier prototype créé environ un mois après la catastrophe, environ quarante unités ont été construites, principalement manuellement. Ces unités sont ensuite prêtées à des bénévoles qui vont quadriller leur ville, ou l’utiliser lors de leurs
L’un des points forts de Safecast est un engagement absolu à publier toutes nos données libres de droits et sans restriction aucune. À cette fin, les données sont publiées sous une licence Creative Commons 0, c’est-à-dire directement dans le domaine public. Cela afin qu’il n’y ait aucune barrière à l’utilisation de ces données à des fins scientifiques ou informatives. Pour compléter cela, nous fournissons l’ensemble de nos données sur notre site Web en téléchargement libre dans un format texte et lisible automatiquement par ordinateur (https://api.safecast.org/system/ measurements.tar.gz). En plus des données, tous les logiciels et hardwares développés à Safecast utilisent des licences open source, permettant d’être réutilisés avec très peu de contraintes. Le but est double. D’une part, le développement a été incroyablement accéléré par la réutilisation de code et designs déjà existants, ce qui a permis par exemple de concevoir et construire complètement un prototype de senseur en seulement un mois. D’autre part, de telles licences sont particulièrement appropriées dans le cadre d’une opération citoyenne, car elles permettent à d’autres groupes indépendants de créer leurs propres senseurs et ainsi leur propre jeu de données. Ceci est particulièrement souhaitable, car plus de données sont nécessairement mieux que moins de données, mais aussi, car les résultats ainsi produits indépendamment vont mutuellement renforcer leur crédibilité.
Un activisme environnemental nécessaire La révolution industrielle du XIXe siècle et les prodigieuses avancées scientifiques qui l’ont accompagnée jusqu’à nos jours ont offert à l’humanité une sécurité et un confort tels qu’elle n’en avait jamais connu. Le revers de la médaille est bien entendu la polluSPÉCIAL ÉTÉ – D – 21 AOÛT 2012
5
Safecast, mesures citoyennes de la radioactivité à l’âge de l’Internet
Carte de l’EPFL à Lucens: http://maps.safecast.org/drive/647
tion engendrée et ses conséquences sur la santé. Cette pollution se caractérise en particulier par des fuites ou rejets de substances toxiques dans la nature, tels que les incidents de Minamata au Japon dans les années 1940, la contamination de poulet par de la dioxine en Belgique en 1999 et de porc en Irlande en 2008. À cela vient s’ajouter la pollution engendrée par les conflits armés ou les tests d’armes, en particulier les retombées d’essais nucléaires atmosphériques, maintenant bannis, mais aussi par exemple l’utilisation massive d’agent orange, un herbicide particulièrement toxique, par l’armée américaine au Vietnam. Et bien entendu, les retombées d’accidents de centrales atomiques telles que Tchernobyl ou Fukushima. Il est indéniable que la régulation et le contrôle de l’industrie afin de limiter la pollution environnementale et ses effets sur la santé relèvent des gouvernements et organes officiels. Malheureusement, il arrive trop souvent que la vigilance de ces organes se relâche après de longues périodes sans incident notable, ou alors, plus sinistrement, sous l’influence de puissants groupes d’influence industriels. Dans ces cas-là, il est de la responsabilité des citoyens de prendre en mains le contrôle environnemental et d’informer les autorités ainsi que la population lorsque des situations problématiques sont découvertes. Bien que l’activisme environnemental ne soit pas nouveau en soi, l’émergence de l’Internet et des technologies de fabrication numérique ont complètement changé la donne. Il est, de nos jours, abordable pour des particuliers de faire fabriquer des pièces mécaniques sur mesure grâce aux imprimantes 3D. La découpe
6 flash informatique
laser et les machines-outils à commande numérique, jusqu’à récemment réservées à l’industrie, sont maintenant utilisables par tout un chacun en particulier grâce aux FabLab et hackerspaces, des espaces communautaires partageant les frais d’achat de ces machines et offrant une formation concernant leur utilisation. En parallèle, cette communauté naissante se retrouve sur la toile ou elle partage idées, design, mode d’emploi, hardware et software. Cette prodigieuse révolution a finalement remis entre les mains des citoyens le pouvoir de contrôler leurs environnements. Et comme nous l’avons constaté au Japon après Fukushima, ils vont en faire usage quand ce sera nécessaire. n
GLOSSAIRE
&
crowd-sourcing: mot construit en référence à l’outsourcing qui consiste à externaliser certaines tâches, le crowd-sourcing consiste à utiliser la créativité, l’intelligence et le savoir-faire d’un grand nombre d’internautes. Pachube (on prononce Patch bay): service Web qui permet de connecter et partager en temps réel les données d’un capteur. Racheté il y a quelques mois, le service a évolué et s’appelle désormais cosm.com.
La bibliothèque de l’EPFL Isabelle.Kratz@epfl.ch, EPFL - Information scientifique et bibliothèques, cheffe du service
A contribution to the Flash informatique special edition is definitely a challenge to undertake for librarians. So let’s try to do it with humour and imagination, but also with seriousness and rigor. C’est avec humour et imagination, mais aussi avec sérieux et rigueur que la Bibliothèque de l’EPFL a souhaité relever le défi d’une contribution à ce numéro spécial du Flash informatique. Il est vrai qu’en tant que spécialistes de l’information, nous savons combien nous pouvons apporter à l’étudiant, à l’enseignant et au chercheur. Dans une société où l’information nous arrive de toute part et a pris une valeur stratégique et économique de premier plan, notre cœur de métier bat plus que jamais.
Mais il est aussi vrai que nous devons apprendre à mieux valoriser nos services et nos compétences, à sortir de notre discrétion quasi culturelle, à changer l’image du bibliothécaire traditionnel à chignon et lunettes: de l’acquisition de ressources, papier et électroniques, aux formations à l’information literacy, en passant par le conseil sur le droit d’auteur, l’aide à la bibliométrie, la sensibilisation aux grands enjeux de la diffusion de l’information scientifique…, nous aurions de quoi vous conter. Vous voulez en savoir plus ? Commencez par lire notre petite nouvelle et nos articles sur quelques aspects importants touchant à l’information, aux données et aux documents. Puis venez nous voir ou, encore mieux, nous pouvons venir vous rencontrer ! Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / I. Kratz
Une mauvaise journée Guilaine Baud-Vittoz, Guilaine.Vittoz@epfl.ch, EPFL - Information scientifique et bibliothèques, responsable Services et Formations aux Utilisateurs
Il pleuvait ce matin-là et Jen avait oublié son parapluie. Il le savait pourtant que le temps allait être maussade, ils l’avaient annoncé à la radio tout à l’heure. Cela, et autre chose… une nouvelle, glissée entre la météo et 120 secondes, un flash info … oui … mais à quel propos ? À vrai dire, Jen avait d’autres choses en tête. Il devait absolument avancer dans sa recherche, car son professeur l’avait convoqué pour un point de situation. Il lui manquait encore quelques références, les résultats du labo, en un mot plusieurs heures de travail et des nuits blanches en perspective. Il chassa les gouttes glissant sur ses cheveux mi longs et évita machinalement la flaque d’eau qui s’accumulait toujours au même endroit, là devant le seuil de la Bibli. Il poussa ensuite la porte qui bien qu’automatique ne s’ouvrait jamais d’elle-même et entra. Madame Saihdo enfila son duffle-coat et regarda sa montre. Il était déjà huit heures et demie. Jamais elle n’arriverait à temps pour la séance de neuf heures en prenant les transports en commun. Elle sauta donc dans sa voiture, alluma l’autoradio et démarra. Arrivée sur le campus, toutes les places à proximité de son bureau étaient prises par d’autres véhicules… qui n’avaient de surcroit pas de vignettes. Cette fois elle allait vraiment être en retard. La séance se déroula mal, comme d’habitude aucune décision ne fut prise et le Professeur Tournedos monopolisa inutilement la parole.
Il était déjà 10 heures et Madame Saihdo était maintenant de fort mauvaise humeur. Elle s’installa derrière son bureau et ouvrit sa boîte mail. Un sourire éclaira enfin son visage, M. Bircher lui avait envoyé le lien sur l’article recommandé la veille. Jen alla s’assoir à sa place fétiche. Lumineuse, calme, mais pas trop, une vue imprenable sur l’extérieur et sur cette jolie brune qui devait arriver dans une heure ou deux, juste avant qu’il ne reparte au labo. Mais une sensation inhabituelle d’inconfort fit rapidement son apparition. Qu’y avait-il de si différent aujourd’hui ? D’un mouvement d’épaule, il chassa ses doutes et se remit à son ordinateur. Google scholur, bromarr. Que lui avait dit Anah déjà ? Que les bibliothécaires lui avaient recommandé un outil plus efficace et paramétrable pour la gestion de ses références, un logiciel du nom de Zorro, Zorroooo. Non, il divaguait ! Il lui redemanderait le nom exact cet après-midi. Las, il ne trouvait pas de nouvelle référence dans les premières pages de Google scholar (il s’était tout de même souvenu !) Rien non plus dans le catalogue ou dans les bases de données. Étrange… d’ailleurs, ces derniers semblaient plus lents qu’à l’ordinaire, on aurait même dit qu’ils étaient incomplets. Bon, il fallait se résigner, oser monter là haut et aller voir l’homme ou la femme derrière le guichet : le bibliothécaire. Pourvu que ce soit le même que la dernière fois, celui qui parlait bien anglais et avait su comprendre son sujet de recherche en quelques phrases. SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
7
Une mauvaise journée Clic, clic et reclic. Vingt fois que Madame Saidho rafraîchissait la page de son navigateur et l’article ne s’affichait toujours pas. Pourtant, ce journal était accessible en temps normal ! Elle le savait mieux que quiconque vu qu’elle en avait demandé l’abonnement. Remontée, elle empoigna le téléphone et appela la Bibliothèque. Les sonneries résonnaient interminablement à son oreille, augmentant sa frustration… Personne ! Elle raccrocha d’un coup sec, pestant contre les fonctionnaires jamais là lorsque l’on avait besoin d’eux et décida d’appeler son contact direct à la bibliothèque. Monsieur… elle n’arrivait décidément pas à se rappeler son nom. Lui d’habitude toujours disponible, prêt à l’orienter et lui donner les meilleurs conseils, n’était pas joignable non plus. Exaspérée, Madame Saidho laissa un message peu aimable sur le répondeur et envoya également un e-mail libérateur dans lequel elle ne mâcha pas ses mots. La matinée touchait à sa fin, Jen n’avait trouvé personne pour l’orienter et l’inconnue de la table en face n’avait pas montré le bout de son nez en trompette. La pluie continuait son chant mélancolique contre les vitres. Décidément, le temps reflétait ses états d’âme, il était donc temps de rejoindre les autres pour le déjeuner et passer à des questions beaucoup plus terre à terre. Sandwich ou menu 2 de la cafétéria ? Le menu 1 était toujours infâme… Une heure plus tard, Jen rejoint le laboratoire où l’ordinateur avait passé la nuit à cracher des données. À défaut d’une bibliographie convaincante, il aurait peut-être quelques résultats concrets à présenter. Il s’approcha de l’écran tel un papillon attiré par une ampoule incandescente et ne fut pas déçu. Chiffres et nombres, nombres et chiffres se chevauchaient et s’entremêlaient. Si nombreux que cela en était presque indécent… Mais il manquait à Jen une constante pour achever ses calculs. Ses camarades ne la connaissant pas, il ne savait trop à qui s’adresser. Bah, wikipédia lui fournirait sans doute la solution. À lui de convaincre maintenant son professeur de faire jouer son réseau pour obtenir des données similaires afin de les comparer. Le mieux serait d’y avoir accès directement en ligne ! Après quelques sushis et un coca light en guise de repas de midi, Madame Saidho se plongea dans la lecture du plan que lui avait envoyé son rendez-vous de 17 heures. Au bout de quelques minutes, elle leva les yeux au ciel et se frotta les tempes. Mais comment osait-il lui présenter une telle bibliographie ? Il n’avait donc pas appris à utiliser un logiciel approprié ? Sans parler de ses citations… complètement fausses ! Au moins n’avait-elle pas décelé de trace de plagiat dans ses écrits. Dire qu’ils avaient dû hier encore sanctionner un étudiant, car il avait innocemment repris et remanié un article vieux de dix ans. Décidément, Madame Saidho ne comprenait pas comment des jeunes nés avec une souris au creux de la main n’arrivaient pas à maîtriser les ficelles du labyrinthe de l’information. Ils avaient pourtant l’air si à l’aise avec toutes les technologies. Madame Saidho reprit son téléphone et composa à nouveau le numéro de son contact à la Bibliothèque. D’autres journaux s’étaient révélés inaccessibles ce matin, l’empêchant de préparer sa conférence. Toujours pas de réponse.
8 flash informatique
À bout de patience, Madame Saidho se dit que Jen avait intérêt à être ponctuel s’il ne voulait pas se retrouver face à une porte close. Elle serait mieux à travailler chez elle. Jen justement se dépêchait. Laissant Anah s’énerver et pester, car elle n’arrivait ni à mettre sa thèse en ligne ni à consulter celle de son ancien collègue, il attrapa son ordinateur portable et se dirigea vers le bureau de son professeur. Il tapa quelques coups discrets à la porte… Entrez, je vous attendais ! répondit-elle sèchement. Madame Saidho n’avait pas l’air d’excellente humeur et Jen sentit que l’entretien ne serait peut-être pas aussi productif qu’il l’espérait. Il la salua et, poliment, lui demanda ce qui n’allait pas. - Je n’ai accès à aucune de mes ressources habituelles, cela depuis ce matin. C’est extrêmement agaçant, d’autant plus que personne à la Bibliothèque ne répond à mes appels au secours. – C’est étrange, j’ai aussi rencontré des problèmes toute la journée… C’est bien la première fois que cela arrive. – Oui, effectivement. C’est comme si tout accès à l’information n’était plus possible. Comme si le courant ne passait plus depuis ce matin… Alors, lentement, la nouvelle refoulée remonta à la mémoire de Madame Saidho et de Jen. La radio… ce matin, juste après la météo… lui n’avait enregistré que le sketch, elle était concentrée sur la route, obnubilée par sa séance et son retard. Ils l’avaient tous deux oublié, le Flash info: «… En ce jour de septembre, un étrange virus a attaqué les Bibliothécaires, et seulement eux. D’origine psychologique, il aurait affaibli de manière simultanée et pour l’instant inexpliquée l’ensemble de la profession. Apparemment, l’élément déclencheur aurait été une phrase type répétée en boucle provoquant un court-circuit neuronal. Nous leur souhaitons un prompt rétablissement, et en attendant leur retour, évoquons ces tranches de vie partagées avec nos bibliothécaires fétiches: la première carte de bibliothèque, offerte comme une promesse d’ouverture à la Connaissance, les fausses excuses inventées pour justifier un retard et tenter de faire annuler l’amende, le taux de citation demandé en urgence pour l’audit du labo. Sans oublier bien sûr, le bibliothécaire fronçant les sourcils à l’arrivée d’une boisson ou d’un téléphone portable dans la zone de lecture, et cette mémorable séance de formation où nous avions appris ce que nous aurions dû savoir depuis plus de trois ans déjà… Et surtout, surtout LE livre, l’article qui nous manquait et que lui seul savait trouver, nous sauvant in extremis d’une dépression avant publication !…» Le silence de l’eau tombant toujours du ciel envahissait la pièce, Madame Saidho et Jen n’osaient se regarder. La phrase, ce fameux code provoquant l’épidémie dramatique: Mais à quoi donc servent encore les bibliothécaires dans ce monde de données virtuelles… Combien de fois l’avaient-ils pensée ? Alors qu’en fait… Dans un même élan, Madame Saidho et Jen allumèrent leur ordinateur et se précipitèrent sur un site de livraison de fleurs. Leurs partenaires bibliothécaires méritaient bien cela. Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 /G. Baud-Vittoz
Les logiciels libres et les bibliothèques Raphael.Grolimund@epfl.ch, EPFL - Information scientifique et bibliothèques, bibliothécaire en charge des formations aux utilisateurs
Will students in the future be able to access papers you write today? Pourrons-nous mettre à disposition des futurs étudiants les documents que vous rédigez aujourd’hui ? Pourrez-vous encore ouvrir dans dix ans le fichier que vous avez créé la semaine dernière ? Le logiciel que vous avez utilisé existerat-il encore ? Et que faites-vous lorsque vous rédigez un document avec des personnes qui n’utilisent pas le même logiciel ? Entre interopérabilité, pérennité et liberté, les logiciels libres prennent une importance fondamentale pour les étudiants, les enseignants, les chercheurs et les bibliothécaires. Nous, bibliothécaires, travaillons tous les jours en priorité pour vous donner accès à l’information dont vous avez besoin. Mais la pérennité des documents nous préoccupe. Car si nous pouvons vous mettre un document à disposition, nous cherchons à faire en sorte que ce soit encore le cas dans dix ans. L’arrivée des documents électroniques ne nous a pas ôté ce rôle. Bien au contraire ! Toutefois, le passage à l’ère numérique a ajouté un intermédiaire dans la chaîne de mise à disposition des documents: le logiciel. La lecture des documents imprimés ne nécessitait aucune technologie. Aujourd’hui, en plus de se poser la question où et comment trouver une information pertinente et de qualité, le lecteur doit aussi se poser la question de savoir s’il pourra y avoir accès. Laissons de côté les problèmes d’accès liés aux modèles économiques de l’édition scientifique (voir article de Julien Junod sur l’Open Access) et aux DRM (voir article d’Alain Borel) pour se concentrer sur le rôle du logiciel 1. Les étudiants ne peuvent plus travailler sans ordinateur et doivent apprendre à utiliser toute une série de logiciels pendant leurs études. Or, le choix de ces logiciels est loin d’être anodin. Ils sont aux deux extrémités du cycle de vie d’un document. Que ce soit pour des données de la recherche ou pour une publication, un logiciel est nécessaire lors de la production. Le lecteur ou le chercheur qui souhaite consulter les données a quant à lui besoin d’un logiciel pour y accéder. Le choix du logiciel est encore moins anodin lorsqu’on sait qu’un étudiant utilisera la majeure partie de sa future carrière le logiciel qu’il a appris à utiliser pendant ses études. Mais en quittant l’EPFL, il ne profitera plus du prix étudiant ou d’une licence payée par le DIT. Dès la création d’un document, l’étudiant est potentiellement confronté à un problème simple: comment travailler depuis plusieurs ordinateurs ? Que ce soit pour un travail personnel sur le-
quel il souhaite plancher en cours et à la maison, ou un travail de groupe pour lequel il doit collaborer avec ses camarades, l’étudiant doit choisir le logiciel qu’il utilisera. Un problème de compatibilité peut sérieusement compliquer une activité aussi banale que rédiger un document. La licence d’un logiciel propriétaire est souvent payante, ce qui représente un frein pour un étudiant. Admettons qu’il ne s’agisse là que d’un détail, car il existe des logiciels propriétaires gratuits. De toute façon il y a bien plus gênant: le logiciel propriétaire produit généralement un format propriétaire qui ne peut être lu par aucun autre logiciel. L’utilisation de différents logiciels pour travailler sur un même document est donc exclue. Les services en ligne peuvent offrir une solution à ce problème, mais exposent l’étudiant à un autre danger: la pérennité des données n’est pas garantie. La possibilité d’accéder à un document n’est déjà pas assurée avec l’utilisation d’un logiciel propriétaire, car s’il disparaît, le logiciel n’évolue plus, rendant à terme les documents produits par son intermédiaire illisibles. Mais dans le cas d’un service en ligne, la situation est encore plus périlleuse. Les documents étant sur les serveurs du prestataire (et non sur l’ordinateur de l’utilisateur), les données deviennent instantanément inaccessibles si ce service ferme. Dans l’optique d’un accès aussi large que possible à l’information, le risque n’est pas acceptable. Les logiciels libres apportent des parades à ces risques. Premièrement, ils se basent sur des formats ouverts ce qui permet une standardisation des données. Le bénéfice le plus immédiat est l’interopérabilité. Un fichier peut être ouvert et édité par plusieurs logiciels différents. Deuxièmement, le code source d’un logiciel libre est accessible à toute personne intéressée à connaître son fonctionnement. Cela implique que si les créateurs du logiciel arrêtent de le développer, quelqu’un d’autre peut reprendre le flambeau. La disparition du logiciel n’est pas exclue, mais dans le cas d’un logiciel entouré d’une communauté nombreuse et active, les chances sont très réduites. Surtout, n’oublions pas que le logiciel libre, c’est avant tout le droit d’être libre. Libre de comprendre comment fonctionne le logiciel (en accédant au code source). Libre d’adapter le logiciel à ses propres besoins (en modifiant le code source et donc le fonctionnement du logiciel). Libre de collaborer avec quiconque. Un logiciel propriétaire ne permet pas cela. D’un côté, il y a les développeurs qui décident de l’évolution du logiciel et des fonctionnalités à ajouter; de l’autre, il y a les utilisateurs. Si un utilisateur constate un bug, il doit en faire part aux développeurs et attendre que ceux-ci trouvent une solution. Si l’utilisateur souhaite qu’une fonctionnalité soit ajoutée, il doit en faire la demande, attendre et espérer que sa requête sera prise en compte.
Les exemples donnés seront du domaine documentaire, mais ces considérations sont valables pour d’autres types de données comme les données de la recherche, par exemple.
1
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
9
Les logiciels libres et les bibliothèques
L’Open Access
Julien.Junod@epfl.ch,EPFL - Information scientifique et bibliothèq
Le logiciel libre pousse à la collaboration et implique ses utilisateurs dans l’évolution du logiciel. Si un utilisateur constate un bug, il peut en faire part à la communauté. Celle-ci l’aidera ou résoudra le problème. Ce modèle est très efficace, car la probabilité qu’un bug échappe à tout le monde diminue à mesure que la taille de la communauté augmente. De plus, si un utilisateur souhaite qu’une fonctionnalité soit ajoutée, il peut la développer lui-même ou demander à quelqu’un (pas forcément aux développeurs initiaux) de le faire. Prenons le cas de Zotero, gestionnaire de bibliographie. La communauté participe à la traduction de l’interface. Elle participe aussi à la création des styles de citation, qui déterminent le look d’une bibliographie, ainsi que celui des citations dans le texte. Cela représente une somme de travail telle qu’aucune équipe de développeurs ne pourrait la prendre en charge. Mais ce n’est pas tout. Un doctorant a créé une extension pour les utilisateurs de LaTeX donnant accès à la bibliothèque Zotero [1] depuis LaTeX, sans l’exportation manuelle requise auparavant. Il a mis à disposition de tous cette fonctionnalité dont il avait besoin. Il existe également une application pour Android et une autre pour iPad. Ni l’une ni l’autre ne sont l’œuvre de l’équipe de développeurs. Il est important de relever que l’implication dans la communauté d’un logiciel libre ne nécessite pas forcément des compétences en programmation. Les utilisateurs qui trouvent des bugs, qui posent des questions ou demandent de nouvelles fonctionnalités participent tout autant au développement du logiciel.
What if all scientific publications were freely accessible on the Internet ? Et si tous les résultats de la recherche étaient en accès libre sur Internet ? La publication en libre accès (en anglais Open Access ou OA) permet d’offrir gratuitement des documents en ligne. N’importe qui peut alors accéder au contenu, à condition d’être connecté à Internet. Le plus souvent, ceci est réalisé au moyen d’un basculement de la facturation: dans le cas des articles, les frais de publication ne sont plus couverts par les abonnements aux revues, ils sont directement pris en charge par les auteurs (selon le modèle le plus répandu, d’autres possibilités existent). Ne payent plus ceux qui lisent, mais ceux qui écrivent.
Ce que le libre accès n’est pas
L’ activité d’un service de bibliothèque est centrée sur la mise à disposition d’une information de qualité, sur place, à distance, sur tous supports. L’interopérabilité, la pérennité et un accès aussi libre que possible sont très importants à nos yeux, tout comme l’est le travail collaboratif. Les logiciels libres sont un choix naturel. C’est la raison pour laquelle nous les mettons en avant chaque fois que c’est possible et pertinent. n
Mouvement philosophique ou modèle économique, ce mode de publication n’implique pas d’autres aspects qu’on lui attribue volontiers. Le contenu librement accessible n’est pas nécessairement libre de droits. Une consultation sans entrave n’implique pas une totale liberté d’utilisation, qui relève des questions de propriété intellectuelle, indépendamment du modèle choisi. La publication en libre accès n’est pas forcément une activité bénévole, comme en atteste le nombre croissant d’éditeurs commerciaux qui l’adoptent. La liberté d’accéder n’entraîne pas la liberté de publier. Les revues sérieuses reprennent le principe des comités de lecture [1], ou imaginent de nouveaux systèmes pour contrôler la qualité éditoriale nécessaire à leur réputation (PLoS ou Frontiers). On voit des formules à succès côtoyer des journaux obscurs, tout comme dans le modèle traditionnel.
Référence
Qu’en est-il à l’EPFL ?
[1] Zotero, un logiciel libre de gestion bibliographique,
Les institutions de recherche disposent principalement de deux outils pour mettre en œuvre le libre accès, surnommés voies verte et dorée. Par le biais d’Infoscience [2], l’archive institutionnelle maison, l’EPFL soutient activement la voie verte. Celle-ci consiste à mettre à disposition du public une copie de l’article publié dans une revue payante, pour autant que l’auteur obtienne le consentement de l’éditeur, ce qui est souvent le cas. Officiellement, tous les membres de l’École sont encouragés à le faire. Dans la pratique, seul un tiers des publications répertoriées sont déposées dans l’archive, selon un pointage réalisé l’année passée [3]. Ce premier aspect du libre accès est le plus pragmatique, puisqu’il perpétue le système payant traditionnel, tout en offrant un se-
flashinformatique.epfl.ch/spip.php?article2188
Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / R. Grolimund
10 flash informatique
à l’EPFL
ques, bibliothécaire en charge du dossier libre accès
cond canal de diffusion gratuit. Le désavantage est une double facturation (au prix des abonnements s’ajoute la maintenance d’une infrastructure de publication sur Internet), et une barrière psychologique (un article téléchargé directement depuis la plateforme de l’éditeur a souvent plus fière allure). L’idéal serait donc la voie dorée, soit la publication dans une revue dont l’intégralité du contenu est disponible en libre accès. On allie alors prestige et gratuité. Pour l’instant, cette démarche reste entièrement à la charge des laboratoires. Ni la bibliothèque ni l’École n’ont conclu de partenariats avec les éditeurs dans le but de diminuer les frais de publication. Toujours selon l’étude citée, dans un peu moins de 5% des cas, les chercheurs ont choisi ce modèle et ont accepté de s’acquitter d’une facture s’élevant souvent à deux ou trois mille francs. Cette situation pourrait évoluer avec la constitution d’un fonds d’aide à la publication en libre accès, qui est en cours de discussion au Fonds National et à la Conférence des recteurs des universités suisses.
Enjeux Parmi les arguments avancés en faveur du libre accès figure en première place celui d’une plus grande diffusion. Malheureusement, la mesure fiable d’un effet du libre accès sur le nombre de citations et de téléchargements se heurte à des difficultés méthodologiques considérables. À l’heure actuelle, personne n’est en mesure de fournir des statistiques complètes et comparables qui viendraient conforter ou mettre en doute ce postulat au demeurant raisonnable [4]. Les bibliothèques avaient aussi fondé beaucoup d’espoir sur le libre accès pour contenir la hausse du prix des abonnements aux périodiques [5]. Mais que l’on facture à la sortie où à l’entrée du circuit ne changera rien à l’affaire: le prix des revues augmente avec leur réputation. Une période de transition qui verrait cœxister les deux systèmes risque également de générer des coûts supplémentaires. Cependant, si l’on inclut les retours sur investissement dans l’analyse, des bénéfices pourraient être envisagés à long terme [6]. L’explosion du nombre d’articles publiés, qui, encouragé par la politique du publish or perish, a plus que doublé ces quinze dernières années [7], n’aidera pas non plus à faire baisser le montant de la facture. De nombreux scientifiques doivent faire face aux souhaits contradictoires émis par les institutions, qui encouragent la publication en libre accès, mais exigent surtout que les articles paraissent dans des revues à fort facteur d’impact. Ces deux aspects n’étant pas conciliables dans tous les domaines de la recherche, le choix est souvent vite fait entre principes moraux et survie. Tout au plus, dans un monde où tout le monde est poussé à écrire et où plus personne n’a le temps de lire, paraît-il plus raisonnable de faire payer le privilège d’écrire plutôt que de pénaliser les personnes qui consacrent un peu de leur temps à la lecture. D’un
autre côté, le monde de l’édition, qui se sentait très menacé par l’arrivée du libre accès, se résout progressivement à adopter ce modèle, bousculé par des nouveaux venus comme PLoS ou Biomed Central, qui ont fait la preuve de son succès et de sa rentabilité. Dans ce bras de fer, ni les craintes des éditeurs, ni les espoirs des bibliothécaires ne semblent s’être réalisés. Le mode de facturation traditionnel est un héritage direct d’une époque à laquelle le rôle des éditeurs et des bibliothèques consistait à fabriquer, diffuser et archiver des documents de papier. Or, comme il est impossible de contrôler la dissémination de documents électroniques – aucune réponse efficace n’ayant été trouvée au problème du piratage – le libre accès n’apporterait-il tout simplement pas la seule solution de financement viable dans un monde d’internautes qui considèrent le téléchargement gratuit comme un dû ?
Références [1] Le DOAJ, le répertoire des périodiques en libre accès, soumet les éditeurs à des vérifications strictes avant de référencer un journal: www.doaj.org. [2] infoscience.epfl.ch [3] ROTH, Dylan. État de la publication en Open Access dans les disciplines scientifiques présentes à l’EPFL. 2011. infoscience.epfl.ch/record/169218. [4] Voir par exemple: DAVIS, Philip M. Open access, readership, citations: a randomized controlled trial of scientific journal publishing. The FASEB Journal, mars 2011. Ou encore une bibliographie plus complète de ce sujet controversé qui a fait l’objet de nombreuses recherches: opcit.eprints.org/oacitation-biblio.html. [5] Une augmentation de près de 400% sur une période couvrant les vingt dernières années, selon le rapport ARL Statistics 2008-2009. Association of Research Libraries, Washington. www.arl.org/bm~doc/arlstat09.pdf
[6] HOUGHTON, John et al. Economic implications of alternative scholarly publishing models: Exploring the costs and benefits, rapport du Joint Information Systems Committee. 2009. Une nouvelle étude, plus quantitative et consolidée quant aux modèles utilisés, est sur le point de paraître. ie-repository.jisc.ac.uk/278/
[7] Selon le Web of science, on passe de près de deux millions de publications répertoriées en 1995 à un peu moins de cinq millions et demi en 2011.
Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / J. Junod SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
11
La citation des données de recherche Lionel.Walter@epfl.ch, EPFL - Information scientifique et bibliothèques, bibliothécaire spécialiste IT
How to cite research data efficiently with the help of digital object identifiers (DOI) and the Datacite consortium. Une citation pérenne grâce au système des digital object identifiers (DOI) et au consortium Datacite. La problématique de la citation de sources numériques en ligne est bien connue [1]. Que ce soit des données primaires & ou des données secondaires &, le problème est identique. L’adresse URL est la solution de facilité, mais après quelques années, il est rare que celle-ci soit encore fonctionnelle. Alors, comment conforter l’apport indiscutable des liens hypertextes en garantissant leur pérennité ? Le concept de Digital Object Identifier (DOI) lancé en l’an 2000 par l’International DOI Foundation apporte une solution efficace à ce problème. Un DOI est une chaîne de caractères qui commence par 10. et contient un / (par exemple 10.1016/j.iheduc.2003.11.004). En ajoutant ce DOI à la suite de l’URL http://dx.doi.org on obtient une nouvelle URL http://dx.doi.org/10.1016/j.iheduc.2003.11.004. Celle-ci est par construction nettement plus pérenne que l’URL originale (dans ce cas précis http://www.sciencedirect.com/science/ article/pii/S1096751603000897, URL qui sera amenée à changer à chaque fois que le service Sciencedirect sera renommé). Le système DOI enregistre chaque DOI ainsi que l’URL vers laquelle il doit être redirigé. Il vient d’être publié en tant que norme ISO [2]. Ce procédé est largement établi et utilisé notamment par plus de 3000 éditeurs, regroupés au sein du consortium CrossRef &. Plus de 54 millions de documents numériques ont à ce jour un DOI. Les fournisseurs d’information s’engagent au moment de l’enregistrement d’un DOI à maintenir son fonctionnement pérenne. À chaque migration de leur système informatique, fusion de plusieurs organisations ou changement de nom, l’URL associée à un DOI doit être mise à jour. De plus, lors de l’enregistrement de l’URL associée à un DOI, l’éditeur a la possibilité d’ajouter d’autres informations (comme le titre d’un article, ses auteurs…) dans un format structuré. L’énorme base de données ainsi créée est ensuite utilisable gratuitement par les bibliothèques pour améliorer leurs services. À l’EPFL, nous l’utilisons notamment dans le cadre de l’archive institutionnelle Infoscience [3] ainsi que pour notre résolveur de liens SFX [4]. Depuis 2010, de nombreuses bibliothèques se sont réunies dans un autre consortium, appelé Datacite [5], qui leur permet d’attribuer des DOI. Comme le nom du consortium l’indique, le but premier de ce consortium est de fournir des DOI à des données primaires de la recherche qui seraient stockées, par exemple, dans les systèmes d’information des bibliothèques universitaires. La bibliothèque de l’EPFL, en collaboration avec l’EPFZ [6], a rejoint ce consortium.
12 flash informatique
Elle est donc désormais à même d’attribuer des DOI à des documents ou données qui lui sont confiés par le biais d’Infoscience. Ce service est d’autant plus important pour les données primaires, car certaines ne seront probablement jamais publiées par des éditeurs scientifiques. Une des premières applications concrètes de ce mécanisme porte sur les thèses. Toutes les thèses de l’EPFL ont désormais un DOI qui a la forme suivante 10.5075/epfl-thesis-4088 où 4088 est le numéro de la thèse. Ainsi, chaque doctorant peut citer sa thèse avec un lien pérenne vers le pdf dès qu’il connaît le numéro de sa thèse. Ce DOI sera d’ailleurs prochainement imprimé sur la page de couverture de la thèse. Les applications ultérieures de ce mécanisme concerneront probablement les données primaires. Mais de ce côté-là, rien n’est encore clairement établi. Quelles données doivent être conservées, dans quel format, pendant combien de temps ? Quelles métadonnées doivent être associées à ces données ? Quels sont les droits sur ces données, quelle licence utiliser ? Au niveau de la citation, des questions se posent sur la granularité à adopter pour l’attribution des DOI. Attribue-t-on un DOI pour un ensemble de données, ou bien un DOI pour chaque sous-ensemble ? Votre bibliothèque suit l’état de l’art dans ces différents domaines, notamment par sa participation au consortium Datacite et au projet e-lib.ch qui a pour but de penser la bibliothèque numérique de demain au niveau suisse. N’hésitez pas à nous contacter en cas de questionnements !
Références [1] DELLAVALLE et al. Information Science: Going, Going, Gone: Lost Internet References. Science 2003 302: 787788 (doi:10.1126/science.1088234) [2] Information et documentation — Système d’identifiant numérique d’objet, norme ISO 26324:2012:2012-05 [3] infoscience.epfl.ch [4] library.epfl.ch/tools/?pg=sfx [5] datacite.org [6] www.doi.ethz.ch/index_f.html
Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / L. Walter GLOSSAIRE
&
CrossRef: agence officielle d’enregistrement des DOI (digital object identifier) pour les éditeurs scientifiques. données primaires: résultats bruts d’expériences, mesures effectuées par des machines, relevés météorologiques,… données secondaires: documents décrivant et analysant des résultats obtenus, généralement basés sur des données primaires.
DRM et bibliothèques Alain.Borel@epfl.ch, EPFL - Information scientifique et bibliothèques, bibliothécaire coordinateur de team
This paper deals with the consequences of Digital Rights Management/DRM systems for libraries, with specific examples at the EPFL Library. In fact, librarians consider that such systems hinder their users’ access to information. Furthermore, they are seriously problematic for the preservation of documents. Cet article traite des conséquences pour les bibliothèques (en général, et la Bibliothèque de l’EPFL en particulier) des systèmes de Digital Rights Management/DRM. Les bibliothécaires considèrent en effet que ces systèmes sont un obstacle à l’accès à l’information pour les lecteurs et posent, de plus, de graves problèmes de conservation des documents. Même dans le monde feutré des bibliothèques, il y a des sujets qui énervent. En effet, nous autres bibliothécaires sommes très attachés au principe de la liberté d’accès à l’information, ce qui nous oblige logiquement à prendre position face à certains problèmes socio-technologiques de ce début de XXIe siècle. Et parfois, croyez-le ou non, cela peut faire du bruit. Eh oui. Avec l’essor de la littérature numérique, les DRM (Digital Rights Management, expression désignant toutes sortes de systèmes de protection de données numériques contre la copie) sont devenus un sujet très sensible pour les bibliothèques [1]. Ils sont en effet en conflit avec plusieurs des principes qu’elles défendent. Examinons par exemple le code de déontologie des bibliothécaires suisses [2]. De par leur nature même, les DRM s’opposent à la promotion de l’accès aux documents: le contrôle imposé par le producteur est incompatible avec la diffusion du savoir prônée par les bibliothèques. D’autre part, les DRM sont un obstacle supplémentaire, peut-être insurmontable, pour la préservation des documents numériques, rendue déjà passablement compliquée par les questions de pérennité des systèmes et des formats. Les bibliothécaires sentent donc que leur responsabilité est engagée dans cette problématique. Les réactions les plus virulentes sont en général le fait d’activistes individuels (à petite échelle, votre serviteur n’est pas le dernier à pester contre les DRM chaque fois que l’occasion s’en présente), mais parfois la résistance s’organise plus formellement. Par exemple, la Déclaration des droits numériques du lecteur (Readers’ Bill of Rights for Digital Books) recueille l’adhésion d’un nombre croissant de lecteurs (évidemment), mais aussi de bibliothécaires [3], et même d’auteurs.
logos de la Déclaration des droits numériques du lecteur (images sous licence Creative Commons Attribution-ShareAlike; source: readersbillofrights.info, réalisation originale Nina Paley)
Les organisations professionnelles sont impliquées dans le débat depuis des années, avec bien sûr un langage plus mesuré. Dès 2002, la commission sur le droit d’auteur et les questions légales de l’IFLA (International Federation of Library Associations and Institutions, principale organisation internationale représentant les intérêts des bibliothèques et de leurs usagers), s’est inquiétée des répercussions des DRM sur les services rendus [4]. En 2005, l’Association des Bibliothèques et Bibliothécaires Suisses (BBS, aujourd’hui BIS) prenait position sur les modifications de la Loi fédérale sur le droit d’auteur et les droits voisins (LDA) proposées par la Confédération et se prononçait contre les DRM en ce qui concerne les œuvres littéraires [5]. L’article 39a de la LDA, qui interdit le contournement des mesures techniques de protection du droit d’auteur, est tout de même entré dans la loi, mais il est important de noter que l’alinéa 4 autorise néanmoins le contournement si le but est une utilisation licite du contenu protégé. Les exceptions au droit d’auteur dont bénéficient les bibliothèques (par exemple le droit de créer des copies d’archive, LDA art. 24 al. 1bis) restent donc garanties par la loi. Où se place votre bibliothèque dans tout ça ? La Bibliothèque de l’EPFL a en fait assez peu de problèmes pratiques avec les DRM, ce genre de technologie étant peu répandu dans le domaine de l’information scientifique et donc beaucoup moins important pour nous que pour des bibliothèques de lecture publiques. En général, la seule restriction d’accès aux ressources documentaires numériques est un contrôle par adresse IP, plus rarement un mot de passe. On peut imaginer plusieurs explications à cette absence de DRM. Pour commencer, il faut se souvenir que la documentation scientifique numérique a vraiment décollé avec les périodiques électroniques, à partir du milieu des années 90. Proposés par les éditeurs avant le phénomène Napster &, les articles en ligne n’ont pas été encombrés de mesures de protection particulières et les chercheurs se sont habitués à cette situation assez confortable. D’autre part, on peut imaginer qu’il serait assez peu rentable pour les éditeurs de développer des DRM pour du contenu s’adressant à la communauté la mieux armée pour les contourner ! Quoi qu’il en SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
13
DRM et bibliothèques soit, le même genre de politique a généralement été appliqué aux livres électroniques (ebooks) et autres ressources documentaires numériques dans les domaines scientifiques et techniques. Néanmoins, la vigilance reste de mise: le monde de l’édition grand public semble beaucoup plus sensible à la tentation du DRM, et il serait regrettable que la contagion gagne notre tour d’ivoire. La politique documentaire de la bibliothèque est de favoriser autant que possible les contenus indépendants de la plate-forme et non encombrés de DRM (critères aussi appliqués par le Consortium des Bibliothèques Universitaires Suisses [6]) et d’éviter ceux qui ne suivraient pas ces principes. Malheureusement, ce n’est pas toujours possible et nous sommes parfois contraints d’obtenir la documentation réclamée par nos lecteurs auprès de fournisseurs moins conciliants. La plate-forme DawsonEra &, qui héberge certains ebooks de notre collection, en est un exemple. C’est parfois la seule façon d’obtenir un livre spécifique sous forme électronique; or la copie et l’impression des livres proposés sur cette plate-forme sont limitées à 5% du texte. De surcroît les documents ne peuvent être téléchargés pour une consultation hors connexion que pour une durée de quelques jours, après lesquels ils expirent et deviennent illisibles. Nous rencontrons aussi des documents à durée de vie limitée dans le cadre plus restreint de la fourniture d’articles par d’autres bibliothèques (service appelé prêt entre bibliothèques ou PEB dans notre jargon). La British Library, qui est une de nos sources pour ce service, nous envoie des articles scannés au format PDF protégés par un DRM qui les rend illisibles après quelques jours. Nous sommes donc forcés de les imprimer dès réception pour être sûrs que la personne qui nous a demandé un article pourra effectivement le lire. Pour finir, nous devons mentionner que conformément à l’article 39b de la LDA, le Conseil fédéral a mis en place un Observatoire des mesures techniques (OMET) qui veille à ce que les mesures de protection n’étendent pas artificiellement la portée du droit d’auteur. En cas de problème ou de plainte, l’OMET peut faire office de médiateur ou de rapporteur auprès des autorités compétentes – une sorte de Monsieur Prix des DRM, en quelque sorte. Ces derniers mois, l’Observatoire a commencé à s’intéresser à l’utilisation de mesures techniques dans le domaine de la littérature scientifique. Un groupe de travail comprenant des représentants de plusieurs bibliothèques universitaires suisses (dont la Bibliothèque de l’EPFL) s’est réuni le 30 avril dernier pour un premier état des lieux: l’expérience de nos collègues de toute la Suisse est assez semblable à la nôtre. Afin d’approfondir cette question et d’avoir une idée plus nette de la situation, le groupe s’est lancé dans la préparation d’une enquête plus systématique auprès de toutes les institutions universitaires. Les résultats d’une telle enquête devraient décider de l’opportunité ou non d’actions plus concrètes. En résumé, les DRM sont perçus par les bibliothèques comme un obstacle sérieux au service public qui est notre mission première. À l’heure actuelle, les bibliothèques scientifiques comme celle de l’EPFL sont relativement à l’abri de ce problème, mais suivent avec attention l’évolution du marché pour éviter une dégradation de leurs services.
14 flash informatique
Références [1] JACQUESSON, Alain. Du livre enchaîné aux DRM. BBF. 2011, n° 3, p. 36-41. bbf.enssib.fr/consulter/bbf-2011-03-0036007 [consulté le 21.06.12] [2] www.bis.info/images/stories/documents/Verband/deontologie.pdf [consulté le 21.06.12] [3] labibapprivoisee.wordpress.com/2011/03/14/boudons-lescatalogues-des-gros-editeurs-bourres-de-drm/ [consulté le 21.06.12] [4] www.ifla.org/en/node/452 [consulté le 21.06.12] [5] www.bis.info/images/stories/documents/Fachthemen/Urheberrecht/stellung_uhr_fuer_bbs.pdf [consulté le 21.06.12] [6] infoscience.epfl.ch/record/165930/files/ebooks_bis2011.pdf [consulté le 21.06.12]. Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / A. Borel
GLOSSAIRE
&
DawsonEra: plate-forme de vente de livres électroniques, distribuant des titres de plusieurs centaines d’éditeurs. Cette forme d’agrégation de contenu permet de trouver relativement facilement un titre donné sous forme électronique et de l’acheter, au prix de conditions d’accès généralement plus restrictives en comparaison avec d’autres sources (l’agrégateur ayant intérêt à proposer aux éditeurs qu’il souhaite attirer sur sa plateforme les conditions qui leur paraîtront les plus favorables). Napster: un des premiers systèmes de partage de fichiers peerto-peer réellement populaires (démarré en 1999). Attaqué en justice par l’industrie musicale américaine à cause de la distribution très large de fichiers MP3 piratés, le service a fermé en 2001.
SavoirLibre, pour la diffusion des savoirs scientifiques Omar.Odermatt@savoirlibre.net, fondateur de la plate-forme SavoirLibre, savoirlibre.net
SavoirLibre is a new Web platform that aims at strengthening the dissemination, visibility and accessibility of scientific knowledge among the general public. This project was presented for the first time during the 13th edition of the LSM (Libre Software Meeting) on 12th July 2012. The beta version of savoirlibre.net is already online and the completed version will be available in autumn 2012. SavoirLibre est une nouvelle plate-forme Web dont le but est de renforcer la diffusion, la visibilité et l’accessibilité des savoirs scientifiques auprès du grand public. Ce projet a été présenté pour la première fois à l’occasion de la 13ème édition des RMLL (Rencontres Mondiales du Logiciel Libre) le 12 juillet 2012. La version bêta du site savoirlibre.net est en ligne et la sortie de la version aboutie est prévue pour l’automne 2012. Quelle est la proportion des savoirs produits au sein des institutions scientifiques qui accèdent à l’espace public ? Quel est l’impact ou l’influence des savoirs produits au sein des universités sur la société ? Qu’advient-il des savoirs communiqués lors des événements scientifiques ? Les savoirs produits au sein des universités peuvent-ils intéresser le grand public ? Voici quelques questions qui sont à la base du développement du projet SavoirLibre.
nombre de recherches sont menées dans la région et de nombreux événements scientifiques y sont organisés, ce qui draine des chercheurs de pointe du monde entier. Or, beaucoup de ces recherches, qui pourraient potentiellement intéresser le grand public, sont complètement ignorées de ce dernier. De même, certains événements scientifiques ne sont pas suffisamment visibles et restent confinés dans des cercles restreints de spécialistes, alors qu’ils seraient susceptibles d’intéresser les citoyens; ce qui pourrait aussi générer des échanges constructifs entre le monde scientifique et la société. Ainsi, beaucoup de moyens sont investis dans la production de nouvelles connaissances, alors que les structures de communication de la recherche sont encore trop peu développées. Une meilleure communication des fruits de la recherche permettrait de mieux valoriser les connaissances produites et de les partager davantage avec le grand public.
Décloisonner et valoriser les savoirs Les nouvelles technologies d’information et de communication offrent des ressources très intéressantes pour opérer un décloisonnement des connaissances scientifiques. La plate-forme savoirlibre.net a été construite sur la base du système de gestion de contenu libre WordPress & qui offre un éventail très large de possibilités afin d’atteindre l’objectif principal du projet: valoriser
À l’origine du projet Trois principaux constats sont à l’origine de la création de la plateforme SavoirLibre: 1 Le volume des connaissances scientifiques double actuellement tous les cinq ans, alors que la transmission des fruits de la recherche vers les citoyens et les citoyennes reste très faible. 50% des contenus scientifiques produits ne sont lus que par leurs propres auteurs et éditeurs, et 90% des recherches ne sont jamais citées. Un énorme fossé s’est creusé entre la quantité des savoirs produits et leur diffusion 1. 2 Notre époque est marquée par des mutations politiques, économiques, technologiques et environnementales déterminantes pour l’avenir de l’humanité. L’accès à des connaissances scientifiques à propos de ces mutations pourrait aider les citoyens et les citoyennes à mieux conscientiser ces problèmes et à se mobiliser davantage pour y faire face. 3 Le bassin lémanique compte de nombreuses institutions universitaires de renommée internationale. De ce fait, un grand CRIBB, Julian, SARI, Tjempaka. Open science, sharing knowlege in the global century. Ed. CSIRO. Collingwood. 2010
1
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
15
SavoirLibre, pour la diffusion des savoirs scientifiques
SavoirLibre poursuit les objectifs spécifiques suivants: 1 rapprocher la société du monde scientifique et de l’université; 2 renforcer les usages citoyens des savoirs scientifiques; 3 stimuler les débats sur les enjeux contemporains de société dans l’espace public; 4 offrir un espace de réflexion interdisciplinaire et intersavoir sur les enjeux de société contemporains; 5 documenter les événements scientifiques sur Internet afin d’augmenter leur impact; 6 offrir une fenêtre de visibilité aux chercheurs et aux chercheuses sur Internet afin de valoriser leurs travaux sur la scène scientifique internationale.
les savoirs en les rendant plus accessibles pour le grand public, grâce à un travail de médiatisation des événements scientifiques sur Internet comme des conférences, des colloques, ou la sortie de publications. Les contenus produits par SavoirLibre s’adressent donc avant tout au grand public. Cependant, SavoirLibre effectue aussi un travail de documentation des événements scientifiques sur Internet; ceci permet, d’une part, de les pérenniser tout en augmentant leur visibilité et par là-même leur impact; et d'autre part, de valoriser le travail des chercheurs et des chercheuses sur la scène scientifique internationale en leur mettant à disposition un support d’édition complémentaire aux revues scientifiques. L’information sur la plate-forme est organisée de manière simple et compréhensible en suivant seulement trois catégories principales: événement, auteur et thème. Elle est rapidement accessible et comprend des fichiers textes, audios et vidéos qui peuvent être librement téléchargés et partagés. Les données sont toujours introduites et contextualisées ce qui facilite leur compréhension. SavoirLibre inscrit aussi sa démarche dans une recherche esthétique. L’unité visuelle de sa plate-forme permet l’identification des contenus qu’elle produit et la qualité esthétique de ses éléments graphiques vise à élargir son public à des non-spécialistes. SavoirLibre se positionne comme une plate-forme intersavoirs et ouverte, qui entend accueillir tout savoir pouvant intéresser le grand public; qu’il provienne des sciences sociales, des sciences exactes ou, encore, d’espaces extra-institutionnels. SavoirLibre est pour le moment totalement autofinancé et a débuté ses travaux en février 2010 en couvrant plusieurs événements organisés par l’Université de Lausanne et le Collège International de Philosophie de Paris &.
Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / O. Odermatt
1 L’archivage permet de documenter les événements scientifiques par leur enregistrement et leur mise à disposition sur Internet. 2 Un service de médiatisation qui consiste à réaliser des contenus audiovisuels à partir des sujets abordés lors des événements scientifiques. L’objectif est de présenter de manière synthétique et exemplifiée les propos des chercheurs et de les rendre plus accessibles et plus attractifs. 3 La mise en lien permet de relier des contenus produits par SavoirLibre à des contenus complémentaires qui se trouvent à l’intérieur et à l’extérieur de la plate-forme. 4 La mise en réseau consiste à augmenter la visibilité des contenus produits par la plate-forme grâce à l’utilisation des réseaux sociaux et de la liste de diffusion SavoirLibre. 5 Le référencement permet d’améliorer le positionnement et donc la visibilité des contenus de SavoirLibre sur les moteurs de recherche. 6 Les contenus sont produits exclusivement sous licences Creative Commons afin de renforcer leur diffusion et de garantir leur accès au plus grand nombre.
16 flash informatique
GLOSSAIRE
&
Collège International de Philosophie de Paris (CIPh): organisme de recherche et de formation à la recherche ouvert au public où s'engagent et se croisent des pratiques philosophiques inédites. Situé à Paris, il fonctionne sur le modèle des universités ouvertes, dont il se distingue par le souci de donner un accès à la recherche en mouvement, plutôt qu'à un savoir constitué. www.ciph.org WordPress: système de gestion de contenu libre écrit en PHP reposant sur une base de données MySQL. WordPress est distribué par Automattic. www.wordpress.org. W W = tiré de Wikipédia
Licences libres et Open Access Nicolas.Borboen@epfl.ch, EPFL –STI - IGM - LENI (Laboratoire d’énergétique industrielle)
How Open Access and Creative Commons licenses can apply to academic and research fields and what are the benefits. Comment le Libre Accès et les licences Creative Commons peuvent s’appliquer aux domaines académiques et de recherche et quels en sont les intérêts.
Pour commencer, Creative Commons Le but de Creative Commons [1] (CC) est de proposer de manière simple et licite des alternatives aux droits de propriété intellectuelle établis dans une juridiction, y compris en Suisse et en Europe. À travers six contrats, ou licences Creative Commons [2], un auteur peut appliquer un moyen de régir les conditions de réutilisation et/ou de distribution de ses œuvres, de manière moins restrictive que le copyright en vigueur. Les licences Creative Commons ont été publiées la première fois le 16 décembre 2002, puis ont régulièrement évolué. La version actuelle (depuis 2007 aux USA) est la 3.0. L’objectif de l’organisation est de permettre l’évolution d’une œuvre tout au long de sa diffusion en encourageant sa circulation, son échange et sa modification, de façon analogue aux différents types de licences [3] régissant les logiciels libres.
Les six contrats
Les six contrats types de Creative Commons sont issus de combinaisons de quatre options principales: Paternité (en anglais Attribution, BY): obligation de citer l’auteur. Interdiction de l’utilisation commerciale (en anglais Non commercial, NC): empêchement par l’auteur d’un usage commercial. Modification (en anglais No Derivs, ND): interdiction de modifier l’œuvre originale. Partage à l’identique (en anglais Share Alike, SA): distribution de toutes créations dérivées selon la même licence ou non.
Certaines combinaisons n’étant pas compatibles entre elles, et le droit de paternité étant une condition sine qua non, il ne reste que les six contrats suivants: BY, BY-ND, BY-NC-ND, BY-NC, BYNC-SA, BY-SA: Paternité Paternité Pas de modification Paternité Pas de modification Pas d’utilisation commerciale Paternité Pas d’utilisation commerciale Paternité Pas d’utilisation commerciale Partage à l’identique Paternité Partage à l’identique creativecommons.fr/licences/faq/
À noter qu’il existe une septième possibilité, la licence Creative Commons Zéro (CCØ) [4] dont le but est de renoncer au maximum à ses droits d’auteur pour s’approcher au plus près du domaine public. Il existe de nombreux exemples d’utilisation de ces licences, comme l’album The Wired CD [5], les photos de campagne d’Obama [6], ainsi que les très nombreuses photographies sur Flickr [7], le film le Bal des Innocents [8], les articles de l’encyclopédie Wikipédia [9], les données géographiques d’OpenStreetMap [10] ou encore les articles du groupe logiciel libre [11] de l’EPFL. Mi-2011, Creative Commons International a publié un document sur la réussite de créateurs ayant placé leur contenu sous licence Creative Commons, The Power of Open [12], qui donne des exemples aussi variés que concrets.
Fondation du mouvement libre accès La signature de l’Open Access Initiative [13] à Budapest en 2001 est considérée comme le premier rassemblement fondateur du mouvement libre accès. En 2003, la Déclaration de Berlin sur le Libre Accès à la Connaissance en Sciences exactes, Sciences de la vie, Sciences humaines et sociales [14], construite et basée sur l’initiative de Budapest, est fondatrice du mouvement Libre Accès. Comme le montrent ces citations, les signataires de cette déclaration ont pour but la facilitation d’accès et d’utilisation des connaissances scientifiques: SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
17
Licences libres et Open Access L’Internet a fondamentalement transformé les réalités matérielles et économiques de la diffusion de la connaissance scientifique et du patrimoine culturel. Pour la toute première fois, l’Internet nous offre la possibilité de constituer une représentation globale et interactive de la connaissance humaine, y compris son patrimoine culturel, et la garantie d’un accès mondial. […] Nous remplissons par trop imparfaitement notre mission de diffusion de la connaissance si l’information n’est pas mise rapidement et largement à la disposition de la société. De nouveaux modes de diffusion de la connaissance, non seulement sous des formes classiques, mais aussi, et de plus en plus, en s’appuyant sur le paradigme du libre accès via l’Internet, doivent être mises en place. Nous définissons le libre accès comme une source universelle de la connaissance humaine et du patrimoine culturel ayant recueilli l’approbation de la communauté scientifique. Dans le but de concrétiser cette vision d’une représentation globale et accessible de la connaissance, le Web du futur doit être durable, interactif et transparent. Le contenu comme les outils logiciels doivent être librement accessibles et compatibles. En plus d’assurer l’accès à la publication et sa pérennité, la déclaration garantit la reproductibilité des documents dans la définition d’une contribution au libre accès: Les contributions au Libre Accès se composent de résultats originaux de recherches scientifiques, de données brutes et de métadonnées, de documents sources, de représentations numériques de documents picturaux et graphiques, de documents scientifiques multimédias. Contrairement à ce que l’on pourrait croire, le libre accès ne se limite donc pas seulement à la publication finale, mais donne également accès aux éléments ayant permis cette publication. Le parallèle avec les fichiers sources d’un logiciel open source est évident. Parmi les 382 signataires [15] actuels de la Déclaration de Berlin, quelques institutions suisses y participent: les Académies suisses des sciences, la Conférence des recteurs (Universités et HEP), le Fonds national suisse de la recherche scientifique (FNS), l’ETHZ, les Universités de Fribourg, Saint-Gall et Zurich. Au niveau européen il existe l’Open Access Infrastructure for Research in Europe (OpenAIRE) [16], qui vise à soutenir la mise en œuvre du libre accès en Europe selon les directives de l’European Research Council (ERC) [17].
modification d’une publication sans la recherche qui l’a constituée perd tout son sens. Les licences Creative Commons peuvent être utilisées pour permettre l’utilisation de publications en Open Access. Deux voies sont possibles: z la voie dite verte, où l’auteur publie dans un journal puis archive lui-même sa version du papier; z la voie en or, où l’auteur rend immédiatement public son article via le site de la revue ou via un Open Access Journal. Une des plates-formes la plus connue pour la voie en or est la Public Library of Science (PLoS) [19] qui, depuis 2003, a eu la volonté de créer une bibliothèque ouverte en ligne dédiée à plusieurs domaines médicaux ou scientifiques. La revue est payée par une contribution financière à laquelle sont soumis les articles publiés. Ce modèle auteur-payeur est parfois critiqué, pourtant les études montrent que son coût n’est pas forcément supérieur et surtout que le taux de citation des articles en Open Access est plus important que celui des articles en modèle Pay-to-access [20]. Le concept de l’Open Access est de rendre l’article disponible immédiatement en ligne, sans frais d’accès et sans restriction sur la redistribution ou l’utilisation ultérieure, tant que l’auteur et la source sont cités comme spécifié dans la licence Creative Commons.
Connaissances scientifiques et Creative Commons L’organisation Creative Commons cherche également à développer l’accès à la connaissance en proposant des supports simples: z En 2005, Creative Commons a lancé le projet Science Commons [21] dont le but premier est de développer une politique et des outils pour aider à la réutilisation (aka réutilisabilité) des recherches et des données de recherche. z Parallèlement à la recherche, Creative Commons pense aussi au monde de l’éducation en créant, en 2007, ccLearn [22] qui est dédié à la promotion de l’utilisation des Open Educational Resources (OER) [23], ou Ressources Éducatives Libres (REL) en français, ainsi que de l’Open Learning. Leur mission est de réduire les barrières légales, techniques et sociales pour le partage et la réutilisation du matériel éducatif.
Open Education Open Access L’Open Access [18], contrairement à l’Open Content, ne donne pas le droit de modifier le contenu de la publication, mais se contente d’assurer sa disponibilité et d’associer le contenu à un ou plusieurs auteurs. À l’inverse des contenus multimédia ou logiciels, ce point est crucial dans le milieu scientifique, car la
18 flash informatique
Toujours dans l’idée d’éliminer les barrières à la connaissance, des modèles d’éducation libres ont vu le jour sur la base des principes de l’Open Access. Les plus prestigieuses universités ont maintenant des cours disponibles pour tous et gratuitement, le MIT et Harvard se sont associés pour la plate-forme edX [24] alors que Princeton, Stanford, University of California, Berkeley, University of Michigan-Ann Arbor, and University of Pennsylvania ont lancé Coursera [25].
Licences libres et Open Access Un grand acteur du savoir libre est l’Open Course Ware Consortium [26] qui en plus de fournir une plate-forme à des universités (par exemple pour l’Institut des sciences et technologies de Paris [27]), a organisé l’Open Education Week [28] qui visait à informer sur le mouvement de l’éducation ouverte et sur son impact sur l’enseignement et l’apprentissage dans le monde entier. Le site Why Open Education Matters [29] propose des courts-métrages qui expliquent les bénéfices et les promesses des ressources d’éducation libres pour les enseignants, les étudiants et les écoles partout dans le monde. En 2004, l’Open Knowledge Foundation [30] est créée au Royaume-Uni dans un but non lucratif pour promouvoir la culture libre dans les domaines où les données peuvent être ouvertes, comme l’éducation et la science. Différents projets disponibles sur le site promeuvent l’accès libre et gratuit, la liberté de redistribution et de réutilisation, sans aucune restriction.
Où trouver des ressources et où publier Parmi la multitude de sites concernés par l’Open Access, en voici une sélection: z Directory of Open Access Journals (DOAJ) [31]: compte un peu moins de 8000 revues et semble être un bon point de départ. z Registry of Open Access Repositories (ROAR) [32]: donne des informations sur la taille et le statut des dépôts à travers le monde. z ArXiv [33]: une des plus anciennes archives de prépublications électroniques compte 765 000 e-prints en Physique, Mathématique, Informatique, Biologie, Finance et Statistiques. z Public Library of Science (PLoS) [34]: indexé par Scopus [35], CrossRef [36], ainsi que par Google Scholar [37]. z InTech [38]: 1800 livres, 13 journaux et presque 14 millions de téléchargements. Très actif dans les domaines de la médecine et de l’ingénierie. z Open Access Infrastructure for Research in Europe (OpenAIRE) [39]: au niveau européen, flirte avec les 10 000 publications et propose aussi des contenus non anglophones. z Association Savoir Libre [40]: va lancer sa plate-forme en automne prochain. Bien que dans les grandes lignes le concept soit le même que pour les autres plates-formes, l’association a pour but de stimuler les débats entre scientifiques et citoyens et d’encourager l’analyse interdisciplinaire des thèmes de société contemporains. Lire aussi l’article de Omar Odermatt, SavoirLibre pour la diffusion des savoirs scientifiques dans ce journal. z Open-access.net [41]: permet de répondre à la demande croissante que l’Open Access doit couvrir en Suisse. Son but est de rassembler sur sa plate-forme des informations éparpillées et de les rendre accessibles à différents groupes cibles. Open-access.net permet également de répondre aux questions juridiques [42] de l’Open Access en Suisse.
Conférence Creative Commons – Bibliothèque de l’EPFL Partager, télécharger, utiliser légalement… Grâce aux Creative Commons ! Jeudi 25 octobre de 15h00 à 19h00 au Forum du Rolex Learning Center, entrée gratuite, inscription obligatoire Rencontre organisée par la Bibliothèque de l’EPFL à l’occasion du dixième anniversaire des licences CC (Creative Commons). Depuis 10 ans déjà, les licences CC permettent de partager et de réutiliser du contenu publié librement sur Internet. Avec cette rencontre, vous serez en mesure de mieux comprendre les nouvelles pratiques de la création et de la diffusion à l’ère numérique, de mieux cerner les différentes utilisations qui peuvent être faites de ces licences, mais également de mieux maîtriser leur fonctionnement et leurs atouts. Informations et inscriptions sur: go.epfl.ch/lib-cc
z À l’EPFL: Infoscience [43] permet la soumission de publications selon la voie verte, alors que la bibliothèque [44] permet la recherche de ressources Open Access. Lire aussi l’article de Julien Junod, Open Access à l’EPFL dans ce journal.
Conclusion La production et la diffusion des connaissances dans le monde actuel dépendent presque totalement des outils informatiques. Cependant des barrières légales, techniques et sociales sont encore présentes et entravent la libre diffusion de la connaissance de manière globale. Les différentes initiatives présentées dans cet article ont comme point commun la mise en exergue ainsi que la promotion du partage et de l’échange de ces connaissances au moyen de différents outils mis à disposition. Les connaissances, et plus particulièrement les publications scientifiques, n’ont d’intérêt que si elles sont lues et appréciées (nombre de citations). L’évaluation de la publication et la réputation de l’auteur dépendent fortement de l’accessibilité aux publications, car au final c’est la communauté scientifique qui se régule et se modère d’elle-même. La chaîne de la libre connaissance, du support didactique à la recherche finale, a déjà bon nombre d’adhérents qui souhaitent sa démocratisation globale. Un partage plus important des connaissances actuelles en Open Access serait un enrichissement important pour l’humanité et profiterait à la majorité.
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
19
Licences libres et Open Access
Pour en découvrir plus Classement antéchronologique: z BOULOGNE, François. Nouveaux enjeux de la publication scientifique. 23 avril 2012. sciunto.wordpress.com/2012/05/16/ publication-dune-synthese-personnelle-surla-publicationscientifique/.
z JEAN, Benjamin. Option Libre. Du bon usage des licences libres. Décembre 2011. Framasoft. framabook.org/option-libredu-bon-usage-des-licences-libres. z SCHÜTZ, Frédéric, POSSOZ, Anne. Licences Libres en toute (ré) créativité. Flash informatique spécial rentrée. 16 septembre 2011. flashinformatique.epfl.ch/spip.php ?article2475. z MASUTTI, Christophe. Pour libérer les sciences. 15 décembre 2010. linuxetleschoses.tuxfamily.org/sciencelibre & www. framablog.org/index.php/post/2010/12/20/pour-liberer-lessciences-christophe-masutti.
z RUTTER, Michael Patrick, SELLMAN, James. Uncovering open access. 9 novembre 2010. OpenSource.com. opensource.com/ education/10/10/uncovering-openaccess. (traduction disponible sur www.framablog.org/index.php/post/2010/12/11/decouvrir-le-libre-acces). z DURAND-BARTHEZ, Manuel. Droits d’auteur & Publication scientifique. Mai 2009. www.univ-bordeaux.fr/ddoc/urfist/documents/durand-barthez.pdf. z THYS, Laurence. Aspects juridiques de la publication scientifique. 2009. www.ciuf.be/cms/images/stories/ciuf/biblio-theques/guidejuridique.pdf. z Divers auteurs. Libre accès (édition scientifique). Wikipédia. 27 juillet 2006. fr.wikipedia.org/wiki/Libre_accès_(édition_ scientifique).
Références [1] creativecommons.org [2] creativecommons.org/licenses/ [3] SCHÜTZ, Frédéric, POSSOZ, Anne. Licences Libres en toute (ré)créativité. Flash informatique spécial rentrée, 16 septembre 2011, flashinformatique.epfl.ch/spip.php ?article2475 [4] creativecommons.org/publicdomain [5] creativecommons.org/wired [6] www.flickr.com/photos/whitehouse & www.framablog.org/ index.php/post/2009/05/03/photographie-obama-davoscreative-commons
20 flash informatique
[7] www.flickr.com/search/ ?l=cc [8] www.ecrivains.org/le-bal-des-innocents/ [9] www.wikipedia.org [10] www.openstreetmap.org [11] flashinformatique.epfl.ch/spip.php ?article2283 [12] thepowerofopen.org [13] www.soros.org/openaccess [14] oa.mpg.de/files/2010/04/BerlinDeclaration_wsis_fr.pdf [15] oa.mpg.de/lang/en-uk/berlin-prozess/signatoren/ [16] www.openaire.eu [17] erc.europa.eu/documents/erc-scientific-council-guidelinesopen-access [18] en.wikipedia.org/wiki/Open_access [19] www.plos.org [20] www.nature.com/nature/focus/accessdebate/21.html [21] sciencecommons.org [22] wiki.creativecommons.org/Creative_Commons_-_ccLearn [23] www.oercommons.org [24] www.edxonline.org [25] www.coursera.org [26] www.ocwconsortium.org [27] www.paristech.org [28] www.openeducationweek.org [29] whyopenedmatters.org [30] okfn.org [31] www.doaj.org [32] roar.eprints.org [33] arXiv.org [34] www.plos.org [35] www.scopus.com [36] www.crossref.org [37] scholar.google.com [38] www.intechopen.com [39] www.openaire.eu [40] savoirlibre.net [41] open-access.net [42] open-access.net/ch_en/general_information/legal_issues/ [43] infoscience.epfl.ch [44] library.epfl.ch/en/ebooks/
Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / N. Borboën
Forme, signe et … évasion Vers une définition du document numérique Patricia.Plaza@epfl.ch, EPFL - Domaine IT - KIS, responsable du projet GED
This paper presents a global approach to the concept of document which takes into account its digital evolution. It is a summary of a paper published in 2003 by Roger T. Pédauque, a multidisciplinary group of research scholars, which analyses the concept of document under three aspects: the document as a form (as a material or immaterial object), sign (as meaningful object) or medium (as communication vector). Objet de notre quotidien, le document nous paraît si évident qu'il ne semble pas nécessaire de le définir précisément. Et pourtant, l’exercice pourrait se révéler plus ardu qu’il n’y paraît. Information, donnée, texte, fichier, papier, article, feuille, ressource, image, courrier, etc. cette sélection de termes employés parfois comme synonymes ou pour désigner des objets similaires, nous montre à quel point l’objet document peut être complexe, et ce d’autant plus qu’il s’est trouvé enrichi, augmenté par le passage au numérique. Mais cette évolution, si elle lui a conféré une plus grande plasticité, a également induit, pour l’objet matériel que nous connaissions jusqu’ici, une perte de stabilité. En 2003, dans un article intitulé Document: forme, signe et médium, les re-formulations du numérique [1], un collectif de chercheurs transdisciplinaires, réunis sous le pseudonyme de de Roger T. Pédauque, se propose d’analyser la notion de document dans son passage au numérique et de le définir selon trois axes d’études: 1 anthropologique (le document/forme comme objet à voir), 2 cognitive (le document/texte comme objet à penser) et 3 sociale (le document/relation comme objet à transmettre). Les caractéristiques dégagées dans chaque axe sont vues comme des traits dominants de celui-ci. Elles n’excluent pas les caractéristiques mises en lumière par les autres approches, mais mettent en évidence plusieurs dimensions du document, perméables entre elles, et qui s’éclairent mutuellement. Cet article se propose de présenter brièvement ces trois dimensions du document, illustrées par des propositions de définition, qui évoluent au gré des apports du numérique.
Le document comme forme Ici le document est traité comme un objet, matériel ou immatériel. Le document est un objet ou une inscription dont on repère
les frontières et que l’on peut directement percevoir, sans utiliser d’outil. Le support traditionnel dominant est le papier, la trace l’écriture, manuscrite ou imprimée. Une première définition du document est ainsi posée par cette équation: Document = support + inscription La musique enregistrée, le cinéma puis l’audiovisuel ont introduit un premier changement, en rendant l’utilisation d’un outil nécessaire à la perception du contenu. Le passage de l’analogique au numérique a fondamentalement modifié la notion de support en permettant de mêler texte, image, son et animation. La publication électronique a ensuite rendu possible la production à la demande d’un document (à l’écran ou sur papier), déplaçant l’attention initialement portée au support vers la publication elle-même. Le passage au numérique a également induit des changements profonds au niveau de l’inscription. Dans le contexte numérique, celle-ci peut être rapprochée de la notion de codage utilisée en informatique et qui permet de manipuler, transporter des objets. Toujours dans ce contexte (et par analogie à la définition de programme informatique Programme = logiciel + données), la définition de document numérique peut être résumée ainsi: Document numérique = structure + données Comme on le sait, la structure peut énormément varier d’un document à l’autre, allant du très au très peu, voire pas, structuré. Deux courants de recherche analysent cette structuration. Le premier part de l’analogique pour aller vers le numérique, il concerne les procédés de dématérialisation des documents papier classiques, ou numérisation, qui se basent sur le traitement de l’image et la reconnaissance de formes. Le second courant fait le cheminement inverse: les documents sont reconstitués à partir d’algorithmes en remontant leur structure ou logique interne pour rendre le texte lisible à l’écran. Ces recherches ont débouché sur la bureautique, puis la publication électronique et ont trouvé une application à grande échelle avec la révolution du Web. À ce niveau, le Web peut être vu comme une infinité de documents reliés entre eux. Ces deux courants ont mis en évidence deux niveaux fondamentaux de structuration des documents: z la structure logique, c’est-à-dire la construction d’un document en parties et sous parties articulées entre elles, et dont l’élément de structure le plus bas est le texte ou le signal analogique (unifié sous différents formats: unicode, MPEG, …) z la représentation formelle de la présentation avec la notion de balisage qui décrit la structure d’un document plutôt que ses caractéristiques physiques. Le succès de la norme XML &, et de ces dérivés, est probablement dû à la convergence de ces mouvements. Ceci permet de modifier l’équation du document en y insérant ces nouvelles caractéristiques: SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
21
Forme, signe et … évasion Document XML = Données structurées + mise en forme [2] «Le numérique a déplacé la question du support du document, qui en assurait la stabilité grâce à la fixité de l’inscription, vers la problématique de sa structure (…). [E]n séparant de façon radicale la structure logique d’un texte de sa représentation visuelle, elle autorise des traitements formels différents pour un même contenu, à une échelle inédite». Pédauque, 2003 De cet axe, une première définition, partielle, du document est proposée: «Un document numérique est un ensemble de données organisées selon une structure stable associée à des règles de mise en forme permettant une lisibilité partagée entre son concepteur et ses lecteurs» Pédauque, 2003
Le document comme signe Cet axe d’étude traite du document comme objet signifiant. Une définition du document traditionnel pourrait être exprimée par l’équation suivante: Document = inscription + sens Le support est devenu ici secondaire. L’importance est donnée au contenu porteur de sens et matérialisé par l’inscription. Ce sens se définit par rapport au contexte de production et de diffusion du document qui va conditionner son interprétation. Trois idées-forces émergent de cette approche : 1 La création: la mise en document est une manière pour nous d’appréhender ce qui nous entoure. En réalisant des documents, nous classons nos idées, organisons notre discours pour nous aider à penser le monde. La notion de genre textuel et de collection ici est fondamentale: les documents sont regroupés dans de grandes catégories dont les différents éléments sont en relation. Le classement varie selon les situations et les époques, il marque nos représentations sociales. 2 L’interprétation: un document n’a de sens que s’il est lu ou interprété par un lecteur (au sens large), et cette interprétation dépend du contexte dans lequel elle se fait. Un même document pourra être compris de manière différente selon l’époque et la situation sociale ou individuelle du lecteur. 3 Les signes: tout objet est potentiellement un signe et pourrait être un document. En ce sens, une carotte de glace, un échantillon de tissu, un animal dans un zoo, etc. [3], sont des documents, car ils sont décrits, classés et inventoriés dans un système de représentation. Mais la grande majorité des documents sont construits à partir du langage écrit ou parlé. Ces trois idées ont permis l’invention des langages documentaires organisés de façon associative ou hiérarchique (références bibliographiques, index, thésaurus, résumés, etc.), conséquence de l’explosion documentaire qui s’est manifestée dès la fin XIXe siècle. Il a ainsi été possible de construire à partir des documents (ou des images ou des objets eux-mêmes) un langage formel permettant de les classer pour les retrouver à la demande. Plus récemment, les outils de traitement automatique de la langue sont apparus, issus du travail commun d’informaticiens et de linguistes pour traiter une problématique similaire. Ils ont eu des résultats spectaculaires dans leur application au Web sous
22 flash informatique
forme de moteurs. La démarche a consisté à isoler les éléments logiques pour les modéliser. À la lumière de ces éléments, l’équation définissant un document pourrait être modifiée comme suit: Document numérique = texte informé + connaissances Texte informé signifiant que le texte (au sens large, y compris audio-visuel) pourrait être soumis à un traitement afin d’en repérer les unités d’information. Le remplacement de sens par connaissances introduit la notion de personnalisation pour un lecteur ou un usager donné. L’arrivée du Web sémantique avec une structuration toujours plus formalisée des documents (XML) et l’insistance sur l’indexation (RDF &) a encore modifié la portée de ces évolutions en introduisant les ontologies. Ce n’est plus tant un ensemble de fichiers reliés entre eux qui est visé, mais la constitution d’un réseau qui utilise pleinement les capacités de calcul des machines connectées pour le traitement sémantique des textes. Des métadonnées que l’on peut modéliser et combiner prennent alors toute leur valeur. L’équation peut ainsi être complétée : Document WS = texte informé + ontologies Selon cet axe d’étude, une nouvelle définition, toujours partielle, du document peut être proposée: «Un document numérique est un texte dont les éléments sont potentiellement analysables par un système de connaissance en vue de son exploitation par un lecteur compétent» Pédauque, 2003
Document comme médium Ici c’est la fonction sociale du document qui est analysée. Le document est principalement considéré comme vecteur d’un message entre des personnes. Deux idées sous-tendent cette approche: 1 Le document a pour fonction de prouver. 2 Le document a pour fonction d’informer. «Un document donne un statut à une information. Il est porté par un groupe social qui le suscite, le diffuse, le sauvegarde et l’utilise». Pédauque, 2003 C’est également un discours rattaché à son auteur par une signature. Il a donc une valeur d’évidence de l’activité (avec un sens plus large que la notion de preuve juridique) et une valeur d’information, de renseignement, de témoignage. La définition suivante est avancée: Document = inscription + légitimité Les documents sont vus ici comme des outils de régularisation des sociétés humaines. Ils permettent de communiquer et de pérenniser les lois, normes et les informations nécessaires à leur fonctionnement. L’organisation politique et sociale s’appuie sur l’échange de documents. Une économie interne du document s’est construite à partir des évolutions technologiques qui le constituent et des modalités de la mise en document. Mettre en document peut être vu comme un acte de communication entre un ou plusieurs expéditeurs et un ou plusieurs destinataires. La dynamique de cette mise en document est étudiée principalement selon deux axes: le premier s’intéresse à la communication organisationnelle et étudie les do-
Forme, signe et … évasion cuments dans un processus de travail, le second analyse la communication des médias et s’intéresse au processus de publication. Une nouvelle équation définissant le document est proposée: Document numérique = texte + procédure L’avènement du Web a de nouveau induit un changement d’échelle étendant le numérique à la société toute entière et permettant à tout un chacun d’être à la fois producteur et consommateur de documents. L’augmentation du nombre de documents ainsi mis à disposition ne permet plus de repérer, filtrer ces documents de la manière classique, c’est-à-dire a priori. Ceci doit plutôt se faire a posteriori, selon divers procédés qui tiennent comptent des liens pointant vers les documents euxmêmes et des algorithmes des moteurs OTLET Paul, Traité de documentation: le livre sur le livre, théorie et pratique. Bruxelles. Editions Mundaneum. 1934. 431 p. de recherche. Une troisième équation est proposée, qui intègre cette importance prise par z PÉDAUQUE, Roger T. Document et modernité. 2006 [sic le Web: 00001741-version 1]. archivesic.ccsd.cnrs.fr/sic_00001741. Document Web = publication + accès repéré z SALAÜN, Jean-Michel. Vu, lu, su: Les architectes de l'inforDans cette équation, mation face à l'oligopole du Web. Editions de la Découverte «la publication seule ne ferait plus la légitimité, il faudrait lui adjoindre la notoriété par le repérage de l’accès». Pédauque, 2003 Une troisième définition du document est avancée: «Un document numérique est la trace de relations sociales reconstruites par les dispositifs informatiques». Pédauque, 2003
En conclusion Dans chacun de ses axes, la notion de contrat de lecture est soulignée au travers de la lisibilité dans le premier, de la compréhension dans le second et de la sociabilité dans le troisième. Il est probable que dans ces trois dimensions s’incarne la notion moderne de document. «Un document ne serait finalement qu’un contrat entre des hommes dont les qualités anthropologiques (lisibilité-perception), intellectuelles (compréhension-assimilation) et sociales (sociabilité-intégration) fonderaient une part de leur humanité, de leur capacité à vivre ensemble». Pédauque, 2003
Pour aller plus loin z PÉDAUQUE, Roger T. Le texte en jeu. Permanence et transformation du document 2005. [sic 00001401 - version 1]. archivesic.ccsd.cnrs.fr/sic_00001401.
(09 février 2012).
Références [1] PÉDAUQUE, Roger T. Document: forme, signe et médium, les re-formulations du numérique. Version 3. 8-07-2003. @rchiveSIC (2003) [sic_00000511 - version 1]. archivesic. ccsd.cnrs.fr/sic_00000511
[2] En rappelant que stricto senso, la norme XML ne définit pas de mise en forme, celle-ci est définie par XSL. [3] Voir également l’article de ERTZSCHEID, Olivier. L’homme est un document comme les autres: du World Wide Web au World Life Web. Hermes, 53 (2009) 33-40 [sic_00377457 - version 2]. archivesic.ccsd.cnrs.fr/ sic_00377457. [consultation 05.07.2012].n
GLOSSAIRE
&
RDF (Ressources Description Framework): modèle de métadonnées défini par le W3C. XML (Extensible Markup Language): est un langage informatique de balisage générique qui dérive du SGML. W W = tiré de Wikipédia
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
23
Publier ses données sous forme de Linked Open Data Philippe.Cudre-Mauroux@unifr.ch, Université de Fribourg, directeur de eXascale Infolab
La solution la plus prometteuse dans ce domaine est peut-être le LOD &, formalisme moderne et standardisé par l’organe faîtier du Web, le W3C.
Welcome to the nascent Web of Data. Après des années de tâtonnements, le Web est enfin prêt à accueillir toute la richesse de vos données, et cela dans des formats ouverts et interopérables…
L’émergence du Web des données Tout commence en 2006 par une note publiée par Tim BernersLee promulguant une méthode de publication des données tirant partie de l’architecture du Web [1]. Le créateur du Web met en avant quatre principes fondamentaux qui sont toujours à la base de la publication de Linked Open Data: 1. utiliser des URI & pour identifier les objets ou données à partager; 2. utiliser des URI HTTP afin que n’importe qui puisse déréférencer lesdites URI, par exemple en utilisant un navigateur Web; 3. fournir des informations structurées en RDF & lorsque lesdites URI sont déréférencées; 4. et, finalement, inclure des liens vers d’autres URI similaires dans les informations ainsi fournies.
Quel format choisir pour publier ses données en ligne ? Malgré l’engouement extraordinaire pour l’Open Data et le partage de données, le problème du choix du format se pose encore et toujours. Les formats antédiluviens ou semi-propriétaires (tels CSV ou Excel) sont bien sûr à proscrire, pour leur manque d’expressivité d’une part, et leur manque d’ouverture d’autre part. XML demeure un bon choix pour publier des documents. Il se révèle par contre peu pratique pour la publication de données brutes, de par la rigidité de ses schémas et la difficulté inhérente à mixer des éléments XML provenant de documents hétérogènes. JSON a le vent en poupe pour l’échange de données point à point, même si le format n’a jamais été prévu pour modéliser ou intégrer des données complexes.
Magnatune
DB Tropes Hellenic FBD Hellenic PD
Crime Reports UK
NHS (EnAKTing)
Ren. Energy Generators
EEA
EU Institutions
Open Election Data Project
Mortality (EnAKTing)
educatio n.data.g ov.uk Ordnance Survey
legislation data.gov.uk UK Postcodes
ISTAT Immigration
ESD standards Lichfield Spending Scotland Pupils & Exams Traffic Scotland
Data Gov.ie
reference data.gov. uk
TWC LOGD
Eurostat (FUB)
CORDIS (FUB)
(RKB Explorer)
Linked EDGAR (Ontology Central)
EURES
FTS
Finnish Municipalities
New York Times
World Factbook
Geo Species
UMBEL
Italian public schools
RDF Book Mashup
BibBase
DBLP (FU Berlin)
dataopenac-uk
ERA Diseasome
lingvoj
Lexvo
DBLP (L3S)
EUNIS
Cornetto
Ocean Drilling Codices
Turismo de Zaragoza
Janus AMP
Climbing
Linked GeoData
WordNet (W3C)
Alpine Ski Austria
AEMET
Metoffice Weather Forecasts
Weather Stations
Yahoo! Geo Planet
GESIS
Pisa
RESEX
Scholarometer
ACM
NVD
IBM DEPLOY
Newcastle
RAE2001
LOCAH Roma
CiteSeer
dotAC
ePrints
IEEE RISKS
PROSITE
ChEMBL Open Data Thesaurus
Sears
STW
Budapest
IRIT
VIVO Indiana
(Bio2RDF)
Affymetrix
SISVU
GEMET
Airports National Radioactivity JP
DBLP (RKB Explorer)
HGNC
PubMed
ProDom
VIVO Cornell
STITCH
LAAS
NSF
KISTI
Linked Open Colors
Open Corporates
Italian Museums
Amsterdam Museum
OMIM
MGI
InterPro
UniParc
UniRef
UniSTS
GeneID
VIVO UF
Linked Open Numbers
Reactome
OGOLOD
UniPath way
Chem2 Bio2RDF
ECCOTCP bible ontology
PBAC
KEGG Pathway KEGG Reaction
Medi Care
Google Art wrapper
meducator
KEGG Drug
Pub Chem
KEGG Enzyme
Smart Link
Product Types Ontology
SGD
Gene Ontology
AGROV OC
Product DB
lobid Organisations
ECS (RKB Explorer)
JISC
WordNet (RKB Explorer)
EARTh
Swedish Open Cultural Heritage
Courseware
PDB
UniProt
LODE
SMC Journals
ECS Southampton
ECS Southampton EPrints
Eurécom
LinkedCT
Taxono my
NSZL Catalog
Pfam UniProt
Twarql
WordNet (VUA)
Wiki
UN/ LOCODE
SIDER
Drug Bank
Enipedia
lobid Resources
OAI
data dcs
TCM Gene DIT
Daily Med
Europeana Deutsche Biographie
P20
Freebase
YAGO
VIAF
UB Mannheim
Ulm
BNB OS
dbpedia lite
Norwegian MeSH
GND
ndlna
data bnf.fr
Uberblic
Open Cyc
riese
GeoWord Net
El Viajero Tourism
IdRef Sudoc
Calames
Project Gutenberg
Rådata nå!
PSH
DDC
Open Calais
Greek DBpedia
ntnusc
LIBRIS LCSH
MARC Codes List
totl.net
US Census (rdfabout)
Piedmont Accomodations
URI Burner
LEM
Thesaurus W
SW Dog Food
Portuguese DBpedia
t4gm info
RAMEAU SH
LinkedL CCN
Sudoc
iServe
Geo Names
US SEC
Scotland Geography
Linked MDB
Event Media
NDL subjects Open Library (Talis)
theses. fr
my Experiment
flickr wrappr
NTU Resource Lists
Open Library
SSW Thesaur us
Revyu
Fishes of Texas
(rdfabout)
Semantic XBRL
Goodwin Family
Pokedex
St. Andrews Resource Lists
Plymouth Reading Lists
Didactal ia
DBpedia
Linked Sensor Data (Kno.e.sis)
Eurostat (Ontology Central)
GovTrack
Chronicling America
Telegraphis
Geo Linked Data
CORDIS
Source Code Ecosystem Linked Data
semantic web.org
BBC Music
NASA (Data Incubator)
transport data.gov. uk
Eurostat
Poképédia
Classical (DB Tune)
Manchester Reading Lists
gnoss
Last.FM (rdfize)
Taxon Concept
LOIUS
Ontos News Portal
Sussex Reading Lists
Bricklink
yovisto
Semantic Tweet
Linked Crunchbase
Jamendo (DBtune)
Music Brainz (DBTune)
BBC Wildlife Finder
Rechtspraak. nl
Openly Local
data.gov.uk intervals
London Gazette
(Data Incubator)
BBC Program mes
OpenEI
statistics data.gov. uk
GovWILD Brazilian Politicians
Discogs
(DBTune)
patents data.go v.uk
Music Brainz (zitgist) RDF ohloh
FanHubz
research data.gov. uk
CO 2 Emission (EnAKTing)
Energy (EnAKTing)
Surge Radio
Klappstuhlclub
Lotico
(Data Incubator)
Last.FM artists
Population (EnAKTing)
reegle
EUTC Productions
business data.gov. uk
Crime (EnAKTing)
Ox Points
(DBTune)
tags2con delicious
Slideshare 2RDF
(DBTune)
Music Brainz
John Peel
Linked User Feedback
LOV
Audio Scrobbler
Moseley Folk
GTAA
Homolo Gene
KEGG Compound
KEGG Glycan
As of September 2011
fig. 1 – le LOD Cloud, où chaque nœud représente un jeu de données et chaque lien un ensemble d’interconnexions entre deux jeux de données. En septembre 2011, le LOD Cloud comptait plus de 30 milliards de triples. Il croît aujourd’hui de manière exponentielle. richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19.pdf
24 flash informatique
Publier ses données sous forme de Linked Open Data Le résultat de cette potion magique en quatre points ? L’émergence d’un Web de données ouvertes et interconnectées, le LOD Cloud (fig. 1). De la BBC au New York Times en passant par les gouvernements américain ou britannique, un nombre toujours croissant d’acteurs choisissent LOD pour publier leurs données. L’avantage de cette approche tient en un mot: intégration. Alors qu’il faut souvent des semaines pour intégrer des données relationnelles ou XML hétérogènes, il suffit d’une requête SPARQL & (l’équivalent LOD de SQL) pour intégrer des jeux de données LOD, quels que soient leurs schémas et leur provenance.
LOD: mode d’emploi Le processus de publication commence bien sûr par la conversion de ses données en RDF. Plusieurs solutions sont envisageables pour accomplir cette tâche. D2R [2], par exemple, est une solution générique qui permet de transformer semi-automatiquement des bases de données relationnelles en RDF par le biais de mappings configurables. XML2RDF [3] permet, lui, de convertir des documents XML. D’autres outils tels Protégé [4] ou IWB [5] fournissent des interfaces complètes pour éditer à la fois les données RDF et leurs schémas RDFS & (RDF Schema) ou OWL &. Une fois les données transformées en RDF, il est de bon ton de les lier à d’autres données existantes sur le LOD Cloud afin de promouvoir l’interopérabilité des jeux de données (cf. point 4 cidessus). Ces liens peuvent être établis au niveau des schémas (en écrivant des correspondances entre le schéma de ses données et d’autres schémas ou ontologies), ou au niveau des données ellesmêmes, en les reliant à d’autres données LOD de manière semiautomatique (p. ex., en utilisant Silk [6] ou en explorant des bases de données LOD comme DBpedia [7]). Reste finalement à publier les données ainsi obtenues. Là encore, plusieurs solutions sont possibles. La plus simple est sans doute de fournir un dump des données et de le référencer sur un catalogue en ligne (tel ckan [8]). Une autre solution est de charger ses données dans une base de données RDF (comme Virtuoso [9], Owlim [10], ou une base de données classique supportant le RDF telle que DB2 ou Oracle) et de fournir une interface de requêtes (SPARQL end-point) afin que tout un chacun puisse directement interroger et intégrer ce nouveau jeu de données avec des données existantes, et ce de manière dynamique. De nombreuses ressources sont disponibles en ligne pour vous aider dans cette démarche. Linkeddata.org est sans doute un
GLOSSAIRE
&
LOD (Linked Open Data): méthode de publication de données s’appuyant sur les technologies Web (URIs, liens, RDF) et promulguant l’interconnexion des jeux de données.
bon point de départ pour explorer l’univers LOD. Le jeu en vautil la chandelle ? D’après la Loi de Metcalf, l’utilité d’un réseau d’information est proportionnelle au carré du nombre de ses connexions. Alors, données liées ou données esseulées, le choix est peut-être moins cornélien qu’il n’y paraît.
Références [1] www.w3.org/DesignIssues/LinkedData.html [2] d2rq.org/ [3] www.gac-grid.de/project-products/Software/XML2RDF.html [4] protege.stanford.edu/ [5] www.fluidops.com/information-workbench/ [6] www4.wiwiss.fu-berlin.de/bizer/silk/ [7] dbpedia.org/ [8] thedatahub.org/group/lodcloud [9] virtuoso.openlinksw.com/ [10] www.ontotext.com/owlim
NB: Philippe Cudré-Mauroux est Professeur FNS à l’Université de Fribourg. Il sera Program Committee Chair de l’International Semantic Web Conference 2012 qui se déroulera à Boston en novembre. Webpage: diuf.unifr.ch/xi/ n
et du LOD, RDF modélise les données sous forme de triples <sujet, prédicat, objet>. <http://is.gd/paper182, dc:creator, http://is.gd/phil_cm>, par exemple, encode le fait que phil_cm est le créateur du document paper182.
OWL (Web Ontology Language): supplante RDFS en permettant la définition de schémas de données complexes.
RDFS (RDF Schema): couche schéma de RDF, qui permet de spécifier le schéma de ses données RDF en définissant des hiérarchies de classes et de prédicats.
RDF (Resource Description Framework): pierre angulaire du Web sémantique
SPARQL: langage de requêtes structuré, pendant de SQL pour les données RDF.
www.w3.org/DesignIssues/LinkedData.html
URI (Uniform Resource Identifier): courte chaîne de caractères identifiant une ressource sur un réseau physique ou abstraite, et dont la syntaxe respecte une norme d’Internet. Un URI doit permettre d’identifier une ressource de manière permanente, même si la ressource est déplacée ou supprimée. W W = tiré de Wikipédia
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
25
Vers un Nouveau Monde de données Hubert Guillaud, rédacteur en chef d’InternetActu.net et responsable de la veille à la Fondation Internet nouvelle génération, fing.org
At the European Open Data Week which took place in Nantes from 21 to 26 May 2012, Hubert Guillaud was invited to give a talk on the data Web, to go beyond and broaden the particular issue of re-using public data. This talk is reproduced hereunder.
façon même dont nous interrogeons ces données devient ellemême source de données. C’est d’ailleurs la première des données, la plus accessible, la plus importante, celle de nos comportements en ligne, de nos historiques de navigations.
À l’occasion de la Semaine européenne de l’Open Data [1] qui se déroulait à Nantes du 21 au 26 mai 2012, Hubert Guillaud était invité à faire une présentation sur le Web des données, pour dépasser et élargir la problématique particulière de la réutilisation des données publiques. En voici la transcription qui est également disponible sur le blog www.internetactu.net [2].
Nous sommes passés d’un Web de l’information et de la connaissance à un Web de données. «Les données sont le nouveau pétrole de l’économie» [3], expliquait le consultant Clive Humby dès 2006. Tim O’Reilly et John Battelle ne disaient pas autre chose quand ils imaginaient le concept de Web² [4] devenu depuis (et il serait intéressant de regarder comment) celui des Big Data &. Nous n’échapperons pas à l’exploitation maximale de la puissance des données par l’analyse, la combinaison, la représentation, la recherche, le traitement…
Tout est données Le Web est un écosystème de bases de données interconnectées. Les données sont partout, sous forme d’énormes répertoires de données produisant elles-mêmes leurs propres données, car la
26 flash informatique
Tout est information. Tout est données. Mais c’est avant tout un monde du temps réel, de l’immédiateté. Les données ne cessent de s’accumuler, mais ce sont les plus récentes qui ont toujours le plus d’importance, car elles permettent de comprendre à la fois le monde d’aujourd’hui et prédire le monde de demain. «90% de l’ensemble des données du monde ont été créées ces deux dernières années» [5], estimait récemment Stephen Gold d’IBM lors d’une présentation au récent Webcom de Montréal. Nous vivons un datadéluge: l’essentiel des données que nous utiliserons dans deux ans n’aura rien à voir avec celles que nous utilisons aujourd’hui. Les données sont un nouveau pétrole inépuisable, mais qu’on brûle aussi rapidement que le précédent. Le Web est devenu «la base de données de nos intentions», affirmait John Battelle en 2003 [6]. Le moindre de nos clics sert à la construire. Notre surf, notre historique, ce sur quoi nous cliquons, ce sur quoi nous nous attardons en ligne est tracé, mesuré et influe sur ce à quoi nous accédons. La moindre de nos actions sur l’Internet est une donnée, même le temps passé sur une page. Ce sont nos comportements qui font l’Internet. La première des données, le pétrole non raffiné, est bien celle de nos comportements en ligne, ces milliards de clics que nous faisons sur le Web à chaque instant. Ces bases de données de petits cookies que nous transportons par-devers nous via nos navigateurs. Nous sommes devenus Midas. Tout ce que nous touchons devient données, devient or, pétrole. «L’informatique se dissout dans nos comportements» expliquait déjà en 2007 Adam Greenfield [7]. Le Web nous trace en permanence. Nous n’avons pas le droit de ne pas y être tracés, insistait Alexis Madrigal [8].
Vers un Nouveau Monde de données
Mais ne nous y trompons pas. Ce ne sont pas les données publiques ni les données ouvertes qui sont le seul pétrole de cette économie. Ce sont d’abord nos données personnelles: «Les données personnelles sont le nouveau pétrole de l’Internet et la nouvelle monnaie du monde numérique», soulignait Meglena Kuneva, Commissaire européenne à la consommation en 2009. Et les données personnelles sont la prochaine génération de données à ouvrir, comme l’expliquait récemment David Eaves [9], spécialiste de ces questions.
… je te dirai qui tu es Vous avez certainement dû voir cette vidéo [10] des lunettes de réalité augmentée de Google et plus encore l’une de ses parodies, qui augmente l’interaction que nous avons avec la réalité des publicités [11]. En préparant votre café, vous avez automatiquement de la publicité qui s’affiche en contexte. Comme l’illustre le projet Google Glass [12], les données vont s’immiscer toujours plus près de nous, au cœur de nos comportements et de notre intimité, se nourrissant de l’un et de l’autre.
Il n’y a presque plus de données qui ne soient pas personnelles. Tout le monde se souvient des fichiers de logs d’AOL [13], c’està-dire le journal des utilisations d’Internet de plusieurs dizaines de milliers d’utilisateurs, qui ont permis, rien qu’en observant ce que ces utilisateurs ont recherché en ligne, d’en identifier un très
grand nombre. Ces données ne portaient pourtant aucune information nominative. Il n’empêche. Elles ont permis d’identifier des gens, simplement en observant les sites sur lesquels ils se sont rendus. Aujourd’hui, par exemple, la startup Face.com permet d’analyser n’importe quelle image du Web, de vous donner des informations sur un visage: à savoir si c’est un homme, s’il sourit, son âge. La start-up est même capable de reconnaître des gens en photo ou en vidéo nominativement avec une assez incroyable précision, en puisant dans des banques d’images documentées (où les noms sont renseignés), comme le net en regorge – c’est l’exemple de l’identification des personnages de Star Trek [14]. Demain, quand vous publierez une photo sur l’Internet, l’infrastructure sera capable non seulement d’identifier les métadonnées associées à l’image (date de prise de vue, appareil, etc.), mais également de reconnaître qui est sur la photo, avec toutes les avantages et les dérives que cela comporte. Le croisement d’énormes capacités de traitements et de tout aussi vastes bases de données signe la fin des données personnelles [15]. Bien sûr, toutes les données ne sont pas devenues personnelles (les horaires de transports, les données de capteurs environnementaux, les documents administratifs… par exemple), mais une masse considérable de données qui ne l’étaient pas a priori sont en passe de le devenir. D’autant plus que leur couplage, chaque jour plus facile, peut à chaque moment faire basculer des données sans valeur en données à caractère personnel. Les données transforment l’Internet en un lieu où les gens n’ont plus d’anonymes que leur nom. Et celui-ci, en fait, n’a plus beaucoup d’importance. Il n’est plus un rempart contre la personnalisation.
Voici une application qui s’appelle SceneTAP [16]. Elle consiste à installer une simple caméra dans un bar. Celle-ci va compter les gens présents afin d’évaluer le taux de remplissage, en utilisant l’API & de Face.com (dont nous parlions juste avant), elle va être capable de déterminer le pourcentage de filles et de garçons, leurs âges moyens respectifs et demain peut-être d’identifier les personnes présentes. SceneTAP va ainsi permettre à chacun depuis son application pour smartphone de voir, en temps réel, quels sont les bars qui bougent aux alentours. Est-ce que la population qui est à l’intérieur correspond à celle que je recherche… comme l’expliquait Yves Eudes dans un récent numéro du Monde magazine.
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
27
Vers un Nouveau Monde de données Le plus intéressant dans cet exemple, ne repose pas tant dans les nouvelles données issues de ce système, que d’observer comment elles fonctionnent, comment elles se reproduisent et se démultiplient entre elles. Installer une caméra dans un bar n’a pas d’intérêt en soi. L’intérêt c’est le couplage des données que la caméra produit avec d’autres bases de données, comme celles de Face.com. On ne produit pas seulement plus de données. Ce qu’il faut comprendre, c’est que ces données sont désormais en réseau. Et du fait même qu’elles sont en réseau, elles se démultiplient et produisent de nouvelles données. Les données ne sont pas enfermées dans des silos, le fait même qu’elles puissent se combiner, s’interroger les unes les autres, produit un nouvel Internet, une nouvelle infrastructure basée sur l’échange de données [17]. C’est l’économie des API [18], des mashups & de services, l’un des points clef de la structure de ce Nouveau Monde de données. Nos systèmes sociotechniques ont accès à une foultitude de bases de données permettant de reconfigurer les données à la volée, de leur donner du sens par leur croisement même.
Dans ce Nouveau Monde, la moindre de nos actions produit des données, comme l’illustre très bien cet exemple, parmi des dizaines de milliers d’autres. Ashtmapolis [19] consiste en un petit capteur GPS qui se branche au bout de n’importe quel inhalateur de ventoline que prennent les asthmatiques. Ce capteur connecté permet de renseigner, sans avoir à remplir le moindre formulaire, les zones où les asthmatiques souffrent, simplement en l’utilisant. Il produit des cartographies permettant aux asthmatiques de documenter le réel à plusieurs, de s’entraider pour repérer les zones dangereuses, les zones à pollen par exemple, qu’ils pourront plus facilement éviter. Asthmapolis est une parfaite illustration du monde de capteurs qui se met en place. Le prix modique des capteurs, leur bidouillabilité permet d’envisager leur démultiplication, et ce, sans qu’on y pense, sans avoir à faire d’action de renseignement de données. C’est l’Internet des objets, l’Internet des capteurs qui vient documenter notre monde réel, l’hybridant d’une ombre d’information partout et en tout temps. Nous entrons dans un monde où toutes nos actions, même la plus insignifiante, produisent potentiellement des données, de manière volontaire, comme à notre insu.
28 flash informatique
Tout est appelé à devenir des données
J’aime beaucoup cet exemple de lunettes [20] développé par Rosalind Picard directrice du Groupe de recherche sur l’informatique affective au MIT [21], car elle permet d’entrouvrir de nouveaux horizons pour comprendre jusqu’où va aller cette mise en données du monde. Ce sont des lunettes qui servent à mesurer notre niveau d’interaction réel avec les autres. Cette paire de lunettes a pour fonction d’aider celui qui la porte à décoder les émotions de la personne avec qui il discute. Les lunettes sont équipées d’une petite caméra qui surveille plusieurs points du visage de son interlocuteur et leurs mouvements pour le décrypter. Des petites lumières rouges, jaunes et vertes installées sur le bord du champ de vision permettent de traduire les expressions de l’interlocuteur selon qu’elles sont négatives, neutres ou positives. L’idée derrière ce projet, c’est de voir comment les détecteurs d’émotions peuvent nous aider à mieux nous comprendre mutuellement. La plupart du temps, nous n’arrivons pas à repérer les signes de communication non verbaux que nous avons lors de nos interactions physiques. Demain, ces signes non verbaux seront décodés par nos systèmes techniques et viendront nous aider à comprendre les autres, à mesurer nos temps de paroles pour nous montrer par exemple que nous ne laissons pas assez de temps d’expression à ceux avec lesquels nous discutons. La production de données est appelée à s’immiscer dans les plis les plus intimes de nos interactions sociales.
Vers un Nouveau Monde de données Dans ce Nouveau Monde de données, nous allons également avoir de nouveaux producteurs et de nouveaux modes de production de données. Tout et tout le monde va produire des données. Elle ne sera pas seulement le fait de systèmes techniques ou d’institutions, qui étaient les principaux producteurs de données, mais elle va être de plus en plus le fait d’individus, comme le montrent les cartographies d’Usahidi [22], FixMyStreet [23] ou Leon à Mérignac [24]. La donnée va être coproduite par des utilisateurs et des capteurs toujours plus nombreux, toujours plus accessibles (et accessibles de partout) via l’Internet mobile. Mais si l’on parle d’une démultiplication des données, il faut également évoquer la transformation des modalités de traitement, ces algorithmes qui nous gouvernent [25]. On observe souvent l’émergence massive de données, comme matière première de la connaissance, de la représentation, de la discussion, de la décision, de la production, de l’évaluation… Mais on interroge peu le rôle de la collecte et du traitement des données. Pourtant, nous sommes de plus en plus confrontés à un tissage complexe qui va de la discrétisation des données (c’est-à-dire la manière dont elles sont produites et collectées) à la programmabilité des données (c’est-à-dire la manière dont elles sont traitées, programmées, algorithmisées).
L’utilisateur face à l’algorithme Nous sommes tous producteurs de données. Mais peut-on reléguer l’infrastructure et l’architecture, la manière dont celles-ci sont utilisées, à des spécialistes et à des programmes face auxquels nous nous sentons démunis et face auxquels nous pourrions n’avoir plus aucun pouvoir. Il semble essentiel de regarder où sont les lieux de pouvoir des systèmes techniques et comment faire que le code, l’algorithme puissent demain être plus accessibles à tous. Face au déluge de données, il nous faut aussi nous intéresser aux formes de traitement auxquelles les données donnent lieu. Quelle est la place de l’utilisateur dans les traitements dont nous sommes tributaires, comme ceux qui disposent de site Internet sont tributaires des changements algorithmiques du moteur de recherche de Google (les Google Dance) pouvant les faire passer d’un très bon classement à un très mauvais, simplement parce que l’algorithme qui produit ces classements a changé. Dans ce Nouveau Monde de données, nous devons interroger les traitements bâtis par les statisticiens, physiciens, mathématiciens, ingénieurs et spécialistes des réseaux, pour savoir quelle est la place de l’utilisateur dans ces traitements. Comment un monde couvert de données devient un monde qui rend du pouvoir à l’utilisateur plutôt qu’il ne l’aliène ? Si on connait les régulations qui encadrent la collecte de données, on connait moins celles qui encadrent les modalités de traitement des données, notamment tels qu’ils ont désormais lieux dans les mashups de services, dans les échanges entre API que nous évoquions précédemment. C’est cet ensemble: ces données, multipliées par ces données en réseau, ces nouveaux modes de production, ces nouveaux types de producteurs, et ces nouvelles modalités de traitement qui créent un Nouveau Monde de données. C’est le monde des #bigdata. Un monde conduit (data driven) par les données dont il faut comprendre le but, les enjeux, l’objectif. À quoi vont-elles servir ? Qui va les traiter ? Comment ?
Ce Nouveau Monde ne produit pas des données pour des données. Le but de ce Nouveau Monde n’est pas de produire des fichiers Excel pour des fichiers Excel. Regardez comment fonctionne la Google Car, cette voiture sans conducteur, qui vient d’être autorisée à rouler dans le Nevada [26]. «La voiture autonome consiste à analyser et prédire le monde 20 fois par seconde», expliquait Anthony Levandowski, responsable du projet de voiture autonome de Google [27]. Elle est un pur produit de données [28]. Elle ne fonctionne que par les données qu’elle capte de son environnement (elle est bardée de capteurs), mais également de données distantes comme la configuration des routes issues du projet Google Maps et des données de géolocalisation. Ce Nouveau Monde analyse le monde réel en permanence dans le but de produire de la prévisibilité [29], de rendre le monde prédictible. Nous sommes confrontés à un avenir où tout va être prévisible par les autres, via le nuage informatique et la façon dont nous sommes liés via l’Internet. Ce Nouveau Monde cherche à nous permettre en permanence de situer nos comportements dans l’univers social, via un maelström de données comportementales sur lesquelles seront appliqués des algorithmes prédictifs. Derrière les produits de données, c’est bien évidemment notre perception de nous-mêmes qui va s’en trouver modifiée. Car nous sommes au centre de ce monde de données.
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
29
Vers un Nouveau Monde de données
Rester maîtres des données Nous sommes au centre de ce festin de données. Et comme dans tout Nouveau Monde, nous devons apprendre à y survivre. Nous avons besoin d’outils capables de nous rendre plus anonymes ou de nous rappeler de l’être. Nous avons besoin d’outils capables de mentir pour nous selon les personnes à qui l’on s’adresse, les systèmes que l’on autorise à se connecter à nos données ou aux données que d’autres collectent sur nous. Plus que jamais, nous avons besoin d’identités actives [30], c’est-à-dire, comme le proposait l’intuition de Daniel Kaplan et Charles Népote de la Fing, non seulement d’être maîtres des données que nous libérons, mais surtout de faire en sorte que leurs conséquences nous soient transparentes. Comment s’assurer que ces informations que nous émettons ou qui transitent par nous et nos objets ne puissent pas permettre d’identification formelle ou d’interprétation qui nous échappent ? Comment séparer qui je suis d’où je suis ? Pourquoi trop de systèmes enregistrent-ils des données qu’ils n’ont pas besoin de conserver ? C’est d’ailleurs l’argumentaire d’un rapport de l’EFF (Electronic Frontier Foundation) [31] sur la confidentialité de nos localisations, qui s’inquiète de savoir si nous pourrons toujours nous déplacer sans que nos moindres mouvements soient systématiquement et secrètement enregistrés par un tiers pour une utilisation ultérieure, comme le font déjà nos téléphones mobiles mouchards. «Il faut construire des systèmes qui ne collectent pas les données en premier lieu» [32] recommandent-ils, simplement sous le prétexte que ce serait la voie la plus facile… Pour cela, il faut que les systèmes de traitement soient conçus en intégrant un large éventail de politiques de confidentialité. Il faut construire des systèmes géolocalisés qui ne sachent pas où nous sommes, c’est-à-dire des titres de transport qui n’enregistrent pas l’endroit où nous sommes par exemple ou des modules de géolocalisation anonymes, avec des identifiants dynamiques, qui ne permettent pas de corréler simplement une personne et un lieu… Pour les militants de l’EFF, les techniques cryptographiques doivent être systématiquement exploitées afin, par exemple qu’un service sache localiser quelqu’un, identifier qu’il a un compte sur un service, lui appliquer un tarif (à un péage urbain ou au passage par un portillon de métro par exemple…), mais sans dire qui il est. Une autre couche d’information doit lui permettre, s’il le souhaite, de discuter ou localiser ses amis… Sans que tout cela ne soit accessible en clair pour chacun des services utilisés, comme c’est trop souvent le cas actuellement. Les protocoles cryptographiques nécessaires existent. Ils représentent certes un défi technique et nécessitent des investissements, mais ils sont seuls en mesure de nous permettre d’échapper à la transparence de nos déplacements tout en tirant avantage des services géolocalisés. Il y a un enjeu à faciliter l’exploitation des données comme le clament O’Reilly et Battelle, mais aussi à raréfier les informations qu’elles portent. Cette opposition engendre un point de tension dont il va être difficile de trouver l’équilibre. Mais si on veut prôner un droit à l’oubli, un droit à l’erreur, un droit à l’accès aux données qui transitent par nous, il va non seulement falloir faciliter leur exploitation, mais surtout faciliter leur accès, leur gestion. Demain plus qu’aujourd’hui, tous les champs des formulaires ne doivent pas être obligatoires.
30 flash informatique
Nous avons besoin d’un meilleur accès à la collecte de données, de meilleures garanties quant aux règles qui régissent les processus (afin qu’elles ne puissent être changées unilatéralement par exemple) et de meilleures assurances et protections quant à la dissémination des données.
Dans ce Nouveau Monde, nous avons besoin de nouveaux repères. Nous avons besoin de nous approprier les données que nous produisons pour comprendre ce qu’elles produisent. Nous avons besoin d’outils, d’expérimentations, de méthodologies. Nous avons besoin de lieux, d’espaces, physiques ou virtuels, ouverts, de ressources organisées pour échanger et comprendre ce Nouveau Monde. C’est à cela que devraient ou pourraient servir les Info Labs [33], un concept de lieu ouvert que nous vous invitons à préciser et discuter avec nous. Nous avons besoin d’organiser collectivement les formes d’appropriation culturelles de ce Nouveau Monde dans lequel nous pénétrons. Nous avons besoin plus que jamais d’espaces pour le comprendre, ensemble.
Remerciements Cette présentation puise dans de nombreux articles présentés sur InternetActu.net [34] et en partie compilés dans Un Monde de données [35], un livre numérique de la collection Washing Machine [36] disponible chez tous les libraires électroniques.
Références [1] Semaine européenne de l’Open Data: www.opendataweek. org/
[2] www.internetactu.net/2012/06/01/vers-un-nouveaumonde-de-donnees/ [3] Clive Humby: ana.blogs.com/maestros/2006/11/data_is_ the_new.html [4] Concept de Web²: www.internetactu.net/2009/09/01/leWeb-a-la-puissance-2-le-Web-20-cinq-ans-plus-tard/ [5] Stephen Gold d’IBM: t.co/1kPp4YyJ [6] John Battelle: battellemedia.com/archives/2003/11/the_database_of_intentions.php
Vers un Nouveau Monde de données [7] Adam Greenfield www.internetactu.net/2007/12/21/comment-proteger-notre-vie-privee-dans-un-monde-ou-latracabilite-explose/ [8] Alexis Madrigal: www.internetactu.net/2012/04/26/les-limites-du-ciblage-publicitaire-personnalise/ [9] David Eaves: eaves.ca/2012/03/29/next-generation-opendata-personal-data-access/ [10] www.youtube.com/watch ?v=9c6W4CCU9M4 [11] Projet Google Glass: https://plus.google. com/111626127367496192147/posts [12] Vidéo sur l’interaction avec la publicité: www.youtube.com/ watch ?v=_mRF0rBXIeg&feature=youtu.be [13] Logs d’AOL: www.internetactu.net/2006/09/07/a-qui-appartiennent-mes-logs/ [14] Idendification des personnages de Star Trek: www.technovelgy.com/ct/Science-Fiction-News.asp ?NewsNum=2262 [15] La fin des données personnelles: www.internetactu. net/2009/09/21/critique-du-web²-34-toutes-les-donneessont-devenues-personnelles/ [16] SceneTAP: www.scenetap.com/ [17] L’Internet des API: www.internetactu.net/2011/06/21/comprendre-facebook-33-linternet-des-api-le-Web-des-applications/ [18] Économie des API: www.slideshare.net/3scale/the-api-economy-api-provider-perspective-european-identity-summit-2012 [19] Ashtmapolis: asthmapolis.com/ [20] Exemple de lunettes: www.internetactu.net/2011/09/15/ augmenter-notre-intelligence-emotionnelle/
[22] Usahidi: ushahidi.com/ [23] www.fixmystreet.com/ [24] Leon à Mérignac: leon.merignac.com/ [25] Ces algorithmes qui nous gouvernent: www.internetactu. net/2012/01/05/reseaux-sociaux-33-ces-algorithmes-quinous-gouvernent/ [26] Voiture sans conducteur: www.numerama.com/magazine/217 36-les-voitures-sans-conducteur-arrivent-au-nevada.html [27] www.wired.com/magazine/2012/01/ff_autonomouscars/all/1 [28] Vers des produits de données: www.internetactu. net/2011/10/04/vers-des-produits-de-donnees/ [29] www.internetactu.net/2009/11/18/la-capacite-predictivede-nos-systemes-socio-techniques-va-t-elle-tuer-notrelibre-arbitre/ [30] Identités actives: fing.org/ ?-Identites-actives[31] Electronic Frontier Foundation: https://www.eff.org/wp/ locational-privacy [32] Que faire face à la puissance des données: www.internetactu.net/2009/10/26/critiques-du-web²-44-que-faire-face-ala-puissance-des-donnees/ [33] Info Labs: www.internetactu.net/2012/05/15/avons-nousbesoin-dinfo-labs/ [34] InternetActu: www.internetactu.net/ [35] Un Monde de données: www.publie.net/fr/ ebook/9782814505063/un-monde-de-données [36] Washing Machine: www.publie.net/fr/list/collection-3587 -washing-machine/page/1/date n
[21] Groupe de recherche sur l’informatique affective au MIT: affect.media.mit.edu/
GLOSSAIRE
&
API ( Application Programming Interface): interface fournie par un programme informatique qui permet l’interaction des programmes les uns avec les autres, de manière analogue à une interface homme-machine, qui rend possible l’interaction entre un homme et une machine. W
Big Data: expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l’analyse et la visualisation des données doivent être redéfinis. Les perspec-
tives du traitement des big data sont énormes, notamment pour l’analyse d’opinions ou de tendances industrielles, la génomique, l’épidémiologie ou la sécurité. W mashup: application composite dont le contenu provient de la combinaison de plusieurs sources d’information. W = tiré de Wikipédia
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
31
Données de recherche et cahier de laboratoire Gael.Anex@epfl.ch, EPFL - Coordination des systèmes d’information, responsable du projet gestion des données de recherche
The laboratory notebook is an essential tool in research. It allows experimental follow-up and data organization. This article aims to present its evolution towards the electronic era and to introduce the EPFL campus-wide project focusing on improving the research data management. Le cahier de laboratoire est un outil clef du travail de recherche. Il permet le suivi des expériences et l’organisation des résultats. Cet article a pour but de présenter son évolution vers l’ère de l’informatique et d’introduire le projet d’amélioration de la gestion des données de recherche actuellement en cours à l’EPFL.
Contexte du projet à l’EPFL Dans cet article, nous nous concentrerons sur un projet initié par le Doyen à la Recherche, Prof. Benoît Deveaud-Plédran en collaboration avec le Doyen de la Faculté des Sciences de la Vie, Prof. Didier Trono. L’objectif vise à améliorer la gestion des données de recherche dans l’environnement académique. Le problème de base s’articule autour de la forte augmentation des volumes de données générées par la recherche et de leur organisation. Le besoin est particulièrement fort dans les sciences de la vie, principalement dû aux limites pratiques du cahier de laboratoire traditionnel, cet outil indispensable aux scientifiqueschercheurs-explorateurs pour mémoriser leur savoir. Le CSIN, Coordination des Systèmes d’INformation, est en charge de mener à bien ce projet en proposant des solutions informatiques de type ELN (Electronic Lab Notebook) et LIMS (Laboratory Information Mangement System). Ce projet exploratoire permettra d’acquérir de l’expérience afin de réitérer la démarche dans d’autres facultés. En mars 2012, le CSIN a procédé à une première phase d’analyse auprès de 27 laboratoires des SV. Cette première étape a permis de distinguer plus précisément les problèmes actuels et leurs conséquences. Les prochaines étapes consisteront à identifier et évaluer une sélection de logiciels répondant aux besoins des chercheurs en Sciences de la Vie. Dès le mois d’octobre 2012 et avec le soutien technique du DIT, cinq laboratoires pilotes pourront tester un logiciel de leur choix en conditions réelles.
L’analyse sur le terrain La Faculté SV fait face à une explosion des volumes de données informatiques. Les nouveaux équipements de recherche, de plus
32 flash informatique
en plus performants, génèrent de grandes quantités de données. L’avènement de la génomique et des séquenceurs ADN à haut débit révolutionne la recherche sur le vivant et les perspectives de découvertes. D’autres domaines sont également d’importants générateurs de données. Par exemple l’imagerie avec les nouveaux équipements de microscopie et d’imagerie médicale où la protéomique avec les spectromètres de masse sont également d’importants générateurs de données. L’évolution de ces équipements n’est pas sans conséquence. Les besoins en terme de calculs et traitements s’amplifient. Les supercalculateurs (HPC) et les compétences des bio-informaticiens sont indispensables aujourd’hui pour interpréter les données produites. Parallèlement aux traitements, les ressources en terme de stockage deviennent très importantes. Le SV-IT, service informatique de proximité, propose des espaces de stockage de qualité professionnelle pour la conservation ainsi que le backup des données (sv-it.epfl.ch/page-8073-fr.html). Le volume officiellement utilisé pour tous les laboratoires SV est d’environ 65 To. De plus, des données de recherche sont également gérées dans l’environnement Vital-IT du Swiss Institute Bioinformatics (www.vital-it.ch). Or, l’analyse au sein des laboratoires visités (27) a mis à la lumière plus de 500 To dispersés sur des supports de stockage tels que CD, DVD, disques durs internes et externes, NAS locaux et autres fournisseurs d’espaces de stockage indépendants de l’EPFL. Devant les importants volumes de données à conserver et la charge financière que cela représenterait, les laboratoires se sont tournés vers des systèmes de stockage grand public, car meilleur marché. Malheureusement, les performances sont limitées ou inadaptées aux besoins et les taux de panne sont élevés, générant des catastrophes humaines et des scènes de désolation devant des disques durs inertes ou autres DVD illisibles contenant les années de travail de l’utilisateur. En plus des besoins en ressources informatiques performantes liées au traitement et au stockage, les laboratoires SV font également face à des problèmes d’organisation logique ou scientifique des données informatiques.
L’organisation des données Le cahier de laboratoire est l’outil principal pour organiser les informations de recherches. Aujourd’hui au format papier, il est (ou devrait être) utilisé par tous les chercheurs pour dire ce qu’il fait, faire ce qu’il dit et prouver ce qu’il a fait. C’est un élément d’excellence sur le plan des pratiques de la recherche qui peut être perçu sous différents angles:
Données de recherche et cahier de laboratoire
Les limites du cahier papier traditionnel
Scientifique C’est un élément de mémoire et de transfert de connaissances en interne, preuve du savoir-faire du laboratoire et permettant d’établir sa compétence.
Traçabilité C’est un élément indispensable à une démarche qualité, preuve du professionnalisme du chercheur au sein de la communauté scientifique, permettant de répondre à des exigences règlementaires et de garantir la traçabilité des résultats.
Juridique C’est un élément de protection de la propriété intellectuelle, preuve du savoir-faire du laboratoire à une date précise permettant la signature de contrat, le dépôt de brevets ou la résolution de litige. Pour simplifier, le cahier de laboratoire permet de lier les informations de recherche, les conditions d’expérimentation et les résultats obtenus dans un ou plusieurs documents.
Si le cahier de laboratoire traduit une volonté de partage et de mémorisation de l’information au sein du laboratoire et de la communauté scientifique, il présente un certain nombre de limites difficilement surmontables et dont les évolutions technologies des équipements amplifient les effets. Le chercheur devant le plus souvent traiter des résultats obtenus de divers appareillages via des outils informatiques, le cahier papier n’est donc plus utilisable directement. Il n’y a plus de continuité entre les données extraites de l’équipement (données primaires), les données traitées (données secondaires) et les résultats finaux (données concluantes), d’où un problème d’organisation des données de traçabilité des informations. Une autre limitation se situe au niveau de la retranscription, parfois fastidieuse, des résultats issus des appareils de mesure. L’efficacité et la qualité de la rédaction sont limitées, car le cahier papier demande de convertir toutes les données dans un format papier. Si aujourd’hui un tableau Excel imprimé peut encore être collé sur une page de cahier, il n’est pas possible d’imprimer et de coller avec un tube de colle des images hautes résolutions, des séquences ADN, des vidéos, des sons, ou autres analyses spectrométriques.
Voici un exemple d’évolution d’un équipement de recherche:
un microscope en 1743
et en 2012
et voici comment a évolué le cahier de laboratoire:
en 1743
et en 2012
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
33
Données de recherche et cahier de laboratoire De plus, les cahiers papier sont dégradables et leur sécurité tient à des bonnes pratiques de laboratoires (GLP – Good Laboratory Practice), d’utilisation et de conservation. D’un poinr de vue réglementaire, l’authentification de chaque passage du cahier peut se révéler très contraignante avec un flux de signatures/validations rarement accompli selon les règles de l’art. La rédaction d’articles est souvent un pénible travail de recherche documentaire dans de nombreux cahiers papier, parfois difficilement interprétable. Et quand vient le moment de retrouver des données informatiques relatives à un passage du cahier de labo prouvant un résultat important, il faut s’armer de patience et fouiller dans les données dispersées sur une multitude de supports informatiques, processus pouvant être long et décourageant. À noter que le partage et la réutilisation des données sont quasiment impossibles, car liés au raisonnement, au style rédactionnel, à l’écriture de chacun et à l’éventuelle accessibilité des cahiers archivés par les précédents chercheurs. Il en résulte un manque d’homogénéité général et une réelle difficulté à effectuer des recherches dans les nombreux travaux archivés, d’où une capitalisation et une valorisation limitées du savoir. Les conséquences sont multiples, par exemple: z la perte des données primaires et secondaires, z l’incapacité à reproduire une expérience, z la perte des connaissances acquises durant les travaux de recherche, z le gaspillage de ressources financières et matérielles pour régénérer les données perdues, z la difficulté à rassembler les données pour la rédaction d’articles, en cas de conflits (preuves) ou pour le dépôt de brevets.
tant de la gestion des enregistrements et de la signature électronique, a fortement incité l’industrie pharmaceutique à adopter un environnement informatique de travail moderne et sécurisé. Au début des années 2000 apparaissent les premières solutions clefs en main commercialisées principalement pour les secteurs de la chimie médicinale et les sites de développement des grandes entreprises pharma. Les ELN étaient alors très spécialisés sur un métier et inadaptés au large secteur de la R&D. Avec l’éclatement de la bulle Internet et la crise de l’informatique des années 2001 – 2003, les projets de développement d’ELN ont été considérablement ralentis. Mais, dès 2004, avec l’accroissement des budgets liés à la gestion des données issues de la R&D, un fort développement de l’activité du marché des solutions informatiques pour le marché des sciences de la vie et de la chimie a permis de faire évoluer les ELN vers des solutions plus performantes. Le marché des ELN se développe depuis 2005 de 30% à 40% par année. La chimie médicinale n’est plus le seul domaine abordé par les ELN et d’autres domaines comme la biotechnologie peuvent aujourd’hui trouver des solutions à leurs besoins. Le marché de l’ELN représentait en 2011 environ 50 millions de dollars, mais reste en deçà des 450 millions de dollars de ventes annuelles d’autres solutions informatiques comme les LIMS (Laboratory Information Management System), sujet que nous aborderons un peu plus loin dans cet article.
Les avantages du cahier de laboratoire électronique
Les solutions électroniques
Quel que soit le domaine de recherche, le cahier de laboratoire électronique est un outil qui permet à l’utilisateur d’enregistrer au quotidien tous ses travaux, d’assurer la traçabilité de l’expérimentation scientifique, de l’idée à la conclusion. L’ELN facilite la création, la formalisation, l’organisation, l’accès et le partage des données de recherche électroniques en se conformant aux normes légales, réglementaires et scientifiques. Il s’appuie sur une infrastructure de stockage informatique centralisée et évolutive dont l’utilisateur n’a plus à ce soucier. Fini les crises de nerfs dues aux disques durs externes récalcitrants, aux commandes Shell barbares ou aux fastidieux transferts de données manuels d’un ordinateur à l’autre.
Les laboratoires industriels sont les premiers à développer des solutions pour répondre à ces problèmes de gestion. Dès les années 1990, des prototypes de cahiers de laboratoires électroniques sont apparus. Ils n’ont pas obtenu le succès escompté du fait de la lourdeur de leur implémentation et de la complexité de leur fonctionnement. En 1995, à l’initiative d’une dizaine de sociétés pharmaceutiques, des standards ont été définis et le développement des ELN (Electronic Laboratory Notebook) a été initié. Le développement des technologies informatiques, notamment sur le Web, a permis de commercialiser une seconde génération d’ELN plus souples et efficaces. Parallèlement, la publication de la première version du 21CFR Part 11 par la FDA (Food and Drug Administration aux USA) trai-
Les avantages: z enregistrer électroniquement les travaux effectués pour un projet de recherche; z offrir un accès centralisé à toutes les données liées à une expérience; z être consulté à distance (via le Web); z fluidifier les flux d’informations (collecte, organisation et restitution); z accéder rapidement à l’information (indexation et outils de recherche); z faciliter la rédaction de comptes rendus, de synthèses et de rapports scientifiques; z standardiser les descriptions des expériences et la saisie des informations;
Ces conséquences influencent la qualité de la recherche. Aux États-Unis par exemple, les agences de fonds l’ont bien compris et deviennent de plus en plus pointilleuses par rapport à ces notions de gestion des données. Depuis le 18 janvier 2011, le NSF (National Science Foundation), www.nsf.gov/eng/general/dmp.jsp) exige des candidats de prévoir une description et une planification des méthodes de gestion des données informatiques qui seraient générées grâce à l’éventuelle obtention du fonds.
34 flash informatique
Données de recherche et cahier de laboratoire z assurer la traçabilité des données informatiques; z réduire les risques associés au support papier; z assurer une organisation pérenne des données. L’utilisation de logiciels de type ELN permettrait d’améliorer l’organisation des données, la gestion des connaissances et de garantir la pérennité du savoir-faire au sein des laboratoires.
Le LIMS, complément indispensable en Sciences de la Vie L’informatisation à grande échelle dans la R&D et en particulier dans les Sciences du Vivant a permis le développement de logiciels LIMS (Laboratory Information Management System). Les premiers LIMS apparaissent en 1980 avec comme objectif d’assurer le suivi des échantillons de laboratoire. Rapidement adoptés par l’industrie, ils assurent la traçabilité et une grande reproductibilité par l’utilisation de processus normalisés. Le LIMS devient alors indispensable pour un suivi efficace des produits ou échantillons sur l’ensemble des phases d’élaboration dans un labo. En perpétuelle évolution, les solutions LIMS intègrent aujourd’hui des fonctionnalités comme: z la gestion des échantillons; z la gestion des protocoles de laboratoire; z des outils d’analyses de résultats; z des outils de reporting; z des possibilités de connexion avec d’autres systèmes d’informations scientifiques (ELN ou logiciels d’analyse de données); z l’intégration des flux de données des équipements; z des bases de données centralisées (plasmids, oligos, chimiques, protéines, etc.); z la gestion de l’inventaire du laboratoire; z la gestion des achats de consommables. z la gestion des stocks. Les évolutions des LIMS tendent à créer des chevauchements avec certaines fonctionnalités des ELN. Cette conversion fonctionnelle assez récente permet d’envisager, à court terme, une fusion de ces deux systèmes. Le plus important à retenir est que le LIMS reste principalement centré sur les échantillons et leur analyse, alors que l’ELN, plus global, est dédié aux expériences et permet d’en tracer la conception, le suivi, la méthodologie d’analyse et l’interprétation des résultats. L’ELN assure également la structuration des informations et des données informatiques, il garantit ainsi une réutilisabilité des informations aux chercheurs.
z la grande variété de domaines que devraient couvrir les solutions informatiques; z la standardisation des processus de recherche (sans nuire à la créativité); z l’opinion de l’utilisateur globalement satisfait du papier; z la méconnaissance des améliorations qu’ameneraient des outils informatiques; z les aspects humains, réticences aux changements, effets Big Brother; z le manque de recul et la peur de l’inconnu. La transition du système papier, colle et stylo vers des systèmes électroniques demandera du temps et d’importantes collaborations entre communauté scientifique et les services informatiques.
La suite du projet L’analyse sur le terrain a mis en exergue la complexité du sujet, mêlant règlements sur les processus de recherche, respects des principes organisationnels, normalisation de l’information scientifique, outils informatiques et… facteurs humains. Différentes mesures sont en cours d’élaboration, notamment la création d’un règlement sur la gestion des données de recherche au niveau de l’EPFL définissant par exemple la période minimale de conservation des données, les conditions cadres et les moyens à disposition. Le DIT et le CSIN travaillent à l’identification d’une solution de stockage informatique centralisée, mutualisée et évolutive répondant aux nouveaux besoins de stockage. En octobre 2012, afin de mieux cerner les améliorations qu’offrent les ELN et les LIMS, nous procéderons à une phase pilote auprès de cinq laboratoires de la Faculté des Sciences de la Vie. Impliqués dès l’étape de sélection du logiciel, les membres des laboratoires pourront utiliser une solution en conditions réelles durant une période de 4 à 5 mois Les conclusions de cette évaluation seront rendues pour la fin février 2013. L’expérience acquise durant cette phase à caractère exploratoire sera très utile pour l’implémentation ultérieure d’outils informatiques au sein d’autres facultés intéressées par cette démarche d’amélioration de la gestion des données de recherche. Si le sujet a piqué votre curiosité, nous nous tenons à votre disposition pour plus d’informations ou pour procéder à une analyse approfondie de la situation dans votre laboratoire. Vos expériences, conseils et remarques seront les bienvenus. n
Les principales difficultés à surmonter Malgré les bénéfices envisageables de l’utilisation d’outils informatiques de gestion (ELN ou LIMS) et de la nécessité d’évoluer vers des systèmes informatisés, un long chemin reste à parcourir et des obstacles restent à surmonter avant de généraliser leur utilisation au sein de notre environnement académique. Par exemple:
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
35
Cloud, une question de confiance Simon.Leinen@switch.ch, team leader, Peta-Solutions, SWITCH
Cloud Computing techniques have the potential to address data- and compute-intensive challenges in academic research and education, for example in the field of scientific data life cycle management. However, it currently raises new issues in the fields of laws and regulations, economics, dependency and loss of control. Could national or communityspecific approaches help make this technology palatable? Les techniques du Cloud Computing sont prometteuses pour répondre aux défis modernes de l’IT académique comme ceux du cycle de vie (accès, traitement, sauvegarde) de l’information scientifique. Mais elles apportent leur lot de problèmes légaux, économiques ainsi que de dépendance et de perte de contrôle. Est-ce qu’une approche nationale ou communautaire pourrait nous aider à bénéficier du cloud? Les services basés sur le modèle du cloud [1] sont largement répandus dans le monde universitaire: qui n’utilise pas d’engins de recherche tels que Google ou Bing ? De nombreux étudiants partagent des fichiers sur des services comme Dropbox. L’utilisation d’outils de collaboration tels que Gmail ou Skype ou de réseaux sociaux en ligne comme Facebook ou LinkedIn ne se limite plus à la vie privée. Quelques chercheurs curieux ont déjà trouvé que, munis d’une simple carte de crédit, ils peuvent créer des systèmes impressionnants et stocker des quantités énormes de données sur des services comme l’AWS de Amazon, Azure de Microsoft, Google App Engine/Google Compute Engine et j’en passe.
lisible au moment opportun. Dans le cloud, le lieu de stockage est diffus, quasiment par définition. Un autre aspect de lieux concerne le cadre légal, dont je vais parler plus loin.
Qui a accès à mes données ? Dans mon institution, je peux savoir (au moins approximativement) qui a la possibilité d’accès aux données que je stocke sur les systèmes, et en estimer les risques. Dans le cloud, cela n’est guère transparent. À part les opérateurs du service, on peut se soucier également des tiers qui ont des désirs plus ou moins légitimes de fouiller dans ces données. Dans ce contexte, on entend souvent parler du USA PATRIOT act qui donne aux organismes (américains) d’application de la loi des pouvoirs assez larges et discrets sur les données gérées par des sociétés américaines au sens large [2]. Il faut dire que les lois dans la plupart des pays européens confèrent des privilèges similaires à leurs autorités respectives [3].
Qui va m’aider en cas de soucis ? L’efficacité et l’économie des services cloud sont dues en grande partie à un niveau très élevé d’automatisation. Le service à la clientèle traditionnel — c’est-à-dire par des êtres humains — est un peu contradictoire avec ce modèle.
Qui va payer la facture ? Un grand nombre de services cloud sont offerts sans rémunération, ce qui est au premier abord fort sympathique. Mais fournir
Soucis de perte de contrôle Si les services cloud sont très utiles et agréables à utiliser, il reste souvent un sentiment de malaise chez l’utilisatrice ou l’utilisateur. Parmi les questions qu’on peut se poser, citons:
Où sont mes données ? Savoir où se trouve ce à quoi l’on tient apporte toujours un certain réconfort. C’est la même chose pour les données importantes … même si on ne peut pas être à 100% sûr que le disque que l’on tient dans sa main sera effectivement
36 flash informatique
intérieur du Centre de traitement de données de Facebook à Prineville dans l’Oregon. Photographie de Alan Brandt
Cloud, une question de confiance des services a un coût, et les fournisseurs de services veulent, pour la plupart, que cela rapporte; on peut ainsi se demander qui joue le rôle du client. Certains disent que l’utilisateur n’est en fait pas le client, mais la marchandise que le fournisseur vend à ses vrais clients, ceux qui payent pour la publicité. En fait la marchandise, c’est l’attention de l’utilisateur et/ou des informations démographiques, qui peuvent être d’une précision assez surprenante, incluant des informations sur son comportement qu’on aurait tendance à considérer confidentielles.
Le cloud sera-t-il encore là pour moi demain ? Ce qui nous mène à des questions de pérennité. Même si l’on accepte l’affichage de publicité et des intrusions dans sa sphère privée, il reste un risque si le business case ne fonctionne pas: soit le service qu’on a commencé à apprécier devient soudain payant, soit le fournisseur se voit obligé de trouver d’autres moyens d’y trouver son compte, qui risquent de changer les conditions d’usage en défaveur de l’utilisateur. Ou bien le service disparaît tout simplement; en donnant assez de temps aux utilisateurs d’en extraire leurs données, on l’espère, et si possible, sous une forme utilisable ailleurs.
Solution: un cloud à moi tout seul ? Tout cela peut paraître bien inquiétant, et certains vont se dire qu’il vaut mieux éviter tous ces risques en construisant des clouds privés (private clouds). Ceux-ci épousent les principes techniques des grands clouds publics: virtualisation, gestion automatisée, interfaces self-service; mais dans le contexte d’une entreprise. Aujourd’hui, presque tous les grands fournisseurs de matériel informatique pour l’entreprise vendent ce type de solutions: HP, IBM, Dell, Cisco, EMC² et autres. Mais en choisissant cette alternative, on risque de passer à côté d’une grande partie des avantages: l’échelle sera forcément limitée, les prix vont plutôt ressembler aux systèmes high-end, et l’accès depuis l’extérieur sera entravé par les firewalls, ce qui ne facilite pas les applications partagées avec le monde hors entreprise, y compris des employés qui sont prêts à travailler depuis l’extérieur.
Surtout, on n’arrive pas à se débarrasser d’une grande partie du travail qu’on devrait peut-être outsourcer à des spécialistes afin de mieux pouvoir se concentrer sur le cœur de son métier.
Et si un peu de perte de contrôle, ça en valait la peine ? Si on revisite les questions du début de l’article avec objectivité, il y a pour chaque question des arguments allant dans le sens inverse:
Où sont mes données ? Les données dans le cloud sont vraisemblablement mieux protégées — entre autres grâce à la distribution spatiale — que celles qu’on garde près de soi.
Qui a accès ? Les personnes qui font tourner le cloud sont des professionnels avec un sens éthique élevé, et à qui leurs employeurs, pour leur propre intérêt, ont instauré des règles strictes sur l’accès aux données de leurs clients, avec des mécanismes de protection et d’audit. Dans la plupart des entreprises, ces mécanismes sont encore lacunaires, ce qui confère un grand pouvoir, et donc une grande responsabilité, aux super users.
Qui va m’aider ? Les systèmes grand public sont généralement assez conviviaux, surtout quand ils ont de la concurrence. Et vous pourrez sans doute trouver assistance dans des forums ou auprès de connaissances.
Qui paie ? Il y a souvent la possibilité, surtout pour les entreprises, d’avoir un accès payant sans publicité, et même avec du support humain. Sur la question de la pérennité, ce n’est pas si problématique dans des segments du marché où la concurrence fonctionne. Et les solutions in-house ont leur lot de risques, surtout quand ils dépendent de personnes qui vont un jour vous quitter, par exemple
salle de stokage du DIT à la fin du 20ème siècle; bandes magnétiques et cartouches sont alignées à perte de vue
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
37
Cloud, une question de confiance quand elles finissent leur thèse. Notons qu’une objectivité totale est mal placée ici: à risques égaux, on va préférer les risques anciens, qu’on a en quelque sorte apprivoisés, aux risques nouveaux, plus difficiles à évaluer faute d’expérience. Au fond, faire confiance et déléguer des responsabilités à des tiers, c’est une base du progrès de notre société vers le partage de travail et la spécialisation. On peut y regretter le danger d’aliénation, mais il faut avouer que ce développement nous a apporté pas mal d’avantages, et de toute façon il semble difficile à stopper. Comme nous avons appris à confier notre argent aux banques, et nos vies à des médecins, pilotes etc., on va peut-être finir par céder nos données même les plus importantes à des spécialistes anonymes. Mais ce sera un long processus, et on aimerait éviter les trop grosses bourdes, si possible.
Archivage des données scientifiques: vers un cloud académique suisse ? Un des grands défis pour l’université est la gestion de la connaissance sous forme numérique. Ceci ne comprend pas seulement les e-publications, mais aussi les données primaires et secondaires utilisées dans leur production. La situation actuelle est insatisfaisante à plus d’un égard: les données générées par des scientifiques, souvent à grands coûts et efforts, sont trop rarement partagées avec d’autres chercheurs, et se perdent trop souvent après la fin d’un projet ou d’une thèse, faute de moyens et de motivation. Même quand les données sont conservées, il est souvent difficile de les utiliser, soit à cause des formats problématiques, soit pour des raisons logistiques. La CUS (conférence universitaire suisse) va lancer un projet 20132016 sous le nom Information scientifique: accès, traitement et sauvegarde pour étudier cette problématique. Les solutions cloud ont beaucoup de potentiel comme infrastructure de base pour une gestion améliorée de données scientifiques: elles pourraient fournir de la capacité de stockage économe, accessible à travers l’Internet sans entraves de bande passante limitée, liée avec des possibilités de traitement sur place, par exemple sous la forme de services de location de VM (machines virtuelles). Pour des raisons de souveraineté, il est souhaité que ces infrastructures soient sous contrôle suisse. C’est une belle occasion pour l’ensemble des universités d’étudier différentes options pour se doter d’une telle infrastructure: avec des partenaires industriels, en fédérant les private clouds émergeant des universités, ou pourquoi pas en mandatant une organisation commune, comme cela s’est fait avec SWITCH pour le réseau académique voilà presque 25 ans. Quel que soit le résultat, SWITCH est prêt à assister les universités dans leurs choix, en vue de trouver une solution — qui sera forcément un compromis — correspondant aux critères techniques, économiques et de gouvernance. Un tel cloud suisse, encore plus s’il est contrôlé par les Hautes Écoles, pourrait aider à surmonter les inhibitions que de nombreuses universités ont par rapport au cloud, pour des raisons légales, mais aussi de contrôle. Il reste à espérer que cela ne va pas mener à un nouveau réduit helvétique, mais nous aider à maitriser cette technologie afin de pouvoir mieux bénéficier des atouts des grands clouds industriels, ainsi que de contribuer à la stratégie cloud au niveau européen [4].
38 flash informatique
Références [1] Quand cet article parle du cloud, je focalise sur des caractéristiques suivantes: des systèmes matériels/logiciels d’un ensemble d’équipements consumer-grade — donc bon marché grâce à l’échelle et la compétitivité du marché — sous une gestion centralisée et hautement automatisée, permettant une grande évolutivité (scalability); basés sur ce genre d’infrastructures, des services grand public et accessibles par Internet, qui sont financés par la publicité, facturés à l’usage, ou soutenus par des modèles hybrides style freemium. Pour une définition plus rigoureuse de Cloud Computing, il y a l’excellent travail de NIST (NIST SP800-145, nist.gov). [2] Cette loi concerne toutes les sociétés qui ont une attache aux États-Unis, et également si les données sont stockées en dehors du territoire américain, Microsoft et Google ont dû clarifier ce point: www.zdnet.com/blog/igeneration/ microsoft-admits-patriot-act-can-access-eu-based-clouddata/11225 et www.wiwo.de/politik/ausland/datenspeicherung-google-server-in-europa-vor-us-regierung-nicht-sicher/5156042.html.
[3] Hogan Lovells. White Paper on Governmental Access to Data in the Cloud Debunks Faulty Assumption That US Access is Unique. May 2012. www.hldataprotection. com/2012/05/articles/international-eu-privacy/hogan-lovells-white-paper-on-governmental-access-to-data-inthe-cloud-debunks-faulty-assumption-that-us-access-isunique/.
[4] KROES, Neelie. A European Cloud Strategy. Discours du 25 juin 2012. europa.eu/rapid/pressReleasesAction.do ?aged=0 &format=HTML&guiLanguage=en&language=EN&reference =SPEECH/12/490 n
Sérénité dans les nuages Laurent.Kling@epfl.ch, EPFL -STI, coordinateur informatique à la Faculté des Sciences et Techniques de l’Ingénieur
Trust the clouds. How to use cloud computing without any security risk? Faites confiance aux nuages. Comment faire pour utiliser le Cloud computing sans risque pour la sécurité ?
Avec l’été apparaît un florilège de questionnaires ludiques: z regardez-vous les nuages avant de sortir ? z faites-vous confiance aux prévisions météo ? z aimez-vous les cerfs-volants ? z prenez-vous les avions ? z êtes-vous en sécurité dans un vol transatlantique ? z connaissez-vous les nuages informatiques (Cloud) ? z utilisez-vous les nuages (Cloud) ? Notre horizon de travail s’élargit sans fin. Du terminal nous sommes passés à l’ordinateur individuel. Par la suite, nous sommes tombés dans la toile et ses multiples périphériques. Maintenant, on nous propose le Cloud comme lieu d’hébergement de nos données.
Nuages noirs sur les données En feuilletant le dernier best-seller à l’ombre des palmiers, on retrouve la joie du farniente et la délectation de récupérer son livre maculé de protection solaire. Une fois sa lecture terminée, il finira peut-être sa course dans une valise ou sera abandonné dans la chambre d’hôtel, voire oublié dans l’avion. Si vous utilisez une tablette numérique pendant les vacances, le scénario est différent. Votre appareil résiste faiblement à l’intrusion du sable et à une immersion involontaire dans l’eau de mer. Il est également improbable que vous oubliiez l’appareil dans votre lieu de villégiature. La destruction du livre sera rapidement réalisée par un geste de votre doigt. La seule liaison de votre tablette est l’éther d’où vous téléchargez un jeu pour remplacer ce succès de librairie. Sans le savoir, votre visite sur le magasin électronique vous expose à deux dangers imperceptibles: z un déluge d’ondes électromagnétiques, z une utilisation du Cloud à l’insu de votre plein gré. Si les nuages conservent vos données, le côté évanescent et immatériel représente une source d’inquiétudes: z à qui faire confiance ? z où se trouvent mes données ? z qui y a accès ?
Le responsable informatique est confronté aux mêmes problèmes, il se pose les mêmes interrogations multipliées par le nombre d’utilisateurs. Pour se soustraire à ce questionnement, il va peutêtre le bannir: non, cet outil nuageux n’est pas admis dans l’environnement de notre entreprise. Cette logique peut engendrer une spirale de mesures de plus en plus restrictives, une paranoïa numérique: z interdire les services faisant appel aux nuages, z empêcher la gestion des machines par les usagers, z supprimer les clés USB, z verrouiller l’accès au lecteur de DVD, z supprimer Internet. Ce cauchemar est démultiplié quand un responsable de l’entreprise amène un iPad. Cet appareil possède uniquement deux interfaces: z USB pour se synchroniser avec le poste de travail, z réseau sans fil, le reste du temps. Tous les dispositifs de protection disparaissent, la tablette propose même de se passer d’ordinateur, l’ensemble des opérations se fait à travers les nuages.
Interdire ou éduquer ? Il est aisé pour un responsable réseau d’interdire l’accès à un service. Le moyen le plus efficace est d’exclure la plage d’adresses IP du fournisseur. Cette censure devient plus difficile quand il s’agit d’une application qui fait appel à plusieurs nuages pour irriguer le service. iTunes utilise le nuage d’Apple, mais également d’autres sources comme Amazon. Finalement, l’usager bien informé peut ouvrir une connexion VPN privée qui permet de contourner toutes les mesures de modération de trafic Internet. De données clairement identifiables, on se retrouve devant des données encapsulées dans un flux crypté impénétrable pour l’entreprise. Le comble est que l’objectif de la politique de prohibition est esquivé.
Domiciliation des données La vision classique de la conservation des informations est une délimitation physique. Elle est représentée par les trois cercles concentriques: l’utilisateur, son ordinateur, son entreprise. Le monde extérieur est identifié comme une menace. Une relation de confiance s’établit entre chaque niveau interne, l’information est dupliquée et conservée. Cette vision est rassurante, je travaille sur mon ordinateur qui est dans l’entreprise, isolé du dehors.
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
39
Sérénité dans les nuages
moi-même, mon ordinateur et mon entreprise versus le monde extérieur
En réalité, quand des éléments personnels sont contenus dans l’appareil, ils deviennent de facto incorporés dans l’entreprise. Par exemple, mes musiques, mes photos, mes livres, mes vidéos sont strictement privés, mais peuvent se retrouver dans mon ordinateur de bureau. Moi-même, mes informations privées, mon travail, mon ordinateur et mon entreprise versus le monde extérieur Logiquement, le responsable informatique va exclure ces données privées de la sauvegarde, mais en cas de vol ou de crash de mon ordinateur, je serais fort mécontent si je ne les récupère pas. Moi-même, mes informations privées, mon travail, mon ordinateur et mon entreprise versus le monde extérieur Cette promiscuité se retrouve également dans le courrier électronique, contient-il uniquement des données professionnelles ?
Les nuages
moi-même, mes appareils, mes informations privées et professionnelles, les nuages et mon entreprise versus le monde extérieur
A priori, ce modèle est un cauchemar pour la sécurité des données: z de l’entreprise ? z privées ? z qui est le propriétaire ? z où sont-elles conservées ? Le marché de la synchronisation des informations dans les nuages est en plein essor. Chaque constructeur cherche à se positionner comme fournisseur exclusif de services. Un récent article de la revue électronique Ars Technica décrit les principaux acteurs du marché et leurs caractéristiques: arstechnica.com/gadgets/2012/04/cloud-storage-a-pricing-and-featureguide-for-consumers/.
Le leader de ce marché est DropBox, un débat revient régulièrement au premier plan: faut-il l’interdire ou l’autoriser ? Ce service dans les nuages offre: z une intégration directe dans les ordinateurs, c’est un emplacement dans la hiérarchie du disque,
Il y a 5 ans, le téléphone intelligent (smartphone) était réservé aux responsables ou aux passionnés, le choix de l’appareil était dicté Windows OS X Linux Android iOS par la compatibilité avec le système informatique de l’entreprise. Pour la messagerie de Microsoft (Exchange), uniquement les appareils avec Windows Mobile étaient acceptables. Au même moment est apparu l’iPhone qui est rapidement devenu un nouveau paradigme. D’un écosystème fermé de messagerie, on passe à un choix simple correspondant aux acteurs du marché (Microsoft Exchange, mobileMe, Google Gmail, Yahoo, AOL et les autres). Cette liberté acquise, les utilisateurs ont pris l’habitude d’amener leurs propres matériels pour travailler en entreprise (Bring Your Own Device). L’ubiquité des données des nuages combinées avec les équipements des usagers entrainent un modèle disponibilité des outils de synchronisation selon les plates-formes ©Ars Technica innovant. n disponible et n indisponible third-party clients
40 flash informatique
Windows Phone
Web
Sérénité dans les nuages z une synchronisation entre plusieurs appareils (les documents sont automatiquement dupliqués), z un hébergement dans les nuages (les éléments synchronisés sont également accessibles par un navigateur Web), z une possibilité de partager des informations. Quatre composants supplémentaires expliquent son succès: z gratuit avec un quota de 2Go, z la capacité de revenir sur une version antérieure des documents, z une disponibilité sur quasiment toutes les plates-formes: Mac OS, Windows, Linux, iOS, Android, BlackBerry; z et avantage non négligeable, une myriade d’applications qui intègrent ce service. La seule lacune à relever est l’absence de client natif sur Windows Phone.
Difficulté supplémentaire, les applications doivent être disponibles pour toutes les plates-formes (Mac OS, Linux, Windows et iOS). Pour DropBox, il existe une solution logicielle remplissant ces critères, KeePass. L’article de Jean-Daniel Bonjour sur ce produit open source décrit son utilisation quotidienne: flashinformatique. epfl.ch/spip.php ?article2180. Si ce produit est, au départ, prévu pour conserver des mots de passe, il peut contenir n’importe quel fichier texte. Le principal intérêt de KeePass est de disposer de clients gratuits ou payants sur la totalité des plates-formes utilisées avec DropBox. Avec cette méthode, la sécurité est triple: z le document est encodé, z le compte dans les nuages possède un accès authentifié, z la communication se fait par un canal sécurisé.
En autorisant DropBox dans l’entreprise, on se retrouve devant trois dilemmes, les données ne sont pas chez nous, je ne sais pas ce qui est sauvegardé, l’entreprise peut faire faillite ou être poursuivie par la justice du pays hôte (en l’occurrence les États-Unis). Le premier réflexe d’une équipe informatique pour répondre à ces contraintes serait de recréer le service. Cela représente un travail très conséquent qui entrainerait immanquablement une version allégée sans saveur. Si la culture multiplate-forme n’est pas présente dans l’entreprise, le projet risque une annihilation mutuelle par les spécialistes de chaque chapelle. Trois pistes permettent d’envisager son utilisation en entreprise: z encrypter les données, z sauvegarder la hiérarchie d’un appareil, z créer un compte DropBox pour chacun.
TrueCrypt est un challenger sérieux. Il permet de créer un fichier encrypté contenant l’équivalent d’une hiérarchie de dossiers et de documents. Son seul défaut actuel est de ne pas disposer de client synchronisé sur iOS avec DropBox.
Encrypter les données
base de données encryptées avec KeePass, synchronisées avec DropBox
un document encrypté contenu dans les nuages
La principale crainte est que les informations confidentielles soient lues par une personne tierce. L’encodage permet de répondre facilement à ce problème. Naturellement, le programme choisi doit être compatible avec le nuage utilisé.
La taille du fichier encrypté est un paramètre essentiel, chaque modification d’un fichier encodé entraine son transfert complet. Un volume raisonnable se mesure en kilo-octets voire en mégaoctets. Il faut également tenir compte des déplacements à l’étranger qui pourraient engendrer un trafic Internet trop important, rapidement ruineux. À titre d’exemple, je partage une base de données dans DropBox avec mon collègue. Contenue dans un fichier KeePass, elle englobe les informations des machines gérées conjointement. Sa taille est de 25 Ko, sa synchronisation ne pose aucun problème, même à travers une connexion téléphonique GSM. En outre, il est préférable de conserver encryptés uniquement des documents sans mise en forme. Par exemple, un article complémentaire sur l’utilisation des nuages devient 85 fois plus volumineux avec les illustrations en PDF (14’537 octets en format texte et 1’246’059 octets en pdf), flashinformatique.epfl.ch/IMG/pdf/2-12-page4-2.pdf.
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
41
Sérénité dans les nuages
Sauvegarder la hiérarchie d’un appareil Maintenant que les données sensibles sont sécurisées, car encodées, comment s’assurer de disposer d’une copie dans l’entreprise ? Avec DropBox, tous les appareils synchronisés possèdent les mêmes documents, si le service disparaît, un duplicata est conservé sur chacun d’entre eux. La sauvegarde de l’une de ces machines est suffisante pour garantir l’intégrité des informations.
Créer un compte pour chacun L’idée de créer un accès dans le nuage pour chaque employé peut sembler excessive (avec l’’adresse de messagerie utilisée comme nom d’utilisateur). Qui serait le possesseur de ce compte, l’individu ou l’entreprise ? Dans de nombreuses firmes, le contenu de la boite de messagerie est la propriété de l’entreprise malgré le caractère nominatif de l’e-mail. Ainsi, au départ de l’employé, les données des services dans les nuages liées à ces identifications restent dans son patrimoine. Apple applique un principe similaire: chaque entrée iTunes correspond à une adresse de messagerie. Si l’entreprise administre ces comptes, elle gère les informations conservées. A priori compliquée, cette méthode de gouvernance permet de séparer la sphère privée du travail.
Confiance dans les nuages Les nuages sont intrinsèquement du même niveau de qualité que les services offerts à l’intérieur de l’entreprise. La confiance doit être évaluée pour chaque outil qu’il soit interne ou externe, des parades comme l’encryption du contenu doivent nous faire prendre conscience de l’importance d’avoir des mots de passe sûrs. Quand les entreprises ne maintiennent pas correctement vos informations, comme récemment LinkedIn, leurs divulgations entrainent la révélation au monde entier d’un accès. Si ce mot de passe est réutilisé dans un autre contexte, le risque de cascade sécuritaire est extrême (il ouvre une réaction en chaîne pouvant mener aux données de l’entreprise, LindedIn > Google > Yahoo > EPFL). Aux chantres de la simplicité qui me proposent d’employer mon compte Google/Facebook/LinkedIn comme source unique d’authentification, je réponds que j’utilise une méthode plus complète: z pour chaque service, machine, compte, je crée un mot de passe complexe, z ils sont conservés dans un fichier crypté par une clé, z les fichiers sont déposés dans DropBox, automatiquement synchronisés sur tous les appareils sous mon contrôle, z les clés sont détenues dans ma mémoire ! Naturellement, la perte des sésames due à un oubli ou à un accident brise ce schéma. Par précaution, ces clés sont conservées dans des enveloppes scellées dans un coffre-fort physique. Curieusement, nous acceptons encore d’échanger du courrier électronique sans garantie de l’expéditeur avec un contenu apparaissant en clair sur l’entier de son parcours, une vraie carte postale. Dans le cas de brevet ou de contrat échangé par e-mail non encrypté, le problème de sécurité provient bien de la manière d’utiliser l’outil, mais pas de son fonctionnement. n
42 flash informatique
Delete ou la vertu de Francis.Lapique@epfl.ch, EPFL - Domaine IT
Some personal thoughts after reading the book Delete by V. Mayer-Schönberger. Quelques réflexions suite à la lecture du livre Delete de Mayer-Schönberger. À la fin du XVIIIe siècle, le philosophe Jeremy Bentham imagine un type d’architecture carcérale qu’il nomme le Panoptique. Un gardien, logé dans une tour centrale, observe tous les prisonniers, enfermés dans des cellules individuelles autour de la tour, sans que ceux-ci puissent savoir qu’ils sont observés. Ce dispositif devait ainsi créer un sentiment d’omniscience invisible chez les détenus. En 1975, Michel Foucault met ce terme au centre de sa réflexion en étendant le dispositif de Bentham: Mais le panoptisme ne doit pas être compris comme un édifice onirique: c’est le diagramme d’un mécanisme de pouvoir ramené à sa forme idéale; son fonctionnement abstrait de tout obstacle, résistance ou frottement, peut bien être présenté comme un pur système architectural et optique: c’est en fait une figure qu’on peut et qu’on doit détacher de tout usage spécifique. (Surveiller et punir, Gallimard, 1975) En 2009, Viktor Mayer-Schönberger, actuellement professeur à l’OII (Oxford Internet Institute), parle dans son ouvrage Delete: The Virtue of Forgetting in the Digital Age [1] d’un panoptique numérique, un espace dans lequel nous sommes constamment sous le regard des autres. Pour illustrer son propos, V. MayerSchönberger nous présente deux anecdotes emblématiques et une nouvelle de Jorge Luis Borges. Andrew Feldmar est un psychothérapeute à Vancouver. Son histoire a été rapportée dans le New York Times. Un jour il décide d’aller au Tacoma International Airport de Seattle pour accueillir un ami. Au passage de la frontière canado-américaine, il est googlé par un garde-frontière. Le garde-frontière découvre un article que M. Feldmar a écrit dans les années 1990 à propos de ses expériences avec du LSD. Sur la base de cet élément, le garde demande à M. Feldmar si cela est exact. Celui-ci répond positivement et se voit empêché d’entrer aux États-Unis, non seulement pour ce jour-là, mais pour toujours. Signalons qu’avant de recevoir l’autorisation de retourner au Canada, après cinq heures de garde, il a dû signer une lettre d’aveu, dans laquelle il reconnaît avoir violé le U.S. Controlled Substance Act.
l’oubli à l’âge digital Le deuxième cas est tout aussi instructif. Il y a quelques années, Stacy Snyder, 25 ans, enseignante stagiaire à la Conestoga Valley High School de Lancaster (Pennsylvanie), a posté sur sa page MySpace une photo d’elle portant un chapeau de pirate, un gobelet à la main, légendée Pirate éméché. Ayant découvert ladite page, son superviseur lui a expliqué que l’image témoignait d’un manque de professionnalisme, et la doyenne de la School of Education de l’université de Millersville où Stacy était inscrite a jugé que c’était pour ses élèves mineurs une incitation virtuelle à la consommation d’alcool. Quelques jours avant la date prévue, l’université a refusé de lui délivrer son diplôme d’enseignante. La jeune femme a poursuivi l’université en justice, l’accusant d’avoir violé le Premier amendement en la pénalisant pour son comportement (parfaitement légal) en dehors des heures de travail. Mais en 2008, un juge fédéral de district a rejeté sa demande, au motif que si Stacy Snyder était bien une employée du service public, sa photo ne se rapportait à aucun sujet d’intérêt public et que son Pirate éméché ne relevait donc pas du discours protégé. Jorge Luis Borges dans sa nouvelle Funes ou la mémoire fait le récit suivant. Funes est un jeune homme qui, depuis un accident de cheval, a perdu la capacité d’oublier. Il est capable de lire et de se souvenir de centaines de livres, mot pour mot, mais il est incapable d’en tirer aucun savoir, car cela nécessite de l’abstraction, de la généralisation, et par conséquent l’oubli des détails, ce que Funes ne peut plus faire. Il est pour toujours prisonnier dans les détails de son passé et meurt peu de temps après. Ces trois exemples doivent nous aider, selon Viktor Mayer-Schönberger, à comprendre les changements fondamentaux que nous impose la mémoire numérique. Premièrement, d’ordre cognitif, avec une perte d’abstraction que l’on peut résumer ainsi : là où il y avait autrefois une forêt, nous ne percevons plus que les arbres; deuxièmement, le souvenir autrefois difficile et coûteux, devient le défaut et l’oubli une exception coûteuse. Coûteuse effectivement quand on songe que les quelques secondes qu’il faut pour examiner chaque photo numérique et décider s’il convient de la conserver ou non, nous coûtent plus que l’espace que cette photo prendra sur notre disque dur. Coûteuse en temps aussi, si vous décidez de faire le ménage dans vos 45,234 mails de votre compte gmail ! Viktor Mayer-Schönberger insiste, la mémoire numérique crée un panoptique temporel, dans lequel nous devons prendre en compte le fait que non seulement nous sommes observés, mais que les générations futures pourront observer ce que nous sommes en train de faire. Avec pour résultat éventuel, la peur que ces informations numériques soient brandies contre nous, dix ans plus tard, lorsqu’on cherchera un emploi ou demandera un prêt bancaire…
Il rappelle l’importance de l’oubli social. En effaçant les mémoires externes, écrit-il, la société accepte que l’individu évolue avec le temps, puisse apprendre de ses expériences passées et modifier son comportement. Au contraire, une société qui enregistre tout nous enchaîne à nos actions passées, rendant toute échappée impossible. Il conclut que, sans une certaine forme d’oubli, le pardon devient une entreprise difficile. Quelles solutions ? Parce que se souvenir et oublier est une démarche humaine, Viktor Mayer-Schönberger pense à fixer une date d’expiration pour toutes les informations que nous stockons. Lorsqu’elle est atteinte, l’information est détruite, c’est-à-dire oubliée. Comme nous devrions fixer nous-mêmes ces dates d’expiration, cela nous rappellerait que la plupart des informations ne sont pas intemporelles, mais liées à un contexte spécifique dans le temps, et qu’elles perdent de leur valeur et de leur importance dans la durée. Il poursuit en signalant qu’une certaine forme d’oubli graduel, d’information qui rouille serait plus proche de l’oubli humain. Mais il faut également de nouvelles approches, des droits à l’information privée, des lois… Quelques pistes: z un bouton pour supprimer l’enregistrement de vos 10 dernières requêtes de recherche ? z la possibilité de demander, au moment du téléchargement de vos images , une date d’expiration ? z ou bien une solution radicale: l’abstinence digitale. Mais sommes-nous prêts à renoncer aux bénéfices offerts par le partage des données? Je vous laisse découvrir vous-mêmes les autres propositions de l’auteur de l’essai, ainsi que la présentation de son livre qu'il a faite chez Google: www.youtube.com/watch?v=GRmoX7MbLp0.. À l’autre extrême du spectre de cette problématique de la mémoire numérique, Gordon Bell, le père de la gamme PDP-11, aujourd’hui chez Microsoft, ne quitte plus une SenseCam qu’il porte autour du cou depuis 2003. Gordon Bell vise une immortalité numérique en enregistrant tous les moments de sa vie, documents, pages Web … À suivre dans son livre: Total Recall: How the E-Memory Revolution Will Change Everything, co-signé avec Jim Gemmell.
Référence [1] MAYER-SCHÖNBERGER, Viktor. Delete: The Virtue of Forgetting in the Digital Age, Princeton University Press n
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
43
Open Government Data en Suisse Vers plus de transparence, d’efficacité et d’innovation grâce à l’ouverture des données publiques Antoine.Logean@opendata.ch, @ecolix, fondateur et membre du comité Opendata.ch & consultant en software engineering chez innoQ
Making data freely accessible and reusable for more transparency, innovation and efficiency — that is Open Data. Ouvrir les données publiques, de façon libre et réutilisable pour plus de transparence, d’efficacité et d’innovation – c’est ça, l’Open Data. Dans nos gouvernements et administrations publics, les données occupent aujourd’hui plus que jamais une place centrale. Que ce soit dans l’administration des finances fédérales, des services sociaux, dans les domaines des infrastructures publiques ou de l’éducation, le traitement de ces données, leur stockage, leur archivage sont au cœur de l’activité de nos institutions publiques.
déjà ils adoptèrent une charte prônant le libre accès à l’information pour tous (Freedom of Information Act) [2]. De manière similaire, fût adoptée en Suisse en 2006 la Loi fédérale sur la transparence [3] visant «à promouvoir la transparence quant à la mission, l’organisation et l’activité de l’administration (…) en garantissant l’accès aux documents officiels.: 1 Toute personne a le droit de consulter des documents officiels et d’obtenir des renseignements sur leur contenu de la part des autorités. 2 Elle peut consulter les documents officiels sur place ou en demander une copie. La législation sur le droit d’auteur est réservée. 3 Si les documents officiels ont déjà été publiés par la Confédération sur papier ou sous forme électronique, les conditions énoncées aux al. 1 et 2 sont réputées remplies.» (LTrans, Art. 1) Après la Loi sur la protection des données, nous assistons donc à un changement de paradigme: désormais, toutes les informations et tous les documents de l’administration fédérale sont accessibles au public. Ce droit peut être restreint si des intérêts publics ou privés prépondérants s’y opposent. Plusieurs cantons et grandes communes ont depuis 2006 introduit un tel principe de transparence.
Ouvrir les données publiques ? À quoi ça sert ?
dessin de Rolf Willi
Avec le développement fulgurant des technologies de l’information et la montée en puissance d’Internet, la gestion de ces données publiques a pris de nouvelles dimensions. Il est par exemple vite apparu qu’un usage mal intentionné des données personnelles représentait une menace sérieuse pour le respect de la sphère privée du citoyen. C’est ainsi qu’en 1983 la Suisse adopte la Loi sur la protection des données (LPD) [1] définissant de manière précise les types de données faisant partie de la sphère privée et ne devant en aucun cas être utilisées sans l’aval de la personne concernée. Si une partie des données stockées dans les bases de données de nos administrations relève de la sphère privée, une autre partie est publique et d’intérêt général (voir encart Données privées et données publiques). Les pays anglo-saxons ainsi que les états du nord de l’Europe reconnurent très tôt la valeur et l’importance de ces données publiques. C’est ainsi que dans les années soixante
44 flash informatique
On serait tenté de croire que cette loi fédérale sur la transparence est suffisante. Pourquoi faut-il encore une ouverture complète des données publiques ? Pourquoi veut-on encore aller plus loin ? Qu’est-ce donc que ce mouvement Open Data ? Les services publics financés par le gouvernement ont pour tâche de créer, gérer et publier des données dans un cadre juridique bien précis. Ces données sont nécessaires à leur fonctionnement. Si par exemple un service est en charge de la planification du réseau de distribution d’eau, il va devoir dresser une cartographie précise des différentes conduites d’eau, leur âge, leur type… idem pour la planification des routes, des espaces verts, des crèches,… La liste est encore très longue ! Toutes ces données couvrent un très grand nombre de domaines (voir encart Données privées et données publiques). Elles ont pour la plupart du temps un potentiel socio-économique allant bien au-delà du cadre prescrit par la loi. Nos autorités sont donc assises sur un véritable trésor de données largement sous-utilisées. En effet la législation actuelle régie par la Loi sur la transparence est basée sur une approche passive où les prestations sont délivrées sur demande. Le mouvement Open Government Data propose au contraire une approche active où les données publiques sont mises en libre accès dans un format non propriétaire afin de pouvoir être réutilisées. Nous passons donc d’un modèle passif basé sur la demande à un modèle actif
Open Government Data en Suisse
Données privées et données publiques Pour mieux appréhender ce qu’est l’Open Government Data, il est important de bien faire la différence entre les données faisant partie de la sphère privée tombant sous le coup de la loi sur la protection des données et les données d’intérêt général appartenant à la sphère publique. Comme représenté sur la figure ci-après, l’Open Government Data ne concerne que les données publiques.
private
Data
Open Data
Government Data Open Government Data
Open public
Government
Open Government
Données privées
Données publiques
Le type d’information tombant sous le coup de la loi sur la protection des données: z des données personnelles (ou nominatives) permettant l’identification directe ou indirecte d’une personne physique (noms, prénoms, adresses (physique et électronique), numéro de téléphone, lieu et date de naissance, numéro de sécurité sociale, numéro de carte de paiement, plaque d’immatriculation d’un véhicule, photo, empreinte digitale, ADN, etc.) z des opinions ou activités religieuses, philosophiques, politiques ou syndicales, z des données se rapportant à la santé, à la sphère intime ou à l’appartenance à une race, z des mesures d’aide sociale, z des poursuites ou sanctions pénales et administratives; z … Tous ces types de données sont privés et ne doivent en aucun cas être rendus publics sans l’aval de la personne intéressée.
Les données publiques regroupent des informations d’intérêt général collectées par nos autorités et administrations. C’est ces données sur lesquelles se concentre le mouvement Open Government Data. La liste est longue et il n’est pas aisé d’en faire un inventaire exhaustif. À titre d’exemple, les données publiques peuvent contenir des informations dans les domaines suivants: z la citoyenneté: résultats d’élections, cartes des bureaux de vote, cartes électorales, décès, mariages, naissances, répertoire des prénoms déclarés… z l’urbanisme: fonds de cartes des plans de voirie, tracés des routes, description des trottoirs, volume du bâti… z les services publics: liste des établissements scolaires, des écoles maternelles et élémentaires, des crèches, des haltes-garderies, des piscines… z l’environnement: liste des parcs et jardins, carte des arbres d’alignement, bâtiments, référentiels de la flore, … z la culture: liste d’ouvrages disponibles, notices des œuvres de fonds des musées, statistiques des prêts dans les bibliothèques, … z …
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
45
Open Government Data en Suisse basé sur l’offre. Le guichet servi par un fonctionnaire attendant les requêtes du citoyen est remplacé par une grande surface selfservice ouverte 24 heures sur 24. Les bénéfices d’une telle ouverture des données publiques se font sentir dans trois domaines: la transparence, l’innovation et les économies de coûts de fonctionnement.
Transparence La transparence permet aux citoyens de voir et de comprendre. En s’ajoutant aux organes de contrôle déjà en place, elle permet une surveillance par le citoyen des activités de nos autorités (principe many eyes). Elle permet également une meilleure adéquation entre l’offre des services publics et les besoins du citoyen ainsi qu’une meilleure acceptation du travail des administrations gouvernementales. Ces divers aspects liés à la transparence sont au cœur du développement ces 20 dernières années de ce que l’on a appelé le New Public Management et l’E-gouvernement. La transparence est une condition essentielle au succès de la mise en place d’une coopération réussie entre les citoyens et l’administration permettant aux individus d’apporter une contribution active à la gestion de l’État, de l’amélioration de son efficacité et de la qualité de ses services.
Innovation L’ouverture des données publiques stimule l’innovation. En effet ces données peuvent être réutilisées par des entreprises privées pour donner naissance à de nouveaux services. L’expérience anglo-saxonne a de plus montré comment l’ouverture de données publiques fait naître un nouveau marché où journalistes, développeurs et entrepreneurs se spécialisent dans la représentation et l’interprétation de ces données publiques pour définir de nouveaux services. Un des premiers bénéficiaires de ce marché émergent de services constitue bien évidemment les institutions publiques elles-mêmes. La Suisse ne doit pas laisser passer un tel potentiel d’innovation.
ture généralisée et complète de toutes les données publiques peut se faire par l’intermédiaire de ces services déjà existants. Afin de réaliser pleinement le potentiel lié à l’ouverture et à la réutilisation des données publiques, un engagement et une collaboration de différents acteurs est nécessaire: z Les politiques doivent définir au niveau fédéral, cantonal et communal un cadre législatif et exécutif permettant une ouverture et une réutilisation des données publiques; z Les responsables des administrations publiques doivent eux assurer le financement, l’organisation et la réalisation technique liées à une mise à disposition des données dans des formats ouverts interprétables par une machine ; z Les citoyens ainsi que les organisations civiques doivent dans une démarche participative utiliser et s’approprier ces données publiques pour intensifier le dialogue avec nos autorités ; z Les médias doivent se saisir de ces données, et par l’intermédiaire des techniques de journalisme de données, les analyser, les interpréter et surtout les visualiser permettant ainsi à un large public d’en comprendre la signification; z Les développeurs de logiciels doivent utiliser ces données publiques afin de développer de nouvelles applications ; z Le corps enseignant à tous les niveaux doit inclure dans ses programmes l’analyse, l’interprétation et la réutilisation des données publiques.
Naissance de l’association Opendata.ch
Économie des coûts Un troisième avantage potentiel est l’économie des coûts. En effet la collecte, la création, la vérification, le croisement et le stockage de données effectués par nos administrations engendrent des coûts considérables. En utilisant l’architecture simple et robuste offerte par le Web ainsi que des formats de données non propriétaires, il est possible d’accéder et d’utiliser ces données avec un minimum de frais de fonctionnement. Un accès Internet et un navigateur Web suffisent. Les premiers bénéficiaires de cet accès facilité aux données sont à n’en pas douter les administrations elles-mêmes. En effet la même interface Web peut être utilisée, aussi bien pour l’échange interne d’information entre deux départements d’une même administration que pour celui d’un citoyen voulant accéder à des données publiques.
Quelles sont les mesures à prendre ? Plusieurs jeux de données sont déjà disponibles en libre accès et font partie intégrante des services de certains départements. C’est le cas notamment des offices de statistiques, des centres de géoinformations ou des services d’archives. Par conséquent l’ouver-
46 flash informatique
près d’une centaine de développeurs, designers et citoyens porteurs d’idées se sont retrouvés au mois de septembre 2011 à Lausanne et à Zurich pour le premier atelier make.opendata.ch. make.opendata.ch/doku.php?id=event:2011-09
Le mouvement Open Government Data en Suisse est encore jeune. Il a débuté fin 2010. Initié par le /ch/open [4] et SI [5] un groupe de travail autour de l’ouverture des données publiques a été créé. En collaboration avec le groupe parlementaire pour une informatique durable [6], ce groupe de travail a organisé en juin 2011 aux Archives fédérales à Berne la première conférence Open-
Open Government Data en Suisse
Les ateliers make.opendata.ch Devons-nous attendre que les autorités aient ouvert complètement les données publiques ? Non. Nous pouvons déjà nous mettre au travail avec les données que nous avons. C’est précisément la fonction des ateliers make.opendata.ch (en anglais aussi appelé Open Data Hackathon). Ces ateliers sont des événements exploratoires organisés par l’association Opendata.ch qui permettent à des développeurs, journalistes, graphistes et citoyens porteurs d’idées de produire des prototypes pour expliciter ce qu’il est possible de réaliser avec les données publiques déjà existantes. Se voulant délibérément ouverte et participative, l’organisation est volontairement flexible et légère. Les résultats délivrés et l’expérience immersive (voir la vidéo [7]) d’un tel campus sont incomparables! La liste complète des projets [8] peut-être consultée sur le site make.opendata.ch. Ici quelques exemples d’applications réalisées dans le cadre de ces ateliers:
Where did my taxes go ?
Cette application [10] permet à tout citoyen zurichois de se faire une idée rapide de la manière dont ses impôts sont dépensés par la ville de Zurich.
How green is my street ?
Visualisation interactive du budget de la ville de Berne
Partant des données de consommation d’électricité de chaque bâtiment de Lausanne, cette application [11] permet de se faire une idée de la consommation moyenne de son quartier. Cette application [9] permet de naviguer de manière interactive dans le budget de la ville de Berne. Nul besoin d’être un expert comptable pour se faire une idée des dépenses de la ville.
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
47
Open Government Data en Suisse data.ch [12]. Cette première rencontre au niveau fédéral connut un large succès et a été suivie de la rédaction d’un manifeste ainsi que de diverses actions parlementaires. Faisant suite à cette première conférence, au mois de septembre 2011 a eu lieu le premier campus make.opendata.ch [13] de Suisse (voir encart Les ateliers make.opendata.ch). Durant deux jours une centaine de développeurs, journalistes, graphistes et citoyens porteurs d’idées ont imaginé comment réutiliser les données publiques disponibles. Au total une vingtaine de projets ont vu le jour. Afin de fédérer les efforts, l’association Opendata.ch a été fondée le 19 janvier 2012. Le rôle de son comité [14] est d’une part de soutenir les parlementaires et d’aider les administrations à faire le pas de l’ouverture et, d’autre part, de mettre sur pied les ateliers make.opendata.ch [15] ainsi que d’organiser la conférence annuelle Opendata.ch. Depuis la naissance de l’association Opendata.ch, les choses sont allées vite et le mouvement ne cesse de prendre de l’ampleur: deux autres ateliers make.opendata.ch ont été organisés sur Genève, Zurich et Berne [16]. Au total près de 300 développeurs, journalistes, graphistes et citoyens se sont à nouveau retrouvés et ont donné naissance à toute une série de nouveaux projets / applications ou visualisations. Au niveau fédéral, faisant suite aux diverses actions parlementaires [17] le département fédéral des archives a entamé la création d’un inventaire des documents pouvant être rendus publics. Au mois de mars 2012 le Conseil fédéral a approuvé une révision totale de la loi sur la météorologie (LMét) qui prévoit notamment le libre accès à toutes les prestations de base et données climatiques et météorologiques du service météorologique national [18]. Enfin le 28 juin dernier s’est déroulée à Zurich la deuxième conférence Opendata.ch 2012 [19] lors de laquelle furent présentés les résultats de la première étude faite sur les divers aspects liés à l’ouverture des données publiques en Suisse [20]. La ville de Zurich, coorganisatrice de l’événement, a également lancé officiellement son nouveau portail Open Government Data [21]. Un nouvel atelier make.opendata.ch [22] sur le thème de la santé est prévu pour la fin du mois de septembre 2012 sur Genève et Bâle.
Perspectives L’ouverture des données publiques en Suisse n’en est qu’à ses débuts. Beaucoup de choses restent encore à faire. Cependant comme la bien dit l’ancien président français Nicolas Sarkozy «C’est un chemin sans retour». La plupart du temps nos autorités ont déjà compris l’intérêt et les enjeux liés à une ouverture des données publiques. Elles restent cependant encore prudentes et hésitent encore à s’atteler à sa mise en œuvre. Cela demandera un peu de temps. En bons Suisses, nous avançons prudemment, à petits pas, … mais sûrement !
48 flash informatique
Références [1] www.admin.ch/ch/f/rs/235_1/index.html [2] fr.wikipedia.org/wiki/Freedom_of_Information_Act [3] www.ejpd.admin.ch/content/ejpd/fr/home/themen/staat_ und_buerger/ref_gesetzgebung/ref_abgeschlossene_projekte0/ref_oeffentlichkeitsprinzip.html [4] www.ch-open.ch [5] www.s-i.ch [6] www.durabilite-numerique.ch [7] www.youtube.com/watch ?v=ZTfBtS5RXOI [8] make.opendata.ch/doku.php ?do=search&id=%40project [9] t.preus.se/bernbudget2012/ 10] wheredidmytaxesgo.nelm.io [11] opendata.utou.ch/lausanne/ [12] www.durabilite-numerique.ch/2011/06/open-gov-data-c/ [13] fr.opendata.ch/projects/make-opendata-ch-2011/ [14] opendata.ch/organisation/board/ [15] make.opendata.ch [16] make.opendata.ch/doku.php ?id=event:2012-03 [17] 1: www.parlament.ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113346, 2: www.parlament.ch/f/suche/pages/ geschaefte.aspx ?gesch_id=20113358, 3: www.parlament. ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113380, 4: www.parlament.ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113902, 5: www.parlament.ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113884 [18] www.news.admin.ch/dokumentation/00002/00015/index. html?lang=fr&msg-id=43617 [19] fr.opendata.ch/2012/06/22/conference-opendata-ch2012-pour-un-acces-libre-et-une-reutilisation-des-donnees-publiques-en-suisse/ [20] www.itopia.ch/repository/Publikationen/OGD_Studie_ Schweiz_Juni_2012.pdf [21] data.stadt-zuerich.ch/portal/de/index/ogd/daten.html [22] fr.opendata.ch/projects/make-opendata-ch-2012-la-sante/
n
Du bon usage des tablettes Mireille.Betrancourt@unige.ch, Université de Genève, professeure en Technologies de l’information et processus d’apprentissage à la Faculté de Psychologie et Sciences de l’éducation & directeur de TEFCA
The case for tablets in education beyond the media enthusiasm. Le point sur le potentiel des outils mobiles en éducation au delà de l’engouement médiatique. La dernière décennie a connu un développement fulgurant des dispositifs mobiles comme les liseuses (en anglais e-book pour electronic book) et les tablettes tactiles (ou pad en anglais). Outre leur usage domestique et de loisirs, ces outils offrent des potentialités inédites pour les situations d’enseignement, de formation et de travail. Du fait de leur faible encombrement facilitant la mobilité, ces dispositifs permettent de consulter des documents dans des contextes variés (salle de classe, musée, etc.) tout en gardant les avantages du numérique (flexibilité de la présentation de l’information, outil de recherche dans une grande quantité de données, par exemple). Toutefois, l’utilisation de ces outils mobiles n’est pas neutre en termes d’activité de l’utilisateur. En effet, du fait d’un écran de taille réduite, ces outils proposent de nouveaux formats de présentation de l’information et de nouveaux modes d’interaction avec le contenu, ce qui a des conséquences en amont sur la conception des documents et des interfaces, et en aval sur les usages que l’on peut en faire. Or c’est bien de la qualité des usages que dépendra in fine l’efficacité de l’outil.
zones informationnelles et de navigation, cette dernière étant en général accessible à la demande, mais pas de manière permanente. Pour faciliter la recherche de contenu, la conception de documents pour ces supports doit privilégier les structures peu hiérarchiques, des unités d’information brèves de la taille de l’écran si possible, et des titres de chapitres explicites. Un deuxième élément important en termes d’interaction personne-machine est la disparition des périphériques d’entrée clavier – souris, remplacé le plus souvent par une interface tactile, à l’exception de certaines liseuses qui disposent seulement de boutons de navigation insérés dans le cadre. À la différence des premiers Tablet PC, l’interaction tactile multitouch des tablettes n’est pas une simple transposition de l’interaction avec la souris ou avec un stylet, elle obéit à une autre logique où le geste devient porteur de signification. Que ce soit le feuilletage ou le zoom, l’interaction se rapproche d’un geste naturel, ce qui rend l’interface plus intuitive, plus facile à apprendre et plus agréable à utiliser. D’autre part, l’interface tactile réintroduit la coordination œil-main: à la différence de l’interaction avec la souris, l’œil suit et contrôle ce que fait la main, comme pour l’écriture, le dessin et autres activités de précision. Seul un entraînement intensif permet d’effectuer un geste précis sans contrôle direct, comme en musique. Même si l’utilisateur chevronné ne sent pas de difficulté à utiliser une souris, l’interaction n’en reste pas moins consommatrice de ressources cognitives, même minimes, pour rétablir le lien entre le geste et son résultat. L’interface tactile réalise ainsi l’idéal de la manipulation directe imaginée par Norman notamment, où
Tablettes, liseuses, ordinateurs, qu’est-ce que ça change en termes d’interaction ? Dotés de fonctionnalités spécifiques, les différents outils numériques n’offrent pas tous les mêmes possibilités en termes d’usage. Alors que les liseuses sont, comme leur nom l’indique, destinées principalement à la lecture et à la consultation de documents, les tablettes sont plutôt assimilables à des ordinateurs de taille réduite, dont les fonctionnalités sont similaires à celles de leurs grands frères. Toutefois, la taille réduite de l’écran a des répercussions non négligeables sur la présentation et l’organisation de l’information. Tout d’abord, elle oblige à repenser l’organisation classique des
mur d’info de BFMTV sur iPad
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
49
Du bon usage des tablettes l’utilisateur interagit directement avec les objets de l’interface plutôt qu’au travers d’un langage de commandes et où le résultat de ses actions est perçu directement et immédiatement. Cette approche a donné naissance aux interfaces graphiques telles qu’on les connaît depuis les années 1980. Avec l’interface tactile, c’est aussi les menus hiérarchiques qui disparaissent, remplacés par des onglets ou des murs d’images que l’on peut feuilleter horizontalement. Offrant une interaction simplifiée, paraissant plus naturelle, la tablette minimise les ressources mobilisées par l’utilisateur pour la manipulation de l’interface. Bien sûr l’interface tactile n’a pas que des avantages, notamment en termes de contrôle utilisateur. En effet, le doigt est un pointeur beaucoup moins précis que la souris et l’interface tactile réagit au moindre contact, y compris involontaire, ce qui peut poser problème dans des situations de mobilité. L’interface tactile n’est pas non plus forcément la meilleure option en termes de sécurité (contact involontaire), de robustesse (écran fragile, sensible aux salissures) et de luminosité (écran peu lisible en pleine lumière, hormis certaines liseuses à écran réflectif et technologie e-ink). Finalement, une interaction simplifiée ne permet pas la subtilité offerte par les applications PC. La tablette est donc plutôt réservée à des usages ponctuels, en situation de mobilité ou avec de jeunes enfants.
Quels atouts pour l’apprentissage et l’enseignement ? Nous parlerons ici des tablettes plutôt que des liseuses, dans la mesure où les liseuses offrent des fonctionnalités limitées que l’on peut retrouver dans les tablettes. On l’a vu, l’interface tactile change radicalement le mode d’interaction avec les documents et applications, introduisant de nouvelles habitudes, de nouveaux éléments d’interfaces, de nouvelles affordances (incitations à l’action générées par les éléments de l’environnement). Pour les situations d’enseignement, cette interaction plus directe est d’abord un atout pour les apprenants qui peuvent mobiliser toute leur attention à la compréhension du sujet plutôt qu’à la manipulation de l’interface. C’est d’autant plus vrai pour les jeunes enfants non lecteurs, qui s’approprient les interfaces tactiles en quelques minutes. Du côté de l’enseignant, une interaction simplifiée est également un atout, car la tâche qui occupe l’essentiel des ressources cognitives de l’enseignant est la gestion de ses 25 élèves ou ses 150 étudiants: mobiliser leur attention, les engager dans la réflexion, faciliter leur compréhension. Un dernier avantage et non des moindres est le prix réduit de l’objet par rapport à un ordinateur standard pour la plupart des usages que l’on en fait en classe.
Sur la question de l’apport de cet outil aux apprentissages, si l’on se fie aux médias qui ne tarissent pas d’éloge sur les tablettes, on aurait enfin trouvé la solution idéale pour dynamiser l’enseignement et favoriser l’apprentissage. Mais est-ce bien le cas ? Bien que les tablettes offrent des atouts convaincants en termes d’interaction, il faut se méfier des affirmations rapides. Comme pour tout support numérique, c’est moins ce que l’outil fait qui importe que ce que l’on peut faire avec cet outil. De ce point de vue, les tablettes possèdent trois caractéristiques intéressantes pour les situations d’enseignement: z Tout d’abord elles sont mobiles, ce qui permet une utilisation flexible en salle de classe ou en extérieur, voire une utilisation par l’étudiant à la maison si la tablette est confiée personnellement à l’élève. z Elles sont minimalement intrusives par comparaison aux ordinateurs fixes et même portables: leur écran horizontal ne perturbe pas les interactions entre étudiants ou entre enseignants et étudiants, elles peuvent facilement se ranger au côté des outils plus traditionnels, livres et cahiers. z Enfin elles offrent l’atout de la spontanéité: rapidement opérationnelles à l’allumage, les applications sont robustes et faciles d’utilisation comme on l’a dit précédemment ; en outre, l’interface tactile permet de passer facilement d’activités individuelles à des activités collectives puisque l’interaction n’est pas limitée par la présence d’une seule souris. Ces trois caractéristiques assurent aux tablettes une qualité d’interaction que les ordinateurs ne possèdent pas: la continuité, au sens où cet outil ne perturbe pas le déroulement pratique de l’enseignement et s’intègre aux outils usuels de la classe. S’il est jugé facile à utiliser et potentiellement utile, un outil qui ne perturbe pas les modes opératoires des utilisateurs aura plus de chance d’être accepté, puis utilisé au maximum de ses potentialités.
Des usages au service des apprentissages Si la tablette offre de nombreux atouts comme outil personnel de l’élève, elle ne se substitue pas à des dispositifs pour la classe entière (tableau blanc interactif par exemple) qui sont plutôt des outils de l’enseignant. La tablette peut être utilisée dans la plupart des usages de l’ordinateur personnel, que l’on classera en quatre catégories en fonction de la plus-value apportée par le support numérique. Pour chaque catégorie, on distinguera un versant utilisation de ressources et un versant production par les élèves de contenu ou ressources.
images sous licence CC BY-NC-ND 3.0/Stéphanie Burton, Philippe Devaud et l’équipe fri-tic. www.fri-tic.ch.
50 flash informatique
Stockage et réutilisation Cela paraît trivial aujourd’hui, l’ordinateur par le truchement du Web permet l’accès à une quantité d’information virtuellement infinie sur à peu près n’importe quel sujet. Pourtant cette possibilité est peu utilisée en situation d’enseignement, que ce soit à l’école obligatoire ou dans l’enseignement supérieur, en partie à cause de la pléthore de documents retrouvés pour chaque requête et
Du bon usage des tablettes leur fiabilité variable, mais aussi, car une autre voix que celle de l’enseignant s’inviterait en classe. Tout le monde s’accorde sur l’importance de former les jeunes élèves à la recherche d’information, mais personne n’est volontaire, sous prétexte que les élèves le feraient couramment chez eux. Or les études montrent bien que les compétences de recherche des 12-15 ans ne sont pas si développées lorsqu’il s’agit de sujets complexes, mais surtout que la plupart n’ont aucune compréhension de la façon dont le Web ou les moteurs de recherche fonctionnent. Et au-delà des procédures d’utilisation des moteurs de recherche, il s’agit bien de former à la culture numérique, dont l’évaluation de la fiabilité des sources et du contenu trouvé. Sur le versant production, l’ordinateur offre la possibilité de stocker une production et la réviser ultérieurement, capacité évidente, mais sur laquelle se base la plupart des usages professionnels. Ces documents peuvent à leur tour être rendus accessibles sur le Web, comme dans l’initiative wikimini (www.wikimini.ch) où les jeunes élèves écrivent des articles encyclopédiques pour leurs pairs, passant de consommateurs à acteurs du Web.
Visualisation C’est peut-être la plus-value du numérique que les enseignants mobilisent le plus: la capacité de fournir des visualisations dynamiques et interactives. Que ce soit des vidéos documentaires ou des simulations permettant d’expérimenter des phénomènes physiques inaccessibles autrement, il s’agit de s’appuyer sur la puissance du traitement visuel humain pour appréhender des phénomènes complexes, qu’ils soient du domaine de l’histoire ou des sciences. Sur tablette, l’interaction tactile et individualisée permet à l’étudiant de se concentrer uniquement sur le contenu, qu’il manipulera selon ses propres hypothèses et rythmes de compréhension. Au-delà de la consultation, les élèves peuvent également construire des visualisations: montage multimédia pour un exposé, carte heuristique, construction 3D sur la base de plan sur des jeux créatifs type Minecraft &.
copie d’écran du jeu Minecraft
Traitement automatique Un ordinateur est d’abord un outil permettant d’effectuer des calculs, capable de traiter une grande quantité de données dans un temps réduit. Il s’agit de déléguer les processus de bas niveau, qui sont acquis, mais prennent du temps, pour que l’humain puisse avoir le temps et les ressources cognitives pour les proces-
sus de haut niveau comme le raisonnement. Au-delà de l’usage de la calculatrice auquel on pense immédiatement, d’autres outils offrent cette possibilité de délégation: les exerciseurs par exemple, offrent une correction automatique de réponses standards, permettant un entraînement individualisé et un feedback immédiat, plus efficace. L’enseignant, libéré de la correction, peut alors visualiser le profil de réponse de l’étudiant et proposer une explication et des exercices adaptés. Les exerciseurs les plus élaborés sont capables de conseiller eux-mêmes les exercices à faire en fonction des résultats de l’élève. Sur le versant production, les outils de programmation accessibles aux néophytes (par exemple scratch) se développent aussi sur tablette, permettant de construire des activités interactives pour les autres.
Communication et collaboration L’usage de l’ordinateur est maintenant indissociable des outils de communication qui lui sont attachés, du courrier Internet aux réseaux sociaux. Pour l’enseignement, ce sont plutôt les outils de production collaborative qui vont nous intéresser. On citera tout d’abord les wikis, éditeurs collaboratifs asynchrones de pages Web, qui permettent de produire des encyclopédies locales pointant sur des références externes. Sur tablettes, des outils de prise de notes individuels (comme evernote), plus faciles à appréhender que des wikis, sont souvent utilisés comme répositoires de notes produites par des élèves ou groupes d’élèves. Les outils de mindmapping ou de collections de liens comme pearltrees & offrent la plupart du temps des fonctionnalités d’édition collaborative. La tablette permet également une utilisation collaborative de simulations et exerciseurs. Outre l’aspect pratique du travail de groupe pour la gestion de la classe, la collaboration oblige les élèves à expliciter leur compréhension de la situation et à confronter les hypothèses, pour s’engager dans une véritable activité d’apprentissage. Les usages passés en revue ci-dessus sont relativement peu innovants, et peu perturbateurs en termes de modes opératoires enseignants. Il existe des usages plus innovants de la technologie, comme le papier digital, feuille de papier équipé d’un code matriciel activant une adresse Internet sur un équipement qui peut être une tablette. La TinkerLamp & développée par les chercheurs de l’EPFL est de ce type. Le papier digital a pour avantage de permettre une gestion papier des activités informatiques, réalisant une continuité avec les classeurs papier habituellement utilisés par l’enseignant. Peu encombrantes, faciles d’utilisation et offrant des capacités très similaires à un ordinateur standard, les tablettes pourraient bien avoir un bel avenir en éducation, si on garde à l’esprit que ce n’est pas l’outil qui apporte à l’apprentissage, mais les activités que cet outil permet de faire. n GLOSSAIRE
&
Minecraft: Minecraft est un jeu vidéo de type sandbox (construction libre, bac à sable). www.minecraft.net W pearltrees: service gratuit qui permet à chacun d’organiser et partager ce qu’il aime dans Internet. www.pearltrees.com W TinkerLamp: www.simpliquity.com/tinkerlamp.php W = tiré de Wikipédia
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
51
Le palimpseste d’Archimède de Syracuse à Baltimore Jacqueline.Dousson@epfl.ch, EPFL - Domaine IT, responsable communication
Where we see that the issue of data sustainability is not new. Où l’on voit que la question de la pérennité des documents ne date pas d’hier.
La plupart des grands textes de l’antiquité nous sont parvenus grâce aux copies successives des scribes du moyen âge. C’est le cas des écrits d’Archimède. Tout ce que l’on connaît aujourd’hui des travaux de ce mathématicien grec se limite à 3 livres, appelés A, B et C. La dernière trace de A, ce fut en 1564 dans la bibliothèque d’un humaniste italien. La dernière fois qu’on a entendu parler de B, c’est en 1311, comme faisant partie de la bibliothèque papale à Vierbo, au nord de Rome. C’est grâce à des copies que leur contenu est arrivé jusqu’à nous. Le codex & C ne fut découvert qu’en 1906 et est arrivé au musée d’art Walters de Baltimore, le 19 janvier 1999. En réalité, le codex était caché à l’intérieur d’un livre de prières qu’un moine, un certain Johannes Myrones avait achevé d’écrire le 14 avril 1229. Par manque de parchemin, ce moine avait recyclé sept vieux parchemins usagés dont le codex C d’Archimède. Après avoir soigneusement effacé les textes, Johannes a coupé les feuillets en 2, les a reliées, tournées de 90 degrés et y a écrit ses prières. Les sept parchemins originaux avaient laissé la place à un palimpseste &, ici un livre de prières. Ce livre de prières fut découvert par J. L. Heiberg en 1906. À l’aide d’une simple loupe, il recopia le plus de texte qu’il pouvait et découvrit ainsi des textes d’Archimède totalement inconnus, ne figurant ni dans A, ni dans B: la Méthode et le Stomachion &, ce qui fit de ce codex un des plus célèbres manuscrits au monde. Ce livre aurait dû finir sa vie dans une institution, si un acheteur privé n’en avait fait l’acquisition en 1998. Quelle était sa motivation ? Sauver cette œuvre unique afin de donner la possibilité aux rares personnes capables de lire les textes d’Archimède en grec ancien d’y avoir accès. Il a rassemblé des amis d’Archimède, et a décidé de payer leur travail. Cela représentait de grosses sommes, mais pas autant qu’on pourrait le penser, car ces spécialistes ne venaient pas pour l’argent, mais pour Archimède. Ils venaient de tous les horizons, physique des particules, philologie classique, conservation des livres, mathématiques antiques, gestion des données, imagerie scientifique et programmation. Et ils se sont mis à travailler tous ensemble sur le manuscrit.
Restauration Ce livre en très mauvais état avait continué à se dégrader après la découverte de Heiberg: des forgeries & y ont été rajoutées et les moisissures se sont étendues. Avant de commencer à travailler avec l’imagerie, il a fallu 4 ans pour démanteler le palimpseste et garantir sa conservation future. Après s’être débarrassé de la colle qui avait été rajoutée sur le dos du codex, il a fallu ôter mécaniquement et très soigneusement la cire qui recouvrait le texte. En effet, ce livre, ayant été utilisé lors de cérémonies du rite grec orthodoxe, était imprégné de cire de bougies. Il est difficile de dire à quel point l’état du livre était mauvais, très souvent il était même en lambeaux. Normalement, dans un livre, on ne se préoccupe pas des petits morceaux, mais ici chacun pouvait contenir un morceau du texte d’Archimède.
une page typique du palimpseste d’Archimède. Le manuscrit original du texte d’Archimède est écrit de droite à gauche, dissimulé sous le texte de prières écrites de haut en bas. Par The Walters Museum (www.archimedespalimpsest.net) [CC-BY-3.0 via Wikimedia Commons]
52 flash informatique
Le palimpseste d’Archimède de Syracuse à Baltimore
Où il est question de supports et de formats La Méthode a sans doute été écrite dans une lettre d’Archimède qui vivait à Syracuse à Eratosthène d’Alexandrie (celui-là même qui fit la première mesure de la circonférence de la Terre à partir de la distance entre Assouan et Alexandrie). Lettre écrite sur un rouleau de papyrus, comme c’était l’habitude à l’époque, elle a été ensuite retransmise sur des parchemins de codex lors des premiers siècles de notre ère. Avec déjà la problématique de changement de support et de format bien connue aujourd’hui… sur un rouleau le texte est écrit dans la longueur, dans un codex sur des folios ! un codex pouvant contenir bien plus d’informations qu’un rouleau. Aux IXe et Xe siècles, souvent dans l’Empire byzantin, les codex furent recopiés plusieurs fois, avec entretemps changement de fonte (passage des majuscules aux minuscules). Les textes redécouverts au XXe siècle ont été écrits au Xème siècle, à une époque plus proche de la nôtre que de celle d’Archimède et Archimède lui-même n’aurait sans doute pas pu les lire à cause de toutes les transformations subies.
Imagerie et calcul Il a fallu également plusieurs mois de tâtonnements avant que les équipes d’imagerie et de calcul numérique aboutissent à une méthode satisfaisante pour différencier les prières du texte d’Archimède, puis vint le travail sur les 174 folios & du codex.
Creative Common Licence Un des résultats de cette expérience est une réflexion sur ce qui différencie les livres et les données dans le domaine des manuscrits anciens. Les livres eux-mêmes doivent être gardés par des institutions spécialisées garantissant leur conservation. À l’opposé, les données doivent être accessibles au plus grand nombre de personnes susceptibles de les étudier. C’est le choix qui a été fait au musée d’art Walters de Baltimore. Persuadé que la connaissance des documents anciens ne passera à l’avenir que par la comparaison et l’assemblage de textes situés dans des lieux dispersés, le conservateur du musée Walters a décidé de mettre sous licence Creative Commons toutes les données brutes du projet palimpseste à la disposition des internautes. Par ailleurs, il a mis plus de 19000 images d’objets de la collection dans wikimedia [1], et encourage tous les institutions et musées à suivre son exemple.
Conclusion J’ai découvert l’histoire de ce palimpseste par une conférence TED de Will Noel, conservateur au musée d’art Walters de Baltimore [2]; je renvoie ceux qui voudraient en savoir plus à la lecture du livre co-écrit par William Noel et Reviel Netz [3]. On y apprend entre autres qu’Archimède était l’inventeur de l’application des mathématiques et des modèles abstraits au monde physique à la base de tous les traitements numériques d’images qui ont justement servi à redécouvrir ses textes !
Références [1] commons.wikimedia.org/wiki/Category:Media_contribu-
Experts
ted_by_the_Walters_Art_Museum
[2] www.ted.com/talks/lang/en/william_noel_revealing_the_ Ce fut ensuite le tour des experts en grec ancien, en manuscrits du Moyen Âge, en histoire des mathématiques qui ont travaillé sur les images mises à leur disposition, à la recherche des mots ou lettres manquantes, travail de plusieurs années qui a enfin permis de prendre connaissance de ces textes d’Archimède, parmi les plus importants pour la science. En même temps, d’autres textes anciens très intéressants qui provenaient des autres parchemins furent mis en évidence.
GLOSSAIRE
&
codex: un livre manuscrit relié avec une couverture, au début l’écriture se faisait sur du parchemin (peau animale) puis à partir du XIIIème siècle sur du papier. folio: une feuille qui a deux côtés recto et verso. Le codex dont il est question ici avait 177 folios au départ, mais il en manque 3, peut-être sont-ils quelque part dans un musée ou sur les murs d’un collectionneur. forgerie: le terme est propre à l’expertise en écritures. Il s’agit du fait de fabri-
lost_codex_of_archimedes.html
[3] Le codex d’Archimède, William Noel et Reviel Netz, JC Lattès n
quer un faux en écriture, soit de toutes pièces, soit en réutilisant des parties authentiques existantes, auxquelles des parties forgées sont ajoutées habilement de façon à laisser croire que l’ensemble serait authentique. W palimpseste: dérivé des termes grecs palin (de nouveau) et psan (frotter), ce terme signifie que le parchemin a été frotté à plusieurs reprises. Pour créer un parchemin, il faut gratter la peau d’un animal, et si l’on veut réutiliser un parchemin qui a déjà servi, il faut le gratter à nouveau.
stomachion (appelé aussi loculus d’Archimède): puzzle, sorte d’ancêtre du Tangram, contient 14 pièces de formes variées qui tiennent toutes dans un carré.
W = tiré de Wikipédia
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
53
TABLETTE Esteban.Rosales@bluewin.ch, géologue et illustrateur Appoline.Raposo@epfl.ch, EPFL – Domaine IT Frederic.Rauss@epfl.ch, EPFL - DIT, rédacteur KIS et Médiacom
Un mot: tablette – quelques regards: étymologie, technologie et illustration.
Qui suis-je ? – HRB Je suis jeune, moins de deux ans et demi; je suis plus petite qu’un ordinateur portable, moins de dix pouces; je suis plus grande qu’un smartphone, plus de sept pouces; je suis légère, moins d’un kilo; je suis rapidement disponible; je suis plate comme une galette; je suis noire comme une ardoise; j’ai une bonne mémoire, 1 Giga de RAM vive et jusqu’à 64 Gigas de mémoire interne; je fonctionne dans toutes les positions grâce à mon gyroscope; je n’aime pas les souris; je suis tactile, j’aime les doigts, pas les gants, j’aime aussi certains stylets; je surfe sur le Net comme personne; je travaille sans fil, en Bluetooth ou en Wi-Fi; je fonctionne sur batteries rechargeables; j’ai un port USB; mon système d’exploitation est Android ou iOS; je stocke tout sur un SSD (solid-state drive); j’ai une place à tenir dans les carnets de dessins, je peux servir de liseuse; je mets à disposition une caméra et un appareil photo; je propose un clavier virtuel pour les notes; je peux intégrer un GPS; je remplace aisément la pile d’encyclopédies au salon, mais pas comme tabouret d’appoint; mon mode d’interaction avec l’utilisateur est intuitif, donc pas besoin d’apprentissage; certaines écoles font des économies de papier sur mon dos et bientôt, peut-être, j’allégerai les cartables des écoliers… une tablette !
54 flash informatique
Tablette – FR Voici un bon exemple d’un mot qui illustre à quel point la langue est vivante. Il n’est pas très éloigné le temps où une tablette évoquait bien des objets sauf un iPad, un Kindle, etc. Personnellement, la première chose à laquelle me fait penser le mot tablette, c’est l’hôtesse dans l’avion qui vient vous dire: - Nous allons atterrir, pouvez-vous relever votre tablette ? Techniquement, cette petite planche horizontale n’est pas ce qu’il y a de plus révolutionnaire, mais tout de même, que de repas mangés dans des conditions acceptables grâce à elles. Mes études de lettres devraient me faire songer aux tablettes sumériennes, 3000 avant Jésus-Christ – on ne prenait pas encore l’avion à cette époque. Mais j’en sais encore moins sur ce sujet que sur la tablette padeuse, et je ne peux m’empêcher de me demander si les scribes mangeaient dessus… Ce qui me fait penser aux tablettes de chocolat, les deux, celles qui sont emballées dans un joli papier aluminium scandaleusement polluant, et celles, musclées, dont on se prend à rêver lorsqu’on devient un peu bedonnant, sâgesse oblige. Il y a également la tablette de médicaments qui protège dans ses petites alcôves pelliculées des remèdes divers et variés. Le mot tablette appartient à la famille étymologique de table, et que de repas me reviennent aussitôt en mémoire, pris à la table de la cuisine, et des tablées d’amis, des réunions, puis on songe à une table plus sérieuse, la table de travail, ou plus grave, la table d’opération. Au fil des sens, on trouverait également le tablier de cuisine, le tabloïd sans cesse critiqué, mais toujours parcouru, le tabulateur jamais au bon endroit, voire même dialectalement la taule. En tant que scribe fédéral, j’affectionne plus particulièrement le sens de la tablette sur laquelle on peut écrire quelques mots, prendre des notes. Et il est récent pour moi que ce mot se soit mis à désigner avant tout ce qui ressemble à la Porte des Étoiles de Stargate, avec au centre l’i-ni-ma-gi-na-ble il y a peu, c’est-à-dire un monde que je peux toucher du bout du doigt - que de souris sauvées. Ce qui ne nous économise pas, table ou tablette, de la nettoyer de temps à autre, sans quoi la finesse de l’objet est dégradée par des maculatures grasses qui, loin de rappeler les nobles ratures manuscrites, témoignent du passage de l’animalhumain qui laisse l’empreinte de son passage, comme un escargot ses bavures diamantées, sur les voies fulgurantes de l’univers virtuel. n
Dans ce numéro Les couvertures auxquelles vous avez échappé Richard Timsit e-Dito Richard Timsit
3
radioactivité à l’âge de l’Internet
La bibliothèque de l’EPFL Isabelle Kratz Une mauvaise journée Guilaine Baud-Vittoz
26
Données de recherche et cahier de laboratoire Gaël Anex
32
Cloud, une question de confiance Simon Leinen
36
Sérénité dans les nuages Laurent Kling
39
Delete ou la vertu de l’oubli à l’âge digital Francis Lapique
42
2
Safecast – Mesures citoyennes de la Robin Scheibler
Vers un Nouveau Monde de données Hubert Guillaud
4
7
7 Open Government Data en Suisse – Vers plus
Les logiciels libres et les bibliothèques Raphaël Grolimund
9
de transparence, d’efficacité et d’innovation grâce à l’ouverture des données publiques
44
Antoine Logean L’Open Access à l’EPFL Julien Junod
10
Du bon usage des tablettes Mireille Bétrancourt
49
La citation des données de recherche Lionel Walter
12
DRM et bibliothèques Alain Borel
Le palimpseste d’Archimède de Syracuse à Baltimore Jacqueline Dousson
52
13
Mot-croisé: TABLETTE Esteban Rosales, Appoline Raposo de Barbosa, & Frédéric Rauss
54
SavoirLibre pour la diffusion des savoirs scientifiques Omar Odermatt
15
Licences libres et Open Access Nicolas Borboën
17
tout public public averti expert
Forme, signe et … évasion Vers une définition du document numérique
Patricia Plaza-Gruber Publier ses données sous forme de Linked Open Data Philippe Cudré-Mauroux
Impressum Revue consacrée aux technologies de l’information, éditée par le Domaine IT de l’EPFL (DIT). Les articles n’engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d’autres entités). Toute reproduction, même partielle, n’est autorisée qu’avec l’accord de la rédaction et des auteurs.
21
24
Prochaines parutions No
Délai de rédaction
Parution
6
16.08.12
14.09.12
7
27.09.12
16.10.12
8
25.10.12
13.11.12
Rédacteurs en chef: Jacqueline Dousson & Richard Timsit, fi@epfl.ch Mise en page & graphisme: Appoline Raposo de Barbosa Comité de rédaction: Jean-Daniel Bonjour, Patrice Fumasoli, Florence Hagen, Laurent Kling, Julia Paolini, François Roulet, Christophe Salzmann & Predrag Vicei´c
Impression: Atelier de Reprographie EPFL Tirage: 4000 exemplaires Adresse Web: flashinformatique.epfl.ch Adresse: Domaine IT EPFL Station 8, CH-1015 Lausanne Téléphone: +41 21 69 32246 & 32247 Abonnement au FI par e-mail à: fi-subscribe@listes.epfl.ch
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
55
ISSN 1420-7192