Ils inventent demain : La mémoire du web

Page 1

”Nous sauvegardons la mémoire du web“

Média-roi de notre époque, Internet est archivé… en partie. La bibliothèque nationale de France et l’Institut national de l’audiovisuel racontent comment. Par Virginie Jourdan, illustration Colcanopa

3- Comment collecte-t-on les contenus ?

Chaque jour, des centaines de robots spécialisés dans la recherche de contenus (appelés crawlers ) scannent les entrailles des millions de sites sélectionnés par les équipes « humaines » de la BNF et de l’Ina. Vidéos, liens, photos, textes, codes sources définissant l’aspect de la page : tout est aspiré pour faire revivre les contenus à l’identique dans l’avenir. Pour un site comme celui de France  2, qui peut compter

jusqu’à 2 000 versions par mois, les robots passent plusieurs fois par jour. Pendant les Jeux olympiques de Rio en 2016, plus de 30 millions de tweets et retweets et 52 964 vidéos ont ainsi été captés, dont le selfie que Teddy Riner a envoyé avant la remise de sa deuxième médaille d’or. En revanche, pour des raisons techniques ou juridiques, Facebook et Netflix échappent encore à cette collecte.

1- Que garde-t-on ?

Articles de presse en ligne, contenus de blogs, centaines de millions de tweets, dizaines de millions de vidéos YouTube… Depuis 2002, près de 88,4 milliards d’URL (ou adresses Internet) ont été collectés par deux équipes de la Bibliothèque nationale de France (BNF) et de l’Institut national de l’audiovisuel (Ina). Mais peu de chance d’y trouver vos vieux clichés Instagram : à ce jour, la BNF capte les instantanés d’une quarantaine de comptes seulement. « Nous sélectionnons les contenus représentatifs des grands thèmes qui traversent la société (féminisme ou mouvements citoyens comme Nuit debout) et archivons 4,5 millions de sites gratuits produits en France (.net, .fr, .org, etc.) », raconte Géraldine Camile de la BNF. Côté Ina, l’univers de la radio et de la télé prime : émissions-phares (Quotidien, Les recettes pompettes…) ou contenus liés à des faits ayant un fort retentissement dans les médias, comme les attentats de Charlie Hebdo en 2015.

2- Pourquoi c’est important ?

« Le patrimoine du web témoigne d’une époque, d’événements marquants, explique Thomas Drugeon de l’Ina. Or il a un caractère mouvant et éphémère. Quand un site est restructuré ou supprimé, certains contenus sont définitivement perdus. » Avant la disparition de l’appli Vine, l’Ina a, par exemple, récupéré 19 400 boucles vidéo. Cette collecte tient aussi à une spécificité française : quand un producteur ou un éditeur sort un film, un journal ou un livre, il a l’obligation de fournir une copie de son œuvre à un organisme habilité (c’est le « dépôt légal »). Dans le cas des contenus web, la démarche est inverse : c’est à la BNF et à l’Ina de les récupérer (notamment pour des questions de droits des auteurs).

Phosphore ‹ 40 › août 2017

4- Quelle place ça prend ?

Grâce aux techniques de compression, les archives prennent très peu de place. Dans les locaux de l’Ina à Aubervilliers, un serveur de 50 centimètres de large sur à peine 1 mètre de haut suffit à stocker 724 000 gigaoctets accumulés en quinze ans (l’équivalent d’une vidéothèque de 500 000 films en HD avant compression). À la BNF, les archives s’élèvent à 793 000 gigaoctets. Pour garantir leur « survie », les équipes réalisent des sauvegardes régulières et des copies sur disques durs.

5- Comment consulter ces archives?

Pour se plonger dans la toile de votre année de naissance ou retrouver un contenu publié puis perdu, 43 lieux de consultation sont accessibles partout en France à certaines conditions. Ici pour la BNF bit.ly/2qyoTUY et là pour l’Ina www.inatheque.fr/consultation.html

Merci à Géraldine Camile, chargée de collection au service du dépôt légal du web à la BNF et à Thomas Drugeon, responsable du dépôt légal du web à l’Ina.

Ils inventent demain


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.