Archivage du web by Bruno Texier

la mémoire du web en construction Le web français est archivé par la Bibliothèque nationale de France et l’Institut national de l’audiovisuel. Un chantier monumental qui a déjà généré plusieurs milliards de ¿chiers informatiques. Dans le monde, d’autres initiatives moissonnent inlassablement la toile pour conserver la mémoire d’un monde numérique en train de se faire.

bibliothécaires de la BNF a été constitué à la lumière de leur thématique et de leur qualité. Certains sites sont archivés très en profondeur alors que d’autres le sont de façon plus superficielle, au niveau de la page d’accueil par exemple. Une centaine de sites adossés à des titres de presse sont ainsi collectés chaque jour. Des « collectes projet » sont également réalisées à l’occasion d’évènements tels que les Jeux olympiques ou les élections présidentielles.

17 milliards de fichiers archivés À ce jour, plus de 17 milliards de fichiers (page HTML, vidéo…) ont déjà

Site Archimag en 2006.

lors qu’il était roi de France, en 1537, François 1er institua le dépôt légal pour le livre. Un geste fort qui permit de constituer un formidable lieu de mémoire dédié à la production intellectuelle française. Au fil du temps, cette obligation de dépôt fut étendue aux nouveaux supports qui furent inventés à travers les siècles : estampes, cartes, partitions musicales, photographies, affiches, documents multimédias… Jusqu’en 2006 où la Bibliothèque nationale de France (BNF) se vit confier la mission de collecter, conserver et communiquer les sites web au titre du dépôt légal. Cette obligation est désormais consignée dans le Code du patrimoine. L’archivage du web porte sur les sites en .fr ainsi que sur les .org et les .com dont les auteurs sont domiciliés en France. Mais cette collecte ne vise pas l’exhaustivité. C’est plutôt « une logique de représentativité qui a été retenue », souligne-t-on à la BNF. Un corpus d’environ 30 000 sites sélectionnés par les

été archivés par la BNF, soit environ 300 téraoctets. La collecte est automatisée et assurée par plusieurs dizaines de robots moissonneurs qui, inlassa-

blement, copient des pages, des images, des vidéos… Une fois collectés, ces fichiers sont indexés avant d’être proposés à la consultation, mais uniquement dans l’enceinte de la BNF. Raison invoquée : le respect des données personnelles. Les archives du web ne sont donc pas disponibles… sur le web ! Le stockage des données, quant à lui, est assuré sur des baies de disques durs. La Bibliothèque nationale de France a procédé à une étude des risques d’obsolescence des supports et mis en place des stratégies de conversion.

archives taille mannequin Autre institution française en charge de l’archivage du web, l’Institut national de l’audiovisuel (Ina) se concentre plus particulièrement sur les sites en rapport avec la télévision et la radio : sites officiels de programmes, sites de services de médias à la demande, blogs de téléspectateurs, etc. Au mois d’avril 2012, cette collecte embrassait un périmètre de 9 254 sites soit plus de 13 milliards de versions d’URL représentant 1,43 pétaoctets. Après une sévère cure d’amincissement (déduplication et compression), ces archives affichaient une taille mannequin de 129,4 téraoctets ! Stockées en mode hybride sur disques durs et bandes magnétiques, ces archives font ensuite l’objet d’une indexation en plein texte. À l’Ina, on fait valoir que ce type d’indexation « assure une neutralité des réponses et offre une garantie aux chercheurs en même temps qu’un contrepoids à la substitution de la mémoire du web par les monopoles industriels du web mondial ». Sont ainsi visées « les stratégies de ranking des

archimag n° 260 décembre 2012-janvier 2013

[outils]

projet Internet Archive

Site France 2 en 1996.

l’Australie, le Canada ont mis en place, parfois dès 1996, des protocoles de collecte. Sans oublier La Bibliothèque du Congrès de Washington qui a annoncé son intention d’archiver l’intégralité des milliards de messages postés sur Twitter depuis 2006. Mais la plus retentissante action d’archivage du web est probablement le projet Internet Archive. Cette association sans but lucratif a été fondée il y a une quinzaine d’années à San Francisco (États-Unis). Avec le soutien de bibliothèques des pays scandinaves, elle est à l’origine du développement du célèbre robot Heritrix. C’est cet outil qu’utilise la Bibliothèque nationale de France pour collecter le web. Depuis, d’autres institutions comme la Bibliothèque nationale de Nouvelle-Zélande ou le réseau Bibliothèque et Archives Canada ont adopté le robot Heritrix. Ce dernier se présente sous la forme d’un logiciel libre programmé en Java et accessible depuis un simple navigateur web.

Internet Archive est surtout connu pour son site WayBackWachine (1) qui permet de retrouver les versions antérieures des sites web. Un exercice réjouissant qui amène à constater le chemin parcouru en matière d’ergonomie et d’interface ! Le site connaît un succès croissant en raison de sa facilité d’utilisation. Il suffit en effet de se rendre sur la page d’accueil et de saisir l’adresse URL du site désiré.

Dans le monde, les initiatives dédiées à l’archivage du web se sont multipliées. La Suède, la Finlande, le Danemark,

un site miroir à la bibliothèque d’Alexandrie

Site BNF en 2000.

À titre d’exemple, WayBackMachine a réalisé 233 archives du site Archimag. com depuis le 27 décembre 1996. Certains sites d’information à très forte visibilité comme le New York Times ont fait l’objet d’environ 4 500 captures en une quinzaine d’années. La collecte réalisée par WayBackMachine se fait

archimag n° 260 décembre 2012-janvier 2013

au niveau des pages d’accueil, mais aussi dans la profondeur des sites. En réalité, certaines pages profondes n’ont pas pu être correctement sauvegardées et certaines images n’apparaissent plus sur les pages archivées. En revanche, le site est doté d’une frise chronologique interactive qui permet de naviguer de façon intuitive parmi les centaines de captures réalisées tout au long de l’évolution des sites. En bons archivistes, les concepteurs d’Internet Archive ont pensé à la pérennité de leur travail. Ils ont pour cela créé

Site de la présidence de la République en 2001.

moteurs de recherche qui servent essentiellement des intérêts commerciaux ». Les archives réalisées par l’Ina peuvent être consultées sur le site de la BNF à Paris et, depuis peu, dans d’autres bibliothèques à vocation régionale dispersées sur le territoire français.

un site miroir qui héberge une copie des sites collectés. Symboliquement, ce site miroir a été installé au sein de la Bibliothèque d’Alexandrie en Égypte. Q Bruno Texier

(1) Æ waybackmachine.org

repères

l’archivage du web en mode collaboratif L’association Web Archivists en est convaincue : l’archivage du web passe par les internautes et le mode collaboratif. « L’archivage est une problématique collective ; qui d’autre que les internautes eux-mêmes pour identi¿er les sites qui ont fait l’histoire d’internet " », demandent les membres de cette association née en 2009 et basée à Paris. Avec une moyenne d’âge de vingt-cinq ans, ils militent pour une ouverture de l’archivage du web et souhaitent élargir le nombre de contributeurs : « Plus les pro¿ls seront variés, meilleures les archives seront ». L’association a plusieurs fers au feu : une cartographie des archives web, une réÀexion sur le design d’interfaces d’accès aux archives ainsi qu’une plateforme collaborative dédiée à l’archivage des sites web. Q Æ www.webarchivists.org