PANORAMA DES SERV ICES D'ARC H IVAGE 4 fevrier 2008 (C I NES) 1- Deux types de plateformes: –
archives à valeur pat r imoniale
(manuscrits anciens, publications scientifiques, in ternet..) Importance des métadonnées pour resituer le contexte et conserver le sens. De nombreux établissements du domaine public (universités, bibliothèques, chercheurs, etc.) ont un pat rimoine à archiver –
archives à valeur probante
Destiné à prouver l'authenticité légale d'un document sur le long terme :acte de naissance, déclaration d'impôts, factures, etc. Ut ilisation des signatures électroniques. Indispensable suite à la dématérialisation des procédures administratives (idem dans les entreprises).
2- Plateformes d'archivage actuellement déployées en F rance –
SPAR : Système de P réservation et d'Archivage Répa rti.
Archivage de différents f lux (internes ou externes) : Numérisation de documents imprimés, manuscrit, images, etc. ; Record managment (documents internes) ; Nouveau modes de diffusion : serveur web, publication électronique, etc. Volumétrie : 2008 : 400 To / 2010 : 1,3 Po / 2014 : 1,8 Po. Dépôt légal électronique (Loi n° 2006961 du 1er août 2006 relative au droit d'auteur et aux droits voisins dans la société de l'information). Infrastructure matérielle mise en place en 2005 par la société StorageTek : Appel d'offre remporté par Atos Origin pour le développement de l'applicatif spécifié par la BnF, basé sur l'application opensource FedoraCommons.Mise en service prévue fin 2008. Archivage de tous les f lux cités précédemment progressivement intégrés sur 3 ans. Respect strict du modèle OAIS (réflexion poussée sur son implémentation).
–
P I LAE Plateforme
Pilote d'archivage électronique (DAF, en coopération avec la DGME (Direction Générale de la Modernisation de l'Etat). Les archives sont définies sans distinction de date, de forme et de support. ADELE confère une valeur probante aux documents numériques ce qui implique la nécessité de les archiver. Archive publiques :
- Les documents qui procèdent de l'activité de l'état, des collectivités terr i toriales, des établissements et entreprises publics – L es documents qui procèdent de l'activité des organismes de droit privé chargés de la gestion des services publics ou d'une mission de service public – les minutes et répertoires des officiers publics ou ministériels. Procédure d'archivage, conservation, destruction encadrée par la loi (décret n° 791037 du 3 décembre 1979).Développé par la société Cecurity.com. Recette en cours, exploitation opérationnelle probatoire sur le site de Fontainebleau : tester la faisabilité d’une prise en charge d’archives de natures différentes tester la faisabilité de conversions de formats en entrée du système tester des outils de scellement et d’horodatage tester la réplication inter et int rasite des données. Plateforme définit ive sur le site de Pierrefit tesurSeine. Élaboration du standard d’échange DAF/DGME, en cours de standardisation au niveau de l’UN/CEFACT.
-
CDPP Centre de Données de la Physique des Plasmas (CNES, CNRS).
Le CDPP est né d’une double prise de conscience au milieu des années 90 : - l’intérêt scientifique à long terme des observations scientifiques réalisées dans ce domaine ; - la perte inéluctable de ces données d’observations si elles n’étaient pas prises en charge par une entité responsable de leur pérennisation. Géré conjointement par le CNES et le CNRS (convention en 1998 et février 2007). Son maintien en opération est examiné tous les quatre ans Missions du CDPP : - identifier les données de la Physique des Plasmas naturels à archiver ; - assurer la collecte de ces données ; - assurer l’archivage long terme de ces données ; - mett re à la disposition de la communauté : = l’ensemble des données archivées = un ensemble de services visant à en faciliter et à en optimiser l’utilisation par communauté scientifique. Pour cela, des services à valeur ajoutée seront développés.
Équipe d'ingénieurs du CNES et du CNRS mise en place à Toulouse. Le CDPP ne s’est pas appuyé sur le modèle OAIS car celui-ci n’était pas encore défini. I l s'est appuyé sur la longue expérience pragmatique du CNES en matière de t raitement, de stockage et de mise à disposition de données numériques, ainsi que le Service de Transfert et d’Archivage de Fichiers (STAF), service de stockage pérenne mis en service au CNES en 1994. Plus de 10 ans de fonctionnement, près de 200 collections de données et des centaines de milliers de fichiers archivés et décrits, le CDPP dispose d’un réel retour d’expérience sur l’archivage long terme et la mise à disposition de données dans le domaine scientifique. –
PAC Plateforme d'archivage du C I NES.
Mission nationale d’archivage pérenne de documents électroniques du pat rimoine scientifique.
la
Projets : – archivage des thèses soutenues dans les universités françaises (10000 thèses par an (~300 Go), collectées par l'ABES) – archivage des revues en sciences humaines et sociales du portail PERSEE (planifié pour le printemps 2008, 20 To) – archivage des publications mises en ligne par le Centre pour la Communication Scientifique Directe (CCSD) sur le portail HA L (Hyper Art icle en Ligne) Planifié pour fin 2008, 300 Go ; D'autres projets sont également à l'étude. Equipe mixte d'informaticiens et d'archivistes. " PAC v1 développé en interne, en production depuis décembre 2007. " PAC v2, appel d'offre remporté par Sun Microsystem, mise en production prévue pour le prin temps 2008 :Infrastructure matérielle Sun ; Infrastructure logicielle Arcsys, développée par Infotel SA. selon les spécifications de PAC v1. S'appuie sur OAIS.Nécessité d'utiliser un processus de collecte générique afin de gérer la disparité des sources d'archives.
3- Analyse, conclusion Le modèle OAIS est employé par tous sauf CDPP. Versement : nécessite souvent des conventions précises car les versements se font dans un cadre légal strict. C'est un point critique de par l'éventuelle hétérogénéité des sources et cela nécessite un cadre technique r igoureux. Les versements manuels sont difficiles étant donné les contraintes techniques et normatives du procédé. Le versement automatisé est donc à préférer. Choix des formats pérenne : Aspect critique, études visant à identifier les formats les plus pérennes, outils de validation (Jhove, Droid, ImageMagick). Diffusion (mise à disposition de l'information) : Point à étudier selon l'importance, l'audience et la fréquence de la diffusion. Offres industrielles et commerciales de plus en plus abouties, généralement basées sur OAIS. Les logiciels libres jouent un rôle important dans le développement de ces plateformes d'archivage : applications et outils codés en java ; FedoraCommons ; outils divers (Jhove, Droid, ImageMagick, etc.). Gestion des r isques (matériels, logiciels, légaux...). Modularité = pérennité : un bloc obsolète peut facilement être remplacé sans mett re en péril l'ensemble de l'application. Fiabili té système : plus le système est complexe, plus il est fragile. L'archivage porte sur de gros volumes, cette question est donc à étudier de près. Identifiant (cote) : faiblesse actuelle. I l est opportun d'utiliser un identifiant unique, garantissant la pérennité et l'interopérabili té (ARK, PURL, DOI). In tégration de la plateforme d’archivage au sein d’un contexte matériel et logiciel plus large. Par définition, la réussite d'un projet d'archivage pérenne ne pourra se vérifier que sur le long terme.
L’un des objectifs explicite de la plateforme PI LAE est d’établir une base de connaissance sur la conduite de ce type de projet (difficultés rencontrées, solutions t rouvées). Les retours d'expériences commencent à arriver, et définiront la validité des implémentations matérielles, logicielles et procédurales choisies. Rendezvous dans 30 ans !
4- Annexes (URL, groupes d'études) En France : SPAR (BnF) : http://www.bnf.fr/ PI LAE (DAF, DGME) : http://www.archivesdefrance.culture.gouv.fr/ CDPP (CNES, CNRS) : http://cdpp.cesr.fr/ PAC (CINES) : http://www.cines.fr/spip.php?rubrique4 " En Europe : CASPAR : http://www.casparpreserves.eu/ DPE : http://www.digitalpreservationeurope.eu/ APA : http://www.alliancepermanentaccess.eu/ PLANETS : http://www.planetsproject. eu/