Les archives de la recherche : diffusion et structuration des inventaires en EAD Le cas des archives sonores de la phonothèque de la MMSH Mémoire professionnel
Matthieu Andreani
Directeurs de recherche : Maryline Crivello
Véronique Ginouvès
Professeur des Universités Aix-Marseille I
Responsable de la phonothèque de la MMSH
Master II : métiers des archives, parcours 3 documentation sonore et audiovisuelle Année universitaire 2013-2014
Table des matières Introduction.......................................................................................................................4 I. Les archives de la recherche...........................................................................................6 1.1. Délimitation du champs des archives de la recherche...........................................6 1.2. Statut juridique.......................................................................................................8 1.3. Intérêts et enjeux..................................................................................................10 II. Les normes et standards de description archivistique.................................................14 2.1. Définition et typologie.........................................................................................14 2.2. Enjeux..................................................................................................................15 2.3. Histoire.................................................................................................................16 2.3.1. Émergence de la normalisation du langage de description..........................16 2.3.2. Développements des échanges inter-établissements....................................18 2.4. Le standard EAD.................................................................................................20 2.4.1. Création........................................................................................................20 2.4.2. Nature et statut normatif...............................................................................21 2.4.3. Substrat technique : la syntaxe XML...........................................................21 2.4.4. La DTD EAD...............................................................................................24 III. La construction d'un espace en ligne pour les archives de la recherche....................27 3.1. Vue d’ensemble....................................................................................................27 3.2. Calames................................................................................................................28 3.2.1. Création et missions de l’ABES...................................................................28 3.2.2. Le projet Calames........................................................................................29 IV. Le standard EAD appliqué aux archives sonores de la recherche.............................33 4.1. Cadre de l'expérience...........................................................................................33 4.1.1. L’intégration de la phonothèque de la MMSH au réseau Calames..............33 4.1.2. Le projet de catalogage................................................................................34 4.1.2.1. Le fonds Marceau Gast.........................................................................34 4.1.2.2. Le fonds Jean-Noël Pelen.....................................................................34 4.1.3. L’outil de catalogage....................................................................................35 4.2. L’opération d'encodage........................................................................................37
2
4.2.1. La mise en correspondance des structures...................................................37 4.2.2. La mise en correspondance des éléments de données..................................39 4.2.2.1. Les métadonnées du catalogue.............................................................39 4.2.2.2. La description du fonds........................................................................40 4.2.2.3. La description du corpus et des documents..........................................41 a. Identification et description <did>............................................................42 Intitulé de l'unité documentaire................................................................42 b. Les éléments de description contextuelle.................................................45 c. Les éléments d’indexation du document...................................................51 V. Bilan, perspectives et conclusion................................................................................58 5.1. Apports et limites de l'EAD et de Calames..........................................................58 5.2. De nouveaux défis pour les archives de la recherche..........................................60 Conclusion.......................................................................................................................64 Bibliographie...................................................................................................................65 Liste des tableaux et des figures......................................................................................68
3
Introduction
En août 2013, la section des universités et institutions de recherche du Conseil international des archives (ICA/SUV) lance un appel à communication autour du thème « Archiver la recherche – Pourquoi ? Comment ? ». Le colloque qui se déroulera en 2014 aura pour thème central les modalités et les enjeux de la valorisation des archives de la recherche. La problématique annoncée (« pourquoi archiver la recherche ? ») révèle bien la nouveauté de ce champ de réflexion, tandis que sa seule présence au programme d’un événement de cette importance témoigne de sa vitalité. La publication, en juin 2014, de l'ouvrage de Jean-François Bert, Qu'est-ce qu'une archive de chercheur ?1, alimente encore cette dynamique.
Depuis la fin des années 1990, on observe le développement de préoccupations nouvelles à l’égard des archives de la recherche. Les débats portent sur leur définition, et mettent en avant leurs multiples enjeux. Ceux-ci pointent également un certain retard concernant leur signalement sur le web. En effet, si le web est aujourd'hui l'un des vecteurs principaux de la diffusion des résultats de la recherche, les corpus documentaires et données brutes de la recherche ne connaissent pas toujours le même traitement.
Dans
ce
mémoire,
nous
tentons
d'apporter
des
réponses
aux
problématiques suivantes : Quels sont les enjeux liés à l'archivage et la diffusion des archives de la recherche ? Comment améliorer leur signalement ? Comment rendre ses données utilisables pour d'autres chercheurs ? Sur quelles technologies appuyer cette diffusion ? Au sein de quel réseau ?
1 Jean-François Bert, Qu’est-ce qu’une archive de chercheur ?, Marseille, OpenEdition Press, 2014, 84 p. URL : http://books.openedition.org/oep/438. Consulté en juin 2014.,3 6+69+9*
4
Dans cet objectif, nous étudions le standard EAD (Encoded Archival Description) comme solution à la diffusion en ligne des inventaires d’archives de la recherche. Nous analysons les démarches, avantages et défis liés à cette opération d'encodage.
Ce travail se compose de cinq parties :
La première est consacrée à la délimitation du champ des archives de la recherche et la définition des enjeux qui leurs sont liés. Nous mettons en lumière l’intérêt et la nécessité de leur mise en accessibilité auprès des historiens et autres communautés scientifiques. Ensuite, nous étudions les possibilités de mise en œuvre de cet accès, en montrant l’évolution de la standardisation archivistique au niveau international. Le format EAD est alors présenté, ainsi que les outils informatiques et la documentation nécessaires à son implémentation. Dans une troisième partie, nous décrivons l'émergence de projets numériques autours des données de la recherche, en particulier le Catalogue collectif des archives et manuscrits de l'enseignement supérieur (Calames). La quatrième partie commente le test d'encodage en EAD qui a été effectué sur un inventaire de deux fonds d’archives sonores de la phonothèque de la Maison Méditerranéenne des Sciences de l’Homme. Finalement l'application du standard EAD aux archives sonores de la recherche est évaluée. Le bilan du catalogue collectif d’archives sonores Calames
5
est établi et les perspectives de l’EAD sont analysées en fonction des besoins des archives de la recherche.
I. Les archives de la recherche
Dans cette première partie, nous nous attachons tout d’abord à délimiter notre champ d’étude en proposant une définition des archives de la recherche. Nous nous intéressons ensuite aux enjeux propres à ces archives. Nous discutons à cette occasion de leur statut juridique.
1.1. Délimitation du champs des archives de la recherche
Au sein de la communauté archivistique, la reconnaissance de la nature propre des archives de la recherche n’est pas acquise. En effet, les principaux référentiels ne leur consacre pas d’entrée2. De plus, la variété des dénominations (archives de la recherche, archives de chercheurs, archives scientifiques, archives des sciences, données de la recherche) et des définitions témoignent de l’absence de consensus.
En apparence synonymes, ces termes ne désignent pas toujours des documents de même provenance. Suivant l’un des principes fondamentaux de la pratique archivistique, la définition d'un type d'archive passe pourtant par la définition de la provenance. Le dossier de l’Agence de mutualisation des universités et établissements (AMUE) sur la gestion des archives au sein d’un établissement de l’enseignement supérieur et de recherche distingue ainsi deux types de provenance 2
Danièle Neirinck, La pratique archivistique francaise, éd. Jean Favier, Archives nationales, Paris, 2008, 630 p.
6
des archives de la recherche : les archives de laboratoire et de centre de recherche et les archives des chercheurs3. Thérèse Charmasson distingue quant à elle trois grandes catégories : « les archives de tutelles des établissements de recherche et d’enseignement scientifiques, les archives propres des établissements eux-mêmes et les archives personnelles des scientifiques4 ».
Ces typologies étendent le champ des archives de la recherche au-delà des archives de chercheurs. La grande hétérogénéité des producteurs rend difficile l'analyse. Dans le cadre de ce mémoire, nous nous concentrerons sur les archives provenant des chercheurs. Nous désignerons sous le terme d'archives de la recherche « celles sur la base desquelles [le chercheur] mène son travail d’investigation et d’étude et celles qu’il produit au cours de son activité de recherche »5 .
De la même façon, Goulven Le Brech s'appuie sur le circuit de la recherche afin d’établir une tripartition, riche de détails sur la nature des ressources.
- les archives issues du travail de recherche (en laboratoire, sur le terrain, en bibliothèque, Archives…) : cahiers de laboratoire, correspondance, comptes rendus de réunions, notes, rapports, fiches de travail, notes de travail, carnets de terrain, documentation diverse (revues, tirés-à-part, plaquettes, fascicules), littérature grise (rapports, études), documents relatifs à la participation à des colloques et conférences (programmes, compte-rendu, liste de chercheurs…), rapports d’expertise.
3 4 5
AURORE, « La gestion des archives au sein d’un établissement de recherche », Dossiers de l’agence, AMUE, 2010, p. 27. Thérèse Charmasson, Les archives personnelles des scientifiques : classement et conservation, Archives nationales, Paris, 1995, p. 7. Serge Wolikow, « Les archives du savoir en sciences sociales », Archives et sciences sociales : aspects juridiques et coopération scientifique, L'Harmattan, Paris, 2006, p.23.
7
- les archives consignant les résultats de la recherche : rapports, comptes rendus de recherches, manuscrits et tapuscrits d’articles et/ou d’ouvrages, épreuves, preprints, ouvrages, articles, tirés à part. - les archives relatives à la réception des résultats de la recherche : correspondance, coupures de presse, dossiers de traduction et de réédition d’articles et d’ouvrages.
La définition de G. Le Brech est ancrée dans la réalité des documents produits ou collectés par un chercheur au cours de sa carrière, quels que soient leurs supports matériels, et prend en compte l’organisation et le suivi du processus scientifique. Ce socle lui confère une grande homogénéité, tous ces documents étant concernés par le même ensemble de problématiques.
Il est possible d'ajouter d'autres types de documents aux catégories proposées plus haut, en particulier les bibliographies, les bases de données, les enregistrements de terrain. Toutefois, aucune liste définitive ne saurait être établie car les archives produites par les chercheurs sont en constante évolution intellectuelle (suivant les méthodes et paradigmes scientifiques) et technologique (langages informatiques, formats).
Enfin, il est nécessaire de circonscrire un champs disciplinaire, car les produits de la recherche peuvent être très différents selon les domaines de recherche. Dans le cadre de ce mémoire, nous étudierons le cas des archives de la recherche en sciences humaines et sociales.
1.2. Statut juridique
Au premier abord, le statut juridique des archives est clairement défini par les textes de lois sur les archives publiques. Ces documents sont en effet les
8
produits de l’activité d’un fonctionnaire chercheur ou enseignant-chercheur exerçant son activité dans un établissement publique. À ce titre, elles sont des archives publiques, définis par l’article L 211-4 du Code du Patrimoine :
Les archives publiques sont : les documents qui procèdent de l'activité, dans le cadre de leur mission de service public, de l'État, des collectivités territoriales, des établissements publics et des autres personnes morales de droit public ou des personnes de droit privé chargées d'une telle mission […]6
Cependant, la communauté scientifique, et d'une façon particulière en Sciences Humaines et Sociales, doit faire face à des problématiques impliquant la propriété intellectuelle et la protection des données. En effet, l’analyse de la spécificité des contenus fragilise l’énoncé de ce statut juridique.
Les cas suivant mènent ainsi à des situations complexes de gestion des droits :
Tout d'abord, l'existence du couple enquêteur-informateur crée une « mosaïque juridique […] indémêlable : droit d’auteur, droit des témoins, droit des interprètes, droit des sociétés où ont été produits les documents, droit à l’image, droit des bases de données, droit des données publiques »7.
La présence d’informations et de données personnelles est un volet important dans les difficultés qui s’appliquent au statut juridique des archives de la 6
Article L211-4 du Code du Patrimoine.
7 Judith Hannoun, Véronique Ginouvès, « La diffusion des données en SHS : des questions juridiques et éthiques à poser au niveau européen », Journée de présentation de l'infrastructure de recherche Dariah (Digital Research Infrastructure for the Arts and Humanities), Paris, 30 janvier 2013. URL : http://www.huma-num.fr/sites/default/files/ressourcesdoc/jh-vg-archives-des-ethnologues-30-0113.pdf. Consulté en mai 2014.
9
recherche. Le préjudice peut également s'appliquer à la société où l'information a été produite, ou au collecteur. Au cours des dernières années, des chercheurs et groupes de réflexion se sont formés autour de cette problématique, avec pour but la définition et la diffusion d’un véritable cadre éthique et juridique pour ces documents8.
L’organisation de la recherche rend l’identification des producteurs complexe. En effet, les co-financements, les cotutelles font que les documents sont souvent produits par unités mixtes. En conséquence, il s’agit d’œuvres collectives.
D'une manière générale, les archivistes sont souvent confrontés, sans réelle capacité d'intervention, à la décision personnelle des chercheurs de garder ou détruire leurs archives, sans conscience du cadre juridique.
1.3. Intérêts et enjeux L'archiviste doit être conscient des utilisations potentielles de ces documents. Chacune de ces utilisations doit être connue et pleinement comprise par le documentaliste afin de mener un traitement documentaire pertinent. De la précision de la compréhension de ces utilisations dépend la précision et la pertinence de la documentation. - Les archives de la recherche nourrissent un large faisceau de disciplines9 composé de l'histoire de l'enseignement 10, l'histoire des sciences (évolution des disciplines, des objets et des méthodes, évolution de la structuration
8 Comme le projet Éthique et Droit en SHS. URL : http://ethiquedroit.hypotheses.org/. Consulté en janvier 2014. Véronique Fillieux, « De la pluralité des exploitations du patrimoine scientifique d’une université d’aujourd’hui », Archives des savoirs, problèmes et enjeux, Genève, juin 2014. 10 Archives et sources pour l’histoire de l’enseignement, éd. Thérèse Charmasson, Comité des travaux historiques et scientifiques, Paris, 2005, 391 p. 9
10
institutionnelle11), de la sociologie, l'anthropologie du travail scientifique et la vie de la recherche12, le patrimoine des établissements13, l'étude de la construction des savoirs14, la sociologie de la connaissance15. - Les archives de la recherche contiennent des données qualitatives ou quantitatives qui ont statut de preuves scientifiques16. La publication de ces données est inclus dans le processus de validation scientifique des résultats. La publication des données favorise ainsi l'accroissement de la crédibilité et de la scientificité des travaux. - La mise à disposition des archives de la recherche facilite leur réexploitation scientifique. Tout d'abord, pour des raisons scientifiques : afin d'en tirer des résultats autres, la réutilisation consiste dans le réexamen dʼun ou plusieurs ensembles de données avec un angle de recherche distinct de celui de lʼenquête initiale. Mais aussi pour des raisons d'ordre « pratique » : parce que certaines informations et données sont non-reproductibles (mémoire individuelle et collective, savoir issu de tradition orale, événements uniques ou rares - activité humaine ou phénomène naturel17-, ou pour des raisons d'ordre socio-économique 18 (coût des missions). - La publication des archives équivaut à un double référencement, ce qui a 11 Thérèse Charmasson, « Archives scientifiques ou archives des sciences : des sources pour l’histoire », La revue pour l’histoire du CNRS, n°14, 2006. URL : http://histoire-cnrs.revues.org/1790. Consulté en janvier 2014. 12 Bruno Latour et Steve Woolgar, La vie de laboratoire: la production des faits scientifiques, trad. Michel Biezunski, Paris, France, la Découverte, 2006, 299 p. 13 Christian Hottin, « Création du patrimoine et construction identitaire au sein des établissements d’enseignement supérieur parisiens », Actes de : Mémoire et culture matérielle de l’Université, journée d’études organisée par le LASMAS (EHESS), le GREE, le LPHS-AHP et l’ERAEF (Université Nancy II), Nancy, 8 avril 2005. 14 Muriel Lefebvre, « Projet ECRITO », Projet ECRITO, 2012. URL : http://ecrito.hypotheses.org/le-projet/description-du-projet. Consulté en janvier 2014. 15 Ouvrage collectif, Lieux de savoir, éd. Christian Jacob, Albin Michel, Paris, 2010, 985 p. 16 Emmanuel Ranc, « Les archives de recherche en Sciences Humaines et Sociales : Enjeux et Projets ». URL : http://culture.univ-lille1.fr/fileadmin/documents/patrimoine/txt/38ranc.pdf. Consulté en janvier 2014. 17 Christian Gaspin, Dominique Pontier, Laurence Colinet [et al.], « Rapport du groupe de travail sur la gestion et le partage des données », INRA, 2012. URL : http://www.pflcepia.inra.fr/uploads/gdp_docs/Rapport-GestionDonnees-web.pdf. Consulté en février 2014. 18 Sylvie Fayet, « “Données” de la recherche, les mal-nommées », URFIST Info, 2013. URL : http://urfistinfo.hypotheses.org/2581. Consulté en février 2014.
11
pour effet d'augmenter la visibilité du travail de recherche, valorise le chercheur et son cadre institutionnel. - Permettre la reproduction et la revisite19. En sciences humaines, les principales variables des revisites sont la position sur le terrain (i. e. sociale), la position scientifique, et le temps (i.e. l'éloignement).
A ces enjeux « directs » s'ajoute l'enjeu mémoriel du contenu, conséquence fortuite de l'enquête ethnologique. Les populations enquêtées expriment un désir légitime de réappropriation de ces archives20, qui renferment parfois la dernière trace d'un savoir perdu. Cet aspect de l'archive de la recherche n'est pas négligeable et donne à l'archiviste une responsabilité éthique envers les dépositaires d'un savoir ou d'une mémoire. Les règles d'une recherche éthique en science humaine, dont l'activité de l'archiviste est le prolongement, veulent que l'on considère le bénéfice des participants à l'étude21.
Le tableau suivant reprend les informations précédentes en offrant une vue schématique des interactions possibles avec l'archive de la recherche en fonction de ses caractéristiques : Propriété
Cadre scientifique
Cadre publique
Trace de l'activité scientifique
Analyse anthropologique
Patrimonialisation
Non-reproductible
Réutilisation
Réappropriation
Trace méthodologique
Revisite / reproduction
-
Source de données
Vérification
-
Externe
Publication
-
Tableau 1 : Les propriétés de l'archive de la recherche et les usages qu'elles provoquent 19 Gilles Laferté, « Des archives d’enquêtes ethnographiques pour quoi faire ? Les conditions d’une revisite », Genèses, no 63, juillet 2006, p. 25-45. 20 « De la numérisation des sources à leur diffusion auprès des populations enquêtées. Le cas des archives sonores et audiovisuelles des enquêtes interdisciplinaires de Plozévet (1961-1965) », Pôle Image-Son, 2010. URL : http://imageson.hypotheses.org/1174. Consulté en février 2014. 21 « Ethical research in social science », Wikipedia, the free encyclopedia, 2014.
12
Nous pouvons déduire de ces utilisations potentielles les utilisateurs : il s'agit majoritairement des chercheurs dépositaires des archives, des chercheurs provenant de la même discipline, des chercheurs provenant d'autres disciplines, les établissements de recherche, les musées, les populations enquêtées.
13
II. Les normes et standards de description archivistique
2.1. Définition et typologie
Le terme de description archivistique renvoie à « la présentation intellectuelle et matérielle d’une unité archivistique, faite pour en donner une identification exacte et unique, en expliquer le contexte d’origine et en permettre l’exploitation administrative ou historique »22.
Quatre types de normes nécessaires à la mise en œuvre de la normalisation de la description archivistique se distinguent 23. Tout d’abord, il doit exister une norme « sémantique » structurant la description archivistique : une standardisation des composants ou des catégories de description essentiels, et les relations entre ces catégories. Deuxièmement, il doit exister une norme de contenu, qui spécifie les catégories obligatoires et facultatives, les informations à inclure dans chaque catégorie et la façon de les composer. Troisièmement, la description doit s’appuyer sur des autorités et des référentiels communs (géographique, code de langue, noms, sujets). Enfin, il est besoin d’un format de communication standardisé établissant la syntaxe et fournissant la structure d’expression de la description.
22 Dictionnaire de terminologie archivistique, Direction des Archives de France, Paris, 2002. 23
URL : http://www.archivesdefrance.culture.gouv.fr/static/3226 - Page archivée. Daniel Pitti, « Encoded Archival Description: An Introduction and Overview », D-Lib Magazine, 5 (11), novembre 1999. URL : http://www.dlib.org/dlib/november99/11pitti.html. Consulté en mars 2014.
14
2.2. Enjeux
En constant développement depuis les années 1980, la standardisation de la description archivistique répond à deux principaux manques. D’une part, la standardisation est un enjeu pour la technique archivistique même. Dans le but de la perfectionner, les archivistes ont ressenti la nécessité d’uniformiser les pratiques archivistiques, et d’apporter une cohérence à leur savoirfaire. Au cours du temps ont été établis, à l’échelle nationale puis internationale, des terminologies, des dictionnaires, des glossaires, des guides de bonnes pratiques, et enfin des normes de description. Par la diffusion de bonnes pratiques notamment, chaque professionnel peut ainsi bénéficier de ce savoir-faire commun. En normalisant, on évite à tous les efforts de « réinvention » de la théorie et des bonnes pratiques. Les outils normatifs participent ainsi à la professionnalisation des activités archivistiques.
D’autre part, la standardisation est un élément essentiel à l’optimisation du signalement et de la mise à disposition des ressources pour les utilisateurschercheurs. En 1999, Daniel Pitti note en effet que la difficulté majeure à laquelle les chercheurs sont confrontés dans leur recherche procède de l’éclatement, de la distribution géographique des centres de ressources 24. Il observe donc une nécessité de fournir un accès facilité aux collections : un accès intellectuel dans un premier temps, et un accès au contenu dans un second temps. Ce besoin des utilisateurs est également relayé par Claire Sibille : celui-ci souhaite « disposer d’instruments de recherche plus homogènes et mieux structurés, et obtenir pour une seule requête des réponses signalant des ressources localisées dans plusieurs services, sans avoir à naviguer d’un site web à un autre »25. Or l’accès intellectuel 24 Daniel Pitti, Op. Cit. 25 Claire Sibille, « Description archivistique : nouvelles technologies, nouvelles compétences », Direction des Archives de France, mai 2006. URL : http://www.archiwa.gov.pl/repository/wz/VII %20Konferencja/Papers/C_Sibille_Description%20archivistique....pdf
15
n’est pas possible sans la diffusion et le partage des instruments de recherche, exprimés dans un langage commun. Dans la perspective de rompre l’isolement des collections, la standardisation des langages de description et de structuration est donc cruciale. Ces échanges s'effectuant via internet, les standards d’échanges de données s’appuient sur les standards du web développés indépendamment des réflexions archivistiques.
2.3. Histoire
2.3.1. Émergence de la normalisation du langage de description
L’expression du besoin de normalisation de la terminologie des termes archivistiques apparaît d’abord isolément, chez certains archivistes, avant de prendre des proportions nationales. En France, certains auteurs situent les premières tentatives au XIXe siècle. Suite à l’établissement, à la Révolution, d’une organisation centralisée des services d’archives, se développent des « circulaires ministérielles très précises applicables à tous les services et qui peuvent être considérées comme des normes »26. En Grande-Bretagne, la nécessité de normaliser le vocabulaire est pressentie par l’archiviste Hilary Jenkinson qui note, en 1937, le besoin de standardiser la terminologie à l’échelle nationale27.
26 Denise Ogilvie, « De Daunou à Natalis de Wailly : le cadre de classement à l’épreuve du principe du respect des fonds », in Martine Aubry, Isabelle Chave et Vincent Doom (dir.), Archives, archivistes, archivistique dans l'Europe du Nord-Ouest du Moyen Âge à nos jours, Villeneuve d'Ascq, IRHiS (« Histoire et littérature de l'Europe du Nord-Ouest », n° 36), 2007 [En ligne], mis en ligne le 13 octobre 2012, consulté le 20 juin 2014. URL : http://hleno.revues.org/187. Consulté en janvier 2014. 27 Paul Delsalle, Une histoire de l'archivistique, Presse de l'Université du Quebec, Sainte-Foy, 2000, p. 190.
16
A l’échelle internationale, la création du Conseil international des archives (1948) permet aux archivistes d’entrevoir la possibilité d’une « véritable coopération international archivistique ». Le Conseil oriente ses efforts vers l’établissement d’un vocabulaire technique international via son comité de terminologie constitué en 1953 (au congrès de La Haye, Herman Hardenberg appelle à une « uniformisation du langage archivistique »28). Fruit de ses efforts, le Lexicon of archival terminology est publié en 1964. Le Dictionnaire international de terminologie archivistique (1984, 1988) qui lui succède, réalisé avec le concours de l’UNESCO, est encore le signe d’une volonté croissante de standardisation du vocabulaire. De véritables normes de description apparaissent au cours des années 1980 suite à des efforts de conceptualisation fournis au niveau national 29: aux Etats-Unis, au Canada, et en Grande-Bretagne, en France. Durant cette période, la communauté archivistique se nourrit fortement de l’expérience des bibliothécaires, dont la technique est plus avancée dans ce domaine. En 1986, le Bureau canadien des archivistes exprime la nécessité de fonder une norme de description archivistique qui aboutira à la création d’un ensemble de règles connues sous le sigle RDDA. Un Manuel de description archivistique était publié au Royaume-Uni sous la direction de Michael Cook et Margaret Procter (Manual of archival description). La Société des Archivistes Américains proposait une norme pour la description des Archives, papiers personnels et manuscrits (APPM)30. La période des années 1990 est marquée par l’internationalisation des efforts nationaux cités précédemment. En 1990, le Conseil international des archives nomme une commission chargée d’élaborer une norme de description archivistique. Deux ans plus tard, l’Enoncé des principes relatifs à la description des 28 Bruno Galland, « La normalisation au secours de l'archivistique ? », L’erreur archivistique. De la compréhension de l’erreur à la perception et à la gestion des incertitudes, sous la dir. de Cathy Schoukens et Paul Servais, Publications des archives de l’université catholique de Louvain, Louvainla-Neuve, 2009, p. 220. 29 Claire Sibille, « Les normes internationales de description archivistique : origines, développements, perspectives », La Gazette des archives, n° 228, 2012-4, p. 167. 30 Claire Sibille, Ibid, p. 167.
17
documents d’archives, qui contient les éléments fondateurs de la norme ISAD (G), est adopté au Congrès international de Montréal. La norme ISAD (G) est publiée en 1994, puis révisée en 2000. Cette publication comporte les règles et principes d’application de la norme ISAD (G) devant être respectés : la description doit être réalisée du général au particulier, les informations concernent uniquement le niveau décrit, chaque unité de description doit être mise en lien avec l’unité de description immédiatement supérieure. Enfin, la norme proscrit la répétition d’informations (redondance) dans les descriptions reliées hiérarchiquement. Six éléments composent l’essentiel de toute description respectant ISAD (G) : la référence, l’intitulé, les dates extrêmes, le niveau de description, l’importance matérielle et le nom du producteur. N’étant pas conditionnée par la forme, le support matériel, ou les moyens utilisés pour présenter les éléments de données, la norme autorise la description d’un grand nombre de niveaux.
2.3.2. Développements des échanges inter-établissements
La Bibliothèque du Congrès de Washington envisage très tôt le partage d’informations puisqu’elle projette en 1909 de partager ses cartes de catalogues. En 1951, elle établit un répertoire national des dépôts d’archives, publié sur papier en 1962, jusqu’en 1994. Un projet similaire de recensement des centres de ressources en vue d’un partage d’informations est mené par la commission nationale NHPRC (National Historical Publications & Records Comission).
18
Le monde des bibliothèques ressent également le besoin de créer des catalogues collectifs. Cette profession développe plus tôt les outils techniques nécessaires. Avec l’avènement du numérique, un format d’échange de données bibliographiques est créé et largement adopté dans le monde des bibliothèques : le format MARC (MAchine-Readable Cataloging). L’objectif de MARC est de permettre la diffusion et l’échange de l’information bibliographique. MARC permet une structure uniforme dans laquelle est organisée de l’information sur des données bibliographiques, permettant l’échange de ces données entre bibliothèques via des systèmes automatisés. Au cours de la fin des années 1960 et du début des années 1970, la Bibliothèque du Congrès publie une série de formats MARC pour différents type de documents : livres, périodiques, cartes géographiques. Un format dédié aux manuscrits, publié en 1973, n’a jamais été véritablement adopté par la communauté des archives. Son orientation vers une description de la pièce a échoué à refléter de façon adéquate la description dont les archives ont besoin. L’idée est donc apparue de créer un format d’échange de données défini par les archivistes. Suivant le principe de MARC, la NISTF (National Information System Task Force) de la Society of American Archivist défini en 1980 le MARC Archives and Manuscript Control (MARC-AMC), une version de MARC adaptée aux besoins en description archivistique. Les archivistes ont notamment adopté le format MARC-AMC dans le but de mettre leurs collections dans des catalogues communs. Au début des années 1990, les notices archivistiques utilisent largement ce format pour l’échange de données.
19
S’il est bien adopté par la communauté pour la description des dépôts et des collections, ce format n’est cependant pas adapté aux instruments de recherche. En effet, le format MARC autorise une longueur maximale de 100 000 caractères, cadre dans lequel les inventaires détaillés d’archives et de catalogues de manuscrit ne peuvent être contenus. L’autre faiblesse fréquemment mise en cause dans l’abandon de MARC-AMC est son incapacité à traiter les descriptions hiérarchiques. De plus, le format MARC ne correspond pas aux standards du web et il est donc nécessaire, pour sa mise en ligne, de le « réencoder ».
2.4. Le standard EAD
2.4.1. Création
En réponse à l’insuffisance des formats MARC naît l’EAD (Encoded Archival Description) en 1993 à l’université de Berkeley. L’EAD naît, dans l’optique de l’échange de données, de la double nécessité de pratiquer une description adaptée aux principes archivistiques (éléments de données, organisation hiérarchique, longueur des instruments de recherche) et d’accorder sa mise en forme avec les standards du web en vue. Le projet EAD débute en 1993, dans le cadre d’un projet mené par le Berkeley Finding Aid Projet (BFAP) de l’Université de Berkeley en Californie. Ce groupe d’étude identifie le SGML en remplacement de MARC comme syntaxe de base pour une norme de description des instruments de recherche. L’avantage de SGML est qu’il permet de représenter une structure hiérarchique par imbrication d’éléments. Le BFAP défini ainsi un vocabulaire SGML (Standard Generalized Markup Langage) nommé FindAid. En juillet 1995, suite à une rencontre à Ann Arbor, il est rebaptisé Encoded Archival Description (EAD).
20
L’EAD version 1.0 est publié en 1998, et adopte XML en remplacement de SGML. L’EAD version 2.0, plus aligné sur ISADG v2, est publié en 2002.
2.4.2. Nature et statut normatif
L’EAD est un standard pour la communication ou l’expression de descriptions de fonds d’archives (i.e. instrument de recherche). Il est le reflet de la norme de description existante (ISAD (G)) sans être une stricte application de celleci. Le standard EAD spécifie un vocabulaire (ou DTD) XML. L’EAD est une norme maintenue par le Network Development and Marc Standard Office, département de la Bibliothèque du Congrès. La Society of American Archivist assure, quant à elle, son développement intellectuel. Tout comme un instrument traditionnel, le format EAD permet de décrire des fonds. La différence principale et sa forme (numérique) et sa destination (le web). Il respecte pour cela des règles qui facilitent son échange et son traitement informatique : il est notamment basé sur XML.
2.4.3. Substrat technique : la syntaxe XML
Le XML (pour eXtensible Markup Language ou langage extensible de balisage) est un standard d’encodage informatique de texte. Il a été élaboré par le groupe de travail XML formé par le W3C en 1996 sous l’égide de Jon Bosak de Sun Microsystems, avec le concours de spécialistes du SGML Working Group. Malgré son nom, XML ne peut pas être considéré comme un langage dans la mesure où son vocabulaire n’est pas fixé. Les règles qui lui sont attachées sont plutôt celles d’une grammaire ou d’une syntaxe.
21
Afin de comprendre le fonctionnement de XML, il est besoin de définir un certain nombre de concepts : les éléments, les attributs, les DTD ou schémas, la séparation du contenu et de la forme, les feuilles de style, l’extensibilité. L’élément XML XML est basé sur un système de balisage descriptif de texte. Chaque élément de donnée est délimité par deux balises : une balise fermante et une balise ouvrante. Ces balises permettent une forme de sémantisation des éléments. Comme l’illustre cet exemple, c’est le nom de balise qui donne la nature de l’élément. Le texte contenu entre ces balises, appelé valeur de l’élément, est donc un titre : <titre>Romeo i Dzhul'etta</titre> Figure 1 : Élément XML simple Dans certains cas, l’attribut vient spécifier la nature de l’élément. Le nom d’attribut fourni la nature de cette spécification (ici « genre » et « type ») ; la spécification même est nommée valeur de l’attribut (ici « ouverture » et « compositeur »). <titre genre= “ouverture”>Romeo i Dzhul'etta</titre> <auteur type=“compositeur”>Piotr Ilitch Tchaikovsky</auteur> Figure 2 : Éléments XML avec attributs Structuration des éléments XML Tout comme SGML, XML répond au besoin de représentation de l’organisation hiérarchique. En effet, un document XML est composé d’éléments
22
imbriqués les uns dans les autres. Il est toujours constitué d’un élément qui englobe tous les autres, et chaque élément peut contenir un ou plusieurs sous-éléments. Un document XML est donc un fichier texte parfaitement structuré et hiérarchisé. Dissociation du contenu et de l’affichage Un document XML est destiné à décrire une structure et du contenu, mais ne gère pas leur affichage. Il est totalement indépendant de toute idée de représentation. L’affichage dans un navigateur internet est nécessairement traité par une feuille de style (CSS Cascading Style Sheets, XSL-FO) ou des programmes de transformation (XSL-T, eXtensible Stylesheet Languages-Transformation). Ainsi, un même document XML peut faire l’objet de restitutions multiples. À partir d’un fichier XML, il est possible de générer des documents HTML, PDF, WORD, d’éditer un catalogue, etc. Cette dissociation du contenu et de la mise en forme permet d’éviter la « re-saisie » des données en fonction de leur support de présentation. Cela permet d'assurer l'interopérabilité entre les différents outils et plate-formes permettant de l'exploiter et de le traiter. Pérennité des documents XML XML est un format non-propriétaire, donc indépendant de la plate-forme matérielle (PC, MAC, Linux, Unix), des systèmes d’exploitation et de l’offre logiciel. Cela permet notamment à n’importe quelle organisation de l’utiliser pour le partage d’information. De plus, il est toujours lisible par l’humain. Bien qu’un document XML ne soit pas un texte destiné à être lu par l’humain, le fait qu’il soit lisible en permet la modification, la correction à l’aide d’un simple éditeur de texte. L’ensemble de ces propriétés du format XML assure la pérennité des informations qu'il contient.
23
Un langage « extensible » Le langage HTML définit un ensemble d’éléments et d’attributs fixes, cette fixité ne permet donc pas d’adapter le langage, de créer de nouveaux éléments s’adaptant aux besoins spécifiques de chaque domaine. XML n’étant pas un langage, il ne définit aucune balise a priori et laisse la liberté à chacun de créer son propre langage à balises. XML permet de concevoir un langage de balisage personnalisé, et d’inventer des balises pour répondre à un besoin spécifique. Les schémas et DTD La personnalisation des balises permet ainsi la création d’un langage commun au sein, par exemple, d’une communauté professionnelle. En effet, il est intéressant de partager avec ses confrères un même vocabulaire pour permettre facilement d'échanger et d'exploiter des fichiers XML. Ce langage personnalisé, créé, est généralement défini par une définition de type de document ou DTD : elle définit les éléments qui composeront le vocabulaire, les attributs de tous les éléments, ainsi que les entités. Le type de DTD ou de schéma est déclaré à chaque début de document XML. Le document XML est dit valide lorsqu’il respecte cette DTD. Dans le cas des archives, la DTD utilisée internationalement porte donc le nom de EAD (Encoded Archives Description).
2.4.4. La DTD EAD
S’appuyant sur ISAD (G), la DTD EAD souligne le caractère hiérarchique de la description archivistique et de l'héritage de la description. Un riche ensemble 24
d'éléments descriptifs est disponible pour décrire l'ensemble d'une collection ou fonds. Suite à la description de l'ensemble, les mêmes éléments sont disponibles pour
la
description
de
chaque
niveau :
des
composants,
des
sous-
composants. Chaque composant dit « enfant » hérite de la description du niveau contenant « parent » et encore supérieur « grand-parent ». Par exemple, le nom du producteur du fonds sera indiqué dans la description de l'ensemble et ne sera pas répété dans la description de la « fratrie » de sous-composants.
Au plus haut niveau de la hiérarchie, la DTD EAD contient trois éléments qu’il est indispensable de renseigner : dans la « tête » EAD <eadheader>, il s’agit de fournir des informations sur la description archivistique et l’instrument de recherche lui-même. L’élément <frontmatter> permet de définir le titre de l’instrument de recherche et d’autres informations liminaires. Le <archdesc> contient la description archivistique elle-même, et constitue donc le noyau de l’instrument de recherche en EAD.
Le <archdesc> contient plusieurs catégories descriptives de haut niveau contenant elles-mêmes des catégories descriptives plus détaillées. Le plus important des éléments de haut niveau est le <did> (pour « identification »). Le but de cet élément est de fournir l'essentiel de l'information à l'utilisateur afin que celuici puisse identifier le document et juger de sa pertinence. Le <did> contient donc des éléments tels que le titre, la date de création, l’auteur, des éléments de description physique (support, volume), ainsi que des éléments fournissant un résumé de la portée et le contenu des matières et une courte biographie ou l'histoire du créateur.
Après l’élément <did> se trouve des éléments permettant d’exprimer des informations sur le statut juridique, les restrictions d’accès et les conditions d’exploitation, les informations administratives (date du dépôt et nom du 25
dépositaire). Une description détaillée du contenu se trouve dans l’élément <scopecontent>.
L’EAD profite du support numérique pour relier la description des ressources aux documents d’archives numérisés ou nativement numériques. L’EAD peut donc être utilisé pour fournir un accès direct à des manuscrits, de la correspondance, des illustrations, des enregistrements audio, des matériaux audio-visuels, des cartes. Cette liaison peut être utilisée pour améliorer la description en fournissant des exemples représentatifs des matériaux décrits, ou pour donner accès à l’intégralité du fonds.
26
III. La construction d'un espace en ligne pour les archives de la recherche
3.1. Vue d’ensemble
Si les thèses, publications et d’une manière générale les résultats de la recherche ont fait l’objet de plusieurs projets numériques (HAL SHS, Theses.fr, Couperin), il existe en revanche peu d’initiatives concernant les fonds d’archives 31. Or, comme nous l’avons vu, il est essentiel de fournir un accès intellectuel aux données brutes, notamment parce qu’elles sont les sources sur lesquelles ces publications s’appuient.
Certains projets ont toutefois vu le jour depuis 2000. Ceux-ci n’ont pas tous les mêmes fonctions (réservoirs de corpus brut, diffusion d’instrument de recherche, catalogue collectif), ils ne couvrent pas le même périmètre (objets, documents iconographiques, archives et manuscrits, documents audiovisuels) mais poursuivent un but similaire de signalement et mise à disposition des données brutes ou archives de la recherche. Par exemple, l’objectif de TELMA (Traitement Électronique des Manuscrits et des Archives) est la mise en ligne à la disposition de la communauté scientifique des « corpus de sources primaires et les instruments de recherche nécessaires à leur exploitation ». La base TELMA est exclusive puisqu’elle est consacrée aux répertoires de manuscrits et aux « éditions critiques de sources manuscrites associées ou non à des images numérisées et des documents ». L’un des projets les plus adaptés aux spécificités des archives de la recherche est la plateforme AOMS (Archive numérique d’Objets et de Matériaux iconographiques) 31 Shadia Kilouchi, Stéphane Pouyllau, « Construire le web de données pour les sciences humaines et socialese », TGE Adonis – C2NSV, note informationnelle en ligne, septembre 2010, p. 2. URL : http://archivesic.ccsd.cnrs.fr/sic_00494227. Consulté en janvier 2014.
27
développée par le C2NSV (Centre National pour la Numérisation de Sources Visuelles) et soutenue par la Très Grande Infrastructure Huma-Num (anciennement TGE ADONIS). A l’origine de sa construction se trouve le projet de donner un accès à des corpus, soit numérisés, soit nativement numériques de textes, cartographiques ou iconographiques (photographies, plans, schémas, carnets de terrain, manuscrits complexes comportant des formules mathématiques, des notes ou des croquis) issus de la recherche. Les instruments de recherche publiés sur cette plate-forme sont réalisés en EAD-XML.
Parmi les réalisations numériques françaises en matière de signalement et diffusion des archives de la recherche, le projet Calames (Catalogue des archives et manuscrits de l'enseignement supérieur), mené par l’Agence Bibliographique de l’Enseignement Supérieur, présente de nombreuses garanties concernant la pérennité des instruments de recherche et la pertinence des options choisies vis-àvis des enjeux propres aux archives de la recherche.
3.2. Calames
3.2.1. Création et missions de l’ABES
L’Agence Bibliographique de l’Enseignement Supérieur, créée en 1994, est un établissement public national à caractère administratif, placé sous la tutelle du Ministère de l’Enseignement supérieur et de la Recherche. Son siège est à Montpellier. Elle a pour mission le recensement et la localisation des fonds documentaires des bibliothèques de l’enseignement supérieur et de la recherche dans le but de faciliter l’accès aux documents, et d’apporter son concours aux établissements dans ces domaines.
28
Dans le champ d’activité confié à l’ABES en 1994, un certain nombre d’outils au réseau préexistaient, et, au début des années 1990, le paysage documentaire français est même caractérisé par l’existence d’applications et de réseaux multiples, avec, déjà, quelques tentatives de fédération. L’ABES reprend ainsi en 1994 l’administration de deux applications antérieurs : la banque de données Téléthèses créée en 1985, et le Pancatalogue, catalogue collectif des ouvrages des bibliothèques universitaires créé en 199132.
Entre 1992 et 1993, un schéma directeur concernant l'informatique dans ls bibliothèques universitaires insiste sur la nécessité de remanier l’ensemble des différentes applications par la modernisation des outils collectifs du réseau des bibliothèques et la constitution d’un catalogue unique permettant un accès direct et élargi.
3.2.2. Le projet Calames
La création de Calames provient du besoin de donner une visibilité aux inventaires des fonds de manuscrits, peu décrits jusqu’alors. Dans le meilleur des cas, les collections sont signalées dans le format MARC, peu adapté à la structure des données d’archives comme nous l’avons vu, dans les catalogues de bibliothèques. Mais le constat est fait que beaucoup d’inventaires ne respectent pas de formats standardisés, ne sont pas informatisés (manuscrits ou dactylographiés) ou sont tout juste inventoriés.
32 Katie Brzustowski, « L'ABES, coordinatrice et animatrice de réseaux », Bulletin des Bibliothèques de France, 2003, n°2. URL : http://bbf.enssib.fr/consulter/bbf-2003-02-0032-007. Consulté en décembre 2014.
29
Deux projets apparus en 2001 et 2007 ont forgé un contexte particulier, favorable au lancement d’une politique globale des archives de l’enseignement supérieur :
- Le premier de ces facteurs est le projet interministériel (mené par le Ministère de la Culture et le Ministère de l’Enseignement Supérieur entre 2001 et 2006) d’informatisation du Catalogue Général des Manuscrits des bibliothèques publiques de France. A l’occasion de cette informatisation ou rétroconversion, on choisit de structurer les inventaires en XML selon le standard EAD. La supervision de l’encodage en EAD des volumes de l’enseignement supérieur est déléguée à l’ABES, ainsi que l’animation d’un groupe de travail spécifique composé de neuf établissements. Au cours de ce projet, on formule l’idée d’un portail national des manuscrits, et l’on crée un groupe « Bonnes pratiques EAD en bibliothèques ».
- La base Palme, constituée entre 1995 et 2006, a répertorié les manuscrits littéraires français contemporains déposés dans les bibliothèques françaises. En 2007, alors que la plateforme de la BnF Bn-Opaline (catalogue informatisé des collections spécialisées de la BnF ne peut plus les héberger pour cause de fermeture, les données du Répertoire sont converties du format INTERMARC au format EAD.
Depuis la création du SUDOC, définitivement déployé en 2001, la politique de l’enseignement supérieur mise en œuvre par son Agence Bibliographique encourage les pratiques de catalogage en réseau et en ligne pour des raisons de sécurité des données, d’homogénéité des pratiques, et de simplicité dans la mise en place de l’environnement technique. Dans cette même logique de partage, l’ABES promeut le développement de catalogue collectif en ligne, autorisant également des personnalisations pour les institutions, des exports vers des outils propres aux établissements tels que Pleade et permettant la réutilisation des données. 30
La phase de projet de Calames s’est déroulée de 2006 à 2009. Début 2006, le SIGB passe commande à l’ABES d’outils de publication et de production en EAD. L’année 2006 est consacrée à la conception et à la spécification de ces outils. L’année suivante, Calames est développé, testé et ajusté en retour. Le chargement des données s’effectue d’octobre 2007 à février 2008. L’interface publique est lancée le 1er décembre 2007, l’interface de catalogage en avril 2008. Enfin, le lancement de la nouvelle version de l’outil de catalogage en 2009 marque la fin de la phase de projet.
La phase de développement suivante a notamment nécessité de la part de l’ABES une mise à jour régulière des bonnes pratiques EAD et une adaptation au traitement des « non-manuscrits ». L’équipe de Calames s’est également attachée à rendre possible les exports en MARC, en pdf et de visio-contrôle pour les catalogeurs. Le tournant 2.0 de Calames, Calames plus, offrait quant à lui la possibilité de créer un compte personnel ou institutionnel, de déposer des commentaires et d’utiliser une visionneuse d’images.
Les documents entrant dans le périmètre de Calames sont hétérogènes puisqu’il s’agit de tout type de manuscrits et d’archives : manuscrits médiévaux, papiers de chercheurs ou d’érudits, manuscrits littéraires contemporains, correspondances, archives audiovisuelles. Les établissements intégrés à Calames sont des établissements d’enseignement supérieur, en majorité des bibliothèques.
Plusieurs fois par an, l’ABES organise des sessions de formation au catalogage dans Calames. Ces formations sont exclusivement réservées au personnel des établissements membres du réseau Calames. La formation que j’ai suivi s’est déroulée du 8 au 10 avril 2013 dans les locaux de l’ABES à Montpellier.
31
Celle-ci consiste en une initiation aux principes de l’EAD, une présentation des bonnes pratiques propres à Calames, suivi d’un apprentissage pratique au bon usage de l’outil de catalogage. Les “j.e-cours” sont des formations dispensées en ligne qui complètent les connaissances des catalogueurs sur des points précis choisis par les formateurs. Ils nécessitent une inscription préalable et permettent un contact régulier avec les formateurs Calames.
L’Abes, suivant les recommandations du Groupe national des bonnes pratiques EAD en bibliothèque, a également mis en ligne un Manuel de catalogage à partir de 2009.
32
IV. Le standard EAD appliqué aux archives sonores de la recherche
Dans cette partie, nous présentons le travail technique et intellectuel nécessaire à l’encodage d’un fonds d’archives sonores issues d’un travail de recherche en EAD-XML. L’objectif est, dans un premier temps, de déterminer les conditions de réalisation d’un inventaire d’enquêtes orales respectant le standard EAD. Dans cette perspective, nous établissons tout d’abord le cadre dans lequel ce travail s’est déroulé. Puis, nous faisons état de l’ensemble des étapes nécessaires à l’encodage, en mettant l’accent sur les difficultés rencontrées accompagnées des réflexions analytiques qu’elles ont provoquées et des solutions ou éléments de réponses apportées.
4.1. Cadre de l'expérience
4.1.1. L’intégration de la phonothèque de la MMSH au réseau Calames
La Maison Méditerranéenne des Sciences de l’Homme est membre du réseau Calames depuis 2011. L’établissement qui souhaite publier ses collections sur Calames doit faire face à de nouveaux enjeux techniques et financiers mais il peut compter sur un soutien de l’ABES. Chaque année depuis 2010, l’ABES lance un appel à projet dont le but est de favoriser la publication des inventaires des établissements du réseau Calames. En répondant à l’appel à projet 2013, la phonothèque de la MMSH a bénéficié d’un co-financement de l’ABES lui permettant d’engager un travail de catalogage durant 5 mois à compter du mois d’août 2013.
33
4.1.2. Le projet de catalogage
Pour cette campagne de catalogage, le fonds Jean-Noël Pelen et le fonds Marceau Gast ont été sélectionnés parmi les collections de la phonothèque. Les trois principaux critères de sélection étaient la valeur scientifique, l’importance matérielle et l’avancement du traitement documentaire.
4.1.2.1. Le fonds Marceau Gast
Ethnologue, directeur de recherche au CNRS, ancien directeur du LAPMO (Laboratoire d’Anthropologie et de préhistoire des pays de la Méditerranée occidentale) et membre de l’IREMAM (Institut de recherches et d’études sur le monde arabe et musulman), Marceau Gast (1927-2010) a déposé à la phonothèque de la MMSH, de son vivant, les sources orales de sa recherche. Celles-ci ont été le support de ses travaux effectués entre les années 1960 et 2000 dans le sud algérien, au Yémen et pour la France, dans le Queyras. Quatre grands thèmes parcourent ce fonds : l’artisanat, les pratiques agricoles, les techniques de conservation des aliments et les traditions orales. A cela s’ajoute des colloques enregistrés et une série de neuf entretiens biographiques préparatoires menés en 1997 et 1998 par Hélène Claudot-Hawad. Le traitement du fonds Marceau Gast a bénéficié du financement de la TGIR Huma-Num « Consortium des ethnologues » qui a permis de numériser, cataloguer et mettre en ligne les archives du Sahara de Marceau Gast en 2012 et 2013.
4.1.2.2. Le fonds Jean-Noël Pelen
34
Jean-Noël Pelen (né en 1949) a été chercheur au CNRS jusqu’en 2011. Il a dirigé le CREHOP – Centre de recherches sur les ethnotextes, l’histoire orale et les parlers régionaux (Université de Provence – CNRS) entre 1987 et 1993 puis a été chercheur au sein du laboratoire TELEMME – Temps, espace langage Europe méridionale, Méditerranée (AMU – CNRS). Le fonds Pelen est composé de neuf corpus d’enquêtes orales menées par, sous la direction, ou sous l’impulsion de JeanNoël Pelen et de l’enregistrement d’une série de séminaire ayant pour thème la production du récit collectif. Les enquêtes de terrain combinent des enregistrements de contes, de chansons populaires et de récits de vies en Provence (Cévennes, Pays d’Arles, Bouches-du-Rhône).
4.1.3. L’outil de catalogage
La production et la publication des inventaires s’effectuent par les établissements du réseau Calames dans une interface commune accessible en ligne via un navigateur. L’outil de catalogage Calames repose sur l’éditeur XML XMETAL adapté par l’ABES afin notamment d’assurer la cohérence du catalogage (ajout de listes fermées de valeurs d’attributs) ou de normaliser l’indexation (interaction de l’éditeur avec le référentiel IdRef - Identifiants et référentiels SUDOC pour l’enseignement supérieur et la recherche). L’éditeur présente une interface graphique facilitant l’encodage XML.
L’abonnement annuel à Calames intègre le coût de la licence pour l’utilisation de l’éditeur XML XMETAL, dans sa forme plugin nommée XMAX. Cette licence n’étant pas associée à un poste de travail, l’usage de l’interface de catalogage est possible sur différents ordinateurs de l’établissement. A travers l’éditeur, il est permis à chaque établissement de visualiser sans éditer les instances EAD de l’ensemble du réseau Calames.
35
Figure 3 : l’interface de catalogage Calames
A gauche de l’éditeur se trouve l’arborescence EAD permettant de visualiser et d’organiser les instances EAD et les composants. Cette zone, spécialement créée par l’ABES, propose également d’autres fonctionnalités : elle permet la publication et dé-publication des instances, le contrôle des doublons et l’exportation XSLT (pour le diagnostic et le contrôle de conformité au format XML) et la gestion des liaisons d’inclusions entre documents EAD. En haut à droite, une fenêtre permet l’édition des attributs à l’aide de formulaires de saisies. Pour faire apparaître ce formulaire, il suffit de se placer sur l’élément à éditer. En bas à droite figurent systématiquement les éléments dont l’usage est autorisé par l’EAD en fonction du contexte que l’éditeur repère automatiquement. Au centre enfin se trouve l’éditeur qui permet la saisie du texte entre balises XML.
36
4.2. L’opération d'encodage
4.2.1. La mise en correspondance des structures
La base de données de la phonothèque est structurée hiérarchiquement suivant les principes de ISAD (G). Il préexiste donc une cohérence de structure entre le standard EAD et la base de données de la phonothèque qui facilite l’organisation de la conversion.
Si cette organisation permet bien d’opérer une conversion vers un langage structuré tel que XML, quelques raisons s’opposent toutefois à la mise en place d’une conversion automatique par exportation des données. Tout d’abord, le logiciel documentaire Alexandrie en usage à la phonothèque de la MMSH ne propose pas de fonction d’exportation de la base au format EAD-XML. L’exploitation de l’export XML proposé par Alexandrie nécessiterait une étape supplémentaire de « traduction » des balises vers le standard EAD. D’autre part, la migration « manuelle » des données en EAD permet un contrôle permanent de la qualité et de l’intégrité des notices encodées.
Les différents niveaux de description définis à la phonothèque de la MMSH sont le fonds, le corpus, le document (ou « niveau général ») et l’item. Les fonds Gast et Pelen renferment tous les niveaux possibles. Pour l’encodage en EAD, le niveau de description a notamment été déterminé en fonction du temps par rapport à la somme de travail. Ainsi, ce sont les trois premiers niveaux (fonds, corpus, niveau général) qui ont pu faire l’objet d’une conversion en EAD. Afin que celui-ci apparaisse malgré tout, le niveau item figure dans la description du contenu de ses composants supérieurs.
37
Grâce aux valeurs de l’attribut LEVEL : « fonds », « series », « subseries », il est possible de préciser le niveau des composants. Cependant, ces valeurs ne sont pas encore exploitées par Calames. Le tableau suivant présente les correspondances des niveaux de description :
Niveau de la base
Elément EAD-XML
Valeur de l’attribut LEVEL
Page d’accueil
<eadheader>
-
Fonds
<archdesc>
« fonds »
Corpus
<c>
« series »
Niveau général
<c>
« subseries »
de données
Tableau 2 : Correspondance des niveaux de description
38
4.2.2. La mise en correspondance des éléments de données
L’étude des éléments de la structure source (base de données de la phonothèque) en comparaison avec les éléments de la structure cible (inventaire en EAD-XML) nous permet d’établir une correspondance dans la fonction des éléments. Dans les paragraphes qui suivent, nous exposons et justifions chacun de ces choix en détail.
La continuité du catalogue repose sur la bonne réalisation de cette mise en cohérence. Pour garantir cette continuité, lors de l’établissement de cette correspondance, il est primordial de s’assurer que les informations ne sont ni modifiées ni perdues. Dans ce but, et hormis l’en-tête EAD qui concerne exclusivement l’instrument de recherche en EAD, on raisonnera de la structure source vers la structure cible.
La phonothèque travaille sur un modèle de traitement documentaire qu'elle partage avec les centres de ressources Dastum, le Conservatoire occitant, Métive et la MMSH, édité dans le Guide d’analyse documentaire du son inédit33.
4.2.2.1. Les métadonnées du catalogue
Les premières informations à renseigner sont les métadonnées de l’institution et de l’instrument de recherche lui-même, présentes sur la page d’accueil de la base de données, et contenues en EAD dans l’élément En tête EAD <eadheader> et ses sous-éléments. Cette catégorie de données recouvre l’ensemble des informations sur l’instrument de recherche lui-même (langage, standard, 33 Bénédicte Bonnemasson, Véronique Ginouvès, Véronique Perennou, Guide d'analyse documentaire du son inédit, éditions Modal, Parthenay, 2001.
39
auteurs, financements ayant permis sa réalisation). Il s’agit donc de données nouvelles par rapport à la base de données source. Les informations préexistantes (présentation de l’institution, de sa mission, de sa fonction, contacts) doivent également y figurer. On trouve dans <eadheader> l’élément <eadid> qui fournit un identifiant unique pour l’instrument de recherche attribué de façon automatique, dans <filedesc> des informations de type bibliographiques (titre et auteur de l’instrument de recherche), ainsi que des métadonnées sur la nature de l’encodage (version du standard EAD, respect des normes ISAD (G)) dans <profiledesc>, l’élément Organisme responsable <repository> où s’affiche les coordonnées de l’institution. Le cadre juridique générale concernant l’accès est également indiqué à ce niveau.
Cette étape de description est aussi l’occasion de mettre en lien les deux catalogues. L’utilisation de l’élément <altformavail> (pour alternative form available ou « autre forme disponible ») permet de signaler l’existence d’un document pouvant se substituer au document décrit, présenté sous une autre forme. Dans le cas de la description de l’inventaire EAD, l’utilisation de cet élément peut être utile pour faire référence à la base de données préexistante, décrivant les mêmes documents. L’inscription de l’URL de la base de données dans cet élément se présente ainsi comme un moyen efficace d’interconnexion des deux inventaires.
4.2.2.2. La description du fonds
Après les informations de métadonnées de l’instrument de recherche, l’élément <archdesc> permet de décrire le contexte de création, l’importance matérielle et le contenu d’un fonds. Pour caractériser un fonds d’archives sonores de la recherche, on fournit une biographie du producteur (dans l’élément <bioghist>), on spécifie le type de documents. L’élément Organisme responsable doit également être rappelé. 40
Figure 4 : Notice du fonds Jean-Noël Pelen dans Calames
Les éléments d’identification (titre), de contexte (auteurs), et d’indexation, que la description du fonds partage avec la description du corpus et des documents, sont détaillés dans les paragraphes concernant l’encodage d’une notice de niveau général.
4.2.2.3. La description du corpus et des documents
Dans la base de données de la phonothèque de la MMSH, les éléments de données qui s’appliquent aux corpus sont similaires à ceux qui s’appliquent aux documents, à de rares exceptions.
41
a. Identification et description <did>
Comme nous l’avons vu dans le chapitre concernant la présentation des principes de l’EAD, l’élément <did> regroupe les données principales d’identification et de description matérielle. L’élément <did> peut se trouver dans chaque composant et sous-composant <c>, ainsi que dans l’élément <archdesc> soit au niveau de description du fonds, du corpus, du document. Plusieurs éléments de données en usage à la phonothèque peuvent être encodés dans cet élément : le titre, les identifiants alphanumériques (cote du support, n° d’inventaire), la description
des
caractéristiques
physiques,
les
dates,
langues
et
lieux
d’enregistrement. Pour commencer, l’élément <did> doit contenir au moins l’intitulé de l’unité documentaire <unittitle> ou au moins l’identifiant de l’unité documentaire <unitid>, deux éléments essentiels à l’identification des documents.
➢ Intitulé de l'unité documentaire
Chaque notice (fonds, corpus, document ou item) de la base de données de la phonothèque possède un intitulé forgé dans la plupart des cas par l’analyste documentaire. Le contenu du champ « titre » correspond donc sans ambiguïté à l’élément <unittitle>.
➢ Identifiant de l'unité documentaire
La phonothèque utilise couramment deux types d’éléments alphanumériques pour l’identification de ces unités documentaires : la cote du support physique et le numéro d’inventaire. La possibilité de répéter l’élément <unitid>
42
permet d’encoder ces deux numéros d’identification dans deux éléments <unitid> distincts. Lorsqu’un élément <unitid> est utilisé, il est obligatoire de renseigner la valeur de son attribut TYPE. Les trois valeurs possibles de l’attribut sont « cote », « ancienne_cote » et « division ». Les numéros d’inventaires ont donc été encodés dans un élément <unitid> ayant pour valeur d’attribut TYPE « cote ». Les cotes de supports, quant à elles, ont été encodées dans un élément <unitid> ayant pour valeur d’attribut TYPE « ancienne_cote ». Ce choix se justifie par le processus de traitement documentaire. En effet, la cotation du support correspond à une première étape de cotation permettant l’archivage du support d’identification avant analyse, alors que le numéro d’inventaire prend le pas sur l’identification de ce document au sein de la base de données.
Les collections de la phonothèque étant préparées pour leur intégration dans un catalogue collectif, regroupant donc des identifiants provenant de diverses institutions, le caractère unique des identifiants de la phonothèque, qu’il est convenu d’exiger, devient incertain. Afin de préserver cette singularité, il a ainsi été décidé, aux premiers stades de la réflexion sur la migration en EAD, de caractériser chaque numéro d’inventaire avec le préfixe « phono ». Cette modification systématique, mise en œuvre dans un premier temps, n’a finalement pas été poursuivie. En effet, celle-ci ne s’accordait pas avec le principe de continuité du catalogue. De plus, chaque composant <c> de Calames possède son propre identifiant alphanumérique, attribué de façon automatique lors de sa création dans l’interface de catalogage, évitant ainsi les conflits dus à la mutualisation des inventaires.
➢ La description physique
La description physique <physdesc> contenue dans l’élément <did> ne peut contenir de texte libre et se subdivise en plusieurs éléments. La base de données de 43
la phonothèque contient également plusieurs éléments de données concernant la description matérielle du support : « description technique de l’original », « caractéristiques techniques », « supports », « durée », « minutage ». A nouveau, le vocabulaire EAD n’est pas au premier abord adapté au catalogage d’archives sonores. L’élément <physdesc> est susceptible de contenir les éléments Particularité physique <physfacet> (avec différentes valeurs pour son attribut TYPE), Dimensions <dimensions>, Importance matérielle <extent>. Il peut également accueillir du texte libre si les éléments ne correspondent pas au besoin en description. La durée d’un enregistrement peut être encodée dans l’élément Importance matérielle.
➢ Le genre et la nature du document
Plusieurs champs documentaires sont dédiés à la caractérisation du type, du genre et de la nature du document. En EAD, les différentes catégories sont la technique, le type de document, et le « genre, forme et fonction ». Toutes ces informations sont contenues dans une balise <genreform>. Le groupe de travail Calames a développé un ensemble de listes fermées adaptées aux besoins des utilisateurs. Grâce aux éléments Technique et Type de document, il est possible de donner les informations permettant d'identifier un enregistrement sonore, analogique ou numérique. L'attribut « genre, forme et fonction », quant à lui, propose un choix de genre de documents axé sur l'archive « papier ». Le terme d'enquête orale par exemple n'est pas présent. Les genres « contes », « chants » et « entretien » permettent de caractériser, d'une manière plus ou moins précise, les enquêtes des fonds Pelen et Gast.
44
b. Les éléments de description contextuelle
➢ Les responsabilités : le choix des rôles
L’enquête orale met en jeu des rôles spécifiques à ce type d’archives, en particulier ceux d’enquêteurs et d’informateurs. En EAD, l’indexation des responsabilités du document est possible à l’aide de l’attribut ROLE de l’élément Nom de personnes <persname>. L’attribut ROLE permet donc de préciser la relation existante entre un nom de personne et le document dans lequel ce nom est indexé. Or la liste close des valeurs de l’attribut ROLE établi par Calames ne contient pas ces types de responsabilités. Chacun de ces rôles provient en fait du format d’échange de données UNIMARC, après sélection par le groupe de travail Calames. Par exemple, le code 460 crée pour la fonction « personne interviewée » n’a pas été intégré par Calames à la liste fermée de valeurs. D’après le Manuel de Catalogage Calames, la notion d’auteur (code 070 en UNIMARC) doit être utilisée pour exprimer « toute responsabilité intellectuelle directe dans la réalisation du document concerné ». Calames estime de plus que cette fonction « comprend et remplace »34, parmi d’autres, celle de personne interviewée.
Malgré son caractère général, le rôle d’« auteur » est le rôle disponible qui caractérise avec le plus de justesse les responsabilités de type « informateur » et « enquêteur ». Un informateur et un enquêteur peuvent en effet être considérés comme les deux co-auteurs d’une enquête orale. Cette valeur a donc été adoptée pour expliciter le rôle des informateurs comme celui des enquêteurs. Cependant, l’indifférenciation de ces deux fonctions dans l’inventaire EAD constitue une perte d’information considérable par rapport aux données de la source. En l’absence de statuts normalisés appropriés, la seule solution consiste à faire figurer cette donnée 34 Agence Bibliographique de l'Enseignement Supérieur – Réseau Calames, Manuel de Catalogage, p. 90. URL : http://documentation.abes.fr/aidecalames/ManuelDeCatalogage.pdf. Consulté en février 2014.
45
contextuelle essentielle en texte libre sans indexation. L’inconvénient de cette solution est l’alourdissement de l’instrument de recherche.
➢ Décision de création de notices d'autorité
Au cours de leur recherche, Marceau Gast et Jean-Noël Pelen ont mené des enquêtes auprès de nombreux informateurs. Certains de ces informateurs sont connus des travaux de recherche, ou ont été enquêtés plusieurs fois comme Laurent Merlo. D’autres sont connus des bases de données bibliographiques en tant qu’auteur de poésie par exemple. Ce type d’informateur a nécessité la création de notices dans IdRef.
Dans certains cas, la création d’une autorité Sudoc ne se justifie pas, comme le précise le Manuel de catalogage35. Certains informateurs sont en effet peu susceptibles d’apparaître dans d’autres enquêtes et d’autres fonds d’archive, c’est le cas notamment de personnes âgées enquêtées ponctuellement sur un sujet spécifique. D’autre part, on dispose souvent de peu de renseignements sur ces personnes, ceux-ci étant pourtant nécessaires à la création d’une autorité (notes d'applications). La décision de création de notices d’autorité a donc été guidée par ces critères.
➢ Date de l'unité documentaire
L’élément <did> peut également contenir la date de création de l’unité documentaire
dans
le
sous-élément
<unitdate>.
L’élément
de
données
correspondant dans la base de données de la phonothèque est la « date de l’enregistrement ». L’affichage public de cette date est libre, mais l’attribut 35 ABES-Réseau Calames, Op. Cit., p. 86.
46
NORMAL nécessite l’encodage de la date au format AAAA-MM-JJ (et AAAA-MMJJ/AAA-MM-JJ pour les fourchettes de dates) selon la norme ISO 8601.
➢ Le lieu d'enregistrement
Pour la description d’enquêtes orales, le lieu d’enregistrement est une information contextuelle particulièrement importante. Dans la base de données de la phonothèque, un champ est consacré à cette information. Aucun élément de la DTD EAD n’est explicitement conscaré à l’encodage du lieu d’enregistrement. En EAD, tous les noms géographiques sont encodés dans l’élément Nom géographiques <geogname>. L’attribut ROLE permet de spécifier le rôle du lieu géographique. La liste fermée établie par le groupe de travail Calames pour l’attribut ROLE est composée de deux rôles : « sujet » et « lieu de production ». Si le terme de « lieu de production » n’est pas adapté au vocabulaire de l’enquête orale, il est cependant assez général pour que le catalogueur d’archives sonores puisse y consigner la donnée portant sur le lieu de réalisation des enquêtes.
➢ Les langues
Trois champs de la base de données de la phonothèque servent à fournir l’ensemble des informations sur les langues parlées dans l’enregistrement. L’élément de données « langue » permet de consigner le nom des langues parlées, l’élément « commentaires sur la langue » permet de spécifier l’usage de ces langues dans l’enregistrement, de caractériser l’accent, le rapport du locuteur à la langue ou de fournir une information complémentaire sur sa pratique. Enfin, le champ « code langue » accueille l’identifiant de chacune des langues selon la norme ISO 639-3.
47
En EAD, l’indexation de la langue du contenu du document n’est possible qu’à l’aide de la combinaison de l’élément XML <langmaterial> combiné au sousélément <language>. Concernant la normalisation, les bonnes pratiques mentionnées dans le Manuel de Catalogage Calames recommandent d’ « utiliser dans <language> l'attribut LANGCODE pour donner le code ISO 639-2b de la langue »36. A la différence de l’écrit, les langues parlées sont moins bien référencées. Leur diversité, leur rapide évolution, leur caractère local fait qu’elles échappent dans certains cas aux normes internationales telles que ISO 639-2b.
Si la liste close des valeurs de l’attribut LANGCODE ne permet pas de donner à ces langues une forme normalisée, l’encodage en EAD permet malgré tout de les inclure à la description en tant que simple texte non indexé. En effet, l’élément XML <langmaterial> admet le texte libre.
➢ Documents en lien avec l'enregistrement
Les documents comme les transcriptions et les notes directement liées à l’enregistrement de terrain (permettant par exemple de détailler le contexte de production de l’enquête) ont été encodés dans l’élément Documents en relation <relatedmaterial>. Cet élément sert en effet à signaler des archives annexes qui pourront aider le chercheur dans sa compréhension des documents décrits.
➢ Exploitation-publication
Le catalogage d’un fonds d’archives de la recherche requiert une attention toute particulière à faire figurer les ouvrages ou articles ayant exploité les unités 36 ABES-Réseau Calames, Op. Cit., p. 37.
48
documentaires
décrites.
Ainsi,
un
champ
documentaire
(« Exploitation-
publication ») est consacré à cette information dans la base de données de la phonothèque de la MMSH. Y sont consignées des références bibliographiques plus ou moins précises (jusqu’au numéro de page). Sur Calames et en EAD, c’est l’élément <bibliography> qui permet de signaler les éditions, ou les œuvres qui ont pour source ou sujet les unités documentaires décrites.
Au-delà de cette opération de simple signalement, il paraît également important de relier cet élément de bibliographie à une véritable base bibliographique, délivrant, au même titre que IdRef pour les autorités, un identifiant unique et les précisions d’informations nécessaires. Pourtant, l’élément <bibliography> ne possède pas d’attribut dédié à la forme normalisée ou au numéro d’identification. Seule existe une recommandation Calames de saisir, en texte libre, la référence sous une forme normalisée. Soucieux d’établir un lien direct entre les notices archivistiques Calames des fonds de chercheurs et les notices bibliographiques Sudoc des publications liées, nous avons choisi d’utiliser l’attribut HREF, qui accepte en valeur une adresse de destination (URL) externe à la plateforme Calames. A l’affichage public, le résultat est un titre de publication cliquable, renvoyant à la notice bibliographique correspondante dans le Sudoc.
➢ Qualité sonore de l'enregistrement
Aucun élément EAD n’est exclusivement pensé pour rendre compte de la qualité sonore d’un enregistrement. Toutefois, le Manuel de catalogage Calames recense les informations sur les qualités physiques de l’unité documentaire parmi les « éléments sur les conditions de communication et d’utilisation ». L’élément autorisant un type d’information proche de la qualité sonore de l’enregistrement est <phystech>. Nos échanges avec l’équipe du groupe de travail Calames ont
49
permis à ce dernier d’inclure cette utilisation de <phystech> parmi les bonnes pratiques.
➢ Montage
Un montage sonore compilant plusieurs enregistrements, même réalisé par le chercheur lui-même et déposé sous cette forme, peut être considéré comme un classement. De ce fait, les informations relatives à la structure d’un montage sonore sont indiquées dans un élément Classement <arrangement>.
Exemple : <arrangement><p>Les contes sont montés par ordre chronologique d'enregistrement.</p></arrangement>
➢ Résumé
Dans la base de données de la phonothèque, un résumé est présent à tous les niveaux de description : fonds, corpus, niveau général, item. Il est le résultat de l’étape d’analyse, précédant l’indexation. Il s’agit d’un texte libre résumant le contenu du document sonore. Ce texte analytique a été systématiquement transposé en EAD en utilisant l’élément homologue <scopecontent> destiné à porter une présentation du contenu et une liste des sujets évoqués dans le document.
50
➢ Représentation numérique des ressources décrites
Des éléments de lien permettent un accès aux représentations numériques ressources décrites. Les versions de consultation des enquêtes orales des fonds Gast et Pelen sont diffusées en streaming via le serveur de la MMSH. Il s’agit donc de créer des liens externes pointant vers des ressources extérieures. Par soucis de simplicité, nous avons décidé de laisser ces éléments vides de texte, uniquement qualifiés par leurs attributs HREF. Par défaut, l’affichage public sur Calames indique en hyperlien « document numérisé disponible en ligne.
➢ Conditions d'acquisition
Pour chaque document, le champ « permet d’indiquer le nom du dépositaire. En EAD, cette information est à consigner dans l’élément <acqinfo> qui concerne les conditions d’acquisition des documents. Dans certains cas, cette information est identique pour l’ensemble des pièces du corpus. L’élément <acqinfo> est donc inséré dans le composant correspondant à la notice corpus, et ses informations sont attribuées par héritage à ses sous-composants. Dans le cas où les dépôts ont été effectués de façon successive par différents dépositaires, dans chaque composant doit figurer cet élément sur les modalités d’entrée.
c. Les éléments d’indexation du document
On appelle indexation du contenu l’opération qui consiste à décrire et à caractériser un document à l’aide de représentations des concepts évoqués dans ce document, c’est-à-dire à transcrire en langage documentaire les concepts après les avoir extraits du document par une analyse (suivant la définition de la
51
norme Afnor, 1993). Le contenu peut être de différents types : sujets, noms, lieux, dates, titres d’œuvres. Ces termes ou noms peuvent être thématiques, cités, ou simplement évoqués.
A la phonothèque de la MMSH, ce travail de description s’appuie sur un Thesaurus, présentant donc des relations hiérarchiques, d’association et d’équivalence. L’objectif est donc ici de transposer en EAD-XML cette indexation déjà présente dans la base de données de la phonothèque.
Le catalogueur dispose de plusieurs éléments distincts permettant l’indexation du contenu de l’unité documentaire, aussi nommés points d’accès : l’élément <subject> pour les sujets, l’élément <persname> pour les noms de personnes, l’élément <corpname> pour les noms de collectivités, l’élément <title> pour les titres d’œuvres, l’élément <geogname> pour les noms géographiques, l’élément <famname> pour les noms de familles. Chacun de ces éléments XML peut recevoir une valeur dans ses attributs NORMAL, AUTHFILENUMBER et SOURCE. L’attribut AUTHFILENUMBER est disposé à accueillir un identifiant issu d’un référentiel. L’attribut SOURCE doit contenir un nom permettant l’identification du référentiel lui-même. Enfin, la valeur de l’attribut NORMAL est la forme normalisée, soumise par le référentiel, du terme ou du nom indexé.
Pour renseigner ces champs, l’ABES et Calames recommandent au catalogueur EAD l’utilisation du vocabulaire Rameau, via IdRef. Ce référentiel associe à chacune de ses entités les informations nécessaires au renseignement des attributs mentionnés plus haut : il propose des formes normalisées et un identifiant unique (numéro « PPN »). Afin de faciliter la réutilisation de ces données l’ABES a mis en service l’application IdRef. L’interface de catalogage Calames étant une application cliente d’IdRef, le catalogueur bénéficie d’une importation directe d’informations provenant d’IdRef (identifiant, forme normalisée, et nom du 52
référentiel), vers le champ de saisie des valeurs des attributs correspondants de l’élément XML en cours d’édition.
A cause des différences, notamment structurelles, entre les langages documentaires source et cible (Thesaurus de la phonothèque de la MMSH et langage Rameau), cette opération présente un risque de perte d’information. Mais elle est également une opportunité pour l’enrichissement des données. Pour chaque termes ou noms devait être recherché son équivalent dans IdRef.
Deux méthodes d’indexation sont possibles durant l’encodage :
- La première méthode consiste à baliser dans le texte même de la description les éléments que l’on cherche à indexer : nom de personne ou de collectivité, titre, descripteur. Cette méthode dite de balisage « au fil du texte » présente de multiples avantages : elle permet d’éclairer le sens de l’élément indexé en le situant dans son contexte, d’autre part de prévenir la surindexation (les termes indexés sont ceux qui apparaissent effectivement dans la description originale). Pour ces raisons, le guide français des bonnes pratiques EAD « recommande de procéder à une indexation au fil du texte chaque fois que cela est possible, c’est-à-dire lorsque cela est permis par le format EAD et que le terme à indexer figure dans le texte de l’instrument de recherche »37.
- La deuxième méthode consiste à encoder l’indexation en dehors des éléments de description préexistants, en utilisant l’élément Vedettes et accès contrôlé <controlaccess>. Cette solution prévaut dans le cas où l’index d’un document va au-delà des éléments contenus dans sa description, que ce soit dans le 37 Bonnes pratiques EAD [En ligne]. URL : http://bonnespratiques-ead.net/guide/indexation. Consulté en février 2014.
53
titre ou dans le résumé. Elle est aussi utile à l’association de deux points d’accès, construction appelant un tête de vedette à laquelle on joint une subdivision. Enfin, lorsqu’un même élément possède plusieurs valeurs d’attributs, il doit être répété.
➢ Noms cités et lieux cités
Pour les noms cités la valeur de l’attribut ROLE de l’élément <persname> est « subject ».
Le Thesaurus de la phonothèque est composé de plusieurs catégories de « noms de personnes et collectivités » parmi lesquels les noms de collectivité noms de forces politiques, les noms d’entreprises, les noms d’éditeur, les noms de mouvements de libération et les noms de manade, les noms d’armées ou de force armée. Toutes ces catégories doivent être encodées en EAD dans l’élément <corpname>.
Pour les lieux cités dans l’unité documentaire, la valeur de l’attribut ROLE de l’élément <geogname> est « subject ».
Dans certains cas, le nom géographique à indexer n’est pas référencé par IdRef. Dans ce cas, une notice est créée.
54
➢ Descripteurs
Dans les éléments <subject> sont exprimés les descripteurs issus du thésaurus thématique de la phonothèque. Parmi ces descripteurs, certains expriment des concepts, des objets ou des pratiques dont les dénominations ont la spécificité de varier en fonction des disciplines qui les décrivent par exemple. Ainsi, la recherche de l’équivalent de ces descripteurs dans le référentiel IdRef a parfois nécessité l’utilisation de formes alternatives.
Par exemple, le terme « savoir-faire agricole » du Thesaurus de la phonothèque n’a pas d’équivalent direct dans IdRef. Après recherche, il est apparu que l’entrée correspondante au concept de « savoir-faire agricole » dans IdRef était « génie rural ». L’entrée « technique agricole » présente dans IdRef ne suffisait pas à exprimer l’idée de « savoir ». Au contraire, le terme « génie » renvoie bien à cette notion. D’autre part, les applications respectives de ce descripteur aux documents de la base de données de la phonothèque et aux documents du Sudoc présentent la même logique. Dans ce cas, rien ne justifie la création d’une nouvelle autorité. Cependant, afin d’enrichir IdRef du terme « savoir-faire agricole », celui-ci a été ajouté à la liste des formes rejetées de l’entrée « génie rural ».
Lors de leur traduction en langage Rameau, certains termes nécessitent d’être décomposés en plusieurs entrées. Ainsi, en langage Rameau, le descripteur « culture des oliviers » s’exprime ainsi : Olivier -- Cultures. Pour le catalogage sur Calames, il est nécessaire de respecter cette syntaxe pour la construction de vedettes en combinant plusieurs éléments point d’accès, comme dans l’exemple qui suit :
55
<controlaccess> <subjectnormal="Olivier"source="Sudoc"authfilenumber="02738957X">Olivier</subject> <subjectnormal="Cultures"source="Sudoc"authfilenumber="028662172">Olivier</subject> </controlaccess>
➢ L'indexation des titres de contes
Une
réflexion
spécifique
a
été
menée
lors
de
l’encodage
des
enregistrements de contes traditionnels cévenols contenus dans le fonds Jean-Noël Pelen. Les enregistrements du corpus Recherches de terrains en Cévennes ont fait l’objet d’une analyse approfondie par Jean-Noël Pelen, ayant abouti à la rédaction d’un ouvrage. Dans cet ouvrage, l’auteur a transcrit chacun des contes enregistrés en l’accompagnant d’un identifiant renvoyant à la classification Aarne-Thompson. Au cours du XXe siècle, les contes traditionnels ont fait l’objet de plusieurs classifications. Dans ce domaine, la classification Aarne-Thompson fait autorité au niveau international. A la base de ces référentiels se trouvait l’idée qu’un classement des contes traditionnels est possible en s’appuyant sur des critères de structure du récit et de relation entre les personnages, au-delà de la diversité des versions (provoquée par variations de détails tels que les objets, les intitulés, les noms, l’espèce animale mise en scène).
Dans un second temps, ce travail de relevé de l’occurrence de contes-types mené par Jean-Noël Pelen sur ses enquêtes orales a été reporté par l’analyste documentaire du fonds dans les notes d’applications de chacune des entrées de titres de contes du Thesaurus de la phonothèque. Lors de l’encodage en EAD de ce corpus, la difficulté consistait donc à conserver cette richesse d’information obtenue par « dérivation », qui fait indirectement partie de la description.
56
Le référentiel IdRef sur lequel le groupe de travail Calames recommande de s’appuyer pour l’indexation des documents ne contenant pas d’entrées pour les contes enregistrés par Jean-Noël Pelen, l’occasion de présentait également d’enrichir IdRef de ces références.
Avant d’engager ce travail dans un référentiel à dimension nationale, nous nous sommes renseignés sur les normes de présentation des références à la classification Aarne et Thompson auprès de Josiane Bru, spécialiste française du conte de tradition orale. Après cette expertise, parmi les multiples combinaisons possibles (« Aa-Th + n° », « AT + n° », « T. + n° », « ATU + n° », « T + n° (ATU) », …), c’est la forme « ATU + n° » qui a été retenue.
57
V. Bilan, perspectives et conclusion
5.1. Apports et limites de l'EAD et de Calames
En travaillant sur la problématique posée en introduction de ce mémoire, nous avons pu constater que le standard de description EAD, qui s'appuie initialement sur un langage de structuration pour le web, et les outils de catalogage Calames forment une combinaison offrant de bonnes solutions à la diffusion en ligne des descriptions de collections d’archives de la recherche.
Le principal atout du catalogue Calames est l’originalité et la pertinence de son périmètre. Les archives de l’enseignement supérieur forment en effet un ensemble cohérent qui se prête à la réalisation d’un catalogue collectif. A l’issu de l’opération d'encodage des fonds Gast et Pelen, certains tests de recherche comme sur le nom Henri Lhote donnent la mesure de cette pertinence. En effet, une recherche dans Calames a montré la présence de documents d'archives de ce chercheur dans plusieurs centres membres du réseau Calames (Muséum d'Histoire Naturelle de Paris, Institut de France, Phonothèque de la MMSH).
Dans la base de données de la phonothèque de la MMSH l'autorité « Henri Lhote » est isolée et ne permet aucun rebond vers d’autres archives ou documents produits par ce chercheur ou dont il est un sujet. Grâce à la publication sur Calames et l’indexation des autorités, ces documents côtoient des productions du chercheur déposées dans d’autres établissements de recherche.
58
Cependant, à l’issu de ce mémoire, ainsi qu’à la lecture de la littérature spécialisée, nous sommes en mesure de rapporter certaines faiblesses de l’EAD ou de l’outil Calames.
L’utilisation de l’EAD peut provoquer un formalisme pouvant nuire à la qualité de l’inventaire. En effet, à cause de l’importance de la structuration, il existe une tendance à donner la priorité au respect de la syntaxe, aux dépens du contenu. Plus encore, la structure peut guider le contenu. Dans notre étude, nous avons tenté de mener le travail de la structure source vers la structure cible. Cependant, lorsque la structure source n'est pas elle-même formalisée, l’EAD peut être pris comme base alors qu’il ne correspond pas au besoin initial propre aux archives à cataloguer. Comme le remarque Bruno Bachimont, les formats comme l’EAD-XML « sont en eux-mêmes structurants et contraignants : leur choix préconfigure le projet documentaire en imposant une manière de structurer les contenus et de penser leur accès et leur manipulation »38. L'archiviste court alors le risque de concevoir ses pratiques documentaires pour les rendre compatibles avec les formats et standards. À travers cette remarque, on constate que l’EAD n’a pas vocation à être un format « natif » de travail, et doit être vu comme un format d’échange, permettant de rendre lisibles par différentes applications les mêmes données.
La grande permissivité de l’EAD et le très grand nombre d’éléments disponibles nécessitent l’établissement de pratiques locales et de recommandations telles que celles du groupe de travail Calames. Ceci rend très difficile le traitement automatique (l’utilisation d’un export EAD d’un logiciel sera difficilement conforme aux recommandations Calames par exemple) et oblige le post-traitement. De plus, un même inventaire ne peut finalement pas être diffusé sur deux plate-formes
38 Bruno Bachimont, Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents, Lavoisier, 2007, p. 42.
59
différentes à cause de ces écarts de pratiques (certains éléments EAD sont par exemple « proscrits » par le groupe de travail Calames).
L’expérience décrite dans le chapitre précédent montre enfin les inconvénients de l’utilisation d’un référentiel commun. Le bilan de l’alignement du Thesaurus de la phonothèque de la MMSH sur les autorités du Sudoc et le langage Rameau est en effet relativement négatif. Cette opération provoque un appauvrissement notable de l’information, le référentiel IdRef n’étant pas adapté aux besoins en description des archives de terrains des ethnologues. Les professionnels de l’information doivent veiller à ce que la normalisation du langage documentaire ne soit pas synonyme d’appauvrissement et gomme les spécificités des objets et contenus décrits.
5.2. De nouveaux défis pour les archives de la recherche
Malgré ces faiblesses de l'EAD, les réalisations de Calames répondent bien aux besoins exprimés par Daniel Pitti, qui appelait à une « co-figuration » des instruments de recherche dans un même espace en ligne. Mais un nouveau défi se présente aujourd’hui pour les professionnels de l’information : il s’agit, non plus de juxtaposer des informations en ligne, mais de relier ces informations entre elles, en s'appuyant sur les technologies du web de données39.
L’objectif du web de données est de passer du web comme collection de base de données, au web comme base de données. Le but est donc de décloisonner les réservoirs documentaires en les interconnectant. Il vise à rendre les données indépendantes des structures spécifiques à chaque base de données. Pour cela, il 39 Stéphane Pouyllau, « Web de données, big data, open data, quels rôles pour les documentalistes ? », Documentaliste - Sciences de l'Information, Vol. 50 (2013), p. 32-33.
60
propose de formaliser les descriptions en atomisant chaque élément qui compose une description : Ressource (URI) – Relation (URI) – Ressource. Afin de permettre l'interprétation de ces éléments de façon non ambiguë, il propose de s'appuyer sur des vocabulaires partagés et d'identifier chaque élément ou « atome » par un URI.
On passe ainsi de cette structure : <objet><auteur>Marceau Gast</auteur><date>1950</date></objet>
À cette structure : <objet><a pour créateur><Marceau Gast> <objet><a pour date><1950>
Ou chaque élément peut provenir d'une ontologie différente : <objet:ressource de la phonotheque><a pour date = vocabulaire X><date=Wikipedia> <objet:ressource de la phonotheque><a pour sujet=vocabulaire X><sujet=Idref>
En principe, il est possible de faire référence à n'importe quelle page internet si celle-ci est citable sous forme d'URI. Ainsi, la description n'est plus limitée à l'utilisation d'IdRef comme c'est le cas dans Calames, mais elle peut s'étendre aux données de l'INSEE, de la BnF, ou de Geonames dans le même inventaire.
61
Concernant les archives de la recherche, la liaison d'information concerne notamment :
- Le lien entre les corpus documentaires décrits et les publications qui les exploitent : comme nous l’avons vu, le catalogue Calames ne développe pas spécifiquement ce lien. Ainsi, la simplification de la possibilité de liens entre des bases hétérogènes que propose le web de données constitue une solution.
- La contextualisation : cette contextualisation doit être plus large que les outils actuels ne le permettent et doit représenter plus fidèlement la réalité de l'environnement du chercheur (ne plus limiter la contextualisation à l'évocation de la mission et du projet de recherche). L'expression de cet environnement se prête mal à la structuration plane et hiérarchique proposée par les outils tels que l'EAD et Calames. L'ensemble des concepts manipulés par le chercheur, sa proximité avec d'autres disciplines, ses relations avec les chercheurs, etc. Cet ensemble d'informations est plus adapté à une structuration en réseau, tel que l'envisage le web de données.
- L'indexation est facilitée. Les ressources étant particulièrement hétérogènes, il est possible de faire appel à des descripteurs de référentiels spécialisés (géographiques, d'autorités).
Le modèle SKOS (Simple Knowledge Organization System) participe pleinement à la mise en place d’un web des données liées. Afin que la description des collections de la phonothèque s’appuie toujours sur son propre Thesaurus tout en intégrant le web de données, il faut que celui-ci soit structuré de façon à ce qu’il puisse être lié à et « compris » d’IdRef par exemple, en somme qu’il soit interopérable. Pour cela, l’utilisation des technologies du web 62
sémantique semble appropriée. Une solution est aujourd’hui apportée par le format SKOS, dans lequel les Thesaurus locaux comme celui de la phonothèque peuvent être converti. Ce format permet le mapping inter-thesaurus. Les représentations conceptuelles réalisées à l'aide de SKOS peuvent être utilisées par des systèmes d'information fermés, mais aussi, dans la perspective du Web sémantique, être publiés sur le web et alignées avec d'autres systèmes d'organisation de connaissances40.
40 « Simple Knowledge Organization System », Wikipédia, 2014.
63
Conclusion De nouvelles problématiques émergent alors face à l’atomisation des données, inhérente au linked data. Cette atomisation constitue une rupture avec les principes archivistiques traditionnels de structuration des fonds, puisque l'arbre céderait sa place au graphe. Pour les archivistes de la recherche, le défi sera de parvenir à placer leurs documents dans le web de données en organisant judicieusement l'enrichissement des données qu'il traite, par la construction et le maintien d’un réseau spécialisé.
Le défi actuel de l’ingénieur documentaire ou de l’archiviste de la recherche est également d’accompagner le chercheur dans cette sa participation au web de données. Il doit, par exemple, accompagner les chercheurs dans la mise en place de référentiels de laboratoire dont la structuration technique garantit leur interopérabilité avec les référentiels nationaux ancrés dans le web de données. Parmi les perspectives d’interopérabilité entre les pratiques de la recherche et des archives, le projet de Système modulaire de gestion de l’information historique (SyMoGIH) développé au sein du LAHRA est particulièrement intéressant. En effet, ce projet a notamment pour conséquence de rendre possible le partage et l’échange de données d’autorité entre archivistes et historiens 41.
41 Claire Sibille, « les potentialités du Web sémantique pour le partage du travail des historiens et des archivistes », Modernisation et Archives. Réflexion sur la gestion et la collecte des archives contemporaines [Carnet de recherche], 3 juin 2014. URL : http://siaf.hypotheses.org/170. Consulté en juin 2014.
64
Bibliographie Agence Bibliographique de l'Enseignement Supérieur – Réseau Calames, Manuel de Catalogage, p. 90. URL : http://documentation.abes.fr/aidecalames/ManuelDeCatalogage.pdf. Consulté en février 2014. Archives et sources pour l’histoire de l’enseignement, éd. Thérèse Charmasson, Comité des travaux historiques et scientifiques, Paris, 2005, 391 p. AURORE, « La gestion des archives au sein d’un établissement de recherche », Dossiers de l’agence, AMUE, 2010, p. 27. BACHIMONT Bruno, Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents, Lavoisier, 2007, p. 42. BERT, Jean-François, Qu’est-ce qu’une archive de chercheur ?, Marseille, OpenEdition Press, 2014, 84 p. URL : http://books.openedition.org/oep/438. Consulté en juin 2014. BONNEMASSON Bénédicte, GINOUVES, Véronique, PERENNOU, Véronique, Guide d'analyse documentaire du son inédit, éditions Modal, Parthenay, 2001. BRZUSTOWSKI, Katie, « L'ABES, coordinatrice et animatrice de réseaux », Bulletin des Bibliothèques de France, 2003, n°2. URL : http://bbf.enssib.fr/consulter/bbf2003-02-0032-007. Consulté en décembre 2014. CHARMASSON, Thérèse, Les archives personnelles des scientifiques : classement et conservation, Archives nationales, Paris, 1995. CHARMASSON, Thérèse, « Archives scientifiques ou archives des sciences : des sources pour l’histoire », La revue pour l’histoire du CNRS, n°14, 2006. URL : http://histoire-cnrs.revues.org/1790. Consulté en janvier 2014. « De la numérisation des sources à leur diffusion auprès des populations enquêtées. Le cas des archives sonores et audiovisuelles des enquêtes interdisciplinaires de Plozévet (1961-1965) », Pôle Image-Son, 2010. URL : http://imageson.hypotheses.org/1174. Consulté en février 2014. DELSALLE, Paul, Une histoire de l'archivistique, Presse de l'Université du Quebec, Sainte-Foy, 2000, p. 190. « Ethical research in social science », Wikipedia, the free encyclopedia, 2014, [En ligne : http://en.wikipedia.org/w/index.php?
65
title=Ethical_research_in_social_science&oldid=610154050]. FAYET, Sylvie, « “Données” de la recherche, les mal-nommées », URFIST Info, 2013. URL : http://urfistinfo.hypotheses.org/2581. Consulté en février 2014. FILLIEUX, Véronique, « De la pluralité des exploitations du patrimoine scientifique d’une université d’aujourd’hui », Archives des savoirs, problèmes et enjeux, Genève, juin 2014. GALLAND, Bruno, « La normalisation au secours de l'archivistique ? », L’erreur archivistique. De la compréhension de l’erreur à la perception et à la gestion des incertitudes, sous la dir. de Cathy Schoukens et Paul Servais, Publications des archives de l’université catholique de Louvain, Louvain-la-Neuve, 2009, p. 220. GARRET, Pascal, « A propos d’éthique et de droit », A propos d&#039;éthique et de droit, 2011, [En ligne : http://ethiquedroit.hypotheses.org/1]. GASPIN, Christian, PONTIER, Dominique, COLINET, Laurence [et al.], « Rapport du groupe de travail sur la gestion et le partage des données », INRA, 2012. URL : http://www.pfl-cepia.inra.fr/uploads/gdp_docs/Rapport-GestionDonneesweb.pdf. Consulté en février 2014. HANNOUN, Judith, GINOUVES, Véronique, « La diffusion des données en SHS : des questions juridiques et éthiques à poser au niveau européen », Journée de présentation de l'infrastructure de recherche Dariah (Digital Research Infrastructure for the Arts and Humanities), 30 janvier 2013, Paris. URL : http://www.huma-num.fr/sites/default/files/ressourcesdoc/jh-vg-archives-desethnologues-30-01-13.pdf. Consulté en mai 2014. HOTTIN, Christian, « Création du patrimoine et construction identitaire au sein des établissements d’enseignement supérieur parisiens », Actes de : Mémoire et culture matérielle de l’Université, journée d’études organisée par le LASMAS (EHESS), le GREE, le LPHS-AHP et l’ERAEF (Université Nancy II), Nancy, 8 avril 2005., à venir, 2005, [En ligne : http://halshs.archives-ouvertes.fr/halshs-00087771]. HOTTIN, Christian, « Création du patrimoine et construction identitaire au sein des établissements d’enseignement supérieur parisiens », Actes de : Mémoire et culture matérielle de l’Université, journée d’études organisée par le LASMAS (EHESS), le GREE, le LPHS-AHP et l’ERAEF (Université Nancy II), Nancy, 8 avril 2005. LAFERTÉ, Gilles, « Des archives d’enquêtes ethnographiques pour quoi faire ? Les conditions d’une revisite », Genèses, no 63, juillet 2006, p. 25-45. LATOUR, Bruno et WOOLGAR, Steve, La vie de laboratoire: la production des faits scientifiques, trad. Michel Biezunski, Paris, France, la Découverte, 2006, 299 p.
66
LEFEBVRE, Muriel, « Projet ECRITO », Projet ECRITO, 2012. URL : http://ecrito.hypotheses.org/le-projet/description-du-projet. Consulté en janvier 2014. Lieux de savoir, éd. Christian Jacob, Paris, France, Albin Michel, impr. 2010, 2010, 985 p. NEIRINCK, Danièle, La pratique archivistique francaise, éd. Jean Favier, Archives nationales, Paris, 2008, 630 p. PITTI, Daniel, « Encoded Archival Description: An Introduction and Overview », D-Lib Magazine, 5 (11), novembre 1999. URL : http://www.dlib.org/dlib/november99/11pitti.html. Consulté en mars 2014. POUYLLAU, Stéphane, « Web de données, big data, open data, quels rôles pour les documentalistes ? », Documentaliste - Sciences de l'Information, Vol. 50 (2013), p. 32-33. POUYLLAU, Stéphane, KILOUCHI, Shadia, « Construire le web de données pour les sciences humaines et sociales », TGE Adonis – C2NSV, note informationnelle en ligne, septembre 2010, p. 2. URL : http://archivesic.ccsd.cnrs.fr/sic_00494227. Consulté en janvier 2014. RANC, Emmanuel, « Les archives de recherche en Sciences Humaines et Sociales : Enjeux et Projets ». URL : http://culture.univlille1.fr/fileadmin/documents/patrimoine/txt/38ranc.pdf. Consulté en janvier 2014. SIBILLE, Claire, « les potentialités du Web sémantique pour le partage du travail des historiens et des archivistes », Modernisation et Archives. Réflexion sur la gestion et la collecte des archives contemporaines [carnet de recherche], 3 juin 2014. SIBILLE, Claire, « Les normes internationales de description archivistique : origines, développements, perspectives », La Gazette des archives, n° 228, 2012-4, p. 167. WOLIKOW, Serge « Les archives du savoir en sciences sociales », Archives et sciences sociales : aspects juridiques et coopération scientifique, L'Harmattan, Paris, 2006, p.23.
67
Liste des tableaux et des figures Tableau 1 : Les propriétés de l'archive de la recherche Tableau 2 : Correspondance des niveaux de description Figure 1 : Élément XML simple Figure 2 : Éléments XML avec attributs Figure 3 : L’interface de catalogage Calames Figure 4 : Notice du fonds Jean-Noël Pelen dans Calames
68