Interface de recherche et de consultation de la bibliothèque numérique : relevé des fonctions demandées 1 – Documents et métadonnées Documents numérisés à prendre en compte Les types de documents à prendre en compte seront : livres imprimés numérisés, périodiques numérisés, articles de périodiques, thèses, manuscrits, images (enluminures, estampes, illustrations de livres, dessins, photos). L’interface est susceptible d’accueillir plus tard des documents sonores ou vidéos (en nombre très faible actuellement), à consulter en mode streaming ou équivalent, mais cette dernière fonction pourra être gérée par un autre module accessible depuis la même interface. Format de métadonnées Les métadonnées pourront être gérées dans différents formats XML, dont les formats suivants : Dublin Core, MarcXML, EAD, TEI. D'autres formats (MODS, biblioML)pourront être ajoutés par l'intégration et le paramétrage de nouvelles DTD. La majeure partie des données proviendra de l'importation initiale des notices des catalogues des bibliothèques : SIGB (UNIMARC) et Calames (EAD). Un utilitaire d'import et de conversion (à partir des formats d'échange UNIMARC, MARC21, CSV ou autres) permettra, au démarrage, de charger en masse les métadonnées fournies par les bibliothèques. Ce module de conversion pourra être modularisé et rester externe à la bibliothèque numérique mais devra exister de toutes façons. Un module d'import permettra une synchronisation avec le SUODC : importation périodique des notices de documents numérisés créées ou modifiées. Par ailleurs, des descriptions longues, contenant des caractères spéciaux non intégrés par l’UNICODE, seront accessibles sous forme de pages PDF, à partir des métadonnées de base affichées par la bibliothèque numérique (par exemple via un lien intitulé Description détaillée). Sur ce principe, des articles signés par les conservateurs pourront également accompagner les documents numérisés. Des données provenant de bases autres que des SIGB, gérées dans des formats particuliers, exportables de leur base d’origine sous forme de requêtes SQL, devront être intégrées. Sont notamment dans ce cas les données de la base Liber Floridus, base iconographique contenant des enluminures de documents conservés à la BSG et la Mazarine (voir Annexe 1), ou la base des reliures estampées à froid.
1 / 13
Prestation : préalablement à l'importation des données de chaque base, une table de conversion des métadonnées du format source vers le format cible sera proposée par le prestataire sur le modèle de ce qui a été proposé par la Bibliothèque. Une gestion des droits d'édition devra permettre de proposer selon les cas la rédaction de documents de façon restrictive (authentification), modérée, ou libre. D'autres champs de gestion ou d'information, internes ou publics (affichables) seront paramétrables de façon évolutive selon les besoins. Ainsi des champs supplémentaires non présents dans les données chargées sont à prévoir :
•
lien vers une autre base (base des reliures estampées à froid ou base Calames, par exemple) ;
•
numéro de référence bibliographique d'un incunable (avec lien vers la ressource quand celle-ci la ressource est en ligne.
Gestion des métadonnées Une interface de saisie avec un éditeur XML ergonomique permettra de saisir et de modifier les métadonnées dans tous les formats précités. Elle permettra aussi d'effectuer une édition enrichie de certains textes numérisés, pour en identifier les sommaires par exemple (par balisage XML/TEI ou autre), et de rédiger des présentations associées aux documents. Dans le cas d’une solution d’hébergement, cette fonction de saisie est aussi demandée, en mode déporté pour pouvoir modifier les métadonnées utilisées par l’hébergeur. La gestion des droits attachés aux documents permettra d’en empêcher la diffusion libre et la réserver aux professionnels. Format de données textuelles La DTD TEI est prévue pour le balisage des données transcrites en mode texte, dont par exemple le Journal des travaux de l’architecte Henri Labrouste. Quand c’est souhaitable l’index de navigation dans le document pourra être renseigné et modifié par les bibliothécaires : le nommage des pages pourra ainsi se faire en recourant à une bibliothèque de termes spécifiques (ex : « f. A3v° » ; « Reliure : contreplat inférieur » — prévoir 50 caractères max.). Par ailleurs, la bibliothèque des termes d’indexation déjà utilisés sera immédiatement disponible pour l’indexeur (aide à la saisie). Option dans le cas SGDE seulement : un outil de modification globale des données sera disponible, associé à un outil de création de paniers disposant de fonctions avancées de recherche telles que décrites ci-dessous. Option dans le cas SGDE seulement : le système permettra aussi d'associer un thesaurus hiérarchisé à une zone contrôlée de la notice. Plusieurs thésauri différents pourront être gérés dans le système. Le thésaurus hiérarchisé actuellement utilisé par la BSG (Thésaurus
2 / 13
François Garnier) devra pouvoir être importé pour permettre de poursuivre l'indexation des enluminures et leur interrogation. Le thésaurus comportera une hiérarchisation (termes génériques, termes spécifiques), mais aussi des synonymies (terme rejeté, terme associé). Des listes d'autorités ouvertes ou fermées devront pouvoir être associés à des zones spécifiques des métadonnées (auteur, mots-clés sujets, etc.). Ce thésaurus ne sert que pour la base Liber Floridus. D’autres thésauri pourront être utilisés pour l’indexation d’autres types d’images.
3 / 13
2 – Recherche Accueil de la Bibliothèque Numérique Outre la recherche proprement dite, l’accueil proposera aux usagers les outils suivants : •
•
• •
Une fonction permettant de proposer la visualisation d’un document « pris au hasard » lorsque l’usager arrive sur la page d’accueil. Ceci peut être remplacé par le choix d’un bibliothécaire également, ce qui relève alors d’une fonction éditoriale. Les documents numérisés pourront être distribués au sein d'une structure hiérarchisée permettant de créer des corpus et des collections, auxquels l’utilisateur pourra d’emblée choisir de restreindre la recherche. Ces collections seront constituées par fonds historique, sachant qu’un filtre par type de document est disponible dans la recherche. Il sera possible de publier des documents numériques structurés décrivant des corpus de textes qu’on souhaite présenter globalement (à l’exemple des Voyages de Gallica). Une entrée personnalisée pour chaque partenaire sera nécessaire.
Modes de recherches L’interface de recherche prévoira deux modes de recherche : 1 – recherche par mot sur tous les champs des métadonnées (sauf exception), combinée ou non avec la même recherche sur le texte intégral. 2 - recherche avancée : rechercher par mot dans les métadonnées avec combinaison booléenne (titre, auteur, sujet, dates, éditeur, identifiants divers, cote, notes, type de documents, bibliothèque propriétaire, etc.). Cette recherche avancée prévoira des filtres classiques (par intervalle de date, par type de documents, par langue, ou autres à définir) ; ces filtres seront aussi utilisables comme des critères de recherche 1. En soi, la recherche par mot permettra de choisir entre « tous les mots », « un des mots » ou « l’expression exacte ». Pour optimiser la recherche, l’interface prévoira qu’un usager puisse choisir quelques termes dans un thesaurus (champs sujet ou d'autres champs contrôlées), avant de lancer la recherche. Des opérateurs de proximité entre les termes seront également disponibles, ainsi que la recherche par expression exacte.
1
On prendra comme exemple l’écran de recherche avancée de Gallica2 ; on n’a pas a priori de raison de viser quelque chose de plus complexe pour une bibliothèque numérique de quelques milliers de documents.
4 / 13
Recherche en texte intégral Chaque document textuel sera entièrement océrisé et indexé afin de permettre une recherche en texte intégral. Les fichiers texte ainsi constitués seront accessibles aux moteurs externes tels Google. Dans le cas d’un hébergement : les fichiers texte issus de la numérisation seront fournis à l’hébergeur, en format ALTO. Un balisage XML/TEI devra pouvoir être possible afin de générer des index ciblés sur des termes identifiés dans le texte et de permettre une valorisation et une exploitation de son contenu (noms de lieux, dates, noms de personnes etc.). Cette constitution d'index permettra également de choisir une forme parmi plusieurs (par exemple, le même nom de personne écrit de manières diverses). Ceci permettra, à l'interrogation de l'index, d'accéder à toutes les formes. Caractéristiques de la recherche La recherche ne sera pas sensible à la casse ni aux diacritiques. L'opérateur implicite entre plusieurs mots du même champs sera ET. Un historique des recherches pourra être affiché. Il permettra de relancer une recherche ou de combiner plusieurs recherches différentes par des opérateurs booléens. Interfaces de recherche Une même interface générique de recherche devra donner accès à tous les types de documents. D’autres interfaces spécifiques de recherche pourront être ajoutées, pour être adaptées à des types de documents spécifiques. L’accueil mènera vers une interface de recherche générique, les autres interfaces seront en retrait. D’autres interfaces spécifiques de recherche pourront être ajoutées, pour être adaptées à des types de documents spécifiques, notamment aux corpus identifiés dès l’Accueil de la Bibliothèque Numérique (cf. supra). Une interface spécifique sera ainsi, dès l’ouverture, conçue pour : le corpus des incunables, avec les champs de requête suivants : Auteur – Titre - Pays de publication - Lieu de publication - Imprimeur-libraire – ISTC number - Références bibliographiques (avec double index : ressource /identifiant à l’intérieur de la ressource) – Format - Date de publication (=, <, >, < <) – Langue – Cote. Pour tous ces champs : 2 possibilités seront offertes : saisie directe des termes de recherche ou sélection dans un index associé (sauf pour les zones « Tous champs » et « Date », sans index associé). les documents textuels balisés en TEI. les plans et dessins Labrouste.
5 / 13
-
Gestion des résultats de recherche
La liste fera apparaître une vignette de la page de titre (ou à défaut de la page qui aura été « marquée » comme cible significative). La liste des résultats pourra être triée par date, titre, auteur. Après une première recherche, le moteur de recherche présentera à l’usager une catégorisation des résultats (principe des facettes), afin d’affiner facilement les résultats. Il pourrait aussi proposer la liste des principaux termes trouvés dans les résultats, afin de favoriser les rebonds. Dans une recherche par texte intégral, le texte cherché sera mis en évidence sur l'image affichée (en utilisant le repérage prévu dans la norme (ALTO). Pour des documents images, la liste des résultats pourra prendre la forme d’une mosaïque d'imagettes (au choix de l’usager). Chaque imagette sera accompagnée de métadonnées réduites. Il sera possible de constituer des paniers à partir des mosaïques. Affichage des notices La circulation entre les métadonnées et les documents devra être fluide. Les références succinctes (paramétrables) du document resteront apparentes pendant la visualisation du document (titre, auteur, date par exemple). En option : les notices descriptives des documents pourront être affichées de façon différente en mode professionnel (données de gestion en plus, par exemple) et en mode public. En option dans le cas d’un SGDE seulement : une recherche proposera aussi des suggestions d'ouvrages similaires, dans les autres bibliothèques numériques importantes (Gallica, GoogleBooks, Archive.org) en fonction des critères utilisés.
6 / 13
3 – Consultation des documents Affichage des documents La navigation dans le document présentera les boutons « page précédente », « page suivante », « aller à la page X », « première page », « dernière page ». Il sera également possible de naviguer par le sommaire ou les index des documents lorsque ceux-ci auront été balisés : l’index de navigation pourra être affiché par l’utilisateur dans un cadre vertical en partie gauche de l’écran ; la page active à l’écran y sera toujours clairement repérée (couleur ou soulignement). L’index de navigation pourra être renseigné et modifié par les bibliothécaires : le nommage des pages pourra ainsi se faire en recourant à une bibliothèque de termes spécifiques (ex : « f. A3v° » ; « Reliure : contreplat inférieur » — prévoir 50 caractères max.). Par ailleurs, la bibliothèque des termes d’indexation déjà utilisés sera immédiatement disponible pour l’indexeur (aide à la saisie). L’index de navigation pourra être affiché par l’utilisateur dans un cadre vertical en partie gauche de l’écran ; la page active à l’écran y sera toujours clairement repérée (couleur ou soulignement). La première page affichée du document pourra être choisie (et donc ne pas être systématiquement le premier plat de reliure). La visualisation permettra de zoomer sur une image avec l'aide, par exemple, d'outils libres du type ImageMagick et/ou Zoomify. Une imagette montrera la place de la zone zoomée dans l’original. Le grossissement possible dépendra de la résolution possible de l’image. Il n’y aura pas de rognage automatisé des images. Il sera également possible de tourner les documents de 90 ° dans un sens ou dans l'autre. En option : Pour le feuilletage des pages, on pourra utiliser des outils de type Turning the pages (feuilletage 3D avec Flash : fsi viewer, Issuu, acroflip). En option : Un module séparé permettra de créer des liens entre des mots et des thésauri, des mots et des images, etc. sous forme d’un travail éditorial scientifique. Quelques documents particulièrement travaillés pourront ainsi être mis en avant comme dans une vitrine, directement à partir de l’accueil. Affichage en double page
7 / 13
On pourra choisir d’afficher deux pages côte à côte (verso d’un feuillet et recto du feuillet suivant). L'affichage permettra aussi de comparer côte à côte entre elles deux pages provenant de deux documents différents (d’un même imprimeur, d’un même texte, deux enluminures, deux plans ou dessins d'architecte... Cette fonction permettra également de voir simultanément une page en mode image et la même page en mode texte lorsqu’elle existe.
8 / 13
4 – Services associés A partir du document consultés, une série de liens ou de boutons pourront être affichés, pour déclencher des services ou rappeler divers liens institutionnels, commerciaux ou liés au mécénat. Export des références Les métadonnées du document seront exportables et exploitables par le public sous format texte (en téléchargement ou via un envoi de mail), mais aussi dans les formats utilisés par les logiciels de gestion de références comme Zotero, EndNote ou RefWorks. Déchargement d’un document L'usager pourra également télécharger et imprimer les documents avec un reformatage préalable proposé par le système. Les formats de déchargement seront PDF simple, PDF multicouches image et texte océrisé, formats images JPEG, JPEG2000, TIFF, PNG, les formats EPUB et Kindle propres aux ebooks et le format Daisy (malvoyants). Les formats PDF et EPUB sont déjà livrés par les numériseurs. Gestion de panier, DSI Un usager peut utiliser un panier anonyme (le temps d’une session) ou un panier permanent à condition d’être identifié sur le système. La liste de contenu du panier aura le même aspect qu’une liste de résultat de recherche et proposera les mêmes services. L’usager pourra paramétrer une DSI basée sur une équation de recherche dans la base, avec une alerte sous forme de mèl ou de flux RSS générés dynamiquement. Indexation et correction collaboratives L’usager identifié pourra ajouter des commentaires, des notes et des tags pour indexer les documents qu’il consulte. Ces éléments seront conservés sous son login, par le système. En option : Il sera possible d'indexer les images au sein des documents numérisés afin de pouvoir effectuer des recherches iconographiques. Il sera possible de transcrire des documents ou d'effectuer en regard de l'image des corrections du texte océrisé. Une indexation collaborative pourra aussi être organisée par échange de documents avec WikiSource (extraction du document à indexer puis réimplantation du document indexé). Suggestion de numérisation
Proposer les références des documents que nous souhaitons numériser sans en avoir eu les moyens financiers (afin de les signaler aux autres bibliothèques) mais aussi 9 / 13
d'en proposer le financement. A coté de ces références apparaîtra : « vous souhaitez financer la numérisation du livre, cliquez ici » puis l'usager pourra commander la numérisation auprès d'un délégataire. La source de la numérisation sera ensuite affichée au niveau de la notice du document numérisé (fondation X, institution Y, particulier Z) Reproduction des documents par la bibliothèque Un lien permettra de commander, via un formulaire, une reproduction papier ou numérique en haute résolution des documents affichés. Ce lien informera l’usager sur les procédures et restrictions fixées en matière de reproduction par la bibliothèque propriétaire de l’original. La demande sera ensuite traitée par la bibliothèque propriétaire avec son système de gestion propre. Impression de facsimilés à la demande Un lien commercial permettra de demander l’impression d’un fac-similé par une société externe avec qui la bibliothèque propriétaire du document aura passé contrat. La fabrication, l’acheminement et le paiement de la prestation seront gérés par cette société, sur son site web propre. Consultation de documents numériques payants La bibliothèque numérique permettra d’insérer des documents numériques dont la consultation est payante seulement sur abonnement (et donc sous login). Une gestion de droits doit être prévue pour gérer la consultation de ces documents.
10 / 13
5 – Administration Habilitations L'accès par login permettra de différencier les rôles avec leurs droits associés : Administrateur, Indexeur (professionnels), partenaire (universitaires ou érudits qui peuvent participer à l'encodage et/ou à la corrections de l'OCR), lecteur anonyme, lecteur identifié. Statistiques Un module statistique (de type Google Analytics) permettra de connaître l'origine géographique et institutionnelle des connexions, les mots clés utilisés dans le moteur de recherche, le nombre de téléchargements et d'impressions, le nombre de clics sur des liens pointant vers l'extérieur (institutions ou mécènes). Chaque institution pourra accéder à ses propres statistiques de consultation. Traduction Une version anglaise du site sera développée. Le passage d’une version à l’autre devra être possible à toutes les étapes de consultation de la bibliothèque numérique (accueil, interface de requête, affichage des données). Lien pérenne Chaque document électronique devra bénéficier d'une adresse URL stable et pérenne (liens permanents ARK) afin que les bibliothécaires puissent le signaler dans le catalogue national SUDOC (en saisissant son URL en champs 856 ou 325 de l'UNIMARC), dans tout répertoire national ou international, ou sous forme de citation dans une publication électronique. Accessibilité Le site sera conforme aux recommandations de la WAI (Web Accessibility Initiative), avec notamment une interface de recherche spécifique adaptée à ce public. Les autres outils habituels (grossissement, contrasteur, plage braille etc.) relèvent des outils installés sur le poste de consultation.
11 / 13
6 – Positionnement et visibilité Visibilité des métadonnées Les métadonnées des documents devront être accessibles via un serveur OAI-PMH signalé dans les annuaires internationaux du type OAIster et permettant le moissonnage par d'autres bases comme Europeana, Gallica, Bibliothèques Virtuelles Humanistes, Incunabula Short Catalogue, Gesamtkatalog der Wiegendrucke. L’indexation de ces métadonnées par des moteurs de recherche comme Google, Bing ou Altavista, sera possible. En option : le système pourra interpréter et répondre à des requêtes de métamoteurs lui parvenant sous forme de webservices et en format OpenURL. Export des métadonnées Un utilitaire d'export des métadonnées sous différents formats paramétrables (MARCXML, Dublin Core, MODS, UNIMARC, CSV, XLS) devra également permettre de diffuser les données sur d'autres sites susceptibles de renvoyer vers la bibliothèque numérique (Google Books, archive.org, etc.). Fonctionnalités liées au mécénat : Pour les ouvrages numérisés, une zone de la notice pourra rappeler que telle institution ou mécène a participé aux coûts de numérisation. Impacts de la mutualisation Personnalisation de l’interface : afin que chaque bibliothèque partenaire du projet conserve son identité malgré le caractère collectif du projet, un interface spécifique à chaque bibliothèque devra être disponible en sus de l'interface générale. Cette interface spécifique utilisera le graphisme et le logo propres de l’établissement. Cette vitrine sera propre à chaque bibliothèque et portera exclusivement sur les documents qu'elle conserve. A partir de cette interface la recherche se fera par défaut dans toute la bibliothèque numérique. Une architecture orientée service (SOA) sera privilégiée pour construire les plateformes de chaque institution. C’est-à-dire que ce besoin doit être prévu au départ et le logiciel choisi en fonction, pour que l’ajout ou le retrait d’un partenaire, par exemple, ne soit qu’une question de paramétrage. Site wiki
12 / 13
Le site sera doublé avec un site wiki pouvant comporter : • • • •
une présentation du projet et un appel à participation des documents de synthèse, des recommandations la liste des participants, une sélection d'articles d'actualités (incorporation de fils RSS et d'une veille sous Google Reader)
13 / 13