Jean-Paul Dècle
Des clés pour comprendre
GED: Sommaire Vue d'ensemble La chaîne d’acquisition Le document numérique Panorama de l'offre Le marché de la Ged Les tendances: XML, Web services L'offre logicielle Les acteurs Mise en place d'une solution Annexes Bibliographie, sites, associations, références
2
jeanpauldecle@hotmail.com
2
La chaîne GED: acquisition Les métadonnées
Ensemble structuré d'informations décrivant une ressource quelconque
Une métadonnée peut être utilisée à des fins diverses: description et recherche de ressources gestion de collections de ressources préservation des ressources
Utilisées dans les systèmes de gestion de contenu
3
Les métadonnées: définition Une métadonnée est littéralement une donnée sur une donnée. Plus précisément, c'est un ensemble structuré d'informations décrivant une ressource quelconque. Les ressources décrites par des métadonnées ne sont pas nécessairement sous forme digitale: un catalogue de bibliothèque ou de musée contient aussi des métadonnées décrivant les ressources que sont les ouvrages de la bibliothèque ou les objets du musée. Une métadonnée peut être utilisée à des fins diverses: • la description et la recherche de ressources • la gestion de collections de ressources • la préservation des ressources Les métadonnées sont en général constituées de mots-clés ou de texte libre. Ces informations peuvent être évidentes (l'auteur, la date de publication, l'éditeur d'un livre), ou plus complexes et moins aisément définies: les avis d'un collectif de lecture d'un article, par exemple, nécessitent une structure de métadonnées évoluée capable d'annoter des portions de l'article, et cela, de façon multiple. Les métadonnées sont particulièrement importantes pour les ressources visuelles qui, sans elles, peuvent demeurer pratiquement inexploitables et impossibles à retrouver. Les métadonnées ne sont pas seulement importantes pour l'utilisateur final. Des métadonnées d'ordre technique et administrative (comme l'appartenance à une collection, les informations de copyright, les informations sur l'acquisition, le format de fichier, la résolution, etc.) permettent de gérer, maintenir et préserver des collections digitales. Les métadonnées sont utilisées dans les systèmes de gestion de contenu (CMS: Content Management Systems) pour éditer, gérer, rechercher, réutiliser, diffuser, publier de multiples contenus (textes, images, vidéo, etc.).
jeanpauldecle@hotmail.com
3
La chaîne GED: acquisition Les métadonnées Exemple de métadonnées créées automatiquement par Open Office Writer
4
Exemple de métadonnées saisies manuellement dans Open Office Writer
jeanpauldecle@hotmail.com
4
La chaîne GED: acquisition Ajout de métadonnées: les métadonnées descriptives But: Décrire et identifier les ressources d'information au niveau local (système) afin d'autoriser la recherche et l'extraction
Exemple: chercher des peintures d'animaux
au niveau du web afin de permettre aux usagers de découvrir les ressources
Exemple: chercher des collections numériques de poésie
Exemples d’éléments
Identifiants uniques (PURL, Handle) Attributs physiques (médias, dimensions, état général) Attributs bibliographiques (titre, auteur/créateur, langue, mots-clés)
5
Les métadonnées descriptives: exemples de mise en oeuvre • Handle Système public de résolution permettant d’accéder de façon pérenne à des ressources numériques indépendamment de leur emplacement physique (en savoir plus: http://www.handle.net/introduction.html) • PURL (Persistent Uniform Resource Locator) Service de résolution permettant d’accéder à une ressource internet (en savoir plus: http://purl.org/) • Dublin Core Metadata Initiative Forum ouvert engagé dans la développement de standards de métadata en ligne interopérables (en savoir plus: http://dublincore.org/) • MARC L’initiative MARC (MAchine-Readable Cataloguing) de la Library of Congress définit un standard de format pour le stockage et l’échange d’informations bibliographiques dans une forme lisible par une machine (en savoir plus: http://www.loc.gov/marc/) • HTML Meta Tags Dictionnaire de balises méta HTML (en savoir plus: http://vancouver-webpages.com/META/) • Vocabulaires contrôlés • Categories for the Description of Works of Art (http://www.getty.edu/research/conducting_research/standards/cdwa /index.html)
jeanpauldecle@hotmail.com
5
La chaîne GED: acquisition Ajout de métadonnées: les métadonnées structurelles Buts:
Faciliter la navigation et la présentation des ressources électroniques Fournir des informations sur la structure interne des ressources y compris la page, la section, le numéro de chapitre, les index, et la table des matières Décrire les relations entre les matériels
Relier les fichiers et scripts liés
Exemple: la photographie B a été insérée dans le manuscrit A Exemple: Le fichier A est le format JPEG du fichier d'archive B
Exemples d’éléments
Balises structurantes telles que titre de page, table des matières, chapitres, parties, erratum, index, …
6
Les métadonnées structurelles: exemples de mise en oeuvre • SGML Standard Generalized Markup Language: langage à balises utilisé dans des applications telles que HTML (en savoir plus: http://www.w3.org/MarkUp/SGML/) • XML Extensible Markup Language (en savoir plus: http://xml.coverpages.org/xml.html) • Encoded Archival Description (EAD) La DTD (Document Type Definition) EAD est un standard développé sous l’égide de la Library of Congress pour l’encodage d’aides à l’accès aux archives reposant sur XML (en savoir plus: http://www.loc.gov/ead/) • Electronic Binding (Ebind) Le projet Electronic Binding (Ebind) propose une méthode pour mettre en relation des images de pages numérisées avec une DTD SGML (développée à l’université de Berkeley en 1996) (en savoir plus: http://sunsite3.berkeley.edu/Ebind/)
jeanpauldecle@hotmail.com
6
La chaîne GED: acquisition Ajout de métadonnées: les métadonnées administratives Buts:
Faciliter la gestion et le traitement à court et long termes des collections numériques Inclure des données techniques sur la création et le contrôle de la qualité Inclure la gestion des droits, le contrôle d'accès et les conditions utilisateur requises
Exemples d’éléments
Données techniques telles que type et modèle de scanner, résolution, profondeur de bit, espace colorimétrique, format de fichier, compression, source lumineuse, propriétaire, date du copyright, restrictions de copie et de distribution, informations de licence, activités de conservation (cycles de rafraîchissement, migration, etc…) 7
Les métadonnées d’administration: exemples de mise en œuvre • National Library of Australia, Preservation Metadata for Digital Collections (en savoir plus: http://www.nla.gov.au/preserve/pmeta.html) • CEDARS: Metadata for Digital Preservation Le projet Cedars a pour objectif le développement d’un framework de description de données destiné à assurer la préservation à long terme des ressources numérisées (en savoir plus: http://www.leeds.ac.uk/cedars/metadata.html)
jeanpauldecle@hotmail.com
7
GED: OCR/LAD Lecture automatique de documents LAD: C’est la reconnaissance du contenu de documents dont la forme est connue et fixe (ex: formulaires)
8
LAD: différents types de structures d’information
LAD: les principales applications • Lecture des adresses postales • Lecture des montants (chèques bancaires) • Lecture des formulaires administratifs • Lecture des dessins techniques • Lecture des fonds de bibliothèques • Lecture de documentations: bordereaux, questionnaires, manuels techniques
jeanpauldecle@hotmail.com
8
GED: OCR/LAD Lecture automatique de documents
9
Source: Décision informatique
LAD: les étapes 1. Arrivée d’une réclamation 2. Numérisation du document 3. Reconnaissance du document et des mots-clés 4. Application d’une règle en fonction du mot-clé 5. Envoi vers la corbeille appropriée 6. Accès au dossier/Réponse au client/Archivage si nécessaire
PGI= Progiciel de Gestion Intégré (anglais: ERP)
jeanpauldecle@hotmail.com
9
La chaîne GED: indexation Exemple de relations entre descripteurs
10
Un thesaurus comporte 5 types de relations sémantiques • L’appartenance des descripteurs à un groupe sémantique • L’équivalence sémantique entre descripteurs et non-descripteurs • La hiérarchie de descripteurs • L’association des descripteurs Relation qui indique des analogies ou liens de signification entre les descripteurs autres que la relation hiérarchique ou d’équivalence (définition AFNOR) Exemples: grippe/fièvres/toux, vitesse/impulsion, guérison/soin • L’équivalence linguistique Lien biunivoque et symétrique entre descripteurs de langues différentes Exemples: Equivalence réelle: blanc/white Equivalence partielle: mouton/sheep ou mutton Non-équivalence: CEO (Chief Executive Officer)/? Notation des relations du thesaurus Les principales notations normalisées des relations du thesaurus sont: • La notation française par sigles normalisée par l’AFNOR en 1981 sous le label Z47-100; • La norme internationale ISO 2788 (1974) En savoir plus: http://dossierdoc.typepad.com/descripteurs/2005/08/recueil_de_docu.html
jeanpauldecle@hotmail.com
10
GED: stockage Trois architectures de stockage
11
DAS: pour les besoins locaux En principe, un bus SCSI est utilisé, mais il est aussi possible de faire appel à du Fibre Channel (Direct Attached Fibre Channel) lorsqu’un certain niveau de performance est requis ou lorsque le système fonctionne sur deux connexions redondantes. NAS: le partage des fichiers pour toute l’entreprise Les données sont exportées chez les clients via Ethernet. Cela se passe au niveau des fichiers, avec un protocole de partage de fichiers comme NFS (sous Unix) ou CIFS (Windows). En général, un serveur de fichiers normal peut effectuer cette tâche, mais de plus en plus de serveurs sont réduits à l’essentiel et considérés comme une partie du système de sauvegarde. Par ce biais, la performance et surtout la gestion sont améliorées et les coûts réduits. Les systèmes NAS sont aujourd’hui généralement installés dans des solutions de groupes de travail, comme serveurs de fichiers flexibles et modulables au niveau de la taille. SAN: la haute disponibilité de l’information SAN correspond à une sauvegarde en réseau, dans laquelle au moins 2 serveurs sont reliés avec des dispositifs de stockage où tous les serveurs et les lecteurs locaux sont visibles, contrairement à NAS. En général, la technologie utilisée est la technologie SCSI. Grâce à la technologie Fibre Channel, de grandes distances peuvent être facilement franchies.
jeanpauldecle@hotmail.com
11
GED: stockage Accès aux données avec DAS, SAN, NAS
12
Avantages comparatifs NAS/SAN Qualité de service: avantage SAN • Le réseau Ethernet sur lequel repose le NAS n'offre aucune garantie quant au fait que la requête envoyée par un serveur a bien été reçue et prise en compte par les système de stockage. • Dans le cas du SAN le commutateur prend en charge cette fonction et garantit en outre un débit fixe (100Mo/s par lien en fibre optique). • Débit des réseaux Ethernet: 10/100 Mbps • Débit de certains équipements Fibre Channel: 1 voire 2 Gbps
Disponibilité : avantage SAN • Le SAN assure la redondance du stockage (c'est à dire l'accessibilité au système de stockage en cas de panne de l'un de ses éléments) en doublant au minimum chacun des éléments du système : les cartes HBA (Host Bus Adapter) des serveurs, les commutateurs, et l'écriture des données sur les disques. •Le NAS lui ne permet pas cette fonction vitale pour certaines applications (type bancaires, assurances, sites de commerce électronique, etc.).
Hétérogénéité : Le NAS convient bien aux environnements hétérogènes. Le SAN multipliant le matériel de stockage nécessaire (serveurs, mais aussi commutateurs ou routeurs et baies de disques issues de constructeurs différents), l'interopérabilité s'en trouve d'autant plus complexe. Synthèse • Le SAN répond aux exigences des grandes entreprises en termes de disponibilité de bande passante comme de criticité des applications • Le NAS correspond en général aux besoins moins contraignants des PME/PMI
jeanpauldecle@hotmail.com
12
GED: stockage Les interfaces
13
Les interfaces • SCSI: Small Computer System Interface Bus acceptant une grande variété de périphériques • IDE: Intelligent Disk Enhancement ou Integrated Drive Electronics Connecteur « en nappe » de disques • Fibre Channel: protocole permettant une connexion haut débit entre un ordinateur et son système de stockage. Le protocole Fibre Channel peut fonctionner sur de la paire torsadée ou de la fibre optique. Le développement des interfaces Alors que l’utilisation de DAS dominait le marché des serveurs SCSI, une part de marché considérable s’est déplacée vers les disques durs Fibre Channel et les stations de travail locales (clients), dont les disques, de plus en plus de type IDE, sont utilisés uniquement pour leur système d’exploitation. Comparaison des interfaces
jeanpauldecle@hotmail.com
13
Le document numérique DSSSL Document Style Semantics and Specification Language Le modèle DSSSL (ISO 10179)
14
Exemple DSSSL Le document SGML et sa DTD <!DOCTYPE HTMLLite [ <!ELEMENT HTMLLite O O (H1|P)* > <!ELEMENT (H1|P) - - (#PCDATA|EM|STRONG)*> <!ELEMENT (EM|STRONG) - - (#PCDATA)> ]> <HTMLLite> <H1>Ceci est le titre</H1> <P>Ceci est du texte</P> <P>Ceci est en <em>italique</em></P> <P>Ceci est en <strong>gras</strong></P> </HTMLLite> La feuille de style DSSSL <!DOCTYPE style-sheet system "style-sheet.dtd" > (element HTMLLite (make simple-page-sequence)) (element H1 (make paragraph font-family-name: "Times New Roman" font-weight: 'bold fontsize: 20pt line-spacing: 22pt space-before: 15pt space-after: 10pt start-indent: 6pt first-linestart-indent: -6pt keep-with-next?: #t)) (element P (make paragraph font-family-name: "Times New Roman" font-size: 12pt linespacing: 13.2pt space-before: 6pt start-indent: 6pt quadding: 'start)) (element EM (make sequence font-posture: 'italic)) (element STRONG (make sequence font-weight: 'bold))
jeanpauldecle@hotmail.com
14
GED: le marché du document numérique
15
Office System 2007 devient une plate-forme que l'on peut configurer pour répondre aux différents scénarios d'organisation des entreprises. Les nombreux serveurs Office 2007: •Project Portfolio Server •Project Server •Groove Server •SharePoint Server •Forms Server •Exchange Server •Live Communications Server Ces serveurs permettent de •partager des documents •de dialoguer en direct avec d'autres collaborateurs •d'effectuer des analyses décisionnelles •de gérer le contenu de sites Web •de créer des workflow basés sur des formulaires électroniques (Windows Workflow Foundation et Forms Server) •de gérer des projets d'entreprise. La messagerie unifiée comprend les e-mails, la messagerie instantanée, la téléphonie IP et RTC (Office Communicator), Live Communications Server fournissant des passerelles vers les principales messageries instantanées concurrentes : Yahoo! Messenger, AOL,...
jeanpauldecle@hotmail.com
15
Les moteurs de recherche Mise en œuvre et utilisation
16
Source: 01Net
Moteurs de recherche: mise en oeuvre 1. Tester la sécurité Si l'affectation des droits à une application donnée reste une opération simple à mettre en œuvre, il n'en est pas de même lorsqu'il s'agit d'un moteur de recherche. En effet, ce dernier indexe potentiellement toutes les sources et peut donc tout ramener dans ses filets. Entre les possibilités extrêmes, restriction ou ouverture totale, l'approche mixte est la plus pertinente. Mais cette dernière suppose de tester les accès. Avec toute la difficulté que cela suppose dans l'établissement de scénarios. 2. Donner des indices pour trouver la bonne information Lorsque l'on cherche des informations sur un sujet sans connaître précisément les sources, un moteur classique reste inadapté. Les moteurs sémantiques extraient, à partir des documents indexés, les lieux, dates, personnes et thèmes en rapport avec la question. Ils proposent de nouvelles pistes pertinentes liées par le sens aux mots utilisés dans la requête. 3. Difficiles à utiliser Les techniques d'indexation des moteurs d'entreprise sont complexes. Elles mixent souvent une approche statistique (nombre d'occurrences des mots-clés demandés, etc.), syntaxique (adverbe plus substantif, etc.) et sémantique (recherche de synonymes, de termes proches, etc.). 4. Des outils polyglottes Les moteurs multilingues sont nombreux. Plus rares, les moteurs de recherche Cross Language renvoient des documents dans une langue différente de celle utilisée dans la question. Couplant la recherche à l'analyse sémantique, le moteur renvoie toutes les réponses pertinentes. Accès aux différents moteurs
http://www.zefab.info/
jeanpauldecle@hotmail.com
16
Les moteurs de recherche Problématiques d’entreprise La situation Multiplication des moteurs au sein des applications d'entreprise (portails, CM, KM,...)
Un moteur de recherche adapté aux ressources humaines n'est pas nécessairement adapté aux services financiers
Les conséquences Augmentation des ressources de stockage des index Consommation des ressources serveurs pour le traitement des index Problèmes de sécurité Problèmes de cohérence de résultats Problèmes d'administration Multiplicité des interfaces utilisateur La réponse des acteurs majeurs (IBM, Oracle, SAP, Microsoft,…) Développer des moteurs de recherche universels et omniscients
17
jeanpauldecle@hotmail.com
17
Les moteurs de recherche Problématiques d’entreprise Quelques solutions
Oracle Secure Enterprise Search 10g
IBM OmniFind
Microsoft: Windows Search Live Preview
Google OneBox
18
Quelques solutions d'entreprise Oracle Secure Enterprise Search 10g • Indexation des sources de données non Oracle: Microsoft Exchange, Microsoft Sharepoint, IBM Lotus Notes, EMC Documentum,... • Plate-forme évolutive via des connecteurs offerts par des tierces parties • Gestion des sécurités au travers d'un répertoire d'identités virtuelles qui s'interface avec MS Active Directory, Novell eDirectory, Sun Java System Directory Server et OpenLDAP IBM OmniFind (http://omnifind.ibm.yahoo.net/) adopte la même interface utilisateur que celle de Yahoo • OmniFind Yahoo! Edition IBM (gratuit) • OmniFind Enterprise • OmniFind Discovery Microsoft Windows Search Live Preview/Fast Microsoft Windows Search Live recherche • sur le poste utilisateur • dans les espaces Sharepoint Server 2007 • sur le Web Microsoft Search Server 2008, le moteur de recherche pour entreprises de Microsoft sera gratuit. En rachetant l’éditeur de moteur de recherche linguistique norvégien Fast, Microsoft valide le marché de la recherche pour entreprise et en annonce les prochaines étapes : d’autres rachats, mais aussi l’émergence de nouvelles offres. Google OneBox Connexion de l'appliance aux bases Cognos, Cisco, Netsuite, Oracle, Salesforce.com, SAS,... • Google Mini Petites entreprises Indexe de 50 000 à 300 000 documents 1 995 € • Google Search Appliance Grandes et moyennes entreprises 30 000 € pour les systèmes de recherche portant sur 500 000 documents
jeanpauldecle@hotmail.com
18
Conduire un projet de GED
19
Les acteurs de l’équipe projet
jeanpauldecle@hotmail.com
19
Projet de GED: les étapes
20
De l'usage des référentiels documentaires Les solutions de gestion de contenu (CMS), que ce soit de gestion documentaire (GED) ou de gestion de contenu Web (WCM) intègrent pour la plupart des outils de gestion de référentiel. Ces outils permettent de définir un vocabulaire unique, commun à tous les utilisateurs, et qui sera utilisé pour l'indexation et la restitution des contenus. Les outils les plus courants sont les suivants: • le plan de classement : un code, un libellé • le tableau de gestion : plan de classement associé à des durées de conservation, des informations du cycle de vie, des mentions de responsabilité • le thésaurus : mot clé, relations hiérarchiques, relation d'équivalence, synonymes, traductions • l'ontologie : sur-ensemble des outils précédents. Elles permettent de représenter des connaissances sous forme de mot clé associé les uns aux autres par des relations sémantiques L'utilité de ces référentiels a évolué vers des domaines tels que : • les synonymes : chaque mot clé est associé à des synonymes qui sont considérés comme des équivalents par le moteur de recherche • la durée de conservation : par l'adjonction de cycle de vie par rapport à des plans de classement • l'exploration de corpus documentaire : par la présentation d'informations du référentiel dans l'interface de l'utilisateur (navigation par arborescence, par exemple) Certaines solutions ne se basent pas sur des référentiels existants mais génèrent des référentiels automatiques par des analyses statistiques ou sémantiques.
jeanpauldecle@hotmail.com
20
Conduire un projet de GED Outils de référence du records management 1. Le plan de classement des activités représente l’organisme à travers ses activités fait le recensement des activités et les organise hiérarchiquement
Le premier niveau reflète habituellement la fonction Le deuxième niveau est basé sur les activités constitutives de la fonction Les niveaux inférieurs détaillent les activités ou ensemble d’actions composant chaque activité.
21
Exemple de plan de classement des activités Management Définition de la stratégie Elaboration du budget Pilotage de la production … Conduite des travaux Recherche de clients et de marchés Contractualisation Conduite des projets … Support fonctionnel Ressources humaines Comptabilité …
jeanpauldecle@hotmail.com
21
Conduire un projet de GED Outils de référence du records management 2. Le référentiel de classement et d’archivage des documents
s’appuie sur le plan de classement des activités indique pour chacune des activités : Les catégories documentaires de l’activité
Et pour chaque catégorie documentaire : • • •
si elle est à enregistrer dans le système d’archivage ou non sa durée de conservation le sort à appliquer aux documents de cette catégorie à l’issue de la durée de conservation: destruction ou versement aux archives définitives.
22
jeanpauldecle@hotmail.com
22
RM: Paramétrage d'une solution
23
Records management: paramétrage d'Alfresco Les fonctionnalités de Records Management d'Alfresco répondent aux standards de Records Management définis par le Département de la Défense américaine (DOD 5015.2). Les outils et les fonctionnalités de la solution sont les suivants: • Plans de classement: classification et programmation automatiques des records à partir de plans de classement pré-existants et de structures standardisées • Plans des types de documents: classification et programmation automatiques des records à partir de types de documents pré-existants • Gestion automatisé du cycle de vie: programmation, activation des changements de contenu et des méta-données à partir de règles simples • Numérotation automatique des documents • Polices de rétention et d'archivage • Mise à disposition: contrôle et programmation du maniement des archives, transferts, accès, destruction • Pré-population des méta-données • Tableaux de bord: rapports prédéfinis et définition de types de métadonnées • Modèle d'administration DOD 5015.2 • Recherche rapide
jeanpauldecle@hotmail.com
23
RM: Paramétrage d'une solution
24
Records management: paramétrage d'Alfresco Records Les records peuvent être de n'importe quel type de fichier entré dans le plan des fichiers. Les rôle des métadonnées est de classer les records et de contrôler le cycle de vie du record. Selon les instructions et les informations stockées dans le plan des fichiers, les records sont gardés ou détruits conformément au programme défini dans le plan des fichiers. La gestion du cycle de vie se fait à travers les propriétés du plan des fichiers et les métadonnées associées au record.
jeanpauldecle@hotmail.com
24
Les solutions logicielles
25
Les solutions logicielles > Les acteurs majeurs > Convera
jeanpauldecle@hotmail.com
25