REPERE
Ressources Electroniques Pour les Etudiants, la Recherche et l’Enseignement
http: //re p
ere .e
n
ss .f ib
r
2007
REPERE
Ressources Electroniques Pour les Etudiants, la Recherche et l’ Enseignement
Sommaire • Avant-propos ...................................................................................................... 05 Les usages • Recherche – Chercher de l'information .............................................................. 07 L’offre • Acteurs – Acteurs, intermédiaires et médiateurs ................................................. 13 • Historique – La recherche des ressources électroniques .................................... 21 • Economique – Les coûts des ressources électroniques ..................................... 25 • Techniques – Accès aux ressources électroniques et à l’Internet ....................... 29 • Législation – Création et utilisation de ressources électroniques ........................ 39 • Typologie – Typologie des informations scientifiques ......................................... 45 • Supports – Les supports de l’information ............................................................ 51 La recherche • Méthode – Savoir rechercher et interroger ........................................................ 55 • Langages – Les langages documentaires ............................................................. 61 • Evaluation – Evaluer l'information sur Internet .................................................... 65 Les résultats • Gestion – Les logiciels de gestion de références bibliographiques ..................... 71 • Veille – Initiation aux outils et méthodes de veille sur internet ............................ 75 • Citations – Rédaction et citation des références bibliographiques ...................... 79 • Favoris – Gestion des signets, favoris ou bookmarks ......................................... 83 Les outils • Interfaces – Les interfaces ................................................................................... 87 • Généralistes – Les outils de recherche d'information sur le Web ........................ 91 • Spécialisés – Outils de recherche de pages Web spécifiques au domaine scientifique ....................................................................................... 97 • Multimédia – La recherche des documents multimédia sur Internet ................ 103 • Les adresses......................................................................................................... 111
3
REPERE
Avant-propos
D
epuis la parution en 1999 de la dernière édition papier du guide “Banques de données pour les étudiants, les enseignants, les chercheurs”, les actions de formation des étudiants à la recherche documentaire se sont généralisées dans les universités françaises. Devant le fort pourcentage d’échecs au cours des deux premières années universitaires – qui peut s’expliquer notamment par une difficulté d’adaptation aux exigences des études supérieures – l'apprentissage de la méthodologie documentaire apparaît aujourd'hui comme un facteur essentiel pour la réussite des étudiants. Plus encore, dans un monde où se multiplient et se complexifient les sources d’information et où les notions d'auto-apprentissage tout au long de la vie se sont imposées, la maîtrise des compétences documentaires (l'“information litteracy”) révèle chaque jour davantage son importance. Aujourd'hui, grâce notamment à l'impulsion donnée par la mise en place du LMD dans l'enseignement supérieur, les formations à la méthodologie documentaire sont fréquemment inscrites dans les cursus universitaires sur la base de partenariats étroits entre les enseignants-chercheurs et les professionnels de l’information. Ces collaborations ont également permis l’élaboration de référentiels de compétences ciblés sur les étudiants, tel Erudist (www.erudist.fr) développé par l’université de Grenoble 2, ou encore des référentiels de compétences pour les formateurs comme Metafor (www.uhb.fr/urfist/metafor/) et Forsic (www.urfist.cict.fr/forsic.shtml) respectivement réalisés par les URFIST de Rennes et de Toulouse. Ces outils fournissent de précieuses indications aux enseignants pour l’organisation de parcours pédagogiques adaptés à leurs différents publics et peuvent également leur être utiles pour la réalisation de supports de cours. La plupart du temps, ces supports pédagogiques s’appuient sur les ressources documentaires offertes par les bibliothèques universitaires – ressources qui, ces dernières années, ont non seulement augmenté d’un point de vue quantitatif, mais se sont aussi fortement diversifiées avec l'émergence de nouveaux supports et moyens de diffusion de la connaissance. Ce guide, héritier des “Banques de données pour les étudiants, les enseignants, les chercheurs”, réactualisé et publié par le service Formist de l'ENSSIB avec le soutien du ministère de L’Education nationale, de l'Enseignement supérieur et de la Recherche (sous-direction des bibliothèques et de la documentation), vise principalement à présenter aux étudiants et aux chercheurs les ressources documentaires dont ils peuvent disposer, afin de les aider à identifier, analyser, organiser et restituer les informations qui leur sont nécessaires pour la réussite de leurs études et le parachèvement de leurs travaux. Jean-Emile Tosello-Bancal Conservateur général des bibliothèques Sous-direction des bibliothèques et de la documentation Direction de l’enseignement supérieur Ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche
5
REPERE
Les usages Chercher de l’information : outils, usages et pratiques Auteurs : Jo LINK-PEZET Maître de conférences - URFIST de Toulouse
Elisabeth LACOMBE Conservateur des bibliothèques - URFIST de Toulouse urfist@cict.fr
Olivier ERTZSCHEID ATER - URFIST de Toulouse
08 09 10 10
Ressources et pratiques documentaires : leur évolution depuis 1970 La recherche documentaire : un processus d'apprentissage Rechercher de l'information, c'est exprimer une stratégie, une intention Internet, un espace coopératif
Chercher de l’information
Les usages
➔
Depuis quelques années, la recherche d'informations bibliographiques (ou « recherche documentaire ») est passée d'une pratique généralement orientée vers la consultation de catalogues, de bibliographies, de documents primaires, conservés dans des lieux dédiés comme des bibliothèques ou des centres de documentation, à une pratique plus complexe qui associe l'utilisation du papier (ouvrages, périodiques, bibliographies) à celle du micro-ordinateur et des réseaux. L'utilisation de ces ressources et de ces outils nécessite un apprentissage permanent.
Ressources et pratiques documentaires : leur évolution depuis 1970
D
ans ce sens, les années 70 ont v u l ' a p p a r i t i o n d e s p re m i è re s banques de données en ligne, donnant un accès plus rapide et plus performant à l'information. Cependant, les procédures d'information étant souvent complexes, les équipements nécessaires rares, les interrogations étaient alors réalisées par un « professionnel » de l'information (bibliothécaire ou documentaliste), en raison des coûts relativement élevés de l'interrogation, des caractéristiques formelles de l'information stockée, cataloguée, indexée pour en faciliter l'accès, des langages d'interrogation souvent très peu conviviaux. Au milieu des années 80, le développement du cédérom permet, à un coût raisonnable, de mettre à la disposition des usagers des campus (étudiants, ensei-
gnants, chercheurs) des outils multimedia (son, image, couleur, graphisme) autorisant des recherches documentaires sans contrainte de coût et de durée. Mais si l'utilisation du cédérom semble plus simple que celle des banques de données, des formations spécifiques destinées aux étudiants sont alors mises en place, car contrairement aux attentes, ces outils nécessitent un mode d'emploi et la connaissance de la structure de l'information pour découvrir l'information pertinente au regard du besoin exprimé. C'est l'Internet (années 90) qui va modifier de façon presque radicale le paysage, en permettant l'accès à de nombreuses sources d'informations hétérogènes, reliées entre elles en un vaste hypertexte, ce qui va profondément et durablement bouleverser les pratiques de recherche, d'usage et de production de l'information.
• INTD-ER. Vocabulaire de la documentation. Paris : ADBS, 2004 (Sciences et techniques de l'information).
Evolution des pratiques à l'heure d'Internet L'Internet se caractérise : • comme un réservoir immense (et continuellement alimenté) d'informations pour rechercher de l'information multimedia : textes, images, sons... et récupérer des ressources, • par un usage individuel et collectif : outre la recherche d'information, il permet la communication synchrone et asynchrone entre différentes personnes, les échanges et l'interactivité, à travers le courriel, les listes de discussion, les forums, les blogs, les foires aux questions (FAQs), autant d'outils qui permettent de « rencontrer » des experts, des pairs et de travailler en équipe, • par sa flexibilité, qui fait de l'utilisateur un lecteur, un gestionnaire d'information, mais aussi un producteur d'information. Ainsi, en raison de la complexification des usages et de la recherche d'information, il devient encore plus indispensable à l'utilisateur de recevoir une formation aux différents types d'outils et à leur usage pour devenir : • chercheur d'information dans des sources hétérogènes : leur contenu reste parfois à valider, ce qui nécessite une appréciation encore plus fine de la nature et des qualités de l'information, • gestionnaire : récupération de textes et autres documents, exploitation par des logiciels de gestion, • et enfin auteur : création de textes, possibilités de ré-écriture et de modification de texte récupéré.
Quelques questions auxquelles la recherche documentaire permet de répondre L'objectif final de la recherche documentaire est variable, • par exemple : constituer une bibliographie, simple ou annotée, • faire un rapport, • faire un mémoire ou une thèse, • faire une étude de marché, de faisabilité, de concurrence, • faire une étude comparative de produits, • faire une étude d'antériorité. Dans tous les cas, il faut savoir être clair sur ce qu'on recherche et de surcroît comprendre et connaître : • les principes généraux de l'information documentaire : acteurs de la production d'information scientifique et technologique, conditions de stockage, topologie des lieux et des accès, • les traitements subis par l'information lors de la mise en mémoire : langages documentaires, indexation, ce qui facilite la recherche et l'accès de l'information, • l'évolution de ces modes de traitements, pour savoir utiliser les différents types d'outils bibliographiques disponibles, • les outils et les techniques de la recherche d'information eux-mêmes, car ils influent sur les modalités de recherche, les stratégies de recherche et d'interrogation, • les principes d'analyse et d'exploitation des résultats obtenus, pour évaluer la pertinence de l'information en vue de son utilisation future, ce qui va permettre de produire un nouvel élément de connaissance.
La recherche documentaire : un processus d'apprentissage
L
a recherche d'information peut être considérée comme un processus d'ap-
prentissage permanent. Pour trouver son chemin dans le dédale actuel de l'infor-
9
REPERE
Les usages
Chercher de l’information
mation mise à sa disposition, l'usager des campus doit avoir acquis différents niveaux de connaissances.
chie, contextualisée de la recherche d'information et il met en évidence les aspects sociaux du travail intellectuel et scientifique.
1. La culture informationnelle
3. L'usage expert de l'information
Ce premier niveau général correspond à la compréhension du milieu, des outils, des pratiques. Il va permettre de bâtir une représentation de l'offre disponible en ce qui concerne les outils d'information, mais aussi, et peut-être surtout, de découvrir et d'expérimenter les usages possibles.
Cet usage de la recherche d'information réclame des compétences et des traitements spécifiques (type bibliométrique ou infométrique avec des outils comme Tétralogie, Sampler, SEE-K, etc., ou ceux développés par Jean Véronis), permettant de montrer l'évolution d'un domaine à partir de vastes ensembles d'information, d'établir des représentations cartographiques dynamiques qui donnent une vision synthétique d'un champ, d'un domaine. Ces mises en relation font apparaître des éléments d'information non perceptibles à première vue, en mettant en œuvre des traitements statistiques ou lexicographiques multidimensionnels.
2. La maîtrise d'un champ disciplinaire Ce niveau permet de construire la connaissance d'une discipline et la vision d'un champ disciplinaire, à travers l'appréhension de sa production scientifique spécifique. Il doit aider à élaborer une vision enri-
Rechercher de l'information, c'est exprimer une stratégie, une intention
A
ujourd'hui, Internet pose un problème aigu à l'usager car il donne accès à toutes sortes de ressources d'information (certaines étant formalisées, certifiées, d'autres ne l'étant pas, certaines étant payantes, d'autres pas). L'utilisateur est le point structurant de la démarche de recherche d'information qu'il effectue à partir de ce qu'il sait, de la repré-
sentation qu'il a de l'information recherchée. Cette représentation dépend de ses besoins et de l'univers informationnel qu'il a déjà créé. A partir de ce qu'il sait, il devra trouver l'information qui correspond à ses intentions. Mais il ne trouvera que ce qu'il aura su demander : son niveau de satisfaction est « indexé » à ce qu'il sait déjà.
Internet, un espace coopératif
L'
utilisateur a désormais la possibilité de produire de l'information, ce qui est en principe facilité par la performance accrue des outils logiciels disponibles.
REPERE
10
L'édition en ligne (pré-prints et publications non commerciales) se développe, la chaîne éditoriale se transforme via l'édition électronique et les archives
ouvertes, des portails thématiques proposent des sélections de sites. Les facilités de communication offertes par ces outils permettent de choisir de travailler à un niveau individuel et d'exploiter les ressources du réseau pour s'auto-former. Elles donnent aussi aux utilisateurs l'opportunité de travailler collectivement, en mettant en évidence et en relation les connaissances de différentes personnes
(ce qui confirme le caractère très socialisé du travail intellectuel), et en permettant d'échanger à l'intérieur d'une communauté d'intérêts créatrice de liens et d'usages différenciés. La connaissance de ces ressources et de ces possibilités sont nécessaires pour les utiliser aux mieux, ce vers quoi la lecture de cet ouvrage va s'efforcer d'entraîner le lecteur.
@ • LARDY Michèle. Dictionnaire technique français / anglais [en ligne].
http://mist.univ-paris1.fr/dico/glossaire-a-i.html • VÉRONIS Jean. Technologies du langage [en ligne].
http://aixtal.blogspot.com
L’offre Acteurs, intermédiaires et médiateurs de l'information scientifique numérique Auteur : Ghislaine CHARTRON Professeur - Institut national de la recherche pédagogique chartron@inrp.fr
14 15 17 18
Les services Quelques acteurs importants Réorganisation de la chaîne de la documentation scientifique électronique Quelques chiffres sur l’offre des ressources électroniques
Acteurs
Un aperçu des différents services et acteurs qui interviennent dans l'information spécialisée permet de mieux comprendre et appréhender l'évolution liée à l'apparition du web et ses répercussions sur la recherche d'information dans les ressources électroniques.
➔
Les services
L’offre
A
u cours des trente dernières années, chaque support dominant à une période donnée (banques de données ASCII, cédéroms, Internet) fut associé à une organisation particulière de la chaîne de production-diffusion de la documentation scientifique, et parallèlement, à l'émergence de nouveaux acteurs. La chaîne de la documentation scientifique
implique en effet des acteurs variés, qui proposent, à différents niveaux, des services à valeur ajoutée. Le tableau ci-dessous résume les principaux services et propose quelques exemples d'acteurs en correspondance. Plusieurs niveaux sont distingués : contenu, dispositif technique, distribution-commercialisation, usager.
Types de services
Contenu
Acteurs
Elaboration du contenu
Chercheurs, laboratoires, sociétés savantes, éditeurs
Mise en support et diffusion du contenu
Editeurs
Production d'information secondaire : banques de données bibliographiques, de sommaires
Exemples : INIST, NIH Editeurs : IEE pour Inspec. Universités, chercheurs
Accès aux infrastructures de réseau Universités Production électronique, système d'accès
Fournisseurs d'accès Internet, Universités Serveurs (Dialog, Questel...), Editeur, Editeur électronique (HighWire Press...), Universités, Laboratoires Bibliothèque
Dispositif technique
Interface fédératrice pour l'usager Agrégation de différents contenus primaires ou secondaires Archivage numérique
Archives ouvertes
Exemples : Proquest, Erudit, Ovid Exemples : OCLC, JSTOR, éditeurs Services universitaires (CCSD...)
• AUBRY Christine, JANIK Joanna. Les archives ouvertes : enjeux et pratiques. Guide à l’usage des professionnels de l’information. Paris : Edition ADBS, 2005 (Sciences et techniques de l'information).
Types de services
Distribution, commercialisation
Usager
Acteurs
Distributeur
Exemples : OCD, Bibliopolis, agences d'abonnements
Fournisseur de documents à l'unité
Exemples : Ingenta, British Library, INIST, PEB. Editeurs
Gestion des ressources en ligne
Bibliothèques, universités
Formation présentielle ou à distance
Bibliothèques ou enseignants, producteurs, éditeurs
Toutefois, les acteurs impliqués opèrent de plus en plus à des niveaux divers, car il existe une tendance forte à l'intégration des services, accélérée avec le développement des technologies Internet. Ainsi, de nombreux éditeurs de revues scientifiques développent des services d'accès aux archives électroniques de leurs revues, ils peuvent aussi
développer un dispositif d'accès par Internet (plateforme ScienceDirect de l'éditeur Elsevier) et assurent de plus en plus une diffusion directe de leurs produits aux bibliothèques, sans intermédiaire commercial. De surcroît, des guides d'auto-formation aux services sont également disponibles sur ces plate-formes.
Quelques acteurs importants Au niveau du contenu Les auteurs (chercheurs, étudiants, organismes divers) produisent l'information primaire. Ils travaillent en collaboration avec des éditeurs qui organisent la validation scientifique, assurent la mise en support et la diffusion des contenus. Le développement d'Internet n'a généralement pas supprimé cette fonction intermédiaire, mais a élargi le potentiel d'acteurs concernés : les institutions publient directement différents documents sur leur site web par exemple, les bibliothèques peuvent devenir éditrices. Editeurs scientifiques Ils sont très nombreux et d'origines diverses, partagés entre l'édition de revues et d'ouvrages. On distingue les grands groupes internationaux (comme ReedElsevier, Wolters Kluwer) particulièrement présents en médecine et en droit, les grandes sociétés savantes américaines et européennes présentes dans les sciences exactes (American Chemical Society,
European Physical Society), les sociétés savantes nationales plus nombreuses en sciences humaines et sociales, ainsi que les institutions, les associations diverses ayant investi des activités d'édition. De nombreux éditeurs ont développé ces dernières années une version en ligne de leurs revues et de certains de leurs ouvrages. Des revues exclusivement numériques ont également été développées. Le rôle d'éditeur organisant la sélection et l'évaluation scientifique reste essentiel dans la communication scientifique, même si des formes de circulation directe des articles se développent aussi de façon parallèle (voir les archives ouvertes). Producteurs d'informations secondaires Ce sont des organismes qui, par un travail systématique de collecte et de sélection des informations, alimentent le contenu des banques de données.
15
REPERE
Acteurs
Avec les technologies Web, entreprises, associations professionnelles, organismes publics ont aussi initié divers services d'informations secondaires, diffusés souvent gratuitement.
Au niveau de la production électronique et du dispositif d'accès Acteurs informatiques
L’offre
Nombreux sont les grandes sociétés et start-up spécialisées qui proposent des services de conception et de réalisation multimédia pour le support cédérom ou le Web. A noter en particulier l'émergence d'acteurs technologiques spécialisés pour la mise en ligne des revues scientifiques dans le bassin anglophone (HighWire Press, Ingenta). Diffuseurs de banques de données Les diffuseurs sont chargés, par les producteurs de données, de la structuration des banques et du développement des outils d'interrogation. Agrégateurs de contenu Ces acteurs se sont positionnés sur la fonction d'agrégation de contenus, ils offrent des services qui permettent notamment d'interroger plusieurs banques de données, de consulter des collections de revues de différents domaines.
Au niveau de la distribution commerciale Distributeurs commerciaux La distribution commerciale des produits et des services documentaires peut-être assurée soit par le producteur directement (en extension avec Internet), soit par un même intermédiaire ayant développé des interfaces d'accès techniques, soit par un autre intermédiaire impliqué dans des réseaux de distribution élargis. Dans le cas des banques de données, les serveurs cités précédemment assurent ce rôle de distributeur. De la même façon, les intermédiaires techniques spécialisés dans la production de cédéroms en assurent aussi la commercialisation, tout en travaillant avec d'autres réseaux de distribution. Fournisseurs de document à l'unité
Prestataires de services pour les archives ouvertes Les archives ouvertes sont des réservoirs d'articles en accès libre, sans barrière économique ni juridique, organisés de façon parallèle aux autres supports de communication scientifique (revues, ouvrages...). Le mouvement des archives ouvertes est proche du mouvement du logiciel libre, il intègre notamment des protocoles techniques d'interopérabilité devant permettre à un usager d'interroger
REPERE
de façon transparente plusieurs archives ouvertes. En France, le Centre pour la Communication Scientifique Directe (CCSD) du CNRS propose des archives ouvertes par type de documents : HAL, Hyperarticle En Ligne http://hal.archivesouvertes.fr/, mais aussi TEL - Thèses En Ligne ou CEL - Cours En Ligne, par institutions ou par thématiques. Le portail Archives-ouvertes.fr http://www.archivesouvertes.fr/ a pour ambition de proposer une archive ouverte pour l’ensemble des communautés scientifiques françaises.
16
La fourniture d'articles à l'unité s'effectue encore majoritairement sous forme papier. De nombreux acteurs proposent aujourd'hui des services de fourniture de documents à l'unité : • les producteurs de banques de données (INIST), • les bibliothèques dans le cadre du prêt entre bibliothèques,
• les éditeurs, directement à partir de leur site, • de nouveaux entrants, tels que Ingenta au Royaume-Uni.
Au niveau des service aux usagers Un ensemble de tâches sont liées à la mise à disposition des ressources électroniques pour l'usager et à son accompagnement pour le développement de bonnes pratiques de recherche d'information. Bibliothèques, centres de documentation Les licences d'accès, les relations avec les éditeurs et autres fournisseurs de contenus sont gérées par les professionnels des bibliothèques et des centres de documentation. La mise en place d'interfaceusager fédératrice est très souvent assu-
rée par ces professionnels attentifs aux demandes et aux besoins des usagers. Par ailleurs, ces services accessibles directement sur le poste-usager nécessitent d'être accompagnés de formations méthodologiques permettant une maîtrise efficace de l'ensemble des ressources offertes, formations souvent proposées par les services documentaires. Auto-formation Les services d'auto-formation peuvent aussi permettre à l'usager de s'approprier certains services et de parfaire ses stratégies de recherche. Les professionnels de l'information ont développé différents guides avec cet objectif : à titre d'exemple CERISE, JURISGUIDE, BIOGUIDE (accessibles sur URFIST de Paris http://www.ext.upmc.fr/urfist) et certaines ressources signalées dans le site FORMIST http://formist.enssib.fr/).
Réorganisation de la chaîne de la documentation scientifique électronique
D
ans la chaîne de la documentation scientifique électronique, l'évitement d'intermédiaires qui opéraient jusqu'à présent entre l'auteur et le lecteur se vérifie désormais à différents niveaux. Certaines tendances de « désintermédiation » peuvent être repérées, et le lecteur final est au cœur de ces mouvements :
• Les transactions directes entre sociétés savantes et chercheurs se concrétisent par la proposition d'accès aux revues en ligne à des tarifs très bas pour les membres de la société.
• La circulation directe des articles de l'auteur au lecteur qui, même si elle existait déjà pour le support papier dans certaines communautés, se trouve amplifiée par le réseau, voire étendue à d'autres champs disciplinaires. Les structures organisationnelles liées à cette communication directe sont plus ou moins coordonnées et investies par un financement public (soutien à la construction de « nouvelles infrastructures »).
• Les transactions directes de vente à l'unité entre les producteurs de banques bibliographiques (qui sont aussi fournisseurs de documents primaires très souvent) et le lecteur.
• Les transactions directes des éditeurs avec les bibliothèques, par le développement des consortiums d'achats.
Enfin, une intégration verticale est importante à souligner : • pour la fonction de diffusion et de mise à disposition qui, auparavant, justifiait le rôle de plusieurs intermédiaires (diffuseurs, agences d'abonnements, bibliothèques),
17
REPERE
Acteurs
• pour les contenus : bases de données bibliographiques, articles, archives, services de veille tendent maintenant à être proposés de façon intégrée à l'usager. Mais ces évolutions sont variables selon les communautés, les contextes institutionnels, le statut des lecteurs… et même dans les domaines particulièrement avan-
cés pour la mise en place de dispositifs de communication directe entre chercheurs, il existe des phénomènes d'accumulation de services plus que de substitution. Ainsi, les revues papier continuent à être largement défendues pour deux raisons majeures : le confort du support de lecture et la garantie d'un archivage indépendant.
Quelques chiffres sur l’offre des ressources électroniques
L’offre
M
ême si l'inventaire devient de plus en plus difficile, quelques grands répertoires internationaux visent à recenser les banques de données d'information professionnelle et scientifique, quel que soit leur support. Le “Gale Directory of Online, Portable and Internet Databases”
produit par Gale Group est une source importante, mais qui comporte des limites géographiques et thématiques : des produits américains non accessibles en France sont comptabilisés, tandis que toutes les banques françaises ne sont pas prises en compte.
Evolution du nombre de banques de données, de producteurs et de distributeurs Années
Nombre de banques de données
Nombre de producteurs
Nombre de distributeurs
1975 301 200 105 1985 3 010 1 210 614 1995 9 207 2 860 1 810 1997 10 033 2 938 1 805 2001 15 300 3 600 2 000 2004 15 600 4 000 3 100 Source : “The State of databases Today: 1997. MARTHA E. WILLIAMS. In : Gale Directory of Databases. Gale Research Inc. Ed, 1997” et chiffres de la version 2001 et 2004 du répertoire.
Caractéristiques récentes de la production des banques de données (Source : Gale Directory of Online, Portable, and Internet Databases, interrogée en ligne sur DialogWeb, juin 2002). La diffusion en ligne des banques de données est la plus importante ; la diffu-
REPERE
18
sion sur cédérom est en régression et le support disquette est en voie de disparition. La diffusion sur Internet selon des modèles économiques très variés tend à s'imposer. Les banques en texte intégral sont les plus nombreuses (8 233), les bases bibliographiques sont encore au deuxième rang (3 006), les répertoires occupent la troisième place (2 855), presque au même
niveau que les bases numériques et les bases d'images qui sont également importantes (respectivement 2 736 et 1 893).
Zoom sur Internet [Source internationale : Internet Software consortium (Internet Systems Consortium http://www.isc.org/) ; source européenne et française : RIPE Network Coordination Centre (http://www.ripe.net/)].
Au niveau mondial, on comptait en juillet 2006 plus de 440 millions de machines serveurs (on compte, selon ces chiffres, le nombre d'adresses IP auxquelles est assigné un nom) ; la croissance est particu-
lièrement exponentielle ces dernières années : Croissance Internet http://www.isc.org/index.pl?/ops/ds/reports/ 2006-07/
En janvier 2007, l'Europe compte près de 21 millions de machines serveurs. Les PaysBas arrivent nettement en tête avec plus de 4,8 millions de machines, suivis de la France (2,3 millions). Les chiffres ne sont pas donnés pour le Royaume-Uni, normalement situé dans les pays les mieux dotés. Il faudrait relativiser ces chiffres à la population respective des pays (pour tenir compte du taux de pénétration), ce qui ferait considérablement descendre la France.
@ • ArchiveSIC : archive ouverte en sciences de l'information et de la communication [en ligne].
http://archivesic.ccsd.cnrs.fr/ • ArXiv.org : e-Print Archive Mirror [en ligne].
http://fr.arxiv.org/ • Distribution et rémunération des services en ligne [en ligne].
http://www.leskiosques.com/ • EconPapers [en ligne].
http://econpapers.repec.org/ • FORMIST - Réseau francophone pour la formation à l'usage de l'information dans l'enseignement supérieur [en ligne].
http://formist.enssib.fr/ • I-Minitel - Emulateur Minitel pour Internet [en ligne].
http://www.i-minitel.com/ • Internet Systems consortium [en ligne].
http://www.isc.org/ • Internet Systems consortium. Internet Domain Survey, july 2004 [en ligne].
http://www.isc.org/ops/ds/reports/2004-07/
Acteurs
Zoom sur le Vidéotex (Sources : Mission pour l'économie numérique, ministère de l'Economie, des Finances et de l'Industrie, Mission pour l'économie numérique, http://www.men.minefi.gouv.fr/ ; France Telecom, Distribution et rémunération des services en ligne http://www.leskiosques.com/).
Zoom sur le Cédérom Si, en juin 2006, le Gale Directory of Online, Portable, and Internet Databases recense 7878 cédéroms, concernant une couverture essentiellement professionnelle, la plupart de ces cédéroms ne sont plus disponibles. Ce support est clairement devenu obsolète .
L’offre
Ces dernières années ont été marquées par une baisse continue et linéaire du trafic Minitel, de 86 % en 10 ans. En 2007, seuls les services professionnels ou de banques/finances semblent se maintenir
(respectivement un tiers et un quart du trafic minitel). La migration des services et des usages vers l’internet se fait de manière irréversible.
• Los Alamos National Laboratory [en ligne].
http://www.lanl.gov/ • Mission pour l'économie numérique [en ligne].
http://www.men.minefi.gouv.fr/ • RIPE Network Coordination Centre [en ligne].
http://www.ripe.net/ • Scirus - for scientific information [en ligne].
http://www.scirus.com • URFIST de Paris [en ligne].
http://www.ext.upmc.fr/urfist
@
L’offre La recherche des ressources électroniques : un aperçu historique Auteur : Catriona BERGIA Ingénieur d'étude - ENSSIB
22 23 23 23 24 24
Les années cinquante Les années soixante Les années soixante-dix Les années quatre-vingt Les années quatre-vingt dix Les années deux mille
Historique
➔
Les débuts puis le développement de la recherche documentaire informatisée ont été intimement liés à l'apparition et au développement de l'informatique et de la télécommunication.
Les années cinquante : premières recherches, premiers chercheurs “experts”
L’offre
L'
apparition des premiers ordinateurs, dans les années cinquante, a permis leur utilisation pour assister la recherche documentaire. Initialement, ces machines ne servaient qu'à lire des cartes trouées qui portaient des informations codées, mais une évolution rapide leur a donné la possibilité de consulter, par voie d'impression et de manière extrêmement rudimentaire, des données stockées sur bandes magnétiques. Pendant cette première période, les recherches nécessitent la présence de l'interrogateur sur place, à coté de la machine, car la seule manière de lire les informations obtenues est la lecture des « sorties » papier (l'écran n'existe pas
encore). Les données contenues dans les premières bases sont initialement fournies sous forme de listings, sans aucun tri, filtre, ou sélection possible. Puis, avec la création d'index, il devient possible de lancer les premières requêtes, parfois groupées afin d'optimiser l'utilisation des machines, car le temps de recherche peut se compter en heures ou même en jours. La manipulation des machines de cette époque s'effectue par des experts, car elle nécessite de connaître précisément les machines, ainsi que leur fonctionnement. Ces experts reçoivent des demandes de recherches, souvent par courrier, et après avoir réalisé le travail demandé, expédient les réponses par la même voie.
• CHAUMIER Jacques. Les Techniques documentaires au fil de l'histoire : 1950-2000. Paris : ADBS, 2002 (Sciences de l'information ; Série Études et techniques). • COMBEROUSSE Martine. Histoire de l'information scientifique et technique. Paris : Nathan, 1999 (Collection 128 ; Information-documentation). • FAYET-SCRIBE Sylvie. Histoire de la documentation en France. Culture, science et technologie de l'information : 1895-1937. Paris : CNRS Editions, 2000.
Les années soixante : réseaux et bases de données, les utilisateurs “intermédiaires”
L
a fin des années soixante voit la situation évoluer considérablement. Du fait de la simplification de l'utilisation des machines, le nombre des personnes formées pour réaliser des recherches documentaires s'accroit. Ces intermédiaires travaillent pour répondre à la demande d'utilisateurs finaux, qui souhaitent exploiter les données résultant des recherches. Ainsi est né le métier de documentaliste. En parallèle, la possibilité de se connecter à un ordinateur distant est devenue réalité avec l'utilisation d'abord du réseau téléphonique existant, puis de réseaux
dédiés, souvent mis en place pour des objectifs gouvernementaux et publics (militaire, recherche, santé). Les requêtes s'effectuent sur des terminaux affectés à certaines bases pour la consultation, et sont lancées par lot afin d'optimiser le temps d'utilisation. Cette méthode reste également très rigide, car il n'est guère possible de modifier et de relancer une requête en fonction des premiers résultats obtenus. Par ailleurs, le documentaliste doit utiliser et maîtriser des langages de requête spécifiques pour consulter les bases de données.
Les années soixante-dix : la recherche “en ligne”, les disques durs, les serveurs commerciaux
D
ans les années soixante-dix, la consultation de bases de données en mode « conversationnel » se développe, avec des échanges d'information de plus en plus rapides entre le documentaliste et la machine ; les requêtes peuvent alors être traitées de façon individuelle. Ce gain de temps a été rendu possible grâce au transfert des informations des bandes magnétiques vers les disques de stockage de données, disques qui permettent un
accès libre et plus direct aux informations : il n'est plus nécessaire, comme avant, de parcourir l'ensemble des données lors de chaque requête. Les bases de données deviennent alors de plus en plus nombreuses, et se commercialisent via des accès par l'intermédiaire de serveurs commerciaux payants. Si environ 20 bases étaient disponibles au milieu des années 1965, elles sont près de 200300 dix ans plus tard.
Les années quatre-vingt : les interfaces graphiques, la consultation en simultanée, l'utilisateur “final”, le cédérom
D
ans les années quatre-vingt, une multitude d'améliorations et de nouvelles possibilités sont apportées dans la
recherche documentaire informatisée. Des interfaces graphiques facilitent tous les aspects de la recherche : système de
23
REPERE
Historique
recherche adapté au niveau de compétence du chercheur (recherche guidée / experte), accès aisé à des fonctions d'aide. La recherche peut alors être enfin effectuée directement par l'« utilisateur final », sans plus passer par un intermédiaire. Les développements en informatique rendent aussi possible la consultation de plusieurs bases de données en simultané, permettant une amélioration en qualité de tous les aspects de la recherche.
Enfin, lors de cette période, l'utilisation de cédéroms permet l'interrogation de bases de données sur des postes informatiques en local, sans connexion à un réseau, avec un confort graphique amélioré, une simplicité apparente d'utilisation, etc. C'est à cette période que la formation à la recherche documentaire informatisée s'est développée dans les bibliothèques.
L’offre
Les années quatre-vingt dix : Internet, cédérom en réseau, revues électroniques
L
e développement d'Internet, dans les années quatre-vingt dix, a facilité l'accès à des ressources documentaires électroniques, et le nombre d'« utilisateurs finaux » de ces ressources s'est alors multiplié. La recherche documentaire informatisée est une activité qui semble maintenant pratiquée par le grand public, même si elle nécessite un minimum de formation et d'encadrement.
Les bases de données disponibles sur cédérom sont aussi désormais interrogeables en réseau et connaissent une utilisation très importante dans les lieux d'étude et de travail. Parallèlement à cela, les revues auparavant disponibles uniquement sur papier sont elles aussi consultables en ligne dans leur version électronique.
Les années deux mille :
I
nternet évolue encore, avec le Web 2.0. Les applications informatiques deviennent « tout web », sont plus interactives avec les utilisateurs, à travers des réseaux sociaux, des possibilités de commentaires et de création d’interfaces enrichies.
Ainsi, les évolutions des technologies, depuis les 60 dernières années, ont eu des conséquences importantes sur les ressources proposées et sur les acteurs qui les interrogent.
• SERRES Alexandre. Histoire des outils et réseaux d'information : de Paul Otlet à Internet [en ligne].
http://www.uhb.fr/urfist/HistInt/Cadres.htm
@
L’offre Les coûts des ressources électroniques Auteur : Ghislaine CHARTRON Professeur - Institut national de la recherche pédagogique chartron@inrp.fr
26 26 27 27
La gratuité Les licences d'accès négociées par l'institution L'achat de biens : l'exemple du cédérom Les accès à la demande, facturation transactionnelle
Economique
➔
La consultation des sources d'information sur supports électroniques dépend de plusieurs variables. Les coûts peuvent être pris en charge par le producteur ou l'usager final, en passant par le fournisseur d'accès (la bibliothèque) selon des modalités diverses.
Les tarifications des produits et des services de documentation électronique se diversifient entre différents modèles :
La gratuité
L’offre
C
ertaines ressources produites et diffusées directement sur le web sont en accès libre et gratuit (voir en particulier la liste des banques de données gratuites maintenue par l'URFIST de Lyon : http://dadi.enssib.fr/). Des revues « nati-
vement » numériques ont opté également pour la gratuité au lecteur. Les financements sous-jacents sont alors trouvés par des subventions en amont, le paiement par les laboratoires des auteurs, quelques ressources publicitaires.
Les licences d'accès négociées par l'institution
L
e modèle concerne tout particulièrement les revues scientifiques papier ayant développé une version en ligne. Les licences sont négociées dans un cadre
contractuel entre le producteur et le client. Elles permettent un accès illimité en durée, disponible à partir des différents postes situés dans l'institution. Les accès distants
• CHARTRON Ghislaine (dir.). Les chercheurs et la documentation numérique : nouveaux services et usages. Paris : Cercle de la Librairie, 2002. • CHARTRON Ghislaine. L'édition scientifique face à Internet. In Bibliothèques numériques : cours INRIA, 9-13 octobre 2000, La Bresse. Paris : ADBS, 2000 (Etudes et techniques). • SALAÜN Jean-Michel (dir.). Economie et bibliothèques. Paris : Cercle de la librairie, 1997. • SHAPIRO Carl, VARIAN HAL R. Economie de l'information, guide stratégique de l'économie des réseaux. Bruxelles : De Boeck Université, 1999.
(de chez soi) sont parfois possibles avec des mots de passe.
sur un abonnement papier institutionnel préalable,
Les licences marquent une étape importante, à savoir l'évolution de l'acquisition d'un bien (un livre, une revue papier) à un droit d'accès annuel sur un serveur distant. Toutes les licences ne garantissent pas un droit d'accès perpétuel ou un équivalent papier ou cédérom aux années payées.
• La licence de site qui étend généralement la licence institutionnelle à une entité plus large. La variabilité de la notion de site d'un éditeur à l'autre est grande.
Plusieurs niveaux de licence sont repérables : • La licence individuelle proposée directement au chercheur ou à l'étudiant, • La licence institutionnelle destinée à une bibliothèque et basée très souvent
• La licence pour consortium négociée collectivement pour un ensemble d'institutions regroupées. Le regroupement de plusieurs clients en consortium est aujourd'hui fréquent. Il permet très souvent d'obtenir de meilleures conditions de négociation : réductions selon le nombre d'acheteurs, accès à des versions numériques avec de faibles surcoûts.
L'achat de biens : l'exemple du cédérom
L
e cédérom peut faire l'objet d'une publication unique ou en série. Les prix varient selon qu'il s'agit d'un achat unique ou d'un abonnement avec mises à jour (mensuelles, trimestrielles...). Les mêmes produits sont souvent segmen-
tés par thématique et par nombre d'années proposées. Enfin, suivant la catégorie à laquelle appartient le titre, la fourchette des prix varie - les titres professionnels étant généralement les plus chers.
Les accès à la demande, facturation transactionnelle Les accès ponctuels
L
es accès ponctuels à des ressources électroniques restent très complémentaires aux licences et abonnements annuels. Ils permettent en particulier de satisfaire des besoins spécifiques et sont adaptés à des contextes où la demande est très diversifiée. La tarification est liée à différents éléments de la transaction. Pour l'accès à des banques de données hébergées sur des serveurs tels que Questel ou Dialog, sont pris en considération :
• Les frais d'abonnement annuels : parfois non obligatoires mais dans le cas d'un accès ouvert, une tarification plus élevée est alors appliquée. La carte de crédit peut aussi être demandée, sans possibilité d'ouverture de compte. • Coût horaire de connexion à la banque de données : il peut varier de 35 € à 385 € environ dans le cas du serveur Questel. Les banques de données en pharmacie et certaines banques de brevets ont des tarifications élevées. Des tarifs particuliers peuvent être accordés aux établis-
27
REPERE
Economique
sements publics. Cette tarification à la durée existe pour tous les serveurs, certains tels que Dialog ont introduit aussi une autre tarification liée au temps informatique nécessaire pour traiter une requête (DialUnits) ; la tarification de l'unité n'est alors pas la même selon les banques. Cette dernière proposition tarifaire présente l'intérêt de rendre les coûts indépendants de la qualité de réponse du réseau (Internet ou autres réseaux).
L’offre
• Coût de la référence, de la page texte ou du document, variable selon les banques de données, les formats de visualisation et les opérations effectuées (consultation, impression, téléchargement). • Coût des réseaux : ils diffèrent selon les réseaux utilisés. A titre d'exemple, le serveur Questel propose plusieurs réseaux : Transpac (15 €/heure), Internet (12 €/heure), réseau IP privé du serveur (12 €/heure).
La commande d'articles à l'unité Le coût de fourniture de l'article peut varier en fonction du fournisseur, du mode de transmission (poste, télécopie, service de type ARIEL...), du mode de commande (sur internet ou non), du nombre de pages du document, et enfin de l'exigence de rapidité demandée.
La tarification des services en mode videotex (minitel) De nombreuses banques de données sont encore accessibles sur le support Minitel, même si les accès Internet tendent à être dominants. La tarification est fondée sur la durée de connexion et varie selon les paliers Télétel. En mode vidéotex, l'ensemble des coûts est directement imputé sur la facture téléphonique de l'utilisateur. Pour les accès aux services Minitel via la passerelle Minitel/Internet, à ces coûts horaires se rajoute le coût de la passerelle, variable selon le distributeur choisi.
• Article@INIST [en ligne].
@
http://services.inist.fr/public/fre/conslt.htm • Couperin - COnsortium Universitaire de Publications Numériques [en ligne].
http://www.couperin.org/ • INIST - Institut de l'Information Scientifique et Technique [en ligne].
http://www.inist.fr/ • LARDY Jean-Pierre. DADI : répertoire des bases de Données grAtuites Disponibles sur Internet [en ligne].
http://dadi.enssib.fr/ • Ovid [en ligne].
http://www.ovid.com/ • Questel [en ligne].
http://www.questel.orbit.com/FR/
L’offre Techniques d'accès aux ressources électroniques et à Internet Auteurs : Marie-Françoise DEFOSSE Maître de conférences associée - ENSSIB mf.documentation@wanadoo.fr
Jean-Pierre LARDY Maître de conférences - URFIST de Lyon lardy@cismsun.univ-lyon1.fr
Elisabeth NOËL Conservateur des bibliothèques - ENSSIB elisabeth.noel@enssib.fr
30 33
Dispositifs techniques d’accès à l’information Nature du web
Techniques
➔
La consultation d’informations disponibles sous forme électronique et la recherche d’informations se font à travers une connexion à des réseaux, selon des procédures techniques très précises, qui varient en fonction des services utilisés et des ressources consultées.
Dispositifs techniques d’accès à l’information
L’offre
Internet, qu’est-ce que c’est ? INTERNET (INTERconnected NETwork) est né en 1969 du besoin conjoint des chercheurs américains et de l’armée de communiquer via des ordinateurs. Au début des années 90, l’arrivée des ordinateurs individuels a démocratisé l’accès au réseau sur le lieu de travail, la maison et les lieux publics. Internet est devenu un instrument de communication ouvert à tous pour communiquer, échanger, consulter des documents et aussi en publier. Tout le monde peut être à la fois client et fournisseur d’informations. Par conséquent, rien n'authentifie les informations, qui peuvent être falsifiées (problèmes de date, de mise à jour...) ou erronées (hoax : fausses informations, canulars), d'où l'importance de l'évaluation des sites Internet.
Internet peut sembler difficile à appréhender car c’est un monde ouvert dont la technologie n’est pas figée. C’est là un de ses paradoxes : personne ne connaît exactement son contenu, qui demeure éphémère et volatile. L’archivage du web n’est pas réellement assuré, malgré des initiatives intéressantes (Internet Archive, http://www.archive.org/) ou des expérimentations sur le dépôt légal Internet, comme à la BnF.
Enfin, il est toujours possible d'intercepter les paquets d'information qui circulent dans le réseau (l'administrateur-système du fournisseur d’accès peut lire le courrier, connaître les sites consultés). D'où aussi des problèmes de sécurité des transactions commerciales ou de confidentialité sur les sites non sécurisés. Un site sécurisé se reconnaît par la présence d'un cadenas fermé ou d'une clé intacte (non
• LEVINE John R. Internet pour les nuls. Paris : First interactive, 2004. • PASTOR-SATORRAS Romualdo, VESPIGNANI Alessandro. Internet : structure et évolution. Paris : Belin, 2004 (Echelles). • VALLEE Jacques. Au cœur d'Internet : un pionnier français du réseau examine son histoire et s'interroge sur l'avenir. Paris : Balland, 2004. • VIRIEUX Françoise. Comment marche Internet ? Paris : le pommier, 2004 (Les petites pommes du savoir).
brisée) dans le coin inférieur droit ou gauche de l'écran, selon le navigateur utilisé. De plus, l'adresse URL d'un site sécurisé commence habituellement par « https » ou « shttp » au lieu de « http ». Attention, le téléchargement de logiciels entraîne toujours le risque de rapatrier des virus ! Il est donc conseillé de vérifier chaque logiciel ou document récupéré par un anti-virus, mis à jour récemment. Par ailleurs, il est aussi utile de se prémunir contre les spywares, logiciels espions, qui fournissent aux sociétés qui les diffusent des informations sur les habitudes des internautes, sans que ceux-ci en soient informés.
Connexion à un réseau Le protocole de base : TCP-IP Du point de vue technique, Internet est un terme générique qui désigne la multitude des réseaux d’ordinateurs qui communiquent entre eux, au niveau mondial, grâce à un protocole d'échange de données standard : TCP/IP (Transmission Control Protocol / Internet Protocol - se prononce T-C-P-I-P), indépendamment des types d'ordinateurs utilisés (Mac, PC). TCP/IP est basé sur le repérage de chaque ordinateur par une adresse appelée adresse IP, qui permet d'acheminer les données à la bonne adresse. Par exemple, 123.456.789.12 est une adresse TCP/IP donnée sous sa forme technique. Ce sont ces adresses que connaissent les ordinateurs pour communiquer entre eux. On leur a associé des noms de domaine pour permettre de s'en souvenir plus facilement. Les noms de domaines Les utilisateurs ne veulent pas travailler avec des adresses numériques mais avec des noms plus explicites. Le protocole TCP/IP a donc permis d'associer des noms en langage courant aux adresses numé-
riques, grâce à un système appelé DNS (Domain Name System). On appelle nom de domaine le nom à deux composantes, dont la première est un nom correspondant au nom de l'organisation ou de l'entreprise, le second à la classification de domaine (.fr, .com, ...) - on parle aussi d'extension. Exemple : dans l'adresse http://www. enssib.fr , « enssib.fr » est le nom de domaine : enssib est le nom de l'organisation, .fr correspond à la classification. Les « www » ne correspondent à rien de significatif, ils peuvent être remplacés par d’autres lettres, si elles sont déclarées. Ainsi, « formist.enssib.fr » correspond à un site particulier dépendant du domaine enssib.fr.
Chaque machine d'un même domaine est appelée hôte. Le nom d'hôte qui lui est attribué doit être unique dans le domaine considéré. Syntaxe d’une URL Une URL (Uniform Resource Locator) est un format de nommage universel pour désigner une ressource sur Internet. Il s'agit d'une chaîne de caractères qui se compose en quatre parties : • 1- Le nom du protocole : le langage utilisé pour communiquer sur le réseau. Ce n’est pas toujours « http ». • 2- L'adresse du serveur : le nom de domaine de l'ordinateur hébergeant la ressource demandée. Il est possible d'utiliser l'adresse IP du serveur, ce qui est moins pratique. • 3- Le numéro de port : facultatif, ce numéro associé à un service permet au serveur de savoir quel type de ressource est demandée. • 4- Le chemin d'accès à la ressource : cette dernière partie indique au serveur l'emplacement où la ressource est située, c'est-à-dire l'emplacement (répertoire et sous-répertoires) et le nom du fichier demandé.
31
REPERE
Techniques
Une URL a donc la structure suivante : Protocole http://
Adresse du serveur www.enssib.fr
Port (facultatif)
Chemin /fichier /glossaire/glossaire.htm
Exemples : http://www.enssib.fr/bibliotheque/cadre_catalogues.html news://fr.doc.biblio Les réseaux de télécommunications
L’offre
En France, le réseau Renater (REseau NAtional de télécommunication pour la Technologie, l’Enseignement et la Recherche), géré par un groupement d’intérêt public, interconnecte les différentes universités et organismes de recherche français au niveau national, avec les autres réseaux de la recherche au niveau européen et avec l’Internet, en général. D’autres réseaux de communication permettent également une connexion à Internet : en France, il s’agit de Transpac et Numéris. Les particuliers avec un ordinateur équipé d’un modem peuvent ainsi être connectés à Internet via le réseau téléphonique commuté (ou Numéris), par l’intermédiaire d’un prestataire qui leur fournit le point d’accès. Un Fournisseur d'accès à Internet (FAI, “provider” en anglais) permet de se connecter à Internet via un modem, par une ligne téléphonique, par l’ADSL (Asymmetric Digital Subscriber Line), par le câble ou par le Wi-Fi (Wireless Fidelity réseau local sans fil). Le FAI offre différents services : adresses de messagerie, hébergement de pages personnelles, service technique (hot-line)… Le choix doit prendre en compte les besoins, les services offerts, leur qualité et leur coût.
Protocoles de connexion Le réseau offre différents types de services : SMTP - Le courrier électronique (courriel, mél ou e-mail) Le protocole SMTP (Simple Mail Transfer Protocol) est le protocole standard
REPERE
32
permettant de transférer le courrier d'un serveur à un autre. C'est le protocole du courrier électronique, de la messagerie individuelle, des listes de discussion. Des logiciels installés sur l’ordinateur (comme Thunderbird, Eudora ou Oultlook), aident à gérer facilement son courrier grâce à des interfaces conviviales. Ils permettent par ailleurs de lire et écrire ses messages hors connexion, mais impliquent de toujours travailler sur la même machine pour retrouver les anciens messages. Les messages reçus restent stockés sur le serveur jusqu’à leur transfert sur l’ordinateur client pour consultation. La messagerie est aussi consultable directement en ligne, sur le site du fournisseur d’accès, à travers des services webmail qui permettent de gérer tous ses messages directement sur le serveur. Si la consultation ne se fait qu’en ligne, elle permet cependant de lire et d’envoyer des mails depuis n’importe où, avec un même compte mail. Pour correspondre avec une personne où qu'elle se trouve dans le monde, il suffit qu’expéditeur et destinataire possèdent une adresse électronique qui se présente sous la forme : nom_usager@adresse_organisation.extension Il n'existe pas d'annuaire mondial des adresses Internet ; même si plusieurs services permettent des recherches, le résultat est rarement performant. FTP - Le transfert de fichier Le protocole FTP (File Transfer Protocol) est un protocole de transfert de fichier. Il définit la façon selon laquelle des
données doivent être transférées sur un réseau TCP/IP. Il permet : • un partage de fichiers entre machine distante, • une indépendance aux systèmes de fichiers des machines clientes et serveur, • le transfert efficace des données. Ce protocole permet d'accéder à un serveur distant et de rapatrier des fichiers contenant des textes, des images, du son ou des logiciels. Il faut souvent disposer d'un programme de décompression (winzip). Ce protocole sert actuellement surtout pour alimenter les pages d'un site web. Il peut être utilisé via un navigateur ou par un logiciel spécifique. La syntaxe est la suivante : ftp://adresse_serveur/répertoire/ sous-répertoire/fichier Ex : ftp://ftp.inria.fr/
Si l'accès au ftp est public, le login « anonymous » ne nécessite alors pas de mot de passe (ou sinon, juste l’adresse de courrier électronique). NNTP - Forums de discussion Le protocole des forums est le Network News Transfer Protocol. Les news ou newsgroups sont consultables sur les serveurs Usenet (news : nom_du_groupe), à travers un logiciel spécifique ou intégré, et divisés en grandes catégories selon des thèmes définis comme :
Préfixe
Contenu
Alt
discussions “alternatives” abordant les sujets les plus variés recherche en sciences de la vie, biologie tous les domaines de l'informatique groupes francophones, messages en français loisirs, groupes des passionnés recherche en sciences exactes recherche en sciences humaines, sociales
Bionet
Comp
Fr
Rec
Sci
Soc
Les adresses sont structurées dans le sens inverse des URL. Exemple : fr.bio.medecine correspond au domaine France, au thème biologie, au groupe Médecine. HTTP - L’accès aux serveurs d’informations WWW Le protocole HTTP (Hypertext Transfer Protocol) est le protocole de communication entre un serveur WWW, offrant des contenus multimedias reliés par des liens hypertexte, et un logiciel client, les navigateurs Internet Explorer ou Firefox par exemple. On appelle généralement “web” ce service internet, qui permet de naviguer à travers des pages web.
Nature du web
L
e world wide web est un service récent d'internet. C'est en 1990 que des informaticiens du CERN (Centre Européen de Recherche Nucléaire, Gateway to CERN, http://www.cern.ch/) proposent cette application destinée à la publication et la diffusion de documents multimédia sur le réseau, au sein de la
communauté internationale des physiciens. La multiplication des sources d'information sur internet dans les années 80 compliquait le travail des utilisateurs, du fait de la dispersion des ressources et d'outils de diffusion peu ergonomiques. Aussi sont apparus des outils de « navigation » et
33
REPERE
Techniques
d'orientation dans le réseau, comme Gopher.
met de voir une page telle qu’elle est codée.
Le web s'est imposé grâce à ses qualités :
Certains documents faisant appel au multimédia nécessitent l'activation de plugins, logiciels intégrés au navigateur et qui s'exécutent à l'intérieur de celui-ci, s'ils sont installés : Realplayer, Shockwave…, pour le son et les animations. Ces logiciels sont généralement gratuits.
• le recours au multimédia, qui mixe le texte, les images fixes et animées, le son, • l'hypertexte, qui permet une navigation non séquentielle dans les documents et le réseau. Les liens intra et inter-documents ont permis de tisser une « toile » mondiale.
Le web en 2007
L’offre
Le web a profondément évolué en 15 années. L'ouverture d'internet à toute la société a eu de nombreuses conséquences sur la nature du web et donc sur les outils de recherche. En voici quelques aspects : Une interface commune
Modalités de connexion au web Internet privilégie l'environnement clientserveur : l’usager travaille donc depuis son propre ordinateur, sur lequel ont été transférés des fichiers demandés au site consulté. Quand nécessaire, des échanges se font entre l’ordinateur individuel (le client) et le serveur. Lors de la connexion à un serveur web, une page d'accueil (Homepage) s'affiche. Des icônes et des boutons permettent d'établir des liens vers d'autres documents, situés sur l'ordinateur ou sur des serveurs distants, à travers l'hypertexte. L’affichage se fait grâce au langage HTML (HyperText Markup Language), issu de SGML (Standard Generalized Markup Language), qui permet d’indiquer au client (Internet Explorer, Firefox,…) comment interpréter les données, ce qui varie selon chaque configuration. L’option Affichage/ Source dans le menu du navigateur per-
REPERE
34
Les navigateurs sont devenus l'interface commune à de nombreux services anciens ou nouveaux qui migrent vers une interface ergonomique maîtrisée par le grand public. Une croissance considérable La facilité de production de pages HTML, l'existence de nombreux sites d'hébergement gratuits, les faibles coûts des serveurs ont conduit à un développement quantitatif énorme du nombre de pages HTML depuis 1995. En octobre 2002, l'OCLC a évalué le nombre de sites web : Cette étude divise le web en trois parties : le web public, le web privé et le web provisoire. Le web public est libre d'accès. Le web privé demande aux visiteurs un mot de passe. Enfin le web provisoire comprend des sites « en construction », au contenu non défini, vide de sens ou superficiel. Selon les statistiques, il y aurait 7,1 millions de sites uniques. En terme de pourcentage, le web public représente-
rait 41 % de l'ensemble, le web privé, 21 %, le web provisoire 37 % et le web « adulte » 1 %. Or, selon une étude de 1999, les principaux moteurs de recherche couvrent 60 % du web public. Malgré les différences méthodologiques, les moteurs de recherche, tous confondus, indexent en grande partie le web public, mais ignorent le reste.
Le web statique Le standard établi pour la diffusion de documents sur le web est le langage HTML, qui permet de définir la présentation du document ainsi que les liens hypertextes vers d'autres documents à l'aide de balises de formatage. Il est maintenant figé à la version 4. Conçu au départ comme moyen de diffusion de documents issus de la recherche, HTML a évolué vers un outil d'affichage multimédia grand public. Cependant son utilisation intensive par un public varié a quelque peu dévié des considérations d'origine. Les auteurs de pages HTML l'utilisent avant tout comme outil de mise en page au détriment de la structuration du contenu de l'information. Cet aspect rejaillit sur les outils de recherche qui ne peuvent pas s'appuyer sur des éléments fiables pour améliorer les réponses. Devant cet état de fait, un nouveau langage de description de documents a été développé. Son évolution, qui s'appelle XML (eXtended Markup Language), s'intéresse au contenu (sémantique) du document et non à son aspect et offre ainsi de nombreuses opportunités pour améliorer la recherche d'information. La description du contenu a été prévue dans les balises de métadonnées (metadata : données sur les données). Les métadonnées ont été étendues avec le Dublin Core (Dublin Core Metadata Initiative, http://dublincore.org/). Cependant pour diverses raisons, depuis 2001 les moteurs de recherche prennent
peu en compte ces éléments. Ils restent utiles dans le cadre d'un travail en réseau documentaire ou en intranet avec utilisation d'un moteur d'indexation. Les documents produits à l'aide d'un éditeur de texte ou d'un éditeur HTML sont stockés en tant que fichiers texte (extension HTM, HTML, SHTML..) sur le disque dur du serveur web qui les diffuse. Le fichier HTML reste tel quel jusqu'au moment où il est soit modifié, soit détruit. On parle alors de pages HTML statiques. Il y en aurait actuellement plusieurs milliards. Un ensemble de pages sur un thème particulier constitue un site web statique. Il y en aurait plusieurs millions accessibles à tous publics.
Le web dynamique Il est « plus facile » de gérer une base d'informations que de modifier des centaines de textes HTML. C'est pourquoi l'idée de gérer l'information non pas dans des fichiers texte, mais au moyen d'une base de données s'est imposée depuis quelques années. Dans ce cas, l'information est diffusée à la demande, suite à l'interrogation de la base de données par l'intermédiaire d'un formulaire : on parle alors de page HTML dynamique (comme par exemple celui proposé par la SNCF pour la recherche d'horaires de trains).
Le web invisible Toutes ces évolutions ont conduit à définir le web invisible comme l'ensemble des documents diffusés par l'intermédiaire du web, sans être indexés par les moteurs de recherche traditionnels. Plusieurs raisons dues aux méthodes de référencement dans les outils de recherche expliquent le web invisible. Le référencement des sites et des pages Le référencement d'un site est son enregistrement dans les moteurs et répertoires
35
REPERE
Techniques
de recherche, afin de le faire connaître aux internautes, d'en accroître la visibilité et d'en augmenter ainsi le nombre de visiteurs. Plusieurs cas de figure existent : • Les annuaires généralistes grand public : le référencement s'effectue par soumission, payante depuis fin 2001 ; • Les annuaires spécialisés : il se fait au libre choix des gestionnaires ;
L’offre
• Les moteurs de recherche : le référencement est effectué automatiquement grâce à des robots. Composante d'un moteur de recherche, le robot balaye le Web ou d'autres ressources Internet, afin d'alimenter en données les index du moteur de recherche. Les limites d'indexation tiennent à ce que des pages web ou du contenu ne peuvent pas être indexés, pour des raisons variées : délai de rafraîchissement des index long, niveau de profondeur d'indexation ou de profondeur de contenu indexé, pages vers lesquelles ne pointe aucun lien, pas ou peu d'indexation pour des fichiers textes à des formats autres que l'html, pas d'indexation des pages web dynamiques, mauvais référencement ou volonté des auteurs et responsables de sites, etc.
• Les formats de fichiers : HTML est le format natif du web reconnu par tous les robots, mais beaucoup d'autres formats se sont ajoutés. Seul Google indexe d'autres formats : pdf et PostScript (ps), Microsoft Excel (xls), PowerPoint (ppt), Word (doc), Rich Text Format (rtf), Works (wks, wps, wdb), Microsoft Write (wri), Text (ans, txt) Adobe Photoshop (psd), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), Lotus WordPro (lwp), MacWrite (mw), DBASE 3 (dbf), Paradox (db), WordPerfect... ; • Les pages qui interdisent le référencement en utilisant un fichier Robots.txt : cette interdiction est posée par l'auteur des pages ou par le gestionnaire du site ; • Les pages HTML dynamiques : les robots ont besoin de suivre des liens à l'intérieur du site, afin de pouvoir indexer les pages trouvées. Si les pages dynamiques ne peuvent être accédées que par le biais de l'interrogation d'un formulaire, elles ne pourront pas être indexées par les moteurs ; • Les URL contenant un point d'interrogation arrêtent les robots ;
• Les sites protégés par mots de passe : seules les personnes autorisées peuvent accéder au site ;
• L'absence de liens hypertextes, qui a été mise en évidence par l'étude d'IBM connue sous le nom de la théorie du nœud papillon (“Bow Tie” Theory IBM Almaden - News - WBI http://www.almaden.ibm.com/almaden/webmap_press.html).
• Les problèmes des cadres : une structure de cadres (frames) se compose d'une page mère et de pages filles. Le contenu informatif se trouve toujours dans les pages filles. La difficulté est que lorsqu'une page mère est soumise aux moteurs, ceuxci ne sont souvent pas capables de retrouver les pages filles et de les indexer. Seule
• L'information quotidienne : les sites de presse (quotidiens, radio, télévision...) diffusent maintenant de l'information en temps réel. Les robots classiques sont incapables de suivre ce rythme ; de nouveaux outils sont apparus pour résoudre ce problème, comme Google news... http://news.google.fr/
Ainsi, divers obstacles s'opposent aux robots :
REPERE
la page mère se retrouve alors indexée. Mais comme il s'agit d'une page sans contenu, le référencement est inefficace ;
36
@ • AFNIC. Chartes de nommage. [en ligne]. http://www.afnic.fr/obtenir/chartes
• Bibliothèque Nationale de France. Dépôt légal Internet : les étapes du projet [en ligne]. http://www.bnf.fr/pages/infopro/depotleg/dli_intro.htm
• Centre Européen de Recherche Nucléaire [en ligne]. http://www.cern.ch/
• Comment ça marche. Les adresses IP [en ligne]. http://www.commentcamarche.net/internet/ip.php3
• Dublin Core Metadata Initiative [en ligne]. http://dublincore.org/
• FIEVET Cyril. Pointblog.com/abc. RSS et syndication (1) [en ligne]. http://www.pointblog.com/abc/rss_et_syndication_1.htm
• Francopholistes – l’annuaire pour retrouver tous ceux qui partagent vos passions [en ligne]. http://www.francopholistes.com/
• Google Actualités [en ligne]. http://news.google.fr/
• IBM research Almaden News. Researchers Map the Web [en ligne]. http://www.almaden.ibm.com/almaden/webmap_press.html
• Internet Archive [en ligne]. http://www.archive.org/
• InterNIC [en ligne]. http://www.internic.net
• OCLC Archived project. Web Characterization [en ligne]. http://www.oclc.org/research/projects/archive/wcp/
• USENET fr. Liste des groupes FR [en ligne]. http://www.usenet-fr.net/liste-groupes.html
• WebMasterHub. La structure du web est en forme de “nœud papillon” [en ligne]. http://www.webmaster-hub.com/publication/La-structure-du-web-est-en-forme.html
• Wikipedia, l’encyclopédie libre [en ligne]. http://fr.wikipedia.org/wiki/Accueil
L’offre Création et utilisation de ressources électroniques : quelques notions juridiques Auteur : Corinne GADINI Chargée de mission - Sous-direction des Bibliothèques et de la Documentation
40 42
Rappel des grands principes du droit d'auteur Quelques cas précis
Législation
➔
L'avènement du numérique a rendu la diffusion des œuvres protégées par la loi tellement rapide et facile que leur protection au titre du droit d'auteur en a été bouleversée. Sur Internet, une infinité d'œuvres susceptibles d'être protégées par le droit d'auteur circulent en permanence et peuvent être copiées instantanément et à l'identique, dans des conditions de qualité égale à l'original numérique. C'est pourquoi, dans la société de l'information, assurer le respect du droit d'auteur est devenu l'un des défis majeurs, que l'on soit auteur ou que l'on utilise les œuvres d'autrui.
L’offre
Rappel des grands principes du droit d'auteur L'auteur et son œuvre Le droit d'auteur français se distingue par la protection de l'œuvre, et donc de son auteur, en dehors de toute formalité préalable, ainsi le droit naît avec l'œuvre. La définition juridique de l'œuvre dépasse le sens donné par le langage com-
mun, qui le limite à une idée d'art ou de littérature. En effet, en droit, ne sont pas seulement considérés comme œuvres les tableaux de maîtres ou les symphonies de grands compositeurs : un logiciel ayant un contenu purement informatif, ou encore un simple annuaire d'adresses peuvent également prétendre à cette qualité.
• BECOURT Daniel, CARNEROLI Sandrine. Dépôt légal, de l'écrit à l'électronique. Paris : Litec, 2001. • BENSOUSSAN Alain. Le Multimédia et le droit. Paris : Hermès, 1998. • Code de la propriété intellectuelle. Paris : Journal officiel de la République française, 2004. • FARCHY Joëlle, dir., RALLET Alain. Droits d'auteur et numérique. Paris : Hermès science publications, 2002. • (de) LAMBERTERIE Isabelle. Le Droit d'auteur aujourd'hui. Paris : Editions du CNRS, 1995. • VIVANT Michel, MAFFRE-BAUGE Agnès. Internet et la propriété intellectuelle : le droit, l'information et les réseaux. Paris : Institut français des relations internationales, 2002. • WEKSTEIN Isabelle. Droits voisins du droit d'auteur et numérique. Paris : Litec, 2002.
Une œuvre est une forme d'expression originale, c'est à dire que ce ne sont pas les informations communiquées qui sont protégées mais leur écriture ou leur présentation. L'originalité d'une œuvre est déduite du fait qu'elle est imprégnée de la personnalité de son auteur : il suffit que le créateur se soit exprimé avec une marge, même relative, de liberté. L'originalité n'est ni l'inventivité, ni la nouveauté, elle peut résider dans la seule expression ou la seule composition, sa reconnaissance ne peut relever que d'une appréciation subjective et, dans des cas extrêmes, de l'intime conviction du juge. L'identification de l'auteur est l'une des principales difficultés rencontrées pour la personne qui veut exploiter une œuvre en l'intégrant sur un site Web. En principe, l'auteur, personne physique, est le seul titulaire des droits d'auteur. C'est le cas lorsqu'un auteur réalise seul, de sa propre initiative et avec ses propres moyens, une œuvre. Dans ce cas, seul pourra se poser le problème de la preuve de la paternité, mais, par le dépôt légal ou un courrier recommandé, l'auteur peut prouver qu'il est bien à l'origine de l'œuvre (en principe l'existence d'une trace fait foi).
Les exceptions • L'auteur peut avoir cédé ses droits à un éditeur ou un producteur. • L'auteur peut avoir confié la gestion de ses droits à une société d'auteurs, chargée de contrôler l'utilisation des œuvres, de percevoir et de répartir les rémunérations, en contrepartie de l'exploitation de son œuvre. • En matière de logiciel, si l'auteur est salarié, employé d'une entreprise privée ou agent de l'Etat et que le produit a été réalisé dans l'exercice de ses fonctions, l'employeur est investi des droits de l'auteur. • En matière de bases de données, il convient de s'adresser au producteur de
la base pour pouvoir bénéficier du droit d'extraire des éléments de son contenu. • En matière d'œuvres collectives (journaux, exposition, dictionnaire...), la propriété de l'œuvre appartient à la personne physique ou morale sous le nom de laquelle elle a été divulguée. • Les œuvres de commande ou les œuvres créées par un salarié n'appartiennent pas à l'employeur, sauf accord. Les prérogatives de l'auteur (droits d'auteurs) sur son œuvre sont de deux types : • Il a d'abord sur elle des droits patrimoniaux. Ces droits lui permettent de retirer le bénéfice économique de l'exploitation de son œuvre. • Il a ensuite sur son œuvre des droits dits moraux. Ces droits protègent les intérêts liés à sa personnalité.
Les droits patrimoniaux Il s'agit des droits liés au patrimoine de l'auteur : ils naissent à partir du moment où il souhaite divulguer son œuvre et ont une durée limitée à la vie de l'auteur, plus un délai de 70 ans. • Le droit de reproduction : l'auteur a le droit de contrôler toutes les formes de reproduction de son œuvre. Ce droit s'applique de la même manière aux reproductions provisoires (mais une exception existe au profit de certaines reproductions provisoires dites « techniques »). • Le droit de communication au public ou de mise à disposition du public : il s'agit de la faculté pour l'auteur de permettre la communication au public de son œuvre, par exemple dans les salles de concert, les cinémas, les théâtres ou sur internet. • Le droit de distribution ou de destination : ce droit vise à permettre au titulaire d'une œuvre de contrôler non seulement l'œuvre elle-même, mais aussi les exemplaires de celle-ci. Il s'agit du droit exclusif pour les auteurs d'autoriser ou d'inter-
41
REPERE
Législation
dire toute forme de distribution au public (au contraire du droit de communication au public, le droit de distribution ne s'applique qu'aux exemplaires tangibles de l'œuvre).
Les droits moraux Ces droits naissent immédiatement avec l'œuvre, ils sont perpétuels, c'està-dire qu'ils vivent autant que l'œuvre elle même, et incessibles, c'est-à-dire que l'auteur ne peut y renoncer.
En découlent : • Le droit au respect de l'œuvre : on ne peut la dénaturer (toute adaptation, modification, traduction, addition, etc., ne peut être effectuée qu'avec l'accord de l'auteur). • Le droit au respect de l'auteur, qui suppose de mentionner le nom de l'auteur dans le cas où on utilise son œuvre, mais également que l'auteur seul a le droit de communiquer son œuvre au public.
L’offre
Quelques cas précis Les photographies analogiques ou numériques Elles sont soumises au droit d'auteur, au droit de la propriété intellectuelle ainsi qu'au droit au respect de la vie privée. • Le droit à l'image : l'article 9 du code civil donne aux individus le droit à la protection de leur image, c'est pourquoi, pour utiliser l'image d'une personne, il faut obtenir son autorisation, ou celle de ses parents si elle est mineure. Il est à noter que la mise en ligne massive de photographies de personnes est considéré par la CNIL comme fichier comportant des données nominatives et donc soumise à l'obligation de déclaration. • Le respect de la vie privée : l'article 226-1 du code pénal puni de un an d'emprisonnement et de 43 000 € d'amende, toute personne qui, sans consentement, fixe, enregistre ou transmet l'image d'une personne se trouvant dans un lieu privé. L'article 226-8 du code pénal puni encore plus sévèrement les montages qui pourraient être réalisés avec ces images. L'utilisation d'une photographie existante nécessite l'accord, et si il le souhaite, le
REPERE
42
dédommagement du photographe (c'est en principe devant une société de gestion collective qu'il faudra s'acquitter de ces droits).
Les liens ou les hyperliens Par décision du 26 décembre 2000 (jurisprudence Keljob), le tribunal de commerce de Paris a estimé que chaque site présent sur le web accepte implicitement l'établissement de liens hypertextes simples. Toutefois, selon le tribunal, cette solution ne vaut pas pour les hyperliens profonds (qui atteignent directement une page sans passer par l'accueil du site) lorsqu'ils dénaturent le contenu ou l'image du site cible. Par prudence, mieux vaut demander systématiquement l'autorisation du webmaster du site vers lequel on souhaite établir un lien.
Les fichiers MP3 Il est possible de copier des CD audio et de les convertir au format MP3 sur un disque dur, car l'achat d'un CD donne un droit de copie à usage privé (c'est ce droit qui permet de convertir une piste de CD au format MP3 pour l'écouter sur un PC
ou un baladeur MP3). Mais convertir une piste de CD audio en MP3 pour la distribuer librement sur Internet est illégal. L'application stricte de la loi interdit également de stocker des fichiers MP3 encodés à partir de CD audio sans posséder l'original, à moins de les avoir téléchargés légalement depuis Internet. Il est également impossible légalement de distribuer des compilations de fichiers MP3 gravées sur CD et réalisées à partir des originaux.
Les vidéos La diffusion d'une œuvre est un acte de représentation soumis à l'autorisation du titulaire des droits sur l'œuvre, dès lors que l'œuvre est communiquée au public. Les vidéos sont des œuvres audiovisuelles comportant à la fois des images et du son, leur utilisation pour diffusion doit donc être autorisée par le titulaire de droits sur cette œuvre (producteur, sociétés de gestion des droits, auteurs eux-même).
Les créations des fonctionnaires En ce qui concerne la titularité des droits d'auteur sur les œuvres des fonctionnaires, deux théories s'affrontent :
• Celle des défenseurs du droit d'auteur, selon laquelle le fonctionnaire/auteur bénéficierait de la même protection que n'importe quel autre créateur (cf. loi n° 57-298 du 11 mars 1957 sur la propriété littéraire et artistique art. 1 et 3 et CPI art. L 112-1 et L 112-2). • Celle de l'Etat, fondée sur un avis du conseil d'Etat du 21 novembre 1972 « Office français des techniques modernes d'éducation » (OFRATEME), selon lequel « tous les collaborateurs du service public, quelque soit leur statut ou leur contrat conservent les droits de propriété artistique sur leurs œuvres personnelles dans la mesure ou la participation à ces œuvres n'est pas liée au service ou s'en détache... ».
Les déclarations de site web Lorsque l'on souhaite mettre en ligne un site web, il faut, pour être dans la plus stricte légalité, le déclarer. Trois entités sont généralement évoquées : la CNIL (la Commission Nationale Informatique et Libertés), créée en 1978, est une autorité administrative indépendante chargée de vérifier le respect des obligations des personnes qui créent des fichiers ou des traitements informatiques et de veiller sur les droits des personnes fichées, le Procureur de la République et le CSA. Les
@ • Commission Nationale de l’Informatique et des Libertés [en ligne].
http://www.cnil.fr/ • Droit du net.fr. Le service pratique des droits sur l’internet [en ligne].
http://www.droitdunet.fr/ • DROIT-TIC [en ligne].
http://www.droit-tic.com/ • Educnet. Legamedia [en ligne].
http://www.educnet.education.fr/legamedia/
Législation
déclarations au Procureur de la République et au CSA ne sont plus obligatoires depuis le 1er août 2000. Par contre, la déclaration à la CNIL est toujours obligatoire, dans le cadre de la loi « Informatique et Libertés », lorsque le site comprend des « fichiers nominatifs », c'est-à-dire incluant ou demandant des informations sur des personnes.
L’offre
Lorsqu'il s'agit d'un site web ne comprenant pas de données nominatives
(données banales à caractère non sensibles), ce qui concerne la plupart des sites éducatifs ou pédagogiques, un formulaire a été spécialement conçu par la CNIL (disponible en ligne sur le site CNIL - Commission Nationale de l'Informatique et des Libertés http://www.cnil.fr). Pour le déclarer, il est possible : • soit d'accéder directement à la déclaration en ligne, • soit de télécharger le formulaire papier.
• Forum des droits sur l'internet [en ligne].
http://www.foruminternet.org/
@
• Forum des droits sur l'internet. Hyperliens : statut juridique [en ligne].
http://www.foruminternet.org/recommandations/lire.phtml?id=507 • Ministère de la Culture et la Communication. Droit d'auteur, droits voisins dans la société de l’information - DADVSI [en ligne].
http://www.culture.gouv.fr/culture/actualites/index-droits05.html • ServiceDoc.Info [en ligne].
http://www.servicedoc.info/
L’offre Typologie des informations scientifiques Auteurs : Lise HERZHAFT Conservateur des bibliothèques - URFIST de Lyon herzhaft@univ-lyon1.fr
Claude VIAL Conservateur des bibliothèques - Université Joseph Fourier, Grenoble claude.vial@ujf-grenoble.fr
46 47 48
Nature des documents Usage des documents Disponibilité des documents sur l'internet
Typologie
➔
L'information scientifique est l'ensemble des données testées, acceptées, reconnues par la communauté scientifique internationale ; c'est le substrat sur lequel s'appuient les nouvelles recherches pour avancer sans avoir à redémontrer. L'information, en général, nous parvient par l'intermédiaire de nos cinq sens. C'est le fait de la matérialiser, en la déposant sur un support, qui la fait devenir document. Le document scientifique est le produit principal de la recherche scientifique.
L’offre
Nature des documents
L
es documents peuvent être différenciés selon des critères physiques (la forme) ou selon des critères de contenu (le fond).
Parmi les critères physiques, on distingue : • D'un coté, le support : papier, film, support à lecture optique (cédérom, dvd) ou numérique, lisible sur un ordinateur (texte, image, sons, video...). • De l'autre, la possibilité de lecture qui découle de leur nature. La lecture directe : papier (livres, périodiques, thèses, images, tableaux, cartes, plans...), pierre (lithographies), bois, papyrus, parchemin... La lecture indirecte : microfilms, diapositives nécessitent un lecteur particulier pour être consultés ; cédéroms et dvd sont lus par ordinateur via un lecteur spécifique ; les ordinateurs sont reliés en réseau, formant un Intranet (à l’intérieur d’une entreprise) ou l’Internet, le réseau
mondial… Les ressources électroniques font partie de ce dernier ensemble : ce sont des données archivées sur support numérique, et lisibles par l'intermédiaire d'un appareil, que ce soit en local ou à distance. En fonction du contenu, on parle de : • document primaire : document original réalisé par un ou plusieurs auteurs, • document secondaire : qui recense et décrit les documents primaires (bibliographie) ou • tertiaire : qui regroupe des documents secondaires (bibliographie de bibliographies). Cependant, certains organismes utilisent ce terme pour signifier « littérature grise », c'est-à-dire les publications hors du circuit commercial (thèses, rapports, actes de congrès...) et parlent aussi de : • document quaternaire : qui délivre des informations à valeur ajoutée (synthèse sur un sujet...).
• VARET Marie-Madeleine. Maîtriser l'information à travers sa terminologie : manuel-dictionnaire. Paris : Belles Lettres, 1995.
Usage des documents
C
haque type de document a une fonction différente et sera utile dans les démarches de recherche d'information. Certains documents sont spécialement profitables aux étudiants, ce sont les documents scientifiques (thèses, articles ou papiers de recherche, contribution à des congrès, rapports, brevets...). Rédigés par des chercheurs qui y décrivent leur travail original, ces documents sont évalués par des experts, un jury ou des collègues (pairs). Ceux-ci jugent de la nouveauté du travail ou du point de vue exprimé, de l'apport scientifique significatif, de la rigueur expérimentale, de la qualité de la présentation. Ces documents ont donc un statut à part, ils sont spécialement fiables. Les enseignants vont souvent recommander à leurs étudiants la consultation de manuels, de guides et de traités, documents importants, longs à réaliser, dont le grand intérêt est de faire le point sur un sujet ou une discipline à un moment donné. Ces traités, qui sont aujourd’hui de plus en plus disponibles sous forme électronique, peuvent alors être mis à jour en permanence. L'actualité scientifique la plus récente et la plus pointue est à rechercher dans les articles de revues ou de périodiques, qui la prendront en compte après vérification / approbation des informations par un comité de spécialistes du domaine (peer en anglais, que l'on traduit rapidement en français par « pairs » ou rapporteurs). Les avantages des articles (ou papiers) sont donc la rapidité de transmission de l'information et la fiabilité. La rapidité de publication est accélérée par la mise en ligne des journaux sur Internet, par les éditeurs scientifiques, avant même la livraison imprimée, et par le dépôt par les chercheurs de leurs articles validés sur des serveurs de pré-prints.
Il existe de fait une hiérarchisation des revues. Les plus prestigieuses, souvent anglo-saxonnes ont une audience internationale ; elles font référence dans leur domaine et ont un comité de lecture qui accepte ou non les articles qui lui sont soumis. Les auteurs de toutes nationalités tentent de publier le résultat de leurs recherches dans ces revues ; leur réputation et leur carrière s'en trouvent en effet améliorées. Les autres revues ont une audience nationale ou liée à leur aire linguistique. Elles ne seront pas toujours prises en compte dans les banques de données de références bibliographiques internationales, ou de manière sélective, seuls quelques articles étant signalés. Les inconvénients de ce système sont la dispersion des articles dans diverses revues, nationales ou internationales, et parfois leur redondance. Pour transmettre plus rapidement les premiers résultats de leurs recherches, les pistes qu'ils vont explorer, les chercheurs écrivent des « papiers de recherche » (working papers), qu'ils mettent souvent à disposition de leurs collègues sur leur site. Les comptes rendus de congrès présentent le texte des conférences qui ont été données. Mais, selon les disciplines, ces comptes rendus paraîtront en même temps que le congrès (en informatique souvent) ou très longtemps après (dans les sciences humaines notamment). Les comptes-rendus peuvent paraître dans des périodiques (numéros spéciaux), compléter une collection ou être publiés sous forme de monographie. Les conférences peuvent être annoncées dans la presse scientifique spécialisée ou sur des sites spécifiques. L'intérêt de ces documents est leur nouveauté, car ils décrivent l'état d'une recherche en cours, mais aussi le fait que l'information soit validée par le comité organisateur du congrès, souvent une société savante.
47
REPERE
Typologie
L’offre
A la demande d'institutions officielles ou de ministères, les laboratoires de recherche ou des chargés de mission du public ou du privé sont chargés de rédiger des rapports sur des sujets précis. Ces documents sont également intéressants par la synthèse d'informations fournies et leur fraîcheur. Ces rapports (lorsqu'ils ne sont pas confidentiels) sont répertoriés dans des banques de données bibliographiques ; le texte intégral en PDF est de plus en plus souvent accessible à tous sur Internet. Des moteurs de recherche comme Google et Alltheweb les retrouvent facilement. Les thèses ont un statut spécial à l'université : aboutissement des études universitaires, écrites de plus en plus sous forme électronique, elles décrivent le travail personnel et original de recherche mené pendant au minimum trois ans par un(e) étudiant(e) de 3e cycle. Elles s'accompagnent d'une bibliographie très importante, sinon exhaustive, sur le sujet traité. Ce travail est réalisé sous la direction d'un directeur de thèse, professeur d'université ou habilité à diriger des recherches, et validé par un jury. Ce sont donc des documents particulièrement intéressants, pour la nouveauté de leurs informations et pour la bibliographie qu'ils offrent. Elles sont déposées dans l'université de soutenance de l'étudiant. Connaître leur existence est facile grâce au SUDOC (Système Universitaire
de DOCumentation, qui signale entre autres les thèses françaises soutenues en université). On peut accéder directement au texte intégral des thèses sur les serveurs des universités de soutenance, et en France, sur le serveur de thèses multidisciplinaire, http://tel.archives-ouvertes.fr/. Les étudiants ingénieurs peuvent être très intéressés par les brevets d'invention. Ces documents juridiques, identifiés par un numéro officiel, protègent l'invention qu'ils décrivent pendant une durée déterminée (20 ans, sous réserve de paiement des droits, pour un pays donné). Tout ce qui est tangible peut être breveté (pas les idées). Ce dépôt s'effectue soit auprès d'un office national (en France, auprès de l'INPI, Institut National de la Propriété Industrielle, http://www.inpi.fr/), soit auprès d'un office régional tel que l'OEB (Office européen des brevets). Les brevets sont aujourd'hui largement accessibles, gratuitement, sur internet, par le site ESPACENET, http://ep.espacenet.com/. Pour les étudiants avancés et les chercheurs, dans les disciplines scientifiques, les handbooks sont des ouvrages de référence incontournables, qui regroupent des données factuelles et numériques. Les juristes utiliseront les codes, qui rassemblent les textes législatifs et parfois réglementaires sur un sujet (code de la route...).
Disponibilité des documents sur l'internet
T
ous ces types de documents peuvent être accessibles sur l'internet, soit sous forme image (lisible seulement, non modifiable) soit sous forme texte (on peut alors rechercher chaque mot, chaîne de caractères ou image).
REPERE
48
Cependant, de nombreuses informations sont organisées sous forme de bases et banques de données. Celles-ci, accessibles via l'Internet ou non, recensent des données sous des formes diverses : • la description et le signalement d'un
document (on parle de référence bibliographique) qui associent au nom et au prénom de l'auteur le titre de son travail, le titre de la revue dans laquelle il est publié, s'il s'agit d'un article, ou le nom de l'éditeur s'il s'agit d'un livre, la date d'édition, la taille de ce travail en nombre de pages... éléments essentiels pour identifier la publication, auxquels sont généralement ajoutés des éléments de description (mots-clés). Ce sont les banques de références bibliographiques, • le texte complet du travail réalisé, consultable dans les banques de texte intégral, • des adresses (annuaires d'entreprises...) dans les banques de données répertoires,
• des constantes (physiques...), des statistiques... que l'on trouve dans des banques de données factuelles. Certains documents sont en libre accès sur Internet, d'autres sont payants. Pour y accéder, deux stratégies complémentaires sont à mettre en œuvre : • utiliser les portails institutionnels des bibliothèques et centres de documentation, qui proposent à leurs usagers l'accès à toutes les publications en ligne auxquelles ils sont abonnés (bases de données, journaux scientifiques, livres électroniques...), • utiliser les moteurs de recherche spécialisés (Scirus, Google scholar, etc.) dont les listes à jour sont disponibles sur les sites des URFIST.
@ • Archive of the former site EconWPA.wustl.edu [en ligne].
http://econwpa.wustl.edu/wpawelcome.html • ESPACENET European patent office [en ligne].
http://ep.espacenet.com/ • Infosphère sciences et technologies. Choisir ses sources [en ligne].
www.bibliotheques.uqam.ca/Infosphere/sciences/module3/index.html • INPI : Institut national de la propriété industrielle [en ligne].
http://www.inpi.fr/ • SUDOC - Système universitaire de documentation [en ligne].
http://www.sudoc.abes.fr/ • TEL - Thèses en Ligne [en ligne].
http://tel.archives-ouvertes.fr/
L’offre Les supports de l'information Auteur : Elisabeth NOEL Conservateur des bibliothèques - ENSSIB elisabeth.noel@enssib.fr
52 53
Du papyrus au numérique Vers une dématérialisation de l’information
Supports
➔
Des tablettes d'argiles en Mésopotamie aux supports numériques actuels, les hommes ont toujours trouvé des moyens pour conserver les informations sur des supports, ceux-ci évoluant en parallèle avec les technologies.
Du papyrus au numérique
L’offre
L
es supports de l'information se différencient par : • leur mode de lecture (directe – livre, parchemin – ou indirecte, avec une machine – supports optiques ou magnétiques), • leur mode de consultation (en local ou à distance), • leur alimentation, • leur gestion (centralisée ou éclatée). Ainsi, les premiers supports (papyrus, papiers) se lisaient rapidement et facilement, mais leur mise à jour nécessitaient une réécriture des données, d'où les nombreuses rééditions d'ouvrages. L'apparition de la photographie a permis de conserver des clichés des supports écrits sur microfiche, ce qui permettait une meilleure diffusion de l'information et un gain de place. La consultation de ces microformes rendait nécessaire l'utilisa-
tion d'appareils de lecture spécifiques, peu conviviaux et peu répandus, disponibles sur les lieux de stockages des microformes (bibliothèques). Les supports magnétiques ont favorisé le développement et l'accès à l'information. L'enregistrement du son, des images ou de données numériques s'est d'abord effectué sur bandes magnétiques (bobines, cassettes ou cartouches), supports qui permettent toujours de nos jours une conservation fiable, économique et à faible risque. Les disques magnétiques, durs ou souples (disquettes), servent au stockage des données informatiques, avec des puissances de plus en plus importantes. L'accès aux données est sectoriel, le disque tournant autour de son centre, et le temps d'accès à l'information est assez rapide.
• COMBEROUSSE Martine. Histoire de l'information scientifique et technique. Paris : Nathan, 1999 (Collection 128 ; Information-documentation). • FAYET-SCRIBE Sylvie. Chronologie des supports, des dispositifs spatiaux, des outils de repérage de l’information. Solaris, 1997, n°3 [en ligne]. http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d04/4fayet_0intro.html
• MCLUHAN Marshall. La galaxie Gutenberg face à l'ère électronique. Paris : Gallimard, 1977. • SCHAER Roland. Tous les savoirs du monde, encyclopédies et bibliothèques de Sumer au XXe siècle. Paris : Bibliothèque Nationale de France, Flammarion, 1996.
La clé USB remplace maintenant la disquette : petite et maniable, elle peut stocker de 256 Mo à plusieurs Go selon les modèles. Elle nécessite un simple port USB pour être utilisable. A ces supports magnétiques s'ajoutent des supports optiques. Les disques optiques font en général 12 centimètres de diamètre. Les informations, enregistrées sous forme numérique, sont consultées par un rayon laser, sans contact
avec la surface, donc sans usure. Les CD (Compact Disc) et les DVD (Digital Versatile Disc) sont les deux principaux formats de supports optiques. Classiquement, la capacité de stockage de l'information s'accroît en même temps que diminue la taille des supports. Cependant, ces supports restent fragiles et nécessitent toujours des outils de lecture adaptés, qui eux-aussi évoluent sans cesse.
Vers une dématérialisation de l’information
L
e développement des réseaux de communication, d'abord avec le Minitel en France, puis spécialement avec l'essor d'Internet, a transformé la recherche, la consultation et le stockage de l'information. En effet, le couplage des réseaux informatiques des universités, des grandes écoles, des entreprises avec les infrastructures de télécommunications permet aujourd'hui d'utiliser à distance les ressources locales produites par ces établissements.
Le succès mondial d'Internet ne doit pas faire oublier que des réseaux de ce type ont commencé à se développer dans l'enseignement et la recherche dès les années 80. Ces réseaux de communications établissent une distance de fait entre le support de l'information et l'usager, distance qui induit un sentiment de dématérialisation. Si l'information, stockée sur le disque dur de l'ordinateur serveur consulté, peut être consultée ou recopiée un nombre infini
@
• Archives-ouvertes.fr [en ligne].
http://www.archives-ouvertes.fr/ • Conservation préventive du patrimoine documentaire. Documents sur supports magnétiques [en ligne].
http://www.culture.gouv.fr/culture/conservation/dswmedia/fr/all_magn.htm • Consortium COUPERIN. Journée d’étude sur les archives ouvertes [en ligne].
http://journeeao.wordpress.com/ • Dataligence. Les périphériques de stockage : le stockage optique : CD-R et CD-RW [en ligne].
http://www.dataligence.com/storage_survey_cd.htm • Ecole nationale des ponts et chaussées - Service documentaire. L'Open Access [en ligne].
http://www.enpc.fr/fr/documentation/doc_electronique/dossier_openaccess.htm
Supports
de fois à distance, elle peut aussi être modifiée, voire disparaître du serveur. C'est dans ce sens que l'on parle d'informations virtuelles.
L’offre
Ainsi, des publications électroniques en ligne (comme des revues en ligne, des pages d'accueil de site Web, des échanges dans le cadre d'un forum de discussion) ne sont consultables que par ordinateur connecté à Internet, et ne renvoient pas toujours à un équivalent sous forme imprimée (certaines revues n'existent qu'en ligne).
Après une période où l'enjeu était d'être connecté au réseau Internet, puis ensuite d'être présent, visible sur Internet, la problématique actuelle réside plus dans la question de l'intérêt des services offerts, mais aussi dans la mise à disposition des ressources, tout particulièrement dans le cadre de l'Open Access Initiative, qui veut permettre de constituer des réservoirs d'archives électroniques des communications scientifiques autour de protocoles techniques facilitant la recherche et l'échange.
• INIST. Libre accès à l’information scientifique et technique [en ligne]. http://www.inist.fr/openaccess/ • Initiative de Budapest pour l'Accès Ouvert [en ligne]. http://www.soros.org/openaccess/fr/read.shtml • MORELLE Marc-Alexis. Les médias, mémoire de l'humanité [en ligne]. http://www.malexism.org/medias/introduction.html • Open Archives Initiative [en ligne]. http://www.openarchives.org/
@
La recherche Savoir rechercher et interroger : les repères méthodologiques Auteur : Annie LEON Conservateur des bibliothèques - URFIST de Paris anleon@ccr.jussieu.fr
56 57 57 58 59
Analyser les besoins Les critères de qualité d’une interrogation de banques de données Comment mener une recherche documentaire ? Les outils d’une recherche documentaire automatisée Développer une stratégie de recherche
Méthode
➔
Pour être en mesure de choisir la stratégie et les outils de recherche d'information les plus efficaces, il faut pouvoir s'appuyer sur trois préalables : bien définir ses besoins, connaître les critères d'évaluation des produits et services et comprendre la structure et les modes de recherche offerts.
La recherche
Analyser les besoins
L
a première étape de toute recherche d'information consiste à bien préciser ses objectifs. Voici quelques questions pour aider à les définir : • S'agit-il de trouver une information ponctuelle, de mettre à jour des connaissances, de réaliser un exposé, un mémoire, une thèse, un article scientifique, une bibliographie ? • Quels sont les types de documents, d'informations et leurs niveaux de spécialisation désirés ? • Quels sont les services, lieux et personnes ressources susceptibles de produire et fournir cette information ? Comment y avoir accès ? • Quel est le degré d'actualité de l'information recherché ? • Quel est le degré d'exhaustivité exigé ? • Sous quelle forme les données seront-
elles réutilisées ? (Il ne faut pas oublier le respect du droit d'auteur). • Quel délai d'obtention des informations peut sembler acceptable ? • Quel budget est disponible ? L'analyse et la délimitation précise du sujet aidera à sélectionner : • Les sources documentaires : par exemple, une recherche centrée sur les procédés de conditionnement des yaourts peut être réalisée sur une banque de données économique généraliste, mais elle sera plus pertinente sur une banque de données spécialisée dans les techniques d'emballage. • Le support le plus adapté : une recherche sur un cédérom peut permettre de constituer un fonds de dossier, mais il faudra avoir recours aux banques de données en ligne pour mettre à jour cette documentation.
• DARROBERS Martine, LE POTTIER Nicole. La Recherche documentaire. Paris : Nathan, 2005. • MORIZIO Claude. La Recherche d’information. Paris : ADBS, 2002 (Collection 128 ; Information-documentation). • PIOLAT Annie. La Recherche documentaire : manuel à l'usage des étudiants, doctorants et jeunes chercheurs. Marseille : Solal, 2002. • POCHET Bernard. Méthodologie documentaire : comment accéder à la littérature scientifique à l'heure d'Internet ? Bruxelles : De Boeck, 2005 (Sciences et méthodes).
Les critères de qualité d’une interrogation de banques de données
L
l'Internet libre. La qualité de l'information et sa validation revêtent alors un caractère primordial.
Le producteur de la banque de données, l'éditeur intellectuel, l'auteur du site
La banque de données elle-même doit répondre également à des critères de qualité : la richesse de la couverture documentaire (temporelle et géographique), la présentation de l'information, les délais de mise à jour, les performances de l'indexation et des outils de recherche associés (guides, thesaurus, logiciels associés...) contribuent à la qualité des résultats de la recherche.
a pertinence de l'interrogation réalisée dépend de la qualité des produits documentaires sélectionnés pour consultation, de la manière dont ils sont diffusés, mais aussi de la façon dont est conduite la stratégie de recherche.
Quelle est sa réputation scientifique ou sa notoriété, l'institution à laquelle il appartient, la reconnaissance de celle-ci dans son champ d'activité, son caractère officiel ou non ? Si le producteur est bien identifié dans le cadre d'une banque de données professionnelle, il peut être plus difficile de cerner l'auteur d'une source dans le cas d'une interrogation sur
La stratégie de recherche également permet de mener l'interrogation de manière logique afin de minimiser le « bruit » (documents hors sujet) et le « silence » (passer à côté de documents pertinents).
Comment mener une recherche documentaire ? La structure du document Elle est plus ou moins rigoureuse : très stricte dans le cadre des banques de données professionnelles, elle peut être très diverse dans le cas de documents sur Internet. Les méthodes de recherche seront donc assez différentes. Les professionnels de l'information décrivent et caractérisent le contenu du document (texte, images, etc.) avec des outils documentaires visant à normaliser la terminologie et structurer les relations entre les termes employés, ce qui permet d'interroger les banques de données structurées sans être victime des pièges du langage. Le but est de définir des concepts univoques.
L'indexation est le premier mode de représentation du contenu du document. Suite à l'analyse du document, des motsclés (keywords) ou descripteurs (descriptors) sont choisis, en rapport avec une liste normalisée de termes (liste alphabétique de mots-clés ou thesaurus), pour décrire les principaux concepts. Un thesaurus établit des relations entre les descripteurs, ce qui permet à l'utilisateur de sélectionner les termes utilisés dans la base, et de préciser sa recherche en trouvant les mots les plus adaptés à sa question, selon le besoin de généralité ou de spécificité. Le texte intégral sous forme numérique (articles de presse, textes juridiques, publi-
57
REPERE
Méthode
La recherche
cations scientifiques...) prend une place de plus en plus importante, notamment en fonction du développement de l'usage d'internet. Les niveaux d'indexation de ces documents natifs sont parfois très sommaires et l'indexation automatique ainsi que les outils de traitement linguistique deviennent essentiels. Les logiciels d'indexation automatique de type « plein texte » (full text) travaillent au niveau de la forme par balayage de chaînes de caractères, séparées par des espaces, et constituent automatiquement des listes (index). Les outils de traitement linguistique visent à compenser les ambiguïtés générées par la richesse du langage naturel en traitant les aspects morphologiques, syntaxiques et sémantiques. Ainsi les moteurs de recherche sur Internet proposent des outils d'interrogation et des algorithmes de tri et de pondération spécifiques, dont ils gardent souvent le secret, qui tendent à optimiser la pertinence des réponses. Le résumé (abstract) caractérise le document ; sa lecture permet de savoir s'il est utile de se procurer le document intégral. Sont aussi proposés des tables des matières (tables of contents, TOC) ou des
extraits (sonores, de films...), pour guider le choix.
La formulation de la requête L'analyse du sujet à traiter se fait en le décomposant pour extraire ses principaux concepts, et déterminer tous les termes qui peuvent être impliqués (synonymes, termes associés...). Dans la mesure où une source d'information pertinente a été sélectionnée, le système se contente de chercher strictement (par balayage des index) ce qui lui est demandé, et la qualité de la réponse sera fonction du soin mis dans l'établissement de la demande. Il est donc important d'éviter les pièges du langage : • un même mot peut présenter des sens différents. Exemple : or (métal ou conjonction de coordination), • un concept peut être exprimé de plusieurs manières, il faut penser aux synonymes et aux termes équivalents, sinon seront perdues des informations qui auraient été précieuses (« silence » informatique).
Les outils d’une recherche documentaire automatisée
REPERE
Les opérateurs booléens “ET”, “OU”, “SAUF” et leurs équivalents en anglais (AND, OR, NOT)
de réponses. Exemple : « informatique et liberté ». Les documents traiteront obligatoirement des deux sujets.
Attention au « ET » : contrairement à son sens ordinaire dans la langue, il n'ajoute rien mais il permet de sélectionner une information spécifique par le croisement de deux notions, en limitant le nombre
Le « OU » permet de balayer les synonymes pour éviter le « silence », ou bien d'inclure plusieurs notions diverses dans le même panier. Exemple : « guerre ou conflit » ramène tous les documents qui
58
contiennent le mot « guerre », ainsi que tous ceux qui contiennent « conflit », et ceux qui traitent des deux.
sion du langage courant qui ne peut figurer dans un thesaurus.
Le « SAUF » permet d'éliminer, par exemple, une langue de description de document que l'on ne pourrait pas lire.
Les opérateurs de proximité
Les opérateurs booléens peuvent être combinés avec d'autres critères de sélection.
La recherche par « champ » Elle permet de préciser la zone de description (ou champ, chaque champ correspondant à une liste des termes appelée index) du document (par exemple : champ auteur, champ titre, champ motsclés, champ résumé...) dans laquelle la recherche doit être effectuée, par opposition au mode de recherche appelé « recherche en texte libre », qui se fait sur l'ensemble de la description du document. Le choix entre la recherche sur champ ou la recherche en texte libre se fera selon les circonstances : si le « bruit » généré par la recherche libre peut être redoutable, inversement, elle s'impose dans le cas d'un concept rare ou d'une expres-
Ils indiquent la position réciproque des termes de la recherche (adjacence, ou dans la même phrase...) ; ils sont précieux pour préciser un contexte ou pour indiquer la présence d'une expression composée. Ils sont surtout utilisés dans la recherche en texte libre. Par exemple, une recherche sur le « talonminute » implique à la fois une recherche par adjacence et une recherche en texte libre, car il est improbable que la notion figure dans un thesaurus.
La troncature et le masque Ils permettent d'élargir la recherche à tous les mots dont la racine est commune, ou en laissant une souplesse d'orthographe à la fin ou à l'intérieur d'un mot. La troncature permet de gérer les pluriels sans taper deux fois le mot. L'utilisation d'une troncature illimitée peut entraîner des dérives du sens de la question, car les mots composés peuvent s'en éloigner.
Développer une stratégie de recherche
U
ne interrogation se prépare avec soin, mais il faut, en plus, être prêt à réagir rapidement en fonction des premiers résultats de la recherche ; il est prudent d'avoir préparé des « questions subsidiaires » (par exemple, des concepts plus spécifiques, si l'information recueillie est trop générale, ou bien de croiser, par « ET » avec un concept supplémentaire ou une notion de lieu, de date, si le nombre de réponses est trop élevé). Pour ne pas avoir de « doublons », c'est-
à-dire plusieurs fois la même référence, le déroulement de l'interrogation doit être structuré : traiter d'abord les termes équivalents, séparés par « OU », ensuite opérer les croisements de paniers (résultats intermédiaires de recherche) avec des « ET ». Les longues équations de recherche comprenant à la fois des « OU » et des « ET » sont à éviter (cela est techniquement possible en utilisant des parenthèses pour hiérarchiser les opérateurs) car elles aboutissent souvent à un résultat nul dont
59
REPERE
Méthode
ner ensuite entre elles ou en ajouter de nouvelles, ce qui économise une perte de temps (qui est souvent de l'argent) et évite de tout recommencer.
La recherche
on ne peut pas connaître la raison. Chaque étape d'une interrogation étant comptabilisée, ajouter des étapes permet beaucoup plus de souplesse pour les combi-
@
• Bibliothèque nationale de France. Guide de recherche en bibliothèque : définir le domaine de recherche [en ligne].
http://grebib.bnf.fr/html/definir_domaine.html • Infosphère sciences humaines et sciences de la gestion. Préparer sa recherche [en ligne].
http://www.bibliotheques.uqam.ca/InfoSphere/sciences_humaines/module2/index.html • RFE : Resources for Economists on the Internet [en ligne].
http://rfe.org/ • THIRION Paul. Cours PO35 : Ressources documentaires et exploitation de la littérature scientifique en psychologie et en sciences de l’éducation. La question documentaire [en ligne].
http://www.udfapse.lib.ulg.ac.be/P035/Question_documentaire/Qdoc_intro.asp • URFIST de Paris. CERISE : comment débuter une recherche [en ligne].
http://www.ext.upmc.fr/urfist/cerise/p1.htm
La recherche Les langages documentaires Auteur : Sylvie CHEVILLOTTE Conservateur des bibliothèques - ENSSIB sylvie.chevillotte@enssib.fr
62 63
Description des documents Les langages documentaires
Langages
La recherche
➔
Pour rechercher un document, plusieurs méthodes sont possibles, en fonction des données disponibles au départ et du sujet recherché. Dans le cas le plus simple, quand le titre d'un document ou de son auteur est connu, la recherche s'effectue à partir de l'une de ces données. Mais ce type d'accès est insuffisant lorsque la recherche porte sur un thème, un sujet, une matière, car il faut alors passer par un accès matière aux documents. Les catalogues de bibliothèques ou les bases de données s'interrogent à l'aide d'un langage documentaire ou encore d'un langage d'indexation, qui peuvent différer d'une base à l'autre.
Description des documents
P
our faciliter l'accès des lecteurs aux documents, les bibliothécaires ou documentalistes vont indexer les documents. « Indexer, c'est décrire et caractériser un document à l'aide de représentations des concepts contenus dans ce document ». Par exemple, pour un ouvrage sur les sous-marins en Méditerranée pendant la guerre de 1939-1945, il faudra faire émerger trois concepts : le sujet précis (sous-marins), le lieu (Méditerranée), la période (seconde
guerre mondiale). Ainsi, dans l'exemple proposé ci-dessus, le vocabulaire contrôlé utilisé pour l'indexation permet de choisir précisément les termes à retenir, entre « sous-marins » au singulier ou au pluriel, entre « Méditerranée (mer) » ou « mer Méditerranée », et enfin entre « 1939-1945 », « seconde guerre mondiale », « seconde guerre mondiale, 1939-1945 », « Guerre 39-45 » ou encore « seconde guerre mondiale (1939-1945) »...
• LEFÈVRE Philippe. La recherche d'informations : du texte intégral au thésaurus. Paris : Hermès sciences, 2000. • MANIEZ Jacques. Actualité des langages documentaires : fondements théoriques de la recherche d'information. Paris : ADBS, 2002 (Sciences de l’information ; Série Études et techniques). • NEET Anna H. A la recherche du mot clé : analyse documentaire et indexation alphabétique. Genève : Institut d’études sociales, 1989 (les cours de l’IES). • VAN SLYPE Georges. Les langages d'indexation : conception, construction et utilisation dans les systèmes documentaires. Paris : Editions d’organisation, 1986 (Systèmes d'information et de documentation).
Les langages documentaires Vocabulaires contrôlés Le besoin d'un vocabulaire contrôlé est lié aux nombreux problèmes de synonymie, ou au fait qu'un même concept puisse s'exprimer avec des mots différents. Par exemple, habitation, logement, immeuble, logis, habitat… sont des termes de sens voisins, parmi lesquels l'indexeur doit effectuer un choix. Autre problème, l'homonymie oblige à préciser le domaine d'utilisation d'un terme : s'agit-il du vol de l'oiseau ou du vol à main armée ? Enfin, les domaines scientifiques ou spécialisés nécessitent l'usage d'un vocabulaire très précis. Les indexeurs utilisent donc des listes de termes validés et organisés de différentes façons. Les principales sont les listes d'autorité et les thésaurus. En France, de nombreuses bibliothèques utilisent la liste d'autorité RAMEAU (Répertoire d'Autorité Matière Encyclopédique Alphabétique et Unifié) pour l'interrogation de leurs catalogues. Cette liste dérive des « Library of Congress Subject Headings » (LCSH), utilisés à la bibliothèque du Congrès, à Washington. Le domaine couvert est encyclopédique, c'est à dire qu'aucun sujet n'est exclu de cette liste. L'évolution de cette liste est gérée par la Bibliothèque nationale de France. Les termes sont organisés suivant un certain ordre, avec des règles très précises, selon un langage pré-coordonné (dont l'ordre est déterminé à l'avance). Une interrogation peut être effectuée par mots séparés ou combinés. La plupart des bases de données sont indexées à partir de thésaurus. Leurs principales caractéristiques sont l'utilisation d'un vocabulaire spécialisé, organisé de façon hiérarchisée et avec des termes postcoordonnés, c'est à dire indépendants les uns des autres.
La hiérarchisation des termes permet de choisir son niveau de recherche, par l'utilisation de terme « générique » – ou général, ou encore d'un terme « associé », c'est à dire un terme de sens voisin de celui recherché. Le terme « spécifique » permet de choisir très précisément le sujet de recherche. Les termes non retenus dans le thésaurus (ou termes rejetés) signalent par des renvois les termes retenus. Le fait que les termes soient postcoordonnés signifie que les différents termes peuvent être croisés lors d'une recherche, il n'y a pas d'ordre préétabli. Pour effectuer une recherche efficace, il est important de connaître ces quelques règles, et l'idéal est de connaître le thésaurus ou la liste d'autorité utilisés. Enfin, certains documents peuvent être indexés de façon automatique, à partir de leur titre, des résumés, parfois même de l'ensemble du texte. Ils peuvent alors être interrogés à partir d'un « langage naturel ». Il est aussi parfois possible d'effectuer une recherche en texte intégral, c'est-à-dire qu'elle porte sur l'ensemble du texte.
Classifications L'autre mode de recherche dans une bibliothèque ou un centre de documentation s'effectue directement dans les rayonnages. Les ouvrages sont en effet classés à l'aide d'une classification, souvent décimale. Cette classification employée dans de nombreuses bibliothèques exprime le contenu de l'ouvrage en partant du général et en précisant le sens. Plus l'indice sera long, plus le sujet sera précis (sujet, lieu, période...). Dans la Classification décimale Dewey, chaque nouveau chiffre ajouté à droite précise le sujet :
63
REPERE
Langages
Classification décimale Dewey 300 320 320.5 320.53 320.532 De 320.532 093 à 320.532 099 localités.
= les sciences sociales = la science politique (politique et gouvernement) = idéologies politiques = collectivisme et fascisme = communisme = communisme dans les divers continents, pays,
sur un même sujet sont regroupés. La démarche de recherche à partir des classifications est donc complémentaire d'une recherche par sujet à partir du catalogue.
La recherche
Les classifications permettent de regrouper les documents sur un même sujet ou domaine. La recherche sera alors à la fois plus large, puisqu'elle va du général au particulier, et exhaustive, car tous les ouvrages
• BERTEN Fernand. La notion de “mot-clé” et sa difficile application pédagogique [en ligne].
http://users.skynet.be/ameurant/francinfo/motcle/motcle.html • Bibliothèque nationale de France. Catalogue BN-Opale Plus [en ligne].
http://catalogue.bnf.fr/ • DUVAL Marc. Le mot-clé [en ligne].
http://www.dsi-info.ca/mot-cle.html
@
La recherche Evaluer l’information sur Internet Auteur : Elisabeth NOËL Conservateur des bibliothèques - ENSSIB elisabeth.noel@enssib.fr
66 67 67
Une réelle variété d’information L’importance de l’objectif de la recherche Les principaux critères d’évaluation
Evaluation
La recherche
➔
Quels que soient les outils utilisés, la recherche documentaire nécessite l'évaluation de l'information obtenue, ce qui est devenu d'autant plus indispensable si l'information est obtenue à travers Internet, car elle n'est alors validée par aucun filtre éditorial. Aussi, il est alors nécessaire de se transformer en Détective de l’Internet pour critiquer, analyser les sources et en déterminer la validité.
P
our commencer, il est essentiel de rappeler qu'Internet n'est qu'un support de l'information, qui, en soi, ne garantit aucune validité, aucune fiabilité. Les informations disponibles sur ce support ne donnent pas toujours lieu à validation avant publication, comme cela est le cas pour les publications papier (comité scientifique des revues,
comité éditorial des maisons d'éditions), il n'y a donc pas eu de filtre. C'est directement à l'usager de jouer ce rôle de filtre devant une information qui peutêtre de la plus fiable à la plus fantaisiste, en passant par des pages dépourvues d'intérêt ou d'autres proposant des informations dangereusement erronées ou tendancieuses.
Une réelle variété d’information
L
a diversité des sources d'information, sur Internet, reflète déjà une fiabilité inégale de par leur nature même : • Le world wide web, partie la plus connue d'Internet, propose des sites web,
des pages d'informations de toutes natures, qui peuvent aller de la page hautement scientifique à l'équivalent d'un ouvrage publié à compte d'auteur (les sites personnels), en passant par des sites vitrines pour des sociétés commerciales.
• BASTIEN Christian, LEULIER Corinne et SCAPIN Dominique L. L'ergonomie des sites web : l'évaluation automatique. In Créer et maintenir un service web : cours INRIA, 28 septembre-2 octobre 1998, Pau. Paris : ADBS, 1998 (Sciences de l’information ; Série Etudes et techniques). • BAZIN Louise. Élaboration d’une grille de sélection des sites Web : projet collectif du réseau de la santé et des services sociaux de la région de Montréal. Bulletin des bibliothèques de France, 1999, t. 44, n° 2, p 73-76 [en ligne]. http://www.enssib.fr/bbf/bbf-99-2/11-bazin.pdf
• BORGES Jorge Luis. Le livre de sable. Paris : Gallimard, 1978. • NOËL Elisabeth. Sélectionner des sites Internet. Bulletin des bibliothèques de France, 2001, t. 46, n° 1, p. 96-104 [en ligne]. http://bbf.enssib.fr/sdx/BBF/pdf/bbf-2001-1/12-noel.pdf
• Le courrier électronique propose l'envoi et l'échange d'informations ; comme les boites aux lettres traditionnelles, il permet de recevoir des informations personnelles, officielles, mais peut être engorgé par des prospectus publicitaires, avec la pratique du spamming. • Des listes de discussions ou de diffusion sont envoyées sur abonnement via le courrier électronique, souvent autour de thèmes sérieux, professionnels, et permettent d'échanger questions et réponses à l'intérieur d'un cercle fermé ; l'information disponible dans ces listes est donc souvent très spécialisée, mais n'engage
que l'auteur du message ; certaines listes sont modérées, ce qui permet de restreindre les pollutions. • Les forums (“usenet newsgroups”) s'apparentent aux listes de discussion, sauf qu'il est nécessaire de s'y connecter pour consulter les informations. Très nombreux, leur intérêt scientifique peut être varié. Ainsi, rien que par leur nature, la fiabilité de ces différentes zones de diffusion de l'information sur internet est inégale, d'où l'importance d'intégrer des réflexes pour se faire une idée de la validité de l'information consultée.
L’importance de l’objectif de la recherche
L’
évaluation d'une page de site trouvée lors d'une recherche ne se fait pas sans raison, mais dans un contexte spécifique. Ainsi, pour des travaux d'étudiants, il est important de retenir que, dans le milieu scientifique (et donc à l'université), est considéré comme scientifique ce qui répond aux normes d'un travail scientifique. Ce qui n'est pas scientifique n'est pas nécessairement mauvais ou faux : les
reportages journalistiques ne sont pas considérés comme des sources scientifiques, même s'il est permis de les citer en tant qu'autres sources. Aussi, selon le but de la recherche, il faudra porter attention aux types de documents recensés. Bien sûr, l'objectif de la recherche aura induit le choix des outils et les méthodes utilisées, selon la nature de l'information recherchée.
Les principaux critères d’évaluation L'auteur de la ressource Quelle est l'expertise de l'auteur de la ressource sur le sujet abordé ? S'il s'agit d'un scientifique, d'un spécialiste dans le domaine, son expertise est reconnue à travers ses travaux précédents, ou par son expérience. Les références bibliographiques des publications de l'auteur donnent des indications, par leur nombre, leur sujet et la qualité des revues dans lesquelles elles ont été publiées. L'institution d'appartenance de l'auteur est aussi révélatrice de sa crédibilité dans
le domaine dont il parle, d'autant plus si les documents signalés sont hébergés sur le site même de cette institution. Pour connaître cet organisme, il suffit souvent de se référer au nom de domaine indiqué dans la première partie de l'URL. Ainsi, dans l'URL fictive http://urfist.univ-lyon1.fr/eval_site.ppt le nom de domaine « univ-lyon1.fr » prouve que le document consulté, un diaporama powerpoint sur l'évaluation des sites internet réalisé par l'URFIST de Lyon, est hébergé sur le serveur de l'université
67
REPERE
Evaluation
de Lyon 1. L'URFIST est effectivement rattaché administrativement à cette université.
La date de publication
La recherche
Pour être précis, un bon site devrait mentionner la date de création du site et la date de sa dernière mise à jour. Ces deux types de dates devraient se retrouver aussi sur chaque page ou ressource proposées. L'usager a ainsi des indications sur la durée d'existence du site, et donc sa stabilité, mais surtout sur son évolution et sa maintenance : des mises à jour récentes prouvent que le site est alimenté régulièrement, que son contenu est vérifié quant à la qualité des liens hypertextes et du contenu informationnel.
L'objectif du site Il est nécessaire de comprendre l'objectif qui sous-tend la mise en ligne d'informations sur Internet. Certains auteurs veulent simplement mettre à disposition leurs connaissances, d'autres utilisent cet espace pour polémiquer, voire diffuser des informations pernicieuses, comme cela peut être le cas pour les sectes. Enfin, certains sites habilement construit ont pour unique but de convaincre de l'intérêt d'un ouvrage ou d'un produit pour le vendre sans pour autant être explicitement commerciaux. Il est donc important de rester très vigilant et critique sur l'objectif du site, qui oriente souvent les informations proposées.
La validation de l'information Le texte peut-être publié sous la responsabilité de l'auteur ou de l'organisme auquel il appartient, mais peut aussi parfois avoir été évalué par un comité éditorial en fonction de certaines normes scientifiques (c'est le cas des documents
REPERE
68
pédagogiques autour de la recherche d'information signalés sur FORMIST http://formist.enssib.fr/). Si l'information contenue sur un site n'est pas validée, ce qui est le cas en général, l'usager doit évaluer lui-même la validité de l'information. Dans cet ordre d'idée, le fait que la ressource ait un bon « indice de popularité » est important, c'est-à-dire qu'elle soit citée par d'autres publications ou ressources électroniques, surtout si celles-ci sont reconnues scientifiquement. Google utilise cet indice de popularité pour classer ses réponses, sinon, il est possible de voir quels sites signalent une page avec la syntaxe avancée « link:urldelapage ». Si les spécialistes sont les mieux armés pour valider l'information elle-même en ce qui concerne le contenu, un vif sens critique et les éléments proposés ici peuvent aider un étudiant à remarquer l'erreur. La lecture de l'URL et de sa structure donne beaucoup d'informations : ainsi, l'adresse http://www.elysee.org/ doit à juste titre éveiller les soupçons, car une adresse officielle a, en France, un nom de domaine en « .fr ». Il s'agissait ici d'un site canular, disparu, le site officiel étant http://www.elysee.fr/.
L'organisation du site Le système de l'hypertexte, qui fait la richesse d'Internet, génère aussi une désorientation. L'organisation du site doit être bien structurée, pour éviter ce phénomène et faciliter sa consultation, avec surtout la mise à disposition de plan et d'outil de recherche interne. L'apparence du site donne souvent très rapidement une idée de sa nature, car les sites institutionnels évitent généralement certaines applications « gadgets », qui peuvent habiller le site ou amuser, pour utiliser uniquement des éléments fonctionnels.
L'organisation de la page reflète aussi la cohérence des informations transmises, qui doivent être exposées de façon claire et argumentée, comme la qualité de la langue, qui doit éviter les fautes d'orthographe ou de syntaxes, preuve de sérieux et de relecture. Les informations proposées doivent être cohérentes avec l'ob-
jectif du site, tant au niveau du contenu que des liens proposés. Enfin, l'exhaustivité et l'étendue du site doivent être prises en compte, pour voir ce qu'apporte l'information disponible sur Internet par rapport à d'autres ressources, qu'elles soient électroniques ou non.
@ • FORMIST - Réseau francophone pour la formation à l'usage de l'information dans l'enseignement supérieur [en ligne].
http://formist.enssib.fr/ • HoaxBuster - Première ressource francophone sur les canulars du web [en ligne].
http://www.hoaxbuster.com/ • Mairie de Henridorff. Site Internet de la mairie de Henridorff [en ligne].
http://henridorff.mairie.free.fr/ • MOREAU Antoine. La Liste Noire de Scio - sites déconseillés [en ligne].
http://www.e-scio.net/noire/liste.html • Présidence de la République [en ligne].
http://www.elysee.fr/ • PRUDHOMME Brigitte. Sapristi ! - Evaluation de l'information présente sur Internet [en ligne].
http://docinsa.insa-lyon.fr/sapristi/index.php?rub=1004 • Réseau des URFIST. Journée d'étude “Evaluation et validation de l'information sur Internet”, 31 janvier 2007, Paris [en ligne].
http://urfistreseau.wordpress.com/les-interventions/ • Université catholique de l’ouest - Bibliothèque . L'évaluation de sites web [en ligne].
http://australie.uco.fr/info/biblio-info/menu1/menu1_2/bus_evaluation_index.php
Les résultats Les logiciels de gestion de références bibliographiques Auteur : Sandrine ROYER-DEVAUX Webmaster - Institut Pasteur - Médiathèque scientifique royer.sandrine@wanadoo.fr
72 74 74
Qu'est-ce qu'un logiciel de gestion de références bibliographiques ? Les principaux logiciels Pourquoi utiliser ces logiciels ?
Gestion
➔
Toute recherche d'information amène à devoir gérer un nombre conséquent de références bibliographiques. Des outils permettent d'organiser les bibliographies personnelles, pour faciliter la recherche d'une référence, leur organisation et leur exploitation.
Les résultats
Qu'est-ce qu'un logiciel de gestion de références bibliographiques ?
C
es logiciels, aussi appelés « logiciels bibliographiques », permettent de gérer sur un micro-ordinateur, au sein d'une base de données, les références bibliographiques indispensables à tout chercheur ou étudiant. Ils permettent aussi d'intégrer ces références à ses publications et d'éditer la bibliographie correspondante en fonction des normes de présentation des différentes revues scientifiques. De plus, avec le développement de l'Internet, un certain nombre de nouvelles fonctionnalités ont été ajoutées comme : • l'import de références depuis différentes bases de données (avec conversion automatique des formats),
La gestion des bases de citations Les logiciels bibliographiques comportent un certain nombre de fonctions de gestion de bases de données qui permettent de gérer une base personnelle de citations et de faciliter l'accès aux données : • la gestion des index, ce qui permet de réduire le temps de réponse lors des recherches dans la base, • les modifications par lots (modification du contenu d'un champ sur plusieurs notices), • les tris, avec possibilité de combiner plusieurs critères de tris, • la détection des doublons,
• la recherche documentaire directement au sein des principales bases de données bibliographiques scientifiques,
• les recherches dans la base (dans un ou plusieurs champs) plus ou moins complexes,
• la publication sur le web des bases de références ainsi constituées.
• l'utilisation des opérateurs booléens, numériques, des troncatures…
• COURANT Anne. Les logiciels de gestion de références bibliographiques personnelles : dossier technique de GED. DESSID. Villeurbanne : École nationale des sciences de l'information et des bibliothèques, 2000 [en ligne]. http://www.enssib.fr/autres-sites/dessid/dessid00/cv/gedcour.pdf
• l'utilisation de listes d'autorités, afin de toujours utiliser le même mot pour décrire la même chose.
La recherche documentaire sur des bases distantes Un certain nombre de logiciels proposent d'effectuer une recherche documentaire au travers de leur interface en se connectant directement aux bases de données bibliographiques prévues en standard, et de récupérer directement les résultats dans la base de références de son choix.
L'import de références Lorsque ces logiciels sont apparus, l'alimentation en références bibliographiques n'était possible que manuellement. Aujourd'hui, si la saisie directe d'un enregistrement reste toujours possible, c'est l'import automatique qui est l'option la plus utilisée. En effet, les logiciels bibliographiques permettent de récupérer automatiquement les références issues d'une recherche dans les bases bibliographiques commerciales, par export. Ceci s'effectue à l'aide de filtres permettant le reformatage des données dans le format du logiciel bibliographique utilisé. Cette fonction est plus ou moins simple suivant les logiciels, voire même, pour le même logiciel, suivant la base de données bibliographiques interrogée.
L'insertion de références bibliographiques dans des documents issus de traitements de texte Les logiciels bibliographiques ont aussi pour but l'aide à l'écriture d'articles. Ils sont aujourd'hui parfaitement compatibles avec MicrosoftWord, et de plus en plus avec d'autres traitements de texte. Une fois le logiciel installé, une barre d'outils apparaît dans Word, comportant toutes les fonctionnalités nécessaires à
l'insertion des références et au formatage de la bibliographie. Il est alors possible d'effectuer une recherche dans la base de références personnelles, directement à partir de Word, et d’insérer la citation à l'endroit désiré. De plus, les citations, ainsi que la bibliographie, sont automatiquement formatées, en suivant les normes de présentation de la revue choisie. C'est la fonction “Cite While You Write” (CWYW). Un simple reformatage suffit alors, si l'article doit finalement être envoyé à une autre revue. Il est aussi possible d'utiliser d'autres traitements de texte pour rédiger les articles ; la fonction “Scan Paper” vous permet alors d'obtenir les mêmes résultats mais de manière moins intégrée.
L'export de la base de références pour partager ou imprimer Il existe différents formats d'exports pour l'impression de sa base de références, et, depuis peu, un export HTML. Cet export permet, au moins, une consultation statique de la base en ligne. Certains logiciels permettent aussi d'interroger dynamiquement la base personnelle (en natif ou après l'achat d'un module supplémentaire). Cette fonction devient très importante. En effet, les travaux de recherches scientifiques se font en groupe, et grâce à ces nouvelles fonctionnalités, on obtient un outil proche des systèmes de travail collaboratif.
La liaison des références à des fichiers ou à des URLs Une référence bibliographique de la base peut maintenant être liée à un dossier du disque dur, qui peut être l'article en texte intégral, ou à une adresse URL, directement sur le site de l'éditeur. Ainsi, le logiciel bibliographique devient la plaque tournante d'accès à l'information depuis un ordinateur personnel.
73
REPERE
Gestion
Les principaux logiciels
O
n assiste au développement de nombreux concurrents aux logiciels-clients payants de type Endnote ou Reference
Manager : certains sont gratuits (Biblioexpress) ou/et disponibles en ligne (Refworks ou Zotero).
Les résultats
Pourquoi utiliser ces logiciels ?
L
a recherche scientifique repose sur la publication d'articles. Ces articles s'appuient obligatoirement sur des travaux précédents que l'on doit citer. Ainsi, ces logiciels apportent une aide précieuse dans la gestion des références et dans l'écriture des articles : gain de temps, facilité d'utilisation.
Par contre, il ne faut pas oublier qu'avant la gestion de ces références, il y a une étape cruciale : la recherche documentaire. Il est indispensable de sélectionner les sources d'informations et d'établir des stratégies de recherche avec soin. Sinon, la base de références ainsi constituée ne sera d'aucune utilité.
• DELL'ORSO Francesco. Personal Bibliography Management Software: Analysis and Comparison of Some Packages [en ligne]. http://www.burioni.it/forum/dellorso/bms/index.html
@
• LARDY Jean-Pierre. Les logiciels personnels de gestion documentaire Bibliographic management programs [en ligne]. http://urfist.univ-lyon1.fr/logiciels_gestion_doc.html
• MALINGRE Marie-Laure. La gestion des références bibliographiques [en ligne]. http://www.uhb.fr/urfist/Supports/EndNote/endnote_intro.htm
• Médiathèque scientifique de l’institut Pasteur. EndNote7 [en ligne]. http://www2.pasteur.fr/infosci/biblio/services/formations/endnote7/index.php
• PANIJEL Claire, JUMEAU Julia. FOURMI : bibliographies (rédaction, logiciels de gestion,manuels d'utilisation, citation de documents) [en ligne]. http://www.ext.upmc.fr/urfist/fourmi/fourmibiblio.htm
des outils
• Université René Descartes. Bases de données bibliographiques. Gérer votre bibliographie. [en ligne] http://www.dsi.univ-paris5.fr/bio2/autof2/cha1_3.htm
• BiblioExpress [en ligne]. http://www.biblioscape.com/biblioexpress.htm
• Endnote [en ligne]. http://www.endnote.com
• Refworks [en ligne]. http://www.refworks.com/
• Hot reference [en ligne]. http://www.hotreference.com
• Zotero [en ligne]. http://www.zotero.org/
Les résultats Initiation aux outils et méthodes de veille sur Internet Auteur : Christophe BOUDRY Maître de conférences - URFIST de Paris/Ecole nationale des chartes boudry@ccr.jussieu.fr
76 77
Les principes et différents types de veille sur Internet Actions de veille sur Internet
Veille
Les résultats
➔
Dans certains cas, les recherches d'information doivent être complétées par une démarche de veille, qui seule permettra d'assurer facilement et de manière réactive la mise à jour des connaissances sur le sujet étudié. Des outils facilitent cette démarche.
Les principes et différents types de veille sur Internet
C
e qui distingue les activités de veille de la recherche d'information classique, c'est qu'elles s'inscrivent dans la durée et intègrent donc une dimension temporelle forte. En effet, si l'action de se documenter sur un sujet se pratique généralement à un instant donné, l'activité de veille consiste, au contraire, au maintien de la recherche documentaire dans le temps, en employant méthodes et outils spécifiques. Pour rapatrier des informations, l'utilisateur peut pratiquer le “pull” ou le “push”. Le “pull” (qui signifie tirer) consiste à aller chercher, à extraire des informations suite à une action de l'utilisateur (l’utilisation d’un moteur de recherche classique
constitue donc du “pull”). Le “push” (qui signifie pousser) consiste à recevoir de l'information de manière systématique, la collecte étant initiée en amont une fois pour toute. Le “pull” et le“push” définissent donc plus la méthode de collecte des données que le type de veille effectuée par un utilisateur. Ainsi, la surveillance des modifications de pages web par le biais d'un logiciel donné constitue un type de veille qui peut impliquer le“pull” ou le “push”, selon la manière dont sont rapatriées les données : si c'est à l'initiative de l'utilisateur, il s'agit de “pull”, si c'est automatiquement dès l'apparition de modifications, par exemple, il s'agit de “push”.
• FOENIX-RIOU Béatrice. Recherche et veille sur le Web visible et invisible : agents intelligents, annuaires sélectifs, interfaces des grands serveurs, portails thématiques. Paris : Tec et Doc, 2001. • REVELLI Carlo. Intelligence stratégique sur Internet : comment développer des activités de veille et d'intelligence économique sur le Web. Paris : Dunod, 2000.
Actions de veille sur Internet
L
es actions de veille sur internet sont principalement de trois types :
Répétition d'une même recherche sur un outil de recherche d'information Une action de veille peut s'exécuter par la répétition d'une même recherche sur un ou plusieurs outils de recherche. Ce type d'action de veille ne nécessite pas forcément d'outils spécifiques. Il peut s'agir tout simplement, pour un utilisateur, de répéter une recherche donnée à intervalle régulier, le principal inconvénient étant le caractère non systématique de cette action. Pour remédier à cela, il existe des outils qui proposent à l'utilisateur de choisir ceux qu'il souhaite interroger, ainsi que la périodicité à laquelle doit s'effectuer la recherche (par exemple, Copernic dans sa version “Agent Professional”).
Suivi de pages Web Les aspirateurs de sites sont des outils de type logiciel qui permettent de rapatrier tout ou partie d'un site Web sur l'ordinateur, à intervalle régulier, afin d'en analyser les modifications. Ce type d'outil présente en outre l'avantage de pouvoir analyser les résultats “off line” (c'est-à-dire sans forcément être connecté sur Internet) et de proposer parfois d'intéressants outils d'analyse des sites capturés. Les agents de veille sont des logiciels qui permettent de “pointer” sur des pages Web ; ils nécessitent pour la plupart d'être en configuration “on line” (c'est-à-dire connecté sur Internet). Ils présentent la particularité de mettre en évidence les changements intervenus ou de rechercher
l'apparition de mots clés spécifiques sur les pages surveillées (exemple : Webspector). Suivant les outils, la surveillance peut s'effectuer selon des intervalles de temps définis par l'utilisateur ou non. Les résultats peuvent être consultés à l'initiative de l'utilisateur ou bien, par exemple, signalés automatiquement par courrier électronique lorsqu'une modification apparaît sur une page Web.
Les canaux d'information Le “webcasting” est une autre manière de pratiquer une activité de veille sur internet. Il s'agit de s'abonner à des canaux d'information sur une ou plusieurs thématique donnée (à ce titre, ce type de veille peut faire penser au mode de diffusion des informations utilisé par la télévision ou la radio), de recevoir automatiquement et de visualiser les dernières informations apparues sur le ou les canaux en question. Les domaines couverts par ces canaux d'informations sont cependant assez limités et généralistes, et concernent surtout des domaines comme le sport, la bourse. Les outils déployés sont de type logiciel ou non. Dans ce dernier cas, l'information réside dans une page Web, dont le contenu est rafraîchi à intervalle régulier ou à l'initiative de l'utilisateur. Le principal inconvénient de ces outils est de nécessiter d'être en configuration “on line”, et de générer un trafic de données conséquent. Après une période d'euphorie, ils se sont faits plus discrets. Depuis peu, le développement des blogs a permis la diffusion du “RSS", qui fonctionne selon un procédé similaire et permet la diffusion d'actualités. Le RSS “Rich Site Summary” (Sommaire de site
77
REPERE
Veille
veautés du site, et même s'y abonner. Les flux RSS sont lus via un logiciel de messagerie (avec Thunderbird, par exemple) ou via un navigateur web, sur des sites appelé agrégateur de liens, comme Bloglines ou Netvibes, complètement personnalisable.
Les résultats
enrichi) ou “Really Simple Syndication” (Syndication vraiment simple), selon les traductions - correspond à la diffusion d'un fichier de texte balisé, généré à chaque mise à jour du site. L'usager peut lire ce fichier, ou “fil RSS”, qui correspond donc aux nou-
• FIEVET Cyril. Rss et syndication (1) [en ligne].
d e s
o u t i l s
http://www.pointblog.com/abc/rss_et_syndication_1.htm • Bloglines [en ligne].
http://www.bloglines.com • Copernic Agent Professional [en ligne].
http://www.copernic.com/fr/products/agent/professional.html • Memoweb [en ligne].
http://www.goto.fr/memoweb • WebSite-Watcher [en ligne].
http://www.aignes.com/features.htm
@
Les résultats Rédaction et citation des références bibliographiques Auteurs : Fatima NADJI Doc'INSA Lyon fatima.nadji@insa-lyon.fr
Dalila BOUDIA Doc'INSA Lyon dalila.boudia@insa-lyon.fr
80 81 82
Les références bibliographiques L’appel de citation aux références bibliographiques Abréviations des titres de périodiques
Citations
Les résultats
➔
Le travail de recherche et l'écriture d'un texte scientifique (rapport, mémoire d'étude, thèse, etc.) suppose une recherche d'information approfondie. Cette recherche, inscrite dans la démarche scientifique, prend directement appui sur les travaux antérieurs. L'information choisie et exploitée permet à l'auteur de développer une réflexion personnelle. Ainsi, chacun des documents, retenus et analysés, contribue à la crédibilité scientifique du travail de recherche. Afin de faciliter la réflexion des lecteurs, qui à leur tour vont vouloir croiser leurs informations, il convient de référencer correctement les travaux cités en rédigeant une partie intitulée « Références bibliographiques ».
L
es références bibliographiques doivent permettre, sans aucune ambiguïté, l'identification des documents, d'où découlera ensuite la localisation. Les documents
listés dans la partie des « Références bibliographiques » du travail rédigé sont appelés dans le texte : ces citations établissent un lien avec la référence bibliographique.
Les références bibliographiques
L
a rédaction des références bibliographiques permet de référencer les documents retenus, selon des règles précises et une présentation cohérente et logique. Les références bibliographiques sont rédigées conformément à la norme AFNOR NF Z-44-005 de décembre 1987, qui concerne les publications imprimées, livres et publications en série, leurs parties composantes (chapitres, articles) et les brevets ; la norme AFNOR NF ISO 690-2 (Z 44-005-2) de février 1998 correspond aux documents électroniques, documents complets ou parties de documents.
D'une manière générale, il est impératif d'identifier le type du document cité (ouvrage, article, congrès,…), de préciser s'il est fait référence au document complet ou à une partie de ce document (chapitre d'un ouvrage, communication dans une conférence,…), et de déterminer son support (papier, électronique,…). Une référence bibliographique : • Varie selon le type (ouvrage, articles, congrès,…) et le support (papier, on line, cédérom,…) du document auquel elle se rapporte.
• BOULOGNE Arlette. Comment rédiger une bibliographie. Paris : Nathan, 2002 (Collection 128 ; Information-documentation).
• Est constituée d'éléments (auteur, titre, édition,…) indispensables au bon signalement. Ces éléments doivent respecter un ordre précis. Pour retrouver ces éléments, les principales sources sont : les pages de titre, de couverture des documents… et parfois le dos de la page de titre. Les bases de données peuvent servir aussi à compléter les références bibliographiques.
• Doit être présentée de façon homogène, dans un style choisi pour chaque élément (taille des caractères, police et graisse). Le Guide de gestion des références bibliographiques présente de manière détaillée la rédaction des références bibliographiques des documents sur support papier et électronique : Guide de gestion des références bibliographiques http://docinsa.insa-lyon.fr/refbibli/index.php.
L’appel de citation aux références bibliographiques
L’
appel de citation dans le texte peut être identifié par le nom du premier auteur ou par un numéro. Les références bibliographiques seront classées dans le premier cas par ordre alphabétique d'auteurs, et dans le deuxième cas par ordre numérique.
Exemples d'appels de citation et de références bibliographiques L'appel de citation par auteur : • Dans le texte, les citations sont placées entre crochets (ou parenthèses) et sont formées du nom du premier auteur (ou de ses 3 premières lettres) suivi de l'année de publication. Pour différencier plusieurs documents d'un même auteur publiés la même année, les citations sont suivies d'une lettre distincte (a, b, c,…). Exemple : « … le changement d'une propriété physique due à une réaction au niveau de sa surface avec le gaz à examiner [Esaki 80]. Une grande partie des dispositifs à état solide… » • Dans la partie « Références bibliographiques », la référence est précédée de l'appel de citation telle qu'elle figure dans le texte. Les références sont classées par ordre alphabétique du premier auteur, puis chronologiquement.
Exemple : [Esaki 80] Esaki, Microwave infrared detector with semiconductor supperlattice region, USA, Brevet n° 4348686, 28/07/1994… L'appel de citation par numéro de citation : • Dans le texte, les citations sont numérotées par ordre d'apparition. Les numéros sont placés entre crochets, entre parenthèses ou en exposants. Exemple : « Pour une réalisation d'un certain nombre de composants du circuit primaire dont les traversées du couvercle de cuve [6]. … » • Dans la partie « Références bibliographiques », les références sont classées par numéro. Exemple : [6] Pinard Legry G. Fiabilité des matériaux de structure dans l'industrie nucléaire. Matériaux et techniques, 1996, n° 7-8, pp. 11-18. L'appel de citation par numéro de référence bibliographique : • Dans le texte, les citations reprennent les numéros attribués dans la partie « Références bibliographiques ». Exemple : « … [27], à partir d'études sur des modèles expérimentaux établissent le
81
REPERE
Citations
schéma suivant : au cours de l'inspiration … Là se situe la partie la plus rapide et la plus résistive de toute la voie aérienne : la valve nasale [2], [25]. La vitesse du flux… »
Les résultats
• Dans la partie « Références bibliographiques », les références sont classées par ordre alphabétique du nom du premier auteur et numérotées (dans cet ordre).
Exemple : [25] O'NEILL G., TOLLEY N.S., The dynamics of nasal airflow, Facial plastic surgery, 1990, vol. 7, n°4, p. 215-220. [26] PHILIP, COLE P., Review, Stability of nasal airflow resistance, Clin. Otolaryngol, 1989, vol. 14, p.177-182. [27] PROCTOR D.F., ANDERSON I.B., The nose, Amsterdam : Elsevier Biomedical, 1982, 501 p.
Abréviations des titres de périodiques
L
es titres de périodiques peuvent être abrégés selon la norme internationale ISO 4 de 1997, règles pour l'abréviation des mots dans les titres et des titres des publications.
Certains sites présentent des tables de correspondance entre les titres de périodiques complets et abrégés ; ils permettent de rédiger correctement les abréviations des titres de périodiques sans avoir à consulter la norme.
@ • BOUDIA Dalila, NADJI Fatima. Guide de gestion des références bibliographiques : rédaction et citation [en ligne].
http://docinsa.insa-lyon.fr/refbibli/index.php • BU-Lettres /BU-Sciences (Université catholique de l'Ouest - Angers). Les normes de rédaction bibliographique [en ligne].
http://australie.uco.fr/info/biblio-info/menu3/menu3_1/bus_normes_bibliographie.php • Infosphère - sciences humaines et sciences de la gestion. Citer ses sources [en ligne].
http://www.bibliotheques.uqam.ca/InfoSphere/sciences_humaines/module7/citer.html • URFIST de Paris. CERISE : citer un document [en ligne].
http://www.ext.upmc.fr/urfist/cerise/p85.htm
Les résultats Gestion des signets, favoris ou bookmarks Auteur : Christophe BOUDRY Maître de conférences - URFIST de Paris/Ecole Nationale des Chartes boudry@ccr.jussieu.fr
84 85
La gestion des signets dans les navigateurs web Les logiciels spécifiques de gestion des signets
Favoris
Les résultats
➔
L'utilisation du réseau internet pour se documenter aboutit inexorablement au repérage d'un grand nombre de pages web, ce qui oblige les internautes à en stocker et organiser les adresses, sous peine de ne pas les retrouver s'ils souhaitent les visiter à nouveau. La plupart des navigateurs web proposent des fonctionnalités pour assurer ces fonction de stockage et de classement, connues sous les appellations de signets, favoris ou bookmarks, selon les navigateurs. Une interface spécifique permet ainsi de stocker des adresses web, de les classer sous formes de catégories et de sous-catégories définies par l'utilisateur, et de se rendre de nouveau sur un site dont l'adresse est enregistrée.
La gestion des signets dans les navigateurs web
L
es fonctionnalités de gestion des signets (ou favoris, bookmarks) proposées par les navigateurs sont assez proches les unes des autres. Le gestionnaire de fichier permet l'ajout d'un site web en cliquant sur « Ajouter un signet » (Figure 1).
Figure 1. Accès aux signets de Netscape
Ranger un signet dans une catégorie particulière est possible par le menu « Classer le signet ». Le menu « Modifier les signets » (Figure 1) permet d'accéder à une fenêtre de gestion des signets, qui permet de créer de nouvelles catégories, de déplacer des sites d'une catégorie vers une autre ou bien encore de supprimer une adresse de la liste des signets (Figure 2 et 3).
REPERE
84
Figure 2. Fenêtre de gestion des signets
Figure 3. Menu permettant d'effectuer différentes opérations sur les signets (ajout de catégorie, suppression…)
Les dispositifs de gestion de signets proposés par les navigateurs trouvent rapidement leurs limites, dès qu'il s'agit de gérer plus d'une centaine d'adresses différentes. Lors de la phase de stockage et de classement, il est en effet parfois difficile d'affecter un site à une catégorie plutôt qu'à une autre (problème qui n'est d'ailleurs
pas propre aux signets mais à toutes les classifications en catégories). Cette hésitation lors du stockage sera également retrouvée lors de la phase de recherche d'une adresse, l'usager ne sachant plus dans quelle catégorie un site a été rangé. L'absence de possibilité de recherche par mot clé est également très pénalisante.
Les logiciels spécifiques de gestion des signets
P
our pallier aux inconvénients des gestionnaires de signets proposés par les navigateurs, une multitude de logiciels spécifiques de gestion de signets ont été développés. Un panorama de l'offre est disponible par exemple à l'adresse : Megagiciel.com - Gestion des signets h t t p : / / w w w. m e g a g i c i e l . c o m / logiciels/313.html/ . Souvent proposés en freeware, ces logiciels permettent d'ajouter une page web dans la liste personnelle de signets par un simple clic de souris, mais aussi d'affecter des mots clés et des notes spécifiques à chaque site web indexé, afin de permettre ultérieurement une recherche textuelle par mots clés (Figure 4).
Il faut noter également que certains sites proposent maintenant une gestion en ligne des signets personnels, comme par exemple Yahoo ! Signets, http://fr. bookmarks.yahoo.com/.
Dans le même esprit se développent des sites de partage de signets, sur lesquels il est possible de gérer ses favoris, souvent enregistrés par un simple bouton intégré au navigateur. Ces signets sont alors accessibles aux autres internautes, et peuvent donc être la base d'un calatogue collaboratif. Les plus connus sont Délicious http://del.icio.us/ et FURL - your personal web http://www.furl.net/.
Figure 4. Saisie d'un nouveau site web dans ses signets (logiciel Powermarks)
• Megagiciel. Gestion des signets [en ligne]. http://www.megagiciel.com/logiciels/313.html
des outils
• Outils froids. Gestion de bookmarks [en ligne]. http://www.outilsfroids.net/texts/GestionBookmark.shtml
• AM-DeadLink [en ligne]. http://aignes.com/products.htm
• del.icio.us [en ligne]. http://del.icio.us/
• FURL - your personal web [en ligne]. http://www.furl.net/
@
Les outils Les interfaces Auteur : Lise HERZHAFT Conservateur des bibliothèques - URFIST de Lyon herzhaft@univ-lyon1.fr
88 88
Aspect général de l'interface Possibilités de recherche
Interfaces
➔
Toute utilisation de logiciels se fait à travers une interface, qui permettra, ou non, certains choix de recherche. L'utilisateur peut ainsi souvent choisir celle qui convient le mieux à ses besoins.
Aspect général de l'interface
Les outils
L'
interface est le logiciel, comportant des éléments graphiques, qui permet une communication entre l'ordinateur et l'être humain. Sa réalisation fait intervenir les compétences des informaticiens, mais aussi celles des ergonomes qui s'appuient sur les travaux des chercheurs en sciences cognitives. Sa bonne qualité, sa convivialité sont essentielles dans le processus de recherche de l'information pertinente. Certaines interfaces
permettent ainsi d'interroger en même temps des masses importantes d'information et des bases de données structurées. Le premier point à considérer est l'aspect global de l'interface : simplicité de présentation ou surcharge d'informations, à travers le nombre de couleurs, d'images, la quantité de texte... Voici l'exemple de deux interfaces pour interroger le même outil, Dialog.
Possibilités de recherche
Cette interface nécessite de connaître le langage d'interrogation du serveur Dialog pour poser une question dans le formulaire “Command”.
• FARENC Christelle, PALANQUE Philippe, VANDERDONCKT Jean. User Interface Evaluation: is it Ever Usable ? Advances in Human Factors/Ergonomics Series, 1995, vol. 20B, pp. 329-334. • NIELSEN Jakob. Conception de sites Web : l'art de la simplicité. Paris : CampusPress, 2004 • NOGIER Jean-François. Ergonomie web et logiciel. Paris : Dunod, 2005.
L'interrogation de Dialog est ici guidée, et peut se faire sans connaissance du langage spécifique au serveur.
Plusieurs fenêtres sont disponibles, dont l'intitulé précise la fonction. Les cases à cocher ou les choix dans les listes déroulantes (flèches) permettent de sélectionner les options souhaitées (mots sujets, mots à chercher dans le titre, nom de l'auteur, etc).
Certaines interfaces s'adaptent dynamiquement à la recherche de l'utilisateur, et offrent des choix en relations avec les sélections effectuées, par exemple lors de l'interrogation du catalogue de la Bibliothèque Joyner (Pirate Source http://web.lib.ecu.edu/piratesource).
Par la sélection « Art », sont proposés des types de documents (à droite, step 2 : source type) relevant spécifiquement du domaine artistique : iconographie, musées…
89
REPERE
Les outils
Interfaces
Pour le choix « Physique », l'application propose des types de documents différents : nomenclatures, manuels...
Enfin, l'interface permet de visualiser les réponses selon différents procédés : • toutes les réponses ou seulement un échantillon, • une seule réponse dans sa totalité ou seulement quelques parties significatives, • un aperçu de la page web obtenue avant de la charger complètement. La sauvegarde des données en local peutêtre facilitée, ainsi que l'impression.
• Dialogweb [en ligne].
http://www.dialogweb.com • Google [en ligne].
http://www.google.com • Pirate source [en ligne].
http://web.lib.ecu.edu/piratesource • Voila [en ligne].
http://www.voila.fr
Ainsi, l'utilisateur peut choisir les outils qu'il préfère, selon un aspect ergonomique mais aussi selon ses compétences et ses besoins : interface de « recherche simple » ou de « recherche avancée » des moteurs Altavista ou Google, interface guidée au cours de la consultation selon les étapes de la recherche. Les ergonomes ont pour ambition/objectif de permettre à chaque utilisateur d'adapter l'interface à ses besoins.
@
Les outils Les outils de recherche d'information sur le Web Auteur : Jean-Pierre LARDY MaĂŽtre de confĂŠrences - URFIST de Lyon lardy@cismsun.univ-lyon1.fr
92 94
Outils de recherche de ressources sur le web Un peu de syntaxe
Généralistes
Les outils
➔
Dès son apparition, le web a vu se développer de nombreux outils de recherche destinés à faciliter le repérage et le signalement des documents publiés. Mais, à partir du milieu des années 90, l'ouverture d'internet à toute la société a conduit à un développement prodigieux de ce service. Une masse considérable d'information hétérogène est depuis disponible. Parallèlement sont apparus des outils de recherche nombreux et variés prétendant tous être le meilleur et fournir le plus rapidement possible l'information la plus pertinente. Cependant, contrairement à ce qu'ils annoncent, il ne suffit pas d'entrer sans réflexion quelques mots : si il y a toujours des résultats, ces derniers sont rarement satisfaisants. Seule une bonne connaissance du fonctionnement de ces outils, de leur particularité et de la syntaxe des équations de recherche permet d'arriver à des résultats satisfaisants sans y consacrer trop de temps. Leur facilité d'utilisation ne sera bénéfique qu'après une réflexion sur les besoins d'information.
Outils de recherche de ressources sur le web Méthodes de gestion de l'information
CDU, Cl. of Library of Congress...) ou des taxinomies : dans les science de la vie, par exemple…
Il existe plusieurs façons de signaler, de classer l'information pour en faciliter l'accès.
• Les documentalistes cherchent à décrire au mieux le contenu des documents, avec une description et caractérisation réalisée par l'intermédiaire de lexiques (liste spécialisée de mots utilisés dans un domaine professionnel), de thésaurus (vocabulaire
• Les bibliothécaires proposent un classement des objets par catégories prédéfinies, à travers des classifications (Dewey,
• LARDY Jean-Pierre. Recherche d'Information sur l'Internet : outils et méthodes. Paris : ADBS, 2001 (Sciences de l'information ; Recherches et documents) [en ligne]. http://urfist.univ-lyon1.fr/risi/risi.htm
• MESGUICH Véronique, THOMAS Armelle. Net recherche : Le guide pratique pour mieux trouver l'information utile. Paris : ADBS, 2007 (Sciences et techniques de l'information).
normalisé et structuré de façon à éliminer les ambiguïtés du langage naturel utilisé pour l'analyse, l'indexation et la recherche automatisée de documents), ou de nomenclatures (ensembles de terminologies spécifiques en chimie, économie, ...). • Les informaticiens travaillent à extraire l'ensemble des termes constituant un texte à travers une indexation lexicale, ou indexation du texte intégral (full text indexing). Ainsi, on distingue deux grands types d'outils de recherche qui se sont aussi imposés pour le web : • les annuaires, où des documentalistes évaluent des sites et les classent, • les moteurs de recherche, où des robots trouvent les pages et les indexent. Même si les annuaires et les moteurs de recherche ont tous deux pour but le signalement de pages et de sites en rapport avec leurs intérêts, faire la différence entre ces deux outils est fondamental. Ils se distinguent en effet par le contenu de leur base de données, les méthodes de recherche, les résultats qu'ils fournissent. Enfin, ils peuvent être déclinés en divers types selon le domaine couvert ou le public visé. Le site RISI, Recherche d’Information sur Internet (http://urfist.univ-lyon1.fr/risi/risi.htm) offre un point complet sur les outils et méthodes.
Outils de recherche Les annuaires de recherche Il s'agit de répertoires (catalogues, guides ou directories) de sites classés par grandes catégories organisées hiérarchiquement. Construits « à la main », des documentalistes/éditorialistes (surfers) sélectionnent les sites en fonction de leur qualité, pertinence et fiabilité. C'est aux responsables de sites à demander le référencement. De nombreuses sociétés se sont
créées pour effectuer ce travail de référencement qui demande une connaissance approfondie des politiques variables des responsables d'annuaires. Les moteurs de recherche Les moteurs de recherche sont des bases de données constituées automatiquement grâce aux logiciels robots, qui scrutent à intervalles réguliers les serveurs déclarés sur Internet. Ils indexent mot à mot les documents localisés, permettant ainsi des interrogations par mots-clés. Les méta-moteurs Les méta-moteurs permettent d'interroger en parallèle plusieurs outils de recherche. Les plus récents suppriment les doublons et reclassent les résultats selon leur propre méthode. Utiles pour obtenir rapidement un panorama général des documents disponibles correspondant à un mot-clé, ils ne permettent pas d'effectuer des recherches complexes. Ils sont soit consultables directement en ligne, soit disponibles sous forme de logiciel à télécharger, avec des fonctionnalités plus performantes.
Méthode de tri des résultats Les moteurs de recherche essaient d'améliorer leur performance, en complétant la recherche par des techniques de tri des résultats. Plusieurs solutions ont été développées, malheureusement souvent détournées. Tri par pertinence Les résultats d'une requête sont affichés selon un ordre déterminé par le calcul d'un score pour chaque réponse. La pertinence est basée sur les 5 facteurs suivants, appliqués aux termes de la question : • Le poids d'un mot dans un document est déterminé par sa place dans le document : il est maximum pour le titre et le début du texte ; à l'intérieur du texte, il est plus important si le mot est en majuscule.
93
REPERE
Généralistes
• La densité est basée sur la fréquence d'occurrence du terme dans un document, par rapport à la taille du document. Si deux documents contiennent le même nombre d'occurrences, le document le plus petit sera donc favorisé.
Les outils
• Le poids d'un mot dans la base est basé sur la fréquence d'occurrence du terme dans toute la base de données. Les mots peu fréquents dans le corpus sont favorisés. Les mots vides sont soit éliminés, soit sous-évalués. • La correspondance d'expression est basée sur la similarité entre l'expression de la question et l'expression correspondante dans un document. Un document contenant une expression identique à celle de la question reçoit le poids le plus élevé. • La relation de proximité est basée sur
la proximité des termes de la question entre eux dans le document. Les termes proches sont favorisés. Tri par popularité Google a lancé cette méthode, basée sur le nombre de liens pointant sur les pages. Tri par calcul dynamique de catégories Cette méthode effectue un classement des documents trouvés dans des dossiers (clustering) constitués automatiquement en fonction des réponses. Un dossier peut lui-même être constitué de sous-dossiers. Cartographie des résultats Il s'agit plus ici d'une présentation visuelle des résultats, sous forme de cartes, comme le proposent Kartoo et MapStan.
Un peu de syntaxe Une syntaxe (presque) commune La plupart des outils de recherche sur Internet utilisent la syntaxe suivante, qui pourra être employée sans risque grave.
Opération
Dès que l'on effectue une recherche dans des documents en texte intégral, l'opérateur ET est insuffisant. Les opérateurs de proximité ou d'adjacence permettent de préciser la position de deux termes l'un par rapport à l'autre.
Opérateurs
Rechercher une expression Imposer un terme Exclure un terme Tronquer un terme
“ + *
Exemple “vache folle” +vache +folle +bretagne -grande vache*
Attention, les signes + et - doivent être collés à gauche du terme concerné. Cette syntaxe correspond en général aux formulaires de recherche simple.
La troncature Les moteurs de recherche tronquent souvent les termes sans prévenir. Cela peut produire
REPERE
94
du bruit. Le signe de troncature est généralement l'étoile : *. Certains outils francophones tiennent compte de règles grammaticales et d'exceptions pour élargir la recherche.
@ • LARDY Jean-Pierre. DADI : répertoire des bases de Données grAtuites Disponibles sur Internet [en ligne].
http://dadi.enssib.fr/ • Alltheweb [en ligne].
http://www.alltheweb.com/ • Altavista France [en ligne].
http://fr.altavista.com/ • Altavista International [en ligne].
http://www.altavista.com/ • AOL.fr, le portail d'AOL France [en ligne].
http://www.aol.fr/ • Copernic : Software to search, find, and manage information [en ligne].
http://www.copernic.com/ • Exalead [en ligne].
http://www.exalead.fr/search
o u t i l s
• Glooton - The free metasearcher for Pc and Macintosh [en ligne].
http://search.looksmart.com/ • Lycos annuaire de sites [en ligne].
http://www.recherche.lycos.fr/annuaire/ • MapStan Search : le métamoteur qui capitalise les connaissances [en ligne].
http://search.mapstan.net/ • Open Directory project [en ligne].
http://dmoz.org/ • Unité REseaux du CNRS [en ligne].
http://www.urec.fr/ • Vivisimo Clustered search results [en ligne].
http://www.vivisimo.com • Voila [en ligne].
http://www.glooton.com/
http://www.voila.fr
• Google France [en ligne].
• Voila Mail [en ligne].
http://www.google.fr/ • Google International [en ligne].
http://www.google.com/ • Google News [en ligne].
http://news.google.fr/
d e s
• Looksmart [en ligne].
• Kartoo - méta-moteur de recherche [en ligne].
http://www.kartoo.com/
http://mail.voila.fr • Voila Le guide du web [en ligne].
http://guide.voila.fr/ • Yahoo ! search directory [en ligne].
http://dir.yahoo.com/ • Yahoo ! recherche Guide web [en ligne].
http://fr.search.yahoo.com/dir
Les outils Outils de recherche de pages Web spécifiques au domaine scientifique Auteur : Christophe BOUDRY Maître de conférences - URFIST de Paris/Ecole Nationale des Chartes boudry@ccr.jussieu.fr
98 99
Pourquoi des outils de recherche spécifiques ? Typologie des outils de recherche spécifiques au domaines scientifiques
Spécialisés
➔
Sur les outils de recherche généralistes du web, il n'est pas possible d'indiquer le type de réponses espéré, ce qui représente une gêne considérable lors d 'une recherche d'informations spécialisées. Certains outils permettent cependant de mener l'exploration sur des pages scientifiques.
Les outils
Pourquoi des outils de recherche spécifiques ?
S
donc directement de la nature de ce dernier (moteur, méta-moteur ou annuaire).
• la qualité de la requête formulée par l'utilisateur, qui peut s'avérer mal posée,
Les outils de recherche spécifiques au domaine scientifique ou à des domaines disciplinaires plus restreints ont été développés avec l'objectif de pallier aux principaux inconvénients des moteurs et annuaires généralistes. Pour les moteurs spécifiques, la sélection par le robot de sites appartenant à un domaine particulier a pour objectif de limiter le bruit. Les annuaires spécifiques permettent la restriction à un domaine scientifique ou à une discipline donnée, ce qui minimise le silence lié aux requêtes très spécialisées dans ces domaines. La difficulté pour ces outils spécifiques est de trouver un équilibre dans la sélection des sites présents dans leurs index, afin de satisfaire le plus grand nombre d'utilisateurs d'un domaine donné.
ilence et bruit sont deux paramètres qui permettent d'évaluer la qualité d'une recherche d'information. Le silence correspond aux résultats pertinents non trouvés par l'utilisateur, tandis que le bruit correspond aux résultats non pertinents récoltés. Les utilisateurs des différents outils de recherche disponibles sur internet sont confrontés à cet excès ou ce manque de réponses, qui peut s'expliquer par deux facteurs :
• la qualité de l'index interrogé : nombre de documents recensés, qualité intrinsèque de l'outil, spécificité des documents présent dans cet index. Si la requête est correctement formulée, le nombre de réponses dépendra essentiellement du nombre de documents présents dans l'index de l'outil de recherche interrogé, et
• BOSC Hélène. La communication scientifique revue et corrigée par Internet [en ligne]. http://www.tours.inra.fr/prc/internet/documentation/communication_scientifique/comsci.htm
• SAMIER Henry, SANDOVAL Victor. La recherche intelligente sur l'Internet et l'intranet : outils et méthodes. Paris : Hermès Science Publications, 1999.
Typologie des outils de recherche spécifiques au domaines scientifiques Moteurs de recherche du domaine « scientifique » Il existe un grand nombre de moteurs dédiés aux différents domaines scienti-
fiques. Ces outils peuvent couvrir tous les domaines scientifiques (cas de Scirus for scientific information http://www.scirus.com/) ou plus spécifiquement un domaine disciplinaire restreint.
Exemple d’interface d’un moteur de recherche spécifique du domaine scientifique.
99
REPERE
Spécialisés
Le grand nombre de disciplines scientifiques et d'outils de recherche disponibles dans chacune des disciplines scientifiques rend Discipline Multidisciplinaires
Biologie/médecine
Adresse des moteurs de recherche SciNet Science Search
http://www.scinet.cc/
Scirus - for scientific information
http://www.scirus.com/
BioView.com Careers for life in sciences http://www.bioview.com/
Annuaires de recherche du domaine scientifique
Les outils
impossible une présentation exhaustive. Le tableau suivant propose une sélection d'outils dans quelques disciplines scientifiques :
Comme pour les moteurs de recherche spécifiques, les annuaires peuvent concer-
ner tous les domaines scientifiques ou un domaine disciplinaire restreint. Le tableau suivant propose une sélection d'annuaires dans quelques disciplines scientifiques :
Discipline
Adresse des annuaires de recherche
Toutes disciplines
BUBL LINK / 5:15 Catalogue of Selected Internet Resources http://bubl.ac.uk/link/ SciCentral.com http://www.scicentral.com/ Virtual Library : Sciences naturelles et mathématiques http://vlib.org/Science
Biologie/médecine
Bio Netbook http://www.pasteur.fr/recherche/BNB/bnb-fr.html Intute : Health and life sciences http://www.intute.ac.uk/healthandlifesciences/medicine MedBioWorld http://www.sciencekomm.at/
REPERE
Chimie
ChemDex - Directory of chemistry http://www.chemdex.org/
Droit
FindLaw - Law, Lawyers and Legal Resources http://www.findlaw.com/
Histoire
History On-Line http://ihr.sas.ac.uk/ihr/Resources/index.html
Mathématique
The internet guide to Engineering, Mathematics and Computing - Mathematics section http://www.eevl.ac.uk/mathematics/
100
Exemple d’interface d’annuaire de recherche spécifique du domaine scientifique.
@ • Bio Netbook [en ligne].
http://www.pasteur.fr/recherche/BNB/bnb-fr.html • BioView.com - Careers for life in sciences [en ligne].
http://www.bioview.com/ • BUBL LINK / 5:15 Catalogue of Internet Resources [en ligne].
http://bubl.ac.uk/link/ • ChemDex - Directory of chemistry [en ligne].
http://www.chemdex.org/ • FindLaw - Law, Lawyers and Legal Resources [en ligne].
http://www.findlaw.com/ • History On-Line [en ligne].
http://ihr.sas.ac.uk/ihr/Resources/index.html • Intute : Health and life sciences [en ligne].
http://www.intute.ac.uk/healthandlifesciences/medicine/
Les outils
Spécialisés
Enfin, pour découvrir d'autres outils de recherche du domaine scientifique, un certain nombre de sites proposent des listes d'outils de recherche sur internet par disciplines scientifiques. En voici quelques uns : Science Search Engines http://www.searchengineguide.com/pages/ Science/
Yahoo! Science - Web Directories http://dir.yahoo.com/Science/Web_Directories
Open Directory - Science: Directories http://dmoz.org/Science/Directories/
Bioexplorer.net http://www.bioexplorer.net/Search_Engines/
(Outils de recherche spécifiques au domaine de la biologie/médecine).
• MedBioWorld [en ligne].
@
http://www.sciencekomm.at/ • Open Directory - Science: Directories [en ligne].
http://dmoz.org/Science/Directories/ • SciCentral.com [en ligne].
http://www.scicentral.com/ • SciNet Science Search [en ligne].
http://www.scinet.cc/ • Scirus - for scientific information [en ligne].
http://www.scirus.com/ • SciSeek Science online [en ligne].
http://www.sciseek.com/ • The internet guide to Engineering, Mathematics and Computing - Mathematics section [en ligne].
http://www.eevl.ac.uk/mathematics/ • URFIST de Strasbourg. Répertoires par disciplines [en ligne].
http://urfist.u-strasbg.fr/ressources.php?page=disciplines • Virtual Library : Sciences naturelles et mathématiques [en ligne].
http://vlib.org/Science • Yahoo! Science - Web Directories [en ligne].
http://dir.yahoo.com/Science/Web_Directories
Les outils La recherche des documents multimédia sur Internet (images, vidéo, sons) Auteur : Christophe BOUDRY Maître de conférences - URFIST de Paris/Ecole nationale des chartes boudry@ccr.jussieu.fr
104 106 108 110
Problématique de la recherche des documents multimédia sur Internet Outils de recherche d’images sur Internet Outils de recherche d'images animées (vidéos) Outils de recherche de sons et musique
Multimédia
➔
Si Internet offre des ressources textuelles, on y trouve aussi des ressources de type multimedia en grand nombre. Cependant, la recherche de ces données est moins connue et présente certaines caractéristiques propres à ces types de documents.
Problématique de la recherche des documents multimédia sur Internet
Les outils
Méthodes de recherche des documents multimédia Il est possible de distinguer 3 types de méthode de recherche de documents multimédia. La recherche par mot clé sur le texte associé aux documents multimédia La méthode de recherche de documents multimédia s'effectue dans les données textuelles associées au document multimédia, par exemple les données de la page web où est présenté le document multimédia (notion décrite par le terme “concept-based image retrieval” dans la littérature anglo-saxonne, en ce qui concerne les images). Cette méthode de recherche est la plus utilisée par les outils de recherche sur internet. Les méthodes d'indexation et de recherche mises en oeuvre s'apparentent alors tout à fait à
celles utilisées pour la recherche de pages web, les données indexées sont alors des informations textuelles qui se rapportent aux documents multimédia à l'intérieur de la page web. Ces informations textuelles sont localisées à deux emplacements : • dans le code HTML des balises et attributs spécifiques aux documents multimédia. Pour les images il s'agit de la balise <IMG SRC="...">, qui indique l'insertion d'une image dans une page HTML, de la balise <A HREF="...">, qui indique un lien hypertexte vers un document multimédia, ou encore de l'attribut ALT="..." qui représente le texte alternatif d'une image (l'inconvénient est qu'il n'est pas toujours renseigné par les créateurs de pages HTML), • dans le texte de la page associée ou dans le titre de la page « support » de l'image.
• BOUDRY Christophe. En savoir plus sur les images numériques [en ligne]. http://www.ext.upmc.fr/urfist/image_numerique/Image_numerique1.htm
• BOUDRY Christophe, AGOSTINI Clémence. Étude comparative des fonctionnalités des moteurs de recherche d'images sur Internet. Documentaliste – Sciences de l’information, 2004, vol. 41, n° 2, p.96-105.
La recherche sur le contenu des documents multimédia Développée relativement récemment et utilisée encore principalement à titre expérimental sur internet, la méthode de recherche sur le contenu des documents multimédia (notion décrite par le terme “content-based image retrieval” dans la littérature anglo-saxonne, en ce qui concerne les images) a pour principe d'identifier ces documents à partir de leur contenu, c'est à dire directement à partir des données du fichier, et non plus à partir du texte associé. Ce processus de recherche est divisé en deux phases : • Une phase d'indexation, où il s'agit d'extraire des informations à partir de ces fichiers (par exemple : informations sur la couleur pour un fichier image, ou information sur la composition en terme de fréquence pour un fichier son), afin de représenter chaque document par un ensemble de paramètres permettant de décrire son contenu le plus précisément possible. Les valeurs de ces paramètres sont indexées, et représentent en quelque sorte la « signature » de chaque fichier dans la base de données, • Une phase de recherche, où l'utilisateur va choisir un document multimédia de départ, afin que l'outil de recherche compare sa « signature » à toutes celles des documents présents dans l'index. L'outil propose alors la liste des documents ayant une « signature paramétrique » similaire à celle du document de départ. La recherche de documents multimédia par furetage La recherche par furetage consiste à rechercher des documents multimédia en se déplaçant dans une arborescence organisée en catégories. Ce type de méthode est surtout utilisé dans les annuaires de recherche d'images.
Localisation des documents multimédia sur les réseaux Les documents multimédia que permettent de retrouver ces méthodes (par texte associé, par analyse du contenu du document et par furetage) sont localisés principalement sur trois types d'emplacements : • Les sites web « quelconques », sites web qui proposent des documents multimédia le plus souvent à titre d'illustration. Les outils de recherche pour localiser ces document sont les moteurs, annuaires et méta-moteurs. • Les serveurs FTP, ordinateurs qui offrent aux utilisateurs du réseau internet une multitude de fichiers informatiques, dont des documents multimédia. Ces serveurs sont généralement mis à disposition et à jour par des structures universitaires. Certaines informations sont accessibles à tous les utilisateurs (le plus souvent dans un répertoire ou dossier nommé « /pub ») sans restrictions particulières. Les outils de repérage de ces documents sont les outils de recherche spécifiquement dédiés aux serveurs FTP. • Les sites web « fermés » correspondant à des bases de données gérées dynamiquement, auxquelles les outils de recherche « classiques » ne peuvent pas accéder. La seule façon de repérer ces documents est de se rendre sur chaque site, et donc de connaître leur adresse web. Il existe quelques sites qui référencent ces bases de données : (par exemple, pour les images, Finding Images Online : directory of web image sites http://www.berinsteinresearch.com/fiolinks.htm ou
En savoir plus sur les images numériques http://www.ext.upmc.fr/urfist/image_num erique/Image_numerique1.htm).
105
REPERE
Multimédia
Outils de recherche d’images sur Internet Recherche d'images sur les sites Web « quelconques » Comme pour les outils de recherche de pages web, il est possible de distinguer 3 types d'outils de recherche d'images : Les moteurs de recherche d'images
Le spider (ou robot) repère les images sur les pages web (à l'aide des extensions de fichiers) qu'il parcourt par suivi récursif des liens des pages web visitées [1] ou après soumission par leur auteur [2], et qu'il intègre dans l'index [3]. Certaines images sont inaccessibles au spider [4] : images situées sur des pages web en accès réservé ou orphelines…
Les outils
Ces outils de recherche peuvent théoriquement utiliser indifféremment la recherche par le texte associé et/ou sur le
contenu des images, mais rares sont ceux qui proposent réellement une recherche sur le contenu.
Principes de fonctionnement des moteurs de recherche d'images.
L'index constitue le lieu de stockage des images (ou plus exactement des vignettes des images), du texte associé aux images et/ou des paramètres associés à chaque image. L'interface de recherche permet à l'utilisateur de saisir sa requête textuelle ou
REPERE
106
de sélectionner une image comme point de départ pour la recherche [5]. Les termes recherchés ou les paramètres décrivant l'image de départ sont alors « confrontés » à ceux présents dans l'index [6]. L'utilisateur peut consulter [7] en retour une liste d'images, proposées selon un ordre de pertinence donné. Il peut accé-
der aux images d'origine présentes sur le site web via un lien hypertexte [8]. Les annuaires de recherche d'images De par l'organisation en catégories des images proposée, la méthode de recherche dévolue à ces outils est le furetage ; cependant, nombreux sont ceux
L'indexeur rédige alors une fiche descriptive et classe les images dans des catégories pré-établies [3]. L'utilisateur peut, via l'interface de recherche, naviguer dans les catégories ou saisir une requête [4], dont les termes sont recherchés dans l'index [5]. Celui-ci, en retour, propose une liste d'images sous forme de vignettes [6]. L'utilisateur peut les consulter sur le site web qui les hébergent, via un lien hypertexte [7].
qui proposent en plus la possibilité de rechercher dans le texte associé aux images. Les annuaires se distinguent des moteurs de recherche par leur processus de sélection des images, qui s'effectue par une intervention humaine, à partir d'images trouvées sur internet [1] ou d'images qui sont soumises par leurs propriétaires [2].
moteurs ou annuaires de recherche d'images [2].
Les méta-moteurs de recherche d'images Peu nombreux, les méta-moteurs de recherche d'images sont basés strictement sur le même principe que ceux destinés à la recherche des pages web. Ils comportent une interface de recherche unique [1], dont la zone de saisie permet d'envoyer une requête textuelle à divers
107
REPERE
Multimédia
Les images provenant de ces différents outils sont présentées sur l'interface du méta-moteur [3] selon un ordre de pertinence donné. L'utilisateur peut les consulter via un lien hypertexte [4]. Type d'outils de recherche d'images • Moteurs de recherche Alltheweb http://www.alltheweb.com/ Alta Vista http://www.altavista.com/
Les outils
Ditto.com - see the web http://www.ditto.com/ Google http://www.google.com/ Lycos http://www.lycos.com/ Picsearch - the search engine for pictures and images http://www.picsearch.com/ • Annuaires WebSEEK http://persia.ee.columbia.edu:8008/ • Méta-moteurs Search.com - Images http://www.search.com/images
Outils de recherche pour localiser les images présentes sur les serveur FTP La recherche d'images sur les serveurs FTP s'apparente à une recherche dans l'arborescence d'un ordinateur, comme celle que l'on peut effectuer dans l'explorateur Windows sous PC ou par l'utilisation de la commande Unix “find”, à ceci près que les outils de recherche sur les serveurs FTP interrogent simultanément plusieurs ordinateurs. Le mode de recherche employé n'est pas très élaboré car la recherche s'effectue uniquement sur les noms de fichiers et de l'arborescence du serveur FTP. Les meilleurs résultats sont souvent obtenus en combinant le ou les termes recherchés et les termes « images » ou « picture » (noms des répertoire généralement utilisés pour stocker les images sur ces serveurs) ou jpg, gif, tif ou png (extensions des fichiers images). Le site http://www.ftpsearchengines.com/ permet de localiser les outils de recherche sur les serveurs FTP disponibles actuellement.
Outils de recherche d'images animées (vidéos) Outils de recherche des images animées présentes sur les sites Web « quelconques » Les méthodes de recherche des images animées (qui ne sont que des successions d'images fixes) sont très proches de celles des images fixes. Comme pour ces dernières, la méthode de recherche la plus utilisée sur internet utilise le texte associé
REPERE
108
aux images animées. Cependant, une difficulté supplémentaire provient du très grand nombre de format d'images animées disponible, qui oblige souvent l'utilisateur à disposer de plusieurs logiciels différents pour pouvoir lire ces données (une visite du site GIRI1 - Principaux formats de fichiers http://www.bibl. ulaval.ca/vitrine/giri/mod1/1_4.htm permet d'avoir un descriptif de ces différents
formats et des logiciels nécessaires à leur lecture). Pour répondre à cette grande variété et faciliter la tache de leurs utilisateurs, la plupart des outils de recherche permettent de limiter la recherche à un type de format de fichiers d'image animées donné. La recherche d'images animées sur les sites web quelconques se fait principalement par des options sur les moteurs de recherche. Un seul annuaire semble exister à l'heure actuelle, Webseek, http://persia.ee.columbia.edu:8008/, qui
présente les vidéos sous une forme simplifiée, par la présentation de quelques images caractéristiques, pour permettre à l'utilisateur d'avoir une idée rapide du contenu de la vidéo complète.
Outils de recherche pour localiser les images animées présentes sur les serveur FTP Les outils et la méthodologie pour localiser des images animées sur les serveurs FTP sont identiques à ceux présentés pour les images fixes.
@ • Alltheweb [en ligne].
http://www.alltheweb.com/ • Altavista [en ligne].
http://www.altavista.com/ • Dïtto – see the web [en ligne].
http://www.ditto.com/ • Finding Images Online : directory of web image sites [en ligne].
http://www.berinsteinresearch.com/fiolinks.htm • FindSounds – search the web for sounds [en ligne].
http://www.findsounds.com/ • FTPsearchengines.com [en ligne].
http://www.ftpsearchengines.com/ • Google [en ligne].
http://www.google.com/ • Lycos multimedia [en ligne].
http://www.lycos.com/?tab=multi • Open Directory - Computers: Multimedia: Music and Audio: Audio Formats: MP3 [en ligne].
http://dmoz.org/Computers/Multimedia/Music_and_Audio/Audio_Formats/MP3/
Multimédia
Les outils
Outils de recherche de sons et musique Outils de recherche de sons présents sur les sites Web « quelconques »
http://dmoz.org/Computers/Multimedia/ Music_and_Audio/Audio_Formats/MP3/ pour en avoir un aperçu).
Comme pour les images animées, il existe un grand nombre de formats de fichiers sons dont le plus connu est le format MP3. Les outils disponibles pour rechercher des sons sur internet sont principalement des moteurs de recherche. Certains de ces outils proposent un choix au niveau du type de format recherché (comme, par exemple, pour Altavista ou Findsounds - Search the Web for Sounds http://www.findsounds.com/).
Outils de recherche pour localiser des sons présents sur les serveurs FTP
D'autres outils proposent uniquement des sons au format MP3 (c'est le cas de Alltheweb), format le plus utilisé comme support de la musique numérique. Le réseau internet prenant de plus en plus d'importance comme moyen de diffusion de la musique (que ce soit de façon légale ou illégale), de nombreux sites web sont en effet spécialement dédiés à la recherche de fichiers au format MP3 (voir Open Directory - Computers: Multimedia: Music and Audio: Audio Formats: MP3
Les outils et la méthodologie pour localiser des sons sur les serveurs FTP sont identiques à ceux présentés pour les images fixes. Pour finir ce tour d'horizon des outils de recherche de sons et de musique, il faut également signaler les nouveaux systèmes de recherche basés sur le partage de fichiers, dont les représentants les plus emblématiques sont Napster, Gnutella, Kaaza et eMule. Leur fonctionnement est basé sur le principe que tout utilisateur connecté à ces outils doit donner accès aux autres utilisateurs à certains fichiers (les fichiers MP3 notamment) présents sur son ordinateur. En échange, chaque utilisateur peut accéder à tous les fichiers mis à disposition par les autres utilisateurs du réseau. Ces outils, accusé par les producteurs et distributeurs officiels de musique de faciliter le piratage, sont en constante évolution.
• Picsearch - the search engine for pictures and images [en ligne]. http://www.picsearch.com/ • Retrievr [en ligne]. http://labs.systemone.at/retrievr/ • Search.com - Images [en ligne]. http://www.search.com/images • Université de Sherbrooke. Sites d’images [en ligne]. http://www.usherbrooke.ca/biblio/trouver/images.htm • Webseek [en ligne]. http://persia.ee.columbia.edu:8008/
@
Centre de ressources de formations pour la recherche de l’information spécialisée Les URFIST (Unités Régionales de Formation à l'Information Scientifique et Technique) ont une double mission : former le personnel des bibliothèques ainsi que le public universitaire (étudiants de 3e cycle et enseignants) à l'information scientifique et technique, et plus généralement les sensibiliser aux nouvelles technologies de l'information. SICOD-URFIST de Bordeaux Université Montesquieu Bordeaux IV 4, avenue des Arts - 33607 PESSAC Tél. 05 56 84 29 19 - Fax 05 56 84 29 15 Responsable : Marie-France ANDRAL Site Web : http://urfist.u-bordeaux4.fr/ Académies : Bordeaux - Limoges - Poitiers
URFIST de Lyon Université Claude Bernard - Lyon I Domaine universitaire de la Doua 43, boulevard du 11 Novembre 1918 69622 VILLEURBANNE Cedex Tél. 04 72 44 80 86 - Fax 04 78 89 21 64 Responsables : Claire DENECKER, Jean-Pierre LARDY Site Web : http://urfist.univ-lyon1.fr Académies : Clermont-Ferrand - Dijon Lyon - Grenoble
URFIST de Nice Petit Valrose - Avenue Joseph Vallot 06108 NICE Cedex Tél. 04 92 07 67 29 - Fax 04 92 07 67 00 Responsables : Gabriel GALLEZOT, Michel ROLLAND Site Web : http://www.unice.fr/urfist/ Académies : Aix-Marseille - Corte - Nice
URFIST de Paris 17, rue des Bernardins - 75005 PARIS Cedex Tél. 01 43 26 85 22 / 34 - Fax 01 43 26 29 54 Responsables : Julia JUMEAU, Hervé LE MEN, Annaïg MAHE, Claire PANIJEL Site Web : http://www.ext.upmc.fr/urfist/ Académies : Caen - Créteil - Orléans - Tours Paris - Reims - Rouen - Versailles Antilles-Guyane
URFIST de Rennes Université de Rennes II - SCD/Section Lettres Place du recteur Le Moal - CS 64302 35043 RENNES Cedex Tél. 02 99 14 14 46 - Fax 02 99 14 14 47 Responsables : Marie-Laure MALINGRE, Alexandre SERRES Site Web : http://www.uhb.fr/urfist/ Académies : Nantes - Rennes
URFIST de Strasbourg Université Louis Pasteur (Strasbourg I) BU de Sciences - 34, boulevard de la Victoire BP 10 - 67070 STRASBOURG Cedex Tél. 03 90 24 08 00 - Fax 03 90 24 08 19 Responsables : Eric HEILMANN, Jacques REIBEL, Sandrine WOLFF Site Web : http://urfist.u-strasbg.fr Académies : Besançon - Nancy-Metz Strasbourg
URFIST de Toulouse Université de Toulouse I - BIU 11, rue des Puits Creuses - 31070 TOULOUSE Tél. 05 34 45 61 80 / 81 / 82 Fax 05 34 45 61 85 Responsables : Elisabeth LACOMBE, Muriel LEFEBVRE Site Web : http://www.urfist.cict.fr Académies : Bordeaux - Limoges Montpellier - Toulouse
L’ENSSIB (Ecole Nationale Supérieure des Sciences de l’Information et des Bibliothèques) a pour mission de former les conservateurs et les bibliothécaires de l’Etat et des collectivités territoriales, les cadres des services de documentation et d'information scientifique et technique. ENSSIB 17-21, boulevard du 11 Novembre 1918 69623 Villeurbanne cedex - France Tél. 04 72 44 43 43 - Fax 04 72 44 43 44 Site Web : http://www.enssib.fr
Le service FORMIST (FORMation à l'Information Scientifique et Technique) y a été mis en place pour répondre aux besoins des étudiants, enseignants et bibliothécaires en matière d’éducation à la maîtrise de l'information, de veille et de travail en réseau. Le site web FORMIST propose des ressources pédagogiques validées et des documents sur le thème de la formation à la maîtrise de l’information. FORMIST - ENSSIB Tél. 04 72 44 43 17 - Fax 04 72 44 43 44 Responsable : Elisabeth NOËL Site Web : http://formist.enssib.fr/
111
REPERE
Présenter l'ensemble des ressources électroniques dans leur diversité (accès, usages, coûts, acteurs, législation, typologie, technique) en privilégiant une approche liée à l'information scientifique et technique (recherche d'information sur Internet, gestion de l'information personnelle, évaluation), tel est l’objectif de REPERE.
Troisième édition papier : septembre 2007 Mise à jour essentiellement des adresses internet ISSN : 1777-9855 Coordination et mise à jour par Elisabeth Noël (Service FORMIST - Ecole Nationale Supérieure des Sciences de l’Information et des Bibliothèques) ENSSIB 17-21, bd du 11 Novembre 1918 69623 Villeurbanne cedex http://www.enssib.fr avec le soutien financier de la sous-direction des Bibliothèques et de l’Information Scientifique (ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche)
www.charvet-imprimeurs.fr
Cette brochure est distribuée à titre gratuit par l’enssib. Vente interdite.