Untitled Document

Introduction aux moteurs de recherche
Information, informations et désinformation ?

Christine Ducourtieux

Révisions de A. Dallo et G. Romero Passerin d'Entrèves

(à jour en Février 2005)

Pourquoi l'internaute a-t-il recours à des moteurs de recherche ?
Mots-Clé
Fiches techniques, descriptions des moteurs de recherche
.

Version pleine page

Pour tester et aller plus loin

Pourquoi l'internaute a-t-il recours à des moteurs de recherche ?

Qu'est-ce qu'un outil de recherches sur le net?

Les outils de recherche sont des sites Internet où l'on peut effectuer toutes sortes de recherches pour trouver ce qui existe dans Internet. Financés par la publicité et les services, leur usage est le plus souvent gratuit. Si Internet était un livre, les annuaires (ou guides) thématiques en seraient la table des matières, bien partielle, et les moteurs de recherche un moyen de chercher l'information mot par mot, mais sans bien savoir le contenu du livre.

Un annuaire: http://www.yahoo.fr
Un moteur de recherches: http://www.google.fr

La surabondance et la fragmentation des ressources
Quelques chiffres : en 1993, quelques centaines de milliers de textes sont accessibles sur le Web ; en février 1999 on dénombre 800 millions de documents soit un volume de 15 téraoctets (millions de millions de caractères), dont 6 téraoctets de texte pur et ces chiffres n'intègrent pas les documents générés dynamiquement par programme à partir de bases de données (cf. François Bourdoncle, Patrice Bertin, "Recherche d'aiguilles dans une botte de liens", La Recherche , 328 (février 2000), p.66). Moins sérieusement, en 1993, on parvenait a trouver au travers d'un moteur de recherche, 145 mentions du terme "tiramisu", recette italienne de patisserie bien connue des amateurs. Au dernier pointage, en février 2005, on en trouve dans le moteur de recherches Google 670 000 si on l'écrit en un seul mot, 23700 si on l'écrit en deux mots ("tirami su"), 1060000 dans Altavista en un seul mot, et 33500 en deux mots. Altavista renvoie a 4000 images différentes, alors que Google renvoie à 9370. Le corpus de travail est donc considérable et ne cesse d'augmenter, et en fonction des moteurs utilisés, la qualité et l'intérêt des réponses obtenues varient énormément. Par contre, il est clair qu'il faut déconseiller la plus part des recettes évoquées!
Ces ressources sont très hétérogènes : sites commerciaux, personnels, institutionnels, universitaires ; articles, romans, pages publicitaires, catalogues...Plus de cent langues y sont représentées. Les pourcentages étaient en 1997 de 82,3 % pour l'anglais, 4 % pour l'allemand, 1,6 % pour le japonais, 1,5 % pour le français, 1,1 % pour l'espagnol, 1,1 % pour le suédois et 1 % pour l'italien. En 1999, la répartition s'établit comme suit: Anglais à 56%, puis Japonais à 17,40%, puis Espagnol à 17,1, Allemand à 16,80%, Français à 10%.

"Il s'agit, en fait de toute une partie du savoir humain réuni, en vrac, sur un même support" (Op.cit.). On a beaucoup écrit sur Internet et il existe une véritable "littérature" autour du caractère révolutionnaire de cet objet, sans vouloir nourrir le "mythe naissant", la cohabitation d'éléments aussi disparates sur un même support est un phénomène exceptionnel qui implique que le chercheur apprenne à naviguer dans des univers sémantiques jusqu'alors inconnus de lui.

Les chiffres sur les moteurs de recherche.
"Tiramisu" dans Google

Les langues sur le net 1

Les langues sur le net 2

Signal, bruit et silences

On appelle rapport signal sur bruit la proportion des messages pertinents par rapport aux messages inutiles circulant, par exemple, dans un groupe de nouvelles. Un groupe de nouvelles dont on dit de son rapport signal sur bruit qu'il est bas est caractérisé par un taux élevé de messages inutiles. Le rapport entre la quantité d'information utile (le signal) et celle d'information inutile (le bruit), peut être subjectif, l'information intéressante dans un système ou pour une personne peut gêner la réception ou la compréhension de l'information intéressante pour un autre système ou pour une autre personne (par exemple, lorsque dans une même pièce des personnes écoutent la télévision alors que d'autres discutent).

Le bruit est immédiatement perceptible lors d'une requête trop généraliste. Il suffit de demander "histoire médiévale" pour s'en persuader : le nombre de réponses affiché est totalement dissuasif. L'internaute renonce immédiatement à visualiser les centaines de documents proposés. En ceci le web est éminemment pédagogique, car dans la recherche documentaire traditionnelle, l'étudiant ne refuse pas d'engranger les bibliographies dites exhaustives - dans l'idée d'une utilisation future - alors qu'il sait pertinemment qu'il n'aura pas le temps d'en parcourir la moitié. L'Internet guérit de ce qu'on peut appeller un peu familièrement le "syndrome de l'écureuil" ; la masse documentaire et son caractère changeant (les sites naissent et disparaissent) dissuadent de faire provision de denrées périssables.

Le silence est l'autre versant, tout aussi douloureux, d'une recherche sur le Web. Ce problème comme celui du bruit n'est pas nouveau mais il est d'une nature un peu différente de celui que l'on rencontre dans la recherche traditionnelle. Un chercheur aguerri connaît parfaitement les outils documentaires ou méthodologiques qui lui permettent de mener à bien une recherche d'information. S'il ne trouve pas, il peut raisonnablement penser être novateur en un domaine. Cette certitude est précieuse pour aborder une recherche sereinement. Avec Internet, la situation se complexifie ; ne pas trouver ne signifie nullement qu'il n'y a rien. Il est plus probable que l'on n'a pas su chercher. C'est ici qu'une bonne connaissance des outils de recherche est indispensable. Comme il est également utile de savoir sur quoi ces fameux outils cherchent afin d'évaluer le degré de pertinence des réponses. Il arrive souvent aussi que l'objet de la recherche soit mal défini par rapport à ce qui est disponible dans l'internet. Nombre de requêtes avec des mots clé historiques aboutissent a retrouver essentiellement des sites touristiques. La reflexion sur le choix des mots clé doit donc être très approfondie quand on se lance sur le net.

Théorie Signal/Bruit

Mot-Clé

On peut désormais donner deux définitions différentes à cette notion.

Descripteur ou mot clé classique : terme retenu lors de l'indexation d'un document. Une série de mots clés tente de décrire le plus précisément possible le contenu conceptuel d'un document.
Dans les bases de données traditionnelles comme celles réunies sous le nom de Francis, les descripteurs ou mot clés sont puisés dans un thésaurus qui a été élaboré par des chercheurs et des documentalistes : le vocabulaire de la description est en quelque sorte clos même s'il peut être enrichi. Les limites de l'interrogation à l'aide d'un vocabulaire choisi ont été compensées par la possibilité d'interroger par "uniterm" le texte libre du résumé, la langue du résumé reprend généralement celle de l'article. Ainsi un chercheur familiarisé avec le langage conceptuel de sa discipline et de son évolution sur plusieurs décennies n'a guère de difficulté à interroger ces bases.

Descripteur ou mot clé web : Sur le net la difficulté est démultipliée : il faut certes posséder le vocabulaire conceptuel d'un champ disciplinaire mais également savoir qu'il diffère d'un pays à l'autre voire qu'il peut être abusivement utilisé par d'autres. Pour le Moyen Âge, par exemple, il faut être conscient qu'il existe une "vogue" pour cette époque et qu'il est difficile de se frayer un chemin parmi des sites parfois très farfelus sur les Cathares, les Templiers, etc. Jeux de rôles et recettes de cuisines prétendument médiévales masquent bien souvent des sites réellement animés par des médiévistes.

On peut de manière plus générale définir trois catégories de mots clé. Les mots clés "primaires" ou "larges", qui définissent, de façon globale, le champ d'investigation, comme par exemple, histoire, moyen-âge, France, littérature, démographie, etc... Puis les mots clés "secondaires" ou "profonds".
Au sein du domaine plus large, ils définissent la requête elle-même de manière plus précise, pâr exemple Paris, Louis XI, révolution démographique, etc... Enfin, les mots clés "interdits", qui peuvent vous induire en erreur lors de vos recherches et donc à exclure.

Si l'on recherche des informations sur les galères de France au XVIème siècle, par exemple, les termes histoire, et histoire navale peuvent permettre une bonne approche en bibliothèque, et dans un thésaurus organisé. Par contre, ils n'amèneront sur le net que fort peu de signal, et énormément de bruit. Les sites qui parlent des galères ne se définissent pas forcément explicitement dans ces catégories, et d'autre part ces catégories recoupent des domaines très larges et très représentés en ligne (histoire), d'où un grand nombre de réponses inutilisables. Le terme "galère", précis, par contre, est associé à un sens dérivé ("quelle galère!"), et amène tout autant de bruit. Le salut réside ici dans l'association avec des mots plus précis, ("rame", "forçat", "comite"), seuls à même de cibler réellement la recherche.

Mot clé ou langage naturel
Les moteurs de recherche lorsqu'ils proposent une interface d'interrogation par mot clé ne sont généralement guère friands de précisions. Bien souvent les mots clés utilisés font frémir d'indignation les documentalistes. Une recherche par "mot" serait probablement une expression plus juste et le langage dit "naturel" ne l'est pas dans un univers multiculturel comme le web !
"La technique utilisée par les moteurs de recherche pour traiter les requêtes en langue naturelle consiste à choisir les deux ou trois mots clés significatifs de la question (en général les moins fréquents) et à reformuler la requête en ces termes" (F. Bourdoncle, La Recherche, op.cit.). Aussi faut-il se demander à chaque fois comment tel moteur ou tel autre constitue ses index et quel est son corpus de travail. Nous pouvons avancer quelques chiffres édifiants (informations glanées lors du colloque Comprendre les usages d'Internet qui s'est tenu à l'ENS les 10 et 11 décembre 1999)

les moteurs de recherche n'explorent pour les plus performants que 30% du web voire la moitié si l'on comptabilise les pages dynamiques.
les utilisateurs usent en moyenne de 2,3 mots dits clés pour effectuer leur recherche (cf. l'article de F. Bourdoncle, La Recherche, op.cit.).
seuls 2% des internautes visualisent au-delà des 10 premiers documents proposés. Les robots ayant de plus en plus souvent pour objet de viser un large public, "l'homme de la rue", il est inutile de préciser qu'il est important de connaître les critères de l'ordre de pertinence qui déterminent l'affichage des résultats.

Il existe plusieurs types d'outils :
Les annuaires (Yahoo...) proposent un classement manuel des sites jugés intéressants. Chaque site est catégorisé pour s'intégrer dans une classification hiérarchique des connaissances. Cette classification s'est constituée empiriquement et seuls les sites déclarés par leurs propriétaires sont recensés. Les sites universitaires font rarement cette démarche et sont ainsi boudés par ces annuaires. Par ailleurs, si la simplicité d'utilisation des ces services a été cause de leur succès, elle explique également leur baisse d'efficacité ; le but poursuivi est l'exhaustivité avec le corollaire indésirable du bruit. Nous pouvons sans trop prendre de risques affirmer qu'ils sont inadaptés aux besoins des universitaires. Sauf s'il s'agit de réserver un billet de train !

Les moteurs de recherche proposent eux une recherche par mots clés ; le principe est d'indexer automatiquement, sans intervention humaine, le texte de tous les documents du web et de mettre à disposition des internautes une interface permettant d'obtenir les pages des sites contenant les mots désirés.

Les méta-moteurs fonctionnent comme des moteurs de recherche, mais proposent une recherche sur plusieurs moteurs en même temps. Ils peuvent être en ligne ou encore s'installer sur la machine de l'utilisateur. Si pour certains ils ne permettent que des interrogations de faible portée, le plus petit dénominateur commun de tous les moteurs consultés, d'autres ont un langage d'interrogation élaboré et des "traducteurs" vers celui des différents moteurs de recherche très efficaces. Certains, enfin, présentent l'information de manière différente, en proposant des approches graphiques et/ou sémantiques de l'information trouvée.

Nous l'avons vu, désormais aucun moteur ne peut prétendre, comme cela a été le cas au milieu des années 90 pour Alta Vista, indexer " tout " le web ; même les métamoteurs (par exemple : Metacrawler) qui permettent de chercher avec plusieurs robots, donc de consulter plusieurs index simultanément ne sont pas exhaustifs. Ils soulignent seulement le fait que chaque moteur a une base de données qui lui est propre et qu'il faut pour une même requête en interroger plusieurs. En approche rapide, les moteurs se répartissent l'information comme suit (chiffres à jour en 2002):

Moteur	Adresse	Nombre de pages referencées
Google	www.google.fr	968 millions
Fast/Alltheweb	www.alltheweb.com	580 millions
Altavista	www.altavista.com	397 millions
HotBot (Inktomi)	www.hotbot.lycos.com	332 millions

La pertinence des documents fournis par les moteurs est très subjective ; elle dépendra de l'utilisateur, du type d'information recherchée et d'autres éléments qui peuvent passionner les sociologues du Web. Ici, seules les limites techniques nous intéressent. Elles sont déjà très éclairantes. Ainsi les moteurs peuvent indexer des pages entières, se restreindre à une aire géographique, se borner à chercher sur les URL (les adresses courtes sont privilégiées et donc désormais objet d'un commerce), sur le titre du document (option dangereuse pour les sites universitaires dont l'objet de la recherche est souvent masqué par des sigles peu explicites) sur les URL ( déclarées), sur les metadata (souvent multipliées à escient pour augmenter la " pertinence " du document ; les sites commerciaux sont forts à ce jeu), sur la liste des liens, etc.
La "visibilité sur le Net est un enjeu vital pour certaines entreprises, un nouvel acteur puissant dans le monde économique ; le Web a ses pirates, les spammers qui jouent à faire indexer par les moteurs de recherche des documents qui n'on rien à voir avec ceux que verront les internautes (cf. F. Bourdoncle, La Recherche, op.cit.). La lutte est âpre mais sans aucun doute génératrice d'innovations techniques : réflexion sur la possibilité d'indexer non plus à partir de mots dits significatifs mais à partir des groupes nominaux ; indexation à partir de l'indice de popularité : un site cité souvent est un bon site. Cette dernière option choisie par Google fait son succès. Toutefois on peut s'interroger sur la pertinence du critère de popularité et craindre une réduction du Web à quelques monopoles.

Un annuaire: http://www.yahoo.fr

Un moteur de recherches: Altavista

Un métamoteur: Metacrawler
Un autre métamoteur (en machine): Copernic
Un méta-moteur de recherches graphique: Kartoo

Source : Search Engine Showdown

Quelques articles sur le sujet :

Après consultation sur le net, ces quatre articles ne sont consultables en ligne que moyennant finances. La dérive vers le tout payant est en cours... Dommage!

Hervé Morin, " La Toile tentaculaire serait en fait un tout petit monde ", Le Monde (23 septembre 1999)
Éric Lecluyse, " La bataille des portails ", Le Monde (10 février 1999 ; mise à jour 30 mai 1999)
Marc Laime, " Nouveaux barbares de l'information en ligne ", Le Monde Diplomatique (juillet 99)
François Bourdoncle, Patrice Bertin, "Recherche d'aiguilles dans une botte de liens", La Recherche , 328 (février 2000), p.66

Fiches techniques, descriptions des moteurs de recherche

Vous trouverez ci-après quelques adresses de guides "Internet". Cette sélection ne répondra peut-être pas à vos goûts ou besoins, faites votre choix:

Cerise et ses Instruments de recherche, guide de l'URFIST de Paris nourri par Claire Panijel : présentation claire et concise ; les conseils donnés sont agréablement synthétiques et efficaces. http://www.ccr.jussieu.fr/urfist/cerise/p72.htm
InfoSphère, guide crée et mis à jour par la bibliothèque de l'Université de Quebec à Montréal. Décline l'approche par matière, agréable d'utilisation, et efficace. http://www.bibliotheques.uqam.ca/InfoSphere/
Abondance nourri par Olivier Andrieu, consultant indépendant dans le domaine de l'Internet, offre une documentation très fournie sur les principaux moteurs et les principes qui les régissent :
http://outils.abondance.com/moteurs.html
Tableau descriptif des différents moteurs, document très synthétique, un peu ancien qui permet de gôuter la saveur des opérateurs booléens :
http://medias.lemonde.fr/medias/obj_multi/tableau.jpg
Une brève descritipn tenue à jour par l'équipe de la BPI :
http://www.bpi.fr/11/outils/index.html
Recensement des répertoires et annuaires sur Internet par l'équipe de la BNF :
http://www.bnf.fr/pages/liens/

Quelques conseils en " vrac " :

Soumettre sa requête à plusieurs moteurs et à des moments différents de la journée ; les 30% explorés ne sont pas toujours les mêmes...
Lire la fiche technique même si la lecture est peu engageante il est toujours précieux de savoir sur quoi on cherche et avec quels outils
Privilégier le mode de recherche avancé pour les recherches pointues
Se servir de votre connaissance sémantique de la discipline mais également de la cartographie mentale de votre domaine de recherche : le nom d'un professeur à l'étranger, etc.
Trouver un site de départ pour vos recherches courantes : bibliographies, colloques, etc.
Éliminez tous les pronoms (elle, quel), que les moteurs de recherche considèrent redondants.
Retenez 6 à 8 mots (maximum recommandé). En moyenne, la plupart des utilisateurs soumettent 1,5 mot, ce qui n'est pas suffisant.
Essayez d'éviter les verbes d'action et n'utilisez des adjectifs que s'ils aident à définir l'objet de votre recherche (comme dans planète bleue)
Utilisez des syntagmes ou groupes de mots: c'est la méthode de recherche la plus puissante. Les syntagmes sont des combinaisons de deux ou plusieurs mots que le moteur de recherche doit trouver dans l'ordre EXACT où vous les avez indiqués dans les documents indexés. Pour utiliser cette méthode, vous devez inscrire vos mots-clés entre guillemets anglais (exemple : "fromage feta"). Certains services de recherche offrent des options spéciales pour les syntagmes, d'autres ne les acceptent pas du tout, mais presque tous vous laissent utiliser des guillemets.
Utilisez des minuscules et sans accents
Donnez les mots dans l'ordre d'importance relative
Mettez le symbole + devant les mots obligatoires
Doublez la requête avec le pluriel (ou le singulier) des mots importants

Quelques moteurs :

Des moteurs généralistes :
• Alta Vista (http://fr.altavista.com/), un moteur généraliste singulièrement efficace pour la recherche d'une expression ou d'une personne.
• Exalead <http://www.exalead.com/cgi/exalead> propose une série de mots-clés associés à la question posée.
• Google (http://www.google.fr/), un des principes de sélection de Google a été un temps de répertorier les sites les souvent cités. Ce critère semble a priori peu propice la conception d'un Web "ouvert", toutefois les réponses obtenues par ce moteur sont souvent pertinentes.

En vrac:

Nomade http://www.nomade.fr
En français
Lycos (fr) http://www.lycos.fr
Francophone
Hotbot : http://www.hotbot.com
L'un des meilleurs
Des moteurs spécialisés :
• In-extenso <http://www.in-extenso.org/index.html> a des domaines de prédilection : la littérature ; les sciences sociales (histoire, sociologie, ethnologie, anthropologie), etc. Il n'est pas spécifiquement destiné aux historiens.

Un Méta-moteur :
• Service Web & Bases de données (Maison de l'Orient)<http://www.mom.fr/bdd/metasearch/> . Cet outil crée par Marjorie Bughart est fondé sur un principe différent d'un moteur de recherche et d'indexation "classique". Il n'indexe rien, mais propose aux visiteurs de poser la même question à plusieurs sources de données (au choix) en une seule opération. Un outil très précieux car il permet de connaître le corpus de la recherche.

Les moteurs évoluent rapidement, les guides vieillissent, les sites également... Soyez vigilants et critiques !

dernière mise à jour : février 2005, GR

*Extrait du document distibué lors du stage du 10 mars 2000 destiné aux doctorants et animé par Christine Ducourtieux et Giulio Romero. Dernière mise à jour le 20 novembre 2000, grâce à l'aide d'Alain Dallo.
1 C. Ducourtieux, " Les bases de données pour les historiens. Point de vue documentaire ", Journée de l'École doctorale du 8 décembre 1999, organisée par Giulio Romero, version disponible en