Introduction
aux moteurs de recherche Christine Ducourtieux Révisions de A. Dallo et G. Romero Passerin d'Entrèves (à
jour en Février 2005) Mots-Clé Fiches techniques, descriptions des moteurs de recherche . |
Pour tester et aller plus loin |
|||||||||||||||
Pourquoi l'internaute a-t-il recours à des moteurs de recherche ? Qu'est-ce qu'un outil de recherches sur le net? Les outils de recherche sont des sites Internet où l'on peut effectuer toutes sortes de recherches pour trouver ce qui existe dans Internet. Financés par la publicité et les services, leur usage est le plus souvent gratuit. Si Internet était un livre, les annuaires (ou guides) thématiques en seraient la table des matières, bien partielle, et les moteurs de recherche un moyen de chercher l'information mot par mot, mais sans bien savoir le contenu du livre. |
|
|||||||||||||||
La surabondance et la fragmentation
des ressources "Il s'agit, en fait de toute une partie du savoir humain réuni, en vrac, sur un même support" (Op.cit.). On a beaucoup écrit sur Internet et il existe une véritable "littérature" autour du caractère révolutionnaire de cet objet, sans vouloir nourrir le "mythe naissant", la cohabitation d'éléments aussi disparates sur un même support est un phénomène exceptionnel qui implique que le chercheur apprenne à naviguer dans des univers sémantiques jusqu'alors inconnus de lui. |
|
|||||||||||||||
Signal, bruit et silences On appelle rapport signal sur bruit la proportion des messages pertinents par rapport aux messages inutiles circulant, par exemple, dans un groupe de nouvelles. Un groupe de nouvelles dont on dit de son rapport signal sur bruit qu'il est bas est caractérisé par un taux élevé de messages inutiles. Le rapport entre la quantité d'information utile (le signal) et celle d'information inutile (le bruit), peut être subjectif, l'information intéressante dans un système ou pour une personne peut gêner la réception ou la compréhension de l'information intéressante pour un autre système ou pour une autre personne (par exemple, lorsque dans une même pièce des personnes écoutent la télévision alors que d'autres discutent). Le bruit est immédiatement perceptible lors d'une requête trop généraliste. Il suffit de demander "histoire médiévale" pour s'en persuader : le nombre de réponses affiché est totalement dissuasif. L'internaute renonce immédiatement à visualiser les centaines de documents proposés. En ceci le web est éminemment pédagogique, car dans la recherche documentaire traditionnelle, l'étudiant ne refuse pas d'engranger les bibliographies dites exhaustives - dans l'idée d'une utilisation future - alors qu'il sait pertinemment qu'il n'aura pas le temps d'en parcourir la moitié. L'Internet guérit de ce qu'on peut appeller un peu familièrement le "syndrome de l'écureuil" ; la masse documentaire et son caractère changeant (les sites naissent et disparaissent) dissuadent de faire provision de denrées périssables. Le silence est l'autre versant, tout aussi douloureux, d'une recherche sur le Web. Ce problème comme celui du bruit n'est pas nouveau mais il est d'une nature un peu différente de celui que l'on rencontre dans la recherche traditionnelle. Un chercheur aguerri connaît parfaitement les outils documentaires ou méthodologiques qui lui permettent de mener à bien une recherche d'information. S'il ne trouve pas, il peut raisonnablement penser être novateur en un domaine. Cette certitude est précieuse pour aborder une recherche sereinement. Avec Internet, la situation se complexifie ; ne pas trouver ne signifie nullement qu'il n'y a rien. Il est plus probable que l'on n'a pas su chercher. C'est ici qu'une bonne connaissance des outils de recherche est indispensable. Comme il est également utile de savoir sur quoi ces fameux outils cherchent afin d'évaluer le degré de pertinence des réponses. Il arrive souvent aussi que l'objet de la recherche soit mal défini par rapport à ce qui est disponible dans l'internet. Nombre de requêtes avec des mots clé historiques aboutissent a retrouver essentiellement des sites touristiques. La reflexion sur le choix des mots clé doit donc être très approfondie quand on se lance sur le net. |
|
|||||||||||||||
On peut désormais donner deux définitions différentes à cette notion. Descripteur ou mot clé classique
: terme retenu lors de l'indexation d'un document. Une série de mots clés
tente de décrire le plus précisément possible le contenu conceptuel d'un
document. Descripteur ou mot clé web : Sur le net la difficulté est démultipliée : il faut certes posséder le vocabulaire conceptuel d'un champ disciplinaire mais également savoir qu'il diffère d'un pays à l'autre voire qu'il peut être abusivement utilisé par d'autres. Pour le Moyen Âge, par exemple, il faut être conscient qu'il existe une "vogue" pour cette époque et qu'il est difficile de se frayer un chemin parmi des sites parfois très farfelus sur les Cathares, les Templiers, etc. Jeux de rôles et recettes de cuisines prétendument médiévales masquent bien souvent des sites réellement animés par des médiévistes. On
peut de manière plus générale définir trois
catégories de mots clé. Les mots
clés "primaires" ou "larges", qui
définissent, de façon globale, le champ d'investigation,
comme par exemple, histoire, moyen-âge, France, littérature,
démographie, etc... Puis les mots clés
"secondaires" ou "profonds". Si l'on recherche des informations sur les galères de France au XVIème siècle, par exemple, les termes histoire, et histoire navale peuvent permettre une bonne approche en bibliothèque, et dans un thésaurus organisé. Par contre, ils n'amèneront sur le net que fort peu de signal, et énormément de bruit. Les sites qui parlent des galères ne se définissent pas forcément explicitement dans ces catégories, et d'autre part ces catégories recoupent des domaines très larges et très représentés en ligne (histoire), d'où un grand nombre de réponses inutilisables. Le terme "galère", précis, par contre, est associé à un sens dérivé ("quelle galère!"), et amène tout autant de bruit. Le salut réside ici dans l'association avec des mots plus précis, ("rame", "forçat", "comite"), seuls à même de cibler réellement la recherche. Mot
clé
ou langage naturel
|
|
|||||||||||||||
Il existe plusieurs types d'outils
: Les moteurs de recherche proposent eux une recherche par mots clés ; le principe est d'indexer automatiquement, sans intervention humaine, le texte de tous les documents du web et de mettre à disposition des internautes une interface permettant d'obtenir les pages des sites contenant les mots désirés. Les méta-moteurs fonctionnent comme des moteurs de recherche, mais proposent une recherche sur plusieurs moteurs en même temps. Ils peuvent être en ligne ou encore s'installer sur la machine de l'utilisateur. Si pour certains ils ne permettent que des interrogations de faible portée, le plus petit dénominateur commun de tous les moteurs consultés, d'autres ont un langage d'interrogation élaboré et des "traducteurs" vers celui des différents moteurs de recherche très efficaces. Certains, enfin, présentent l'information de manière différente, en proposant des approches graphiques et/ou sémantiques de l'information trouvée. Nous l'avons vu, désormais aucun moteur ne peut prétendre, comme cela a été le cas au milieu des années 90 pour Alta Vista, indexer " tout " le web ; même les métamoteurs (par exemple : Metacrawler) qui permettent de chercher avec plusieurs robots, donc de consulter plusieurs index simultanément ne sont pas exhaustifs. Ils soulignent seulement le fait que chaque moteur a une base de données qui lui est propre et qu'il faut pour une même requête en interroger plusieurs. En approche rapide, les moteurs se répartissent l'information comme suit (chiffres à jour en 2002):
La pertinence des documents
fournis par les moteurs est très subjective ; elle dépendra de l'utilisateur,
du type d'information recherchée et d'autres éléments qui peuvent passionner
les sociologues du Web. Ici, seules les limites techniques nous intéressent.
Elles sont déjà très éclairantes. Ainsi les moteurs peuvent indexer des
pages entières, se restreindre à une aire géographique, se borner à chercher
sur les URL (les adresses courtes sont privilégiées et donc désormais
objet d'un commerce), sur le titre du document (option dangereuse pour
les sites universitaires dont l'objet de la recherche est souvent masqué
par des sigles peu explicites) sur les URL ( déclarées), sur les metadata
(souvent multipliées à escient pour augmenter la " pertinence " du document
; les sites commerciaux sont forts à ce jeu), sur la liste des liens,
etc. |
Source : Search Engine Showdown
|
|||||||||||||||
Après consultation sur le net, ces quatre articles ne sont consultables en ligne que moyennant finances. La dérive vers le tout payant est en cours... Dommage!
Fiches techniques, descriptions des moteurs de recherche Vous
trouverez ci-après quelques adresses de guides "Internet". Cette sélection
ne répondra peut-être pas à vos goûts ou besoins, faites votre choix:
Quelques conseils en " vrac " :
Quelques moteurs : Des moteurs généralistes : En vrac:
Un
Méta-moteur : Les moteurs évoluent rapidement, les guides vieillissent, les sites également... Soyez vigilants et critiques !
dernière mise à jour : février 2005, GR
*Extrait du document distibué lors du stage du 10 mars 2000 destiné aux doctorants et animé par Christine Ducourtieux et Giulio Romero. Dernière mise à jour le 20 novembre 2000, grâce à l'aide d'Alain Dallo. 1 C. Ducourtieux, " Les bases de données pour les historiens. Point de vue documentaire ", Journée de l'École doctorale du 8 décembre 1999, organisée par Giulio Romero, version disponible en ![]() |