La recherche sur Internet

Parmi les nombreux usages du web, celui qui consiste à le considérer comme une vaste encyclopédie - et donc à l'utiliser pour rechercher de l'information sur un sujet précis - est l'un des plus développés. Mais on entend souvent des réflexions désabusées de personnes déçues car elles n'ont "rien trouvé d'intéressant" ou eu
"36 000 réponses" à leur requête devenue de ce fait inexploitable.. Allons allons. On peut tout trouver sur le Web... pourvu qu'on cherche bien et au bon endroit !

Explications générales.
Les moteurs à la mode : Google, Overture, Ask Jeeves, Infoclic.
Un méta-moteur performant : Copernic

La recherche sur Internet dépend en grande partie de la qualité des outils utilisés pour cela, appelés moteurs de recherche. Ces outils ont pour vocation d'organiser un minimum toute l''information disponible dans le monde au travers des millions et des millions de pages Web éditées un peu partout. Pour cela, ils passent une partie de leur temps à "aspirer" ces pages puis à les indexer dans des bases de données selon différentes méthodes. C'est le cas de Lycos, (bien placé pour la recherche dans le domaine de la finance selon Carole) d'Excite ou de Hotbot par exemple , ou d'Altavista qui a longtemps dominé et reste le plus exhaustif, et de Webcrawler, le plus efficace selon Carole en ce qui concerne la recherche sur les infos technologiques. Ces bases peuvent contenir de 200 à 500 millions de pages web !

En général les pages trouvées sont classées selon la fréquence d'apparition dans la page du ou des mots que vous avez tapés. D'où l'importance de taper des mots précis, ou plutôt des couples de mots précis.

Certains moteurs ajoutent à ces fonctions de base une classification par thèmes (souvent faite à la main) censée faciliter la recherche par une sélection préalable. C'est le cas du célèbre Yahoo, de ce fait plus annuaire que moteur à proprement parler . Il ne référence d'ailleurs "que" 2 millions de pages environ. Lorsque ces annuaires ajoutent au classement une sorte de notation, avec des commentaires, cela peut être intéressant.

D'autres introduisent des fonctions supplémentaires comme la traduction automatique des pages web : ça peut être utile aux personnes qui ont de graves difficultés dans une langue, pour voir à peu près de quoi il est question, mais cela n'a rien de comparable à une vraie traduction et le résultat est souvent crever de rire. (Voir Google).

D'autres proposent un filtre parental supposé éliminer des résultats de la recherche les sites pornographiques. Ce qui fait que si vous recherchez une documentation sur le cancer du sein, vous ne trouverez rien car le moteur aura éliminé les pages contenant le mot sein, jugé "pas correct". Dans Alavista, de plus, ce filtre ne concerne que les pages en anglais, les plus nombreuses, et il faut le désactiver si on veut rechercher sur les pages francophones !

Certains moteurs sont spécialisés : par exemple Northernlight, qui recense un nombre important d'articles de presse. La recherche d'images et de sons commence à devenir un critère important : Lycos offre la recherche des fichiers MP3, comme la plupart des gros moteurs maintenant.

Le portail de Microsoft, MSN, a évidemment son propre moteur de recherche dont la version française est à l'adresse http://search.msn.fr/. Comme Yahoo, il s'efforce d'introduire un classement par thème. De même France Télécom Wanadoo propose Voilà, un moteur français tout à fait correct, notamment pour ses fameuses pages jaunes, même si le champion de la francophonie s'appelle Francité, un moteur canadien très bien fait, avec un annuaire complet, un classement et même des prix.

Mais le moteur le plus utilisé actuellement - et l'un des plus récents puisqu'il date de 99 - est certainement Google, qui s'est imposé en 3 ans par la pertinence de ses réponses et un bouche à oreille incroyable. Contrairement aux autres, en effet, Google n'affiche que les pages contenant TOUS les mots de votre recherche, ce qui réduit considéravlement le "bruit".Le moteur de Google sert Yahoo, AOL/Netscape et Cisco systems. Google a été créé en 1998 par Larry Page et Sergey Brin, deux étudiants en doctorat (Ph.D.) de l'université californienne de Stanford. Société privée, Google a obtenu en juin 1999 25 millions de dollars (USD) de financement.Ses investisseurs connus sont Kleiner Perkins Caufield & Byers et Sequoia Capital. Google est un néologisme créé à partir du mot « googol ». En 1938, le mathématicien américain Edward Kasner demande à son neveu, Milton Sirotta, d'inventer un nom pour désigner le nombre composé du chiffre 1 suivi de 100 zéros, et le garçonnet de huit ans propose « googol » (bon, puisque vous insistez : 10 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 ! Accessoirement, le googol est supérieur au nombre de particules élémentaires de l'univers, qui se contentent de 80 zéros…). Google a choisi ce terme pour symboliser sa mission : organiser l'immense volume d'information disponible sur le Web et dans le monde. Google a intégré également (comme Altavista) un moteur de recherche d'images, et un moteur très performant qui recherche dans les newsgroups. Si vous avez "posté" il y a cinq ans une contribution dans un de ces forums, vous allez la retrouver... comme n'importe qui peut la retrouver. Et ce n'est pas très agréable, cette sensation d'être pisté.. Attention à ce que vous exprimez dans les newsgroups !

Une des fonctionnalités les plus intéressantes de Google, c'est sa barre de recherche que vous pouvez intégrer à votre navigateur. Elle vous permet ensuite de faire des recherches sur le web plus facilement, mais surtout de faire aussi des recherches à l'intérieur du site que vous être en train de consulter, par exemple internénettes !

L'un de mes moteurs préférés, (dont j'ai déjà parlé dans l'un des épisodes du roman photo Billauman) , mais il est malheureusement uniquement en anglais , c'est Ask Jeeves. Testez-le, ça vaut le coup. Vous posez votre question en langage tout à fait ordinaire, par exemple "quel temps fait-il à Tombouctou ?" et paf, il vous sort instantanément une série de sites spécialisés dans la météo africaine, et en plus une autre série pour apprendre les termes spécialisés de la météorologie. Dans votre recherche, il n'y avait pourtant ni le mot Afrique ni le mot météo. C'est ça l'intelligence artificielle ! Ask Jeeves a beaucoup bossé en amont pour modéliser l'anglais, et a pu tout de suite comprendre votre phrase. Je l'utilise beaucoup pour des définitions de termes techniques, en posant simplement la question "what does the technical term XXX mean ?".

En France, la société Sinequa, avec Philippe Laval , (salut Philippe !) qui travaillait depuis longtemps sur ces domaines de l'intelligence articielle et des moteurs et avait inventé le moteur Intuition, a développé Infoclic, dont l'interface est fortement inspirée de Ask Jeeves. Je l'ai testé, ce n'est pas mal mais il y a encore des progrès à faire. A la question "où puis-je trouver de la documentation sur Ada Byron", par exemple, Infoclic me renvoie aux biographies de son père Lord Byron, au musicien Byron Janis, et au joueur de Tennis Byron Black. Heureusement, comme dans Ask Jeeves, on peut cliquer en dessous sur "consultez les réponses de Google" ou d'autres moteurs à ce sujet, et là on trouve Ada.


Un autre moteur à la mode , mais moins en France, est Overture, le nouveau nom de Goto. Je le connais moins, mais l'ai testé et il m'a semblé à la fois rapide, pertinent, et d'une interface très agréable.

Bon, vous allez me dire qu'on y passe un temps fou, que si chaque moteur a ses avantages, il faut tous les consulter.. C'est vrai, mais pour cela il y a un moyen très simple, qui s'appelle Copernic.Si vous faites beaucoup de recherches sur le Web, c'est vraiment un outil indispensable. Copernic est ce qu'on appelle un méta-moteur, c'est à dire un moteur qui cherche dans les autres moteurs et ajoute sa propre classification des résultats (notamment par date dans ce cas ..) et ses gadgets utiles (par exemple les mots recherchés apparaissent surlignés en jaune dans les pages trouvées) . C'est un logiciel à télécharger et à installer. La version basique est gratuite. Elle s'intègre dans votre navigateur (voir photo) et apparaît lorsque vous cliquez sur rechercher dans la barre d'icônes du haut de IE5. L'intérêt d'avoir ça sur votre disque dur, c'est que vous conservez la trace de vos recherches. Au fur et à mesure la mise à jour se fait. Dans les versions payantes de Copernic (mais pas ruineuses) il y a jusqu'à 1000 moteurs de recherche consultés dans près de 100 demaines différents, avec bouton de traduction automatique, le tout pour moins de 40 $. Il existe d'autres métamoteurs sur le web, donc sans téléchargement, comme http://www.ariane6.com/ , ou http://www.apocalx.com/ .
Copernic est plutôt rapide. Je lui reproche simplement d'imposer son navigateur spécial, mais je suppose que sans lui on n'aurait pas les surlignages..

Sites à consulter à propos des moteurs de recherche :

http://www.abondance.com/ pour les infos concernant les moteurs
http://www.dsi-info.ca/moteurs-de-recherche.html pour creuser la technique
http://www.ariane6.com/moteurs.htm pour la liste des 1100 moteurs
http://www.lesmoteursderecherche.com/ pour leurs comparatifs

Mars 2002.
Elisabeth Chamontin, avec les conseils éclairés de Carole Lawday.

 

 

 

Retour