Le Wikinotions InfoDoc est un projet collaboratif piloté par l'APDEN, pour un enseignement en information-documentation, contribuant à l'Education aux médias et à l'information (EMI).

Notion : Moteur de recherche





Notion organisatrice de référence :

Recherche d'information



Notions associées :

Base de données, Indexation automatique, Métamoteur.



Caractéristiques



Niveau débutant :

  • Est un outil de recherche automatisé
  • Utilise un robot d'exploration
  • Indexe et recherche des ressources numérisées
  • Possède un module d'indexation automatique
  • Propose un module d'interrogation
  • Utilise des méthodes de classement automatisé des résultats



Niveau avancé :

  • Suppose l'utilisation d'algorithmes (ou instructions informatiques)
  • Peut être généraliste ou spécialisé
  • Peut être public ou privé
  • Peut être en ligne ou en local
  • Peut être en libre accès ou en accès réservé
  • Peut être gratuit ou payant



Définitions



Niveau débutant :

Un moteur de recherche est un outil en ligne qui permet de rechercher des pages sur le Web.

Un moteur de recherche est un outil de recherche automatisé. Des robots parcourent le Web en allant de pages en pages en suivant les liens hypertextes. Sur chaque page, le robot enregistre des chaînes de caractères. Il les classe ensuite dans son index, avec un module d'indexation automatique. Cet index, qui constitue sa base de données, est stocké sur des serveurs.

Pour trouver des informations et afficher des résultats, le moteur de recherche cherche dans sa base de données. Il n'a pas le temps d'explorer toutes les pages du Web en temps réel.

Pour afficher des résultats, le moteur compare les mots de la requête avec les chaînes de caractères qu'il a enregistrées dans son index (sa base de données). Il affiche ensuite ces résultats sur une page, appelée page de résultats, selon le classement qu'il a établi. Le moteur ne comprend pas les mots de la requête. Ce ne sont pour lui qu'une suite de caractères (lettres, chiffres, symboles).



Niveau avancé :

Outil de recherche automatisé, permettant d'indexer et de rechercher des ressources numérisées de toutes natures (pages web, documents de tous formats...) sur Internet, sur un réseau Intranet ou sur un poste individuel. Un moteur de recherche est composé généralement d'au moins trois éléments :

  • un robot d'exploration (appelé spider, crawler), qui parcourt le web (ou les ressources d'un réseau ou d'un disque dur) et, selon des paramétrages prédéfinis, collecte différentes parties des pages web : titre de la page, URL, liens hypertextes, tout ou partie du texte intégral, etc.
  • un module d'indexation automatique : tous les mots des pages web et des documents collectés par le robot sont indexés automatiquement, selon des méthodes d'analyse linguistique (indexation morphologique en général, lemmatisation) et statistique (comptage du nombre d'occurrences, i.e. d'apparition des mots) ; l'index constitue le cÅ“ur d'un moteur de recherche, sa véritable richesse. Il peut aller de plusieurs milliards de pages web (Google, Yahoo!) à  quelques centaines de fichiers (moteur de bureau).
  • un module d'interrogation : seule partie accessible aux utilisateurs, l'interface de requête sert à  interroger l'index du moteur, selon des procédures simples et avancées, en utilisant des algorithmes (ou instructions informatiques), à  présenter les résultats selon des méthodes de classement propres à  chaque moteur et à  les afficher sur l'écran.

Les moteurs de recherche peuvent être généralistes ou spécialisés, selon les ressources indexées et proposées à  la recherche, ils peuvent être publics ou privés (Google, Yahoo!, etc.) et financés par la publicité, être gratuits ou payants, en libre accès ou en accès réservé...



Complément(s) de définition



Le classement des résultats :


Pour classer les pages web trouvées, le moteur prend en compte plusieurs critères :

  • l'indice de pertinence mesure si les informations de la page peuvent intéresser l'internaute ;
  • l'indice de popularité (ou audience) mesure le nombre de fois o๠la page est visitée ;
  • l'indice de notoriété mesure le nombre de fois o๠la page est citée par d'autres pages ;
  • l'indice de réputation mesure l'importance de la page web sur les médias sociaux (en ligne) (nombre de likes sur Facebook, nombre de tweets sur Twitter, etc.) ;
  • parfois les de comportement de l'internaute (à  partir de l'adresse IP ou à  partir du compte Google par exemple).

Les pages web présentées en premier ne sont pas forcément les meilleures (celles répondant le plus à  mon besoin d'information), surtout que le moteur peut vendre des mots-clés (adwords) à  des entreprises pour leur garantir d'apparaître dans les premiers résultats.

Sur une page de résultats on trouve donc deux sortes de résultats :

  • des résultats éditoriaux (pages web sur lesquelles on publie de l'information)
  • des résultats commerciaux (pages web sur lesquelles sont vendus des produits ou des services)



La lemmatisation, les lemmes :


La lemmatisation est une analyse lexicale qui conduit au regroupement de termes par lemmes. Un lemme, ou forme canonique, désigne le terme générique qui comprend les différentes formes lexicales qui peuvent dériver de ce terme. Par exemple, le lemme nourriture comprend le terme nourriture au singulier et au pluriel, toutes les formes de conjugaison du verbe nourrir, les adjectifs dérivés nourricier, nourrissant, ainsi que leurs formes variables.

La gestion des lemmes est intégrée dans les algorithmes des moteurs de recherche afin d'associer les mots-clés présentés par l'utilisateur dans sa requête, avec les termes qui ont une forme lexicale proche dans l'interrogation de l'index ou base de données.



Exemples et contre-exemples



Exemples :

  • Moteur de recherche du web : Google, Yahoo!, Bing, Qwant, Duckduckgo...
  • Moteur de recherche interne
  • Moteur de recherche personnel (desktop search) : Google Desktop, Copernic Desktop Search, Exalead Desktop
  • Moteur spécialisé de recherche de blogs : Technorati
  • Moteur public : Spinoo
  • Moteur payant : Northern Light



Contre-exemples :

  • Annuaire thématique : Open Directory
  • Métamoteur : Kartoo, Ixquick
  • Outil de syndication de fils RSS
  • Un navigateur Web : Mozilla Firefox, Internet Explorer, Google Chrome



Références


Ballarini, Ivana. Duplessis, Pascal. Lien sponsorisé. In Dictionnaire des concepts info-documentaires. SavoirsCDI [en ligne], [sans date]. Disponible sur : https://www.reseau-canope.fr/savoirscdi/chercher/dictionnaire-des-concepts-info-documentaires/l/lien-sponsorise.html (Consulté le 11/08/2021).


Ballarini, Ivana. Duplessis, Pascal. Moteur de recherche. In Dictionnaire des concepts info-documentaires. SavoirsCDI [en ligne], [sans date]. Disponible sur : https://www.reseau-canope.fr/savoirscdi/chercher/dictionnaire-des-concepts-info-documentaires/m/moteur-de-recherche.html (Consulté le 11/08/2021).


Cardon, Dominique. A quoi rêvent les algorithmes : nos vies à l'heure des big data. Paris : Seuil (La République des idées), 2015. 112 p.


Cardon, Dominique. Dans l'esprit du PageRank. Une enquête sur l'algorithme de Google. In Réseaux, avril 2013, n°177, p. 63-95.


Ertzscheid, Olivier. Moteurs de recherche : des enjeux d'aujourd'hui aux moteurs de demain. In Métadonnées : mutations et perspectives. Paris : ADBS, 2008. p. 59-89. Disponible sur : https://archivesic.ccsd.cnrs.fr/sic_00325690/en/ (Consulté le 11/08/2021).


Farchy, Joëlle. Méadel, Cécile. Moteurs de recherche et référencement : chassez le naturel.... In Hermès, La Revue, 2013/2, n°66, p. 147-154. Disponible sur : https://www.cairn.info/revue-hermes-la-revue-2013-2.htm (Consulté le 01/07/2021).


Malingre, Marie-Laure. Serres, Alexandre. Moteurs de recherche : principes de fonctionnement. In URFIST Rennes [en ligne], 2004. Disponible sur : https://urfist.univ-rennes2.fr/ressources/moteurs-de-recherche-principes-de-fonctionnement (Consulté le 11/08/2021).


Comment enseigner Google à l’Ecole ?. In Doc pour Docs [en ligne], 2013. Disponible sur : http://www.docpourdocs.fr/spip.php?article468 (Consulté le 11/08/2021).


Rousseau, Julien. L’algorithme : une notion info-documentaire à didactiser ?. In Les Trois Couronnes [en ligne], 2015. Disponible sur : http://lestroiscouronnes.esmeree.fr/didactique-information/l-algorithme-une-notion-info-documentaire-a-didactiser (Consulté le 11/08/2021).


Rousseau, Julien. Le moteur de recherche et les collégiens : quelles représentations, quels obstacles, quelle didactisation ?. In Les Trois Couronnes [en ligne], [sans date]. Disponible sur : http://lestroiscouronnes.esmeree.fr/didactique-information/le-moteur-de-recherche-et-les-collegiens (Consulté le 11/08/2021).


Simonnot, Brigitte. Gallezot, Gabriel. L'entonnoir : Google sous la loupe des sciences de l'information. Caen : C&F éditions, 2008. 246 p.


Sire, Guillaume. Les moteurs de recherche. Paris : La Découverte (Repères : Culture-Communication), 2016. 126 p.




Séquences

6ème :

Guillet, Marie. EMI 6ème – Séquence4, séance 1- Le vocabulaire d’Internet et du Web. In Doc à bord [en ligne], 2014. Disponible sur : http://docabord.wordpress.com/2014/03/13/emi-6eme-sequence-4-seance-1-le-vocabulaire-dinternet-et-du-web/ (Consulté le 04/08/2021).


5ème :

Reynaud, Florian. 5ème : du document au média. In Prof Doc [en ligne], 2016. Disponible sur : http://profdoc.iddocs.fr/spip.php?article17


Jenet, Sophie. Lesigne, Céline. Scénario pédagogique : la validité de l'information au collège. In pedagogie.ac-reims.fr [en ligne], 2015. Disponible sur : https://pedagogie.ac-reims.fr/index.php?option=com_flexicontent&view=item&cid=773:enseigner-tuic-documentation-6e&id=3125:scenario-pedagogique-la-validite-de-l-information-au-college&Itemid=746 (Consulté le 03/08/2021).


4ème :

Marthe. Séance sur le fonctionnement du moteur de recherche avec les 4e. In Marthe au CDI [en ligne], 2013. Disponible sur : http://martheaucdi.overblog.com/sequence-sur-le-fonctionnement-du-moteur-de-recherche-avec-les-4


Bousquet, Aline. Subjectivité du message médiatique : quatre femmes dans la Révolution française. In Savoirs CDI [en ligne], 2014. Disponible sur : https://www.reseau-canope.fr/savoirscdi/cdi-outil-pedagogique/apprentissage-et-construction-des-savoirs/leducation-aux-medias-et-a-linformation/subjectivite-du-message-mediatique-quatre-femmes-dans-la-revolution-francaise.html (Consulté le 03/08/2021).


3ème :

Montet, Céline. Chercher pour réaliser une carte heuristique, support des exposés de SVT 3ème. In Information Documentation : site des professeurs-documentalistes de l'académie d'Aix-Marseille [en ligne], 2013. Disponible sur : http://www.pedagogie.ac-aix-marseille.fr/jcms/c_332993/fr/chercher-pour-realiser-une-carte-heuristique-support-des-exposes-de-svt-3eme


2nde :

Sogliuzzo, Gaelle. Comment fonctionne un moteur de recherche : l'exemple de Google. In Culture de l'info et des médias en lycée [en ligne], 2013. Disponible sur : http://beaumont-redon.fr/wp/cultureinfomedias/2013/11/20/comment-fonctionne-un-moteur-de-recherche-lexemple-de-google/


Chambaud, Perrine. Séquence citoyenneté numérique. In Site des Profs Docs de Guyane [en ligne], 2017. Disponible sur : https://doc.dis.ac-guyane.fr/Sequence-citoyennete-numerique.html


Rabat, Frédéric. Une année avec Google (suite). In Documentation. Académie de Rouen [en ligne], 2008. Disponible sur : http://documentation.spip.ac-rouen.fr/spip.php?article192


Colin, Véronique. Comment fonctionne un moteur de recherche. In Doc TICE. Site des documentalistes de l'académie de Besançon [en ligne], 2013. Disponible sur : http://documentation.ac-besancon.fr/comment-fonctionne-un-moteur-de-recherche/


Chambaud, Perrine. Comprendre un moteur de recherche. In Site des Profs Docs de Guyane [en ligne], 2018. Disponible sur : https://doc.dis.ac-guyane.fr/Comprendre-un-moteur-de-recherche.html (Consulté le 06/07/2021).


1re :

Gronfier, Sophie. Gronfier, Jérémy. TraAM EMI : Algo'scape : au coeur des algorithmes. In DRNE Bourgogne [en ligne], 2019. Disponible sur : http://dane.ac-dijon.fr/2019/06/19/traam-emi-algoscape-au-coeur-des-algorithmes/


Poincot, Bénédicte. Verguet, Nathalie. L'élève chercheur : un internaute libre ou sous influence ?. In DANE Besançon [en ligne], 2017. Disponible sur : https://dane.ac-besancon.fr/wp-content/uploads/sites/56/2017/07/L%C3%A9l%C3%A8ve-chercheur_un-internaute-libre-ou-sous-influence.pdf


Molitor, Yann. ICN en classe de 1S : création d’une base de données. In pedagogie.ac-reims.fr [en ligne], 2017. Disponible sur : https://pedagogie.ac-reims.fr/index.php/docu-lycee/enseigner-documentation-lycee/item/4130-coup-de-projecteur-le-professeur-documentaliste-et-l-icn?start=3


Liste des notions

A (algorithme, auteur...)

B (base de données, bruit...)

C (catalogue, classement...)

D (document, droit de l'information...)

E (édition, évaluation...)

F (folksonomie)

H (hébergement)

I (identité numérique, indexation...)

J (journalisme)

L (langage documentaire)

M (média, moteur...)

N (normes, numérique...)

O (opérateur, outils de recherche...)

P (pertinence, publication...)

R (référence, réseaux sociaux...)

S (site web, source...)

T (thésaurus, type de document...)

V (veille, vocabulaire contrôlé...)

W (web sémantique)