Le Wikinotions InfoDoc est un projet collaboratif piloté par l'APDEN, pour un enseignement en information-documentation, contribuant à l'Education aux médias et à l'information (EMI).

Notion : Moteur de recherche





Présentation



Notion organisatrice de référence :

Recherche d'information



Notions associées :

Base de données, Indexation automatique, Métamoteur.



Définition



Caractéristiques

Niveau débutant :

  • Est un outil de recherche automatisé
  • Utilise un robot d'exploration
  • Indexe et recherche des ressources numérisées
  • Possède un module d'indexation automatique
  • Propose un module d'interrogation
  • Utilise des méthodes de classement automatisé des résultats


Niveau avancé :

  • Suppose l'utilisation d'algorithmes (ou instructions informatiques)
  • Peut être généraliste ou spécialisé
  • Peut être public ou privé
  • Peut être en ligne ou en local
  • Peut être en libre accès ou en accès réservé
  • Peut être gratuit ou payant



Niveaux de formulation

Niveau débutant :

Un moteur de recherche est un outil en ligne qui permet de rechercher des pages sur le Web.

Un moteur de recherche est un outil de recherche automatisé. Des robots parcourent le Web en allant de pages en pages en suivant les liens hypertextes. Sur chaque page, le robot enregistre des chaînes de caractères. Il les classe ensuite dans son index, avec un module d'indexation automatique. Cet index, qui constitue sa base de données, est stocké sur des serveurs.

Pour trouver des informations et afficher des résultats, le moteur de recherche cherche dans sa base de données. Il n'a pas le temps d'explorer toutes les pages du Web en temps réel.

Pour afficher des résultats, le moteur compare les mots de la requête avec les chaînes de caractères qu'il a enregistrées dans son index (sa base de données). Il affiche ensuite ces résultats sur une page, appelée page de résultats, selon le classement qu'il a établi. Le moteur ne comprend pas les mots de la requête. Ce ne sont pour lui qu'une suite de caractères (lettres, chiffres, symboles).


Niveau avancé :

Outil de recherche automatisé, permettant d'indexer et de rechercher des ressources numérisées de toutes natures (pages web, documents de tous formats...) sur Internet, sur un réseau Intranet ou sur un poste individuel. Un moteur de recherche est composé généralement d'au moins trois éléments :

  • un robot d'exploration (appelé spider, crawler), qui parcourt le web (ou les ressources d'un réseau ou d'un disque dur) et, selon des paramétrages prédéfinis, collecte différentes parties des pages web : titre de la page, URL, liens hypertextes, tout ou partie du texte intégral, etc.
  • un module d'indexation automatique : tous les mots des pages web et des documents collectés par le robot sont indexés automatiquement, selon des méthodes d'analyse linguistique (indexation morphologique en général, lemmatisation) et statistique (comptage du nombre d'occurrences, i.e. d'apparition des mots) ; l'index constitue le cÅ“ur d'un moteur de recherche, sa véritable richesse. Il peut aller de plusieurs milliards de pages web (Google, Yahoo!) à  quelques centaines de fichiers (moteur de bureau).
  • un module d'interrogation : seule partie accessible aux utilisateurs, l'interface de requête sert à  interroger l'index du moteur, selon des procédures simples et avancées, en utilisant des algorithmes (ou instructions informatiques), à  présenter les résultats selon des méthodes de classement propres à  chaque moteur et à  les afficher sur l'écran.

Les moteurs de recherche peuvent être généralistes ou spécialisés, selon les ressources indexées et proposées à  la recherche, ils peuvent être publics ou privés (Google, Yahoo!, etc.) et financés par la publicité, être gratuits ou payants, en libre accès ou en accès réservé...



Exemples et contre-exemples

Exemples :

  • Moteur de recherche du web : Google, Yahoo!, Bing, Qwant, Duckduckgo...
  • Moteur de recherche interne
  • Moteur de recherche personnel (desktop search) : Google Desktop, Copernic Desktop Search, Exalead Desktop
  • Moteur spécialisé de recherche de blogs : Technorati
  • Moteur public : Spinoo
  • Moteur payant : Northern Light


Contre-exemples :

  • Annuaire thématique : Open Directory
  • Métamoteur : Kartoo, Ixquick
  • Outil de syndication de fils RSS
  • Un navigateur Web : Mozilla Firefox, Internet Explorer, Google Chrome



Complément(s) d'information

Le classement des résultats :


Pour classer les pages web trouvées, le moteur prend en compte plusieurs critères :

  • l'indice de pertinence mesure si les informations de la page peuvent intéresser l'internaute ;
  • l'indice de popularité (ou audience) mesure le nombre de fois o๠la page est visitée ;
  • l'indice de notoriété mesure le nombre de fois o๠la page est citée par d'autres pages ;
  • l'indice de réputation mesure l'importance de la page web sur les médias sociaux (en ligne) (nombre de likes sur Facebook, nombre de tweets sur Twitter, etc.) ;
  • parfois les de comportement de l'internaute (à  partir de l'adresse IP ou à  partir du compte Google par exemple).

Les pages web présentées en premier ne sont pas forcément les meilleures (celles répondant le plus à  mon besoin d'information), surtout que le moteur peut vendre des mots-clés (adwords) à  des entreprises pour leur garantir d'apparaître dans les premiers résultats.

Sur une page de résultats on trouve donc deux sortes de résultats :

  • des résultats éditoriaux (pages web sur lesquelles on publie de l'information)
  • des résultats commerciaux (pages web sur lesquelles sont vendus des produits ou des services)


La lemmatisation, les lemmes :


La lemmatisation est une analyse lexicale qui conduit au regroupement de termes par lemmes. Un lemme, ou forme canonique, désigne le terme générique qui comprend les différentes formes lexicales qui peuvent dériver de ce terme. Par exemple, le lemme nourriture comprend le terme nourriture au singulier et au pluriel, toutes les formes de conjugaison du verbe nourrir, les adjectifs dérivés nourricier, nourrissant, ainsi que leurs formes variables.

La gestion des lemmes est intégrée dans les algorithmes des moteurs de recherche afin d'associer les mots-clés présentés par l'utilisateur dans sa requête, avec les termes qui ont une forme lexicale proche dans l'interrogation de l'index ou base de données.



Mise en séquence



Séquences pédagogiques
6ème :

GUILLET Marie. EMI 6ème – Séquence4, séance 1- Le vocabulaire d’Internet et du Web. In Doc à bord [en ligne], 2014. Disponible sur : http://docabord.wordpress.com/2014/03/13/emi-6eme-sequence-4-seance-1-le-vocabulaire-dinternet-et-du-web/ (Consulté le 04/08/2021).


5ème :

REYNAUD Florian. 5ème : du document au média. In Prof Doc [en ligne], 2016. Disponible sur : http://profdoc.iddocs.fr/spip.php?article17


JENET Sophie. LESIGNE Céline. Scénario pédagogique : la validité de l'information au collège. In pedagogie.ac-reims.fr [en ligne], 2015. Disponible sur : https://pedagogie.ac-reims.fr/index.php?option=com_flexicontent&view=item&cid=773:enseigner-tuic-documentation-6e&id=3125:scenario-pedagogique-la-validite-de-l-information-au-college&Itemid=746 (Consulté le 03/08/2021).


4ème :

MARTHE. Séance sur le fonctionnement du moteur de recherche avec les 4e. In Marthe au CDI [en ligne], 2013. Disponible sur : http://martheaucdi.overblog.com/sequence-sur-le-fonctionnement-du-moteur-de-recherche-avec-les-4 (Consulté le 15/01/2022).


3ème :

MONTET Céline. Chercher pour réaliser une carte heuristique, support des exposés de SVT 3ème. In Information Documentation : site des professeurs-documentalistes de l'académie d'Aix-Marseille [en ligne], 2013. Disponible sur : http://www.pedagogie.ac-aix-marseille.fr/jcms/c_332993/fr/chercher-pour-realiser-une-carte-heuristique-support-des-exposes-de-svt-3eme


2nde :

SOGLIUZZO Gaelle. Comment fonctionne un moteur de recherche : l'exemple de Google. In Culture de l'info et des médias en lycée [en ligne], 2013. Disponible sur : http://beaumont-redon.fr/wp/cultureinfomedias/2013/11/20/comment-fonctionne-un-moteur-de-recherche-lexemple-de-google/


CHAMBAUD Perrine. Séquence citoyenneté numérique. In Site des Profs Docs de Guyane [en ligne], 2017. Disponible sur : https://doc.dis.ac-guyane.fr/Sequence-citoyennete-numerique.html


RABAT Frédéric. Une année avec Google (suite). In Documentation. Académie de Rouen [en ligne], 2008. Disponible sur : http://documentation.spip.ac-rouen.fr/spip.php?article192


COLIN Véronique. Comment fonctionne un moteur de recherche. In Doc TICE. Site des documentalistes de l'académie de Besançon [en ligne], 2013. Disponible sur : http://documentation.ac-besancon.fr/comment-fonctionne-un-moteur-de-recherche/


CHAMBAUD Perrine. Comprendre un moteur de recherche. In Site des Profs Docs de Guyane [en ligne], 2018. Disponible sur : https://doc.dis.ac-guyane.fr/Comprendre-un-moteur-de-recherche.html (Consulté le 06/07/2021).


1re :

GRONFIER Sophie. GRONFIER Jérémy. TraAM EMI : Algo'scape : au coeur des algorithmes. In DRNE Bourgogne [en ligne], 2019. Disponible sur : http://dane.ac-dijon.fr/2019/06/19/traam-emi-algoscape-au-coeur-des-algorithmes/


POINCOT Bénédicte. VERGUET Nathalie. L'élève chercheur : un internaute libre ou sous influence ?. In DANE Besançon [en ligne], 2017. Disponible sur : https://dane.ac-besancon.fr/wp-content/uploads/sites/56/2017/07/L%C3%A9l%C3%A8ve-chercheur_un-internaute-libre-ou-sous-influence.pdf


MOLITOR Yann. ICN en classe de 1S : création d’une base de données. In pedagogie.ac-reims.fr [en ligne], 2017. Disponible sur : https://pedagogie.ac-reims.fr/index.php/docu-lycee/enseigner-documentation-lycee/item/4130-coup-de-projecteur-le-professeur-documentaliste-et-l-icn?start=3




Références bibliographiques


BALLARINI Ivana. DUPLESSIS Pascal. Lien sponsorisé. In Dictionnaire des concepts info-documentaires. SavoirsCDI [en ligne], [sans date]. Disponible sur : https://www.reseau-canope.fr/savoirscdi/chercher/dictionnaire-des-concepts-info-documentaires/l/lien-sponsorise.html (Consulté le 11/08/2021).


BALLARINI Ivana. DUPLESSIS Pascal. Moteur de recherche. In Dictionnaire des concepts info-documentaires. SavoirsCDI [en ligne], [sans date]. Disponible sur : https://www.reseau-canope.fr/savoirscdi/chercher/dictionnaire-des-concepts-info-documentaires/m/moteur-de-recherche.html (Consulté le 11/08/2021).


BRUILLARD Eric. Moteurs de recherche : des algorithmes sans contrôle en quête de compréhension ?. In Médiadoc (Paris : APDEN), décembre 2021, n°27, p. 7-12. Disponible sur : https://apden.org/Moteurs-de-recherche-des-algorithmes-sans-controle-en-quete-de-comprehension.html?var_mode=calcul (Consulté le 17/02/2022).


CARDON Dominique. A quoi rêvent les algorithmes : nos vies à l'heure des big data. Paris : Seuil (La République des idées), 2015. 112 p.


CARDON Dominique. Dans l'esprit du PageRank. Une enquête sur l'algorithme de Google. In Réseaux, avril 2013, n°177, p. 63-95.


ERTZSCHEID Olivier. Moteurs de recherche : des enjeux d'aujourd'hui aux moteurs de demain. In Métadonnées : mutations et perspectives. Paris : ADBS, 2008. p. 59-89. Disponible sur : https://archivesic.ccsd.cnrs.fr/sic_00325690/en/ (Consulté le 11/08/2021).


FARCHY Joëlle. MÉADEL Cécile. Moteurs de recherche et référencement : chassez le naturel.... In Hermès, La Revue, 2013/2, n°66, p. 147-154. Disponible sur : https://www.cairn.info/revue-hermes-la-revue-2013-2.htm (Consulté le 01/07/2021).


MALINGRE Marie-Laure. SERRES Alexandre. Moteurs de recherche : principes de fonctionnement. In URFIST Rennes [en ligne], 2004. Disponible sur : https://urfist.univ-rennes2.fr/ressources/moteurs-de-recherche-principes-de-fonctionnement (Consulté le 11/08/2021).


Comment enseigner Google à l’Ecole ?. In Doc pour Docs [en ligne], 2013. Disponible sur : http://www.docpourdocs.fr/spip.php?article468 (Consulté le 11/08/2021).


ROUSSEAU Julien. L’algorithme : une notion info-documentaire à didactiser ?. In Les Trois Couronnes [en ligne], 2015. Disponible sur : http://lestroiscouronnes.esmeree.fr/didactique-information/l-algorithme-une-notion-info-documentaire-a-didactiser (Consulté le 11/08/2021).


ROUSSEAU Julien. Le moteur de recherche et les collégiens : quelles représentations, quels obstacles, quelle didactisation ?. In Les Trois Couronnes [en ligne], [sans date]. Disponible sur : http://lestroiscouronnes.esmeree.fr/didactique-information/le-moteur-de-recherche-et-les-collegiens (Consulté le 11/08/2021).


GALLEZOT Gabriel (dir.). SIMONNOT Brigitte (dir.). L'entonnoir : Google sous la loupe des sciences de l'information. Caen : C&F éditions, 2008. 246 p.


SIRE Guillaume. Les moteurs de recherche. Paris : La Découverte (Repères : Culture-Communication), 2016. 126 p.




Ressources

CASSAIGNE Claire. Comprendre le fonctionnement d’un moteur de recherche en 1min30 (vidéo) [vidéo]. In fenetresur [en ligne], 2013. Disponible sur : https://fenetresur.wordpress.com/2013/10/31/comprendre-le-fonctionnement-dun-moteur-de-recherche-en-1min30-video/ (Consulté le 13/05/2022).

CODE.ORG. The Internet: How Search Works [vidéo]. In YouTube [en ligne], 2017. Disponible sur : https://www.youtube.com/watch?v=LVV_93mBfSU (Consulté le 13/05/2022).

REYNAUD Florian. Comprendre le moteur de recherche avec une simulation. In Prof Doc [en ligne], 2019. Disponible sur : https://profdoc.iddocs.fr/spip.php?article56 (Consulté le 13/05/2022).

Liste des notions

A (algorithme, auteur...)

B (base de données, bruit...)

C (catalogue, classement...)

D (document, droit de l'information...)

E (édition, évaluation...)

F (folksonomie)

H (hébergement)

I (identité numérique, indexation...)

J (journalisme)

L (langage documentaire)

M (média, moteur...)

N (normes, numérique...)

O (opérateur, outils de recherche...)

P (pertinence, publication...)

R (référence, réseaux sociaux...)

S (site web, source...)

T (thésaurus, type de document...)

V (veille, vocabulaire contrôlé...)

W (web sémantique)