Le Wikinotions InfoDoc est un projet collaboratif piloté par l'APDEN, pour un enseignement en information-documentation, contribuant à l'Education aux médias et à l'information (EMI).

Notion : Indexation automatique





Présentation



Notion organisatrice de référence :

Web sémantique



Notions associées :

Algorithme, Espace informationnel, Langage documentaire, Métadonnée, Méthodologie de la recherche d'information, Mot clé.



Définition



Caractéristiques

Niveau débutant :


Niveau intermédiaire :


Niveau avancé :

  • Analyse tout ou partie du contenu d'un document via plusieurs algorithmes
  • Dans un moteur de recherche, suppose quatre étapes :
    • la segmentation : identification des différentes zones dans un document (ex. zone de texte, zone d'image, zone de tableau, etc.) ;
    • la normalisation : reconnaissance automatique des mots de la requête en mots-clés appartenant à l'index selon une norme ; 
    • l'analyse syntaxique : prise en compte de la fonction grammaticale de chaque mot dans une phrase ; 
    • la comptabilisation et la pondération : comptabilisation des mots et de leur pondération par la fréquence dans un document. 
  • Génère et exploite un index de données et de métadonnées
  • Concerne tout type de document numérique, ou numérisé, qu'il contienne du texte, des images fixes et animées ou des sons
  • Permet de retrouver facilement des informations :



Niveaux de formulation

Niveau débutant :

L'indexation automatique est une opération informatique qui permet de parcourir et de repérer automatiquement et rapidement le contenu des documents numériques. Ces contenus peuvent être du texte, des images ou des sons. En créant automatiquement un index, elle permet aux moteurs de recherche de fournir des résultats.


Niveau intermédiaire :

L'indexation automatique analyse le contenu intellectuel d'un document de façon informatisée. Elle suppose une programmation informatique. L'indexation automatique permet de retrouver plus facilement des informations contenues dans une très grande quantité de documents, qu'ils contiennent du texte, des images fixes et animées ou du son. Pour analyser le contenu des documents, l'indexation automatique génère et utilise un index de données et de métadonnées. C'est grâce à l'indexation automatique que les moteurs de recherche peuvent donner des résultats.


Niveau avancé :

L'indexation automatique analyse tout ou partie du contenu d'un document à partir de plusieurs algorithmes. Elle s'applique à tout type de document numérique, ou numérisé, qu'il contienne des textes, des images fixes et animées ou des sons. Elle permet de retrouver plus facilement des informations dans un catalogue ou dans un moteur de recherche. 

Elle permet à un moteur de recherche de donner des résultats après une requête. Pour ce faire, elle utilise quatre étapes fondamentales : 

  • la segmentation, qui consiste en l'identification des différentes zones dans un document (zone de texte, zone d'image, zone de tableau, etc.) ;
  • la normalisation, qui consiste à reconnaître les mots-clés de la requête à partir d'un index suivant une norme ;
  • l'analyse syntaxique, qui permet l'identification de la fonction grammaticale de chaque mot dans une phrase ;
  • la comptabilisation et la pondération, qui permettent de comptabiliser les mots dans un document et d'en estimer leur fréquence.

Au cours de ce processus, l'indexation automatique génère et exploite un index de données et de métadonnées.

N.B. : Lorsque l'analyse porte sur le sens du texte, on parle d'indexation automatisée.



Exemples et contre-exemples

Exemples :

  • Page de résultats après requête dans un moteur de recherche ;
  • Une infobox, ou encart informationnel, présente en encadré en haut à droite d'une page de résultats ;
  • Page de résultats après une requête dans une base de données (ex. catalogue en ligne) ;
  • Recherche automatique de certains mots dans un document numérique ;
  • Classification à facettes sur un site commercial.


Contre-exemples :

  • Création d'une notice dans le catalogue du CDI ;
  • Création d'un index dans un livre documentaire ;
  • Recherche manuelle de mots ou de phrases dans un document ;
  • Indexation humaine à partir d'un langage contrôlé ;
  • Indexation libre (tags, folksonomie).



Complément(s) d'information

La lemmatisation, les lemmes :


La lemmatisation est une analyse lexicale qui conduit au regroupement de termes par lemmes. Un lemme, ou forme canonique, désigne le terme générique qui comprend les différentes formes lexicales qui peuvent dériver de ce terme. Par exemple, le lemme nourriture comprend le terme nourriture au singulier et au pluriel, toutes les formes de conjugaison du verbe nourrir, les adjectifs dérivés nourricier, nourrissant, ainsi que leurs formes variables.

La gestion des lemmes est intégrée dans les algorithmes des moteurs de recherche afin d'associer les mots-clés présentés par l'utilisateur dans sa requête, avec les termes qui ont une forme lexicale proche dans l'interrogation de l'index ou base de données.



Mise en séquence



Pistes pédagogiques :

  • En comparant l'indexation manuelle d'une infobox d'une page Wikipédia et l'indexation automatique d'une infobox d'une page de résultats. Après une requête, par exemple « Paris » à partir de plusieurs moteurs de recherche (ex. Google, Bing et DuckDuck go,...), il est possible de comparer avec les élèves l'indexation humaine des infoboxes Wikipédia (voir description sur l'encyclopédie collaborative) et des infoboxes des pages de résultats en montrant que sur ces dernières, l'information est souvent reprise du site Wikipédia. Ce n'est possible qu'avec un système d'indexation automatique.
  • Enseigner la notion via une approche historique : de l'index à l'indexation automatique en partant du livre et en allant vers les moteurs de recherche, en passant par les logiciels de catalogage.
  • Comparer l'indexation libre avec l'indexation automatique au sein des médias sociaux.
  • L'indexation automatique des sons, des images : une question-problème à poser aux élèves. Par exemple, faut-il passer par le texte pour indexer des images et des sons ? (notions de machine learning, deep learning, « computer vision » et « speech processing » : transcription automatique de la parole) et enjeux éthiques des algorithmes et de l'intelligence artificielle, notamment la reconnaissance faciale et la « société de la surveillance ».
  • Ouvrir sur la notion de big data, d'open data et la question du traitement des données.



Matériaux ressources :

. Moteurs de recherche qui disposent d'infoboxes (ex. Google, DuckDuck go, Bing)

. Logiciels de gestion des bibliothèques (ex. BCDI, PMB).



Séquences pédagogiques
6ème :

GUILLET Marie. Séance 7 : Culture Nat'. In Doc à bord [en ligne], 2013. Disponible sur : https://docabord.wordpress.com/2013/06/19/seance-7-culture-net-classer-linformation-sur-le-web-initiation-techniques-documentaires-6eme/ (Consulté le 03/05/2021).


5ème :

DELAUNE Delphine. Comprendre le fonctionnement des moteurs de recherche.... In Doc' Poitiers : le site des professeurs documentalistes [en ligne], 2019. Disponible sur : http://ww2.ac-poitiers.fr/doc/spip.php?article855 (Consulté le 09/05/2021).


2nde :

SOGLIUZZO Gaelle. Comment fonctionne un moteur de recherche : l'exemple de Google. In Culture de l'info et des médias en lycée [en ligne], 2013. Disponible sur : http://beaumont-redon.fr/wp/cultureinfomedias/2013/11/20/comment-fonctionne-un-moteur-de-recherche-lexemple-de-google/


RABAT Frédéric. Une année avec Google (suite). In Documentation. Académie de Rouen [en ligne], 2008. Disponible sur : http://documentation.spip.ac-rouen.fr/spip.php?article192


COLIN Véronique. Comment fonctionne un moteur de recherche. In Doc TICE. Site des documentalistes de l'académie de Besançon [en ligne], 2013. Disponible sur : http://documentation.ac-besancon.fr/comment-fonctionne-un-moteur-de-recherche/




Références bibliographiques


RENVOISÉ Élodie. Didactisation de l'indexation automatique à travers les encarts informationnels (Infoboxes). In Médiadoc (Paris : APDEN), décembre 2021, n°27, p. 13-22.




Ressources

CASSAIGNE Claire. Comprendre le fonctionnement d’un moteur de recherche en 1min30 (vidéo) [vidéo]. In fenetresur [en ligne], 2013. Disponible sur : https://fenetresur.wordpress.com/2013/10/31/comprendre-le-fonctionnement-dun-moteur-de-recherche-en-1min30-video/ (Consulté le 13/05/2022).

CODE.ORG. The Internet: How Search Works [vidéo]. In YouTube [en ligne], 2017. Disponible sur : https://www.youtube.com/watch?v=LVV_93mBfSU (Consulté le 13/05/2022).

REYNAUD Florian. Comprendre le moteur de recherche avec une simulation. In Prof Doc [en ligne], 2019. Disponible sur : https://profdoc.iddocs.fr/spip.php?article56 (Consulté le 13/05/2022).

Liste des notions

A (algorithme, auteur...)

B (base de données, bruit...)

C (catalogue, classement...)

D (document, droit de l'information...)

E (édition, évaluation...)

F (folksonomie)

H (hébergement)

I (identité numérique, indexation...)

J (journalisme)

L (langage documentaire)

M (média, moteur...)

N (normes, numérique...)

O (opérateur, outils de recherche...)

P (pertinence, publication...)

R (référence, réseaux sociaux...)

S (site web, source...)

T (thésaurus, type de document...)

V (veille, vocabulaire contrôlé...)

W (web sémantique)