Le Wikinotions InfoDoc est un projet collaboratif piloté par l'APDEN, pour un enseignement en information-documentation, contribuant à l'Education aux médias et à l'information (EMI).

Notion : Indexation automatique





Présentation



Notion organisatrice de référence :

Indexation



Notions associées :

Algorithme, Espace informationnel, Langage documentaire, Métadonnée, Méthodologie de la recherche d'information, Mot clé.



Définition



Caractéristiques

Niveau débutant :


Niveau intermédiaire :


Niveau avancé :

  • Analyse tout ou partie du contenu d'un document via plusieurs algorithmes
  • Dans un moteur de recherche, suppose quatre étapes :
    • la segmentation : identification des différentes zones dans un document (ex. zone de texte, zone d'image, zone de tableau, etc.) ;
    • la normalisation : reconnaissance automatique des mots de la requête en mots-clés appartenant à l'index selon une norme ; 
    • l'analyse syntaxique : prise en compte de la fonction grammaticale de chaque mot dans une phrase ; 
    • la comptabilisation et la pondération : comptabilisation des mots et de leur pondération par la fréquence dans un document. 
  • Génère et exploite un index de données et de métadonnées
  • Concerne tout type de document numérique, ou numérisé, qu'il contienne du texte, des images fixes et animées ou des sons
  • Permet de retrouver facilement des informations :



Niveaux de formulation

Niveau débutant :

L'indexation automatique est une opération informatique qui permet de parcourir et de repérer automatiquement et rapidement le contenu des documents numériques. Ces contenus peuvent être du texte, des images ou des sons. En créant automatiquement un index, elle permet aux moteurs de recherche de fournir des résultats.


Niveau intermédiaire :

L'indexation automatique analyse le contenu intellectuel d'un document de façon informatisée. Elle suppose une programmation informatique. L'indexation automatique permet de retrouver plus facilement des informations contenues dans une très grande quantité de documents, qu'ils contiennent du texte, des images fixes et animées ou du son. Pour analyser le contenu des documents, l'indexation automatique génère et utilise un index de données et de métadonnées. C'est grâce à l'indexation automatique que les moteurs de recherche peuvent donner des résultats.


Niveau avancé :

L'indexation automatique analyse tout ou partie du contenu d'un document à partir de plusieurs algorithmes. Elle s'applique à tout type de document numérique, ou numérisé, qu'il contienne des textes, des images fixes et animées ou des sons. Elle permet de retrouver plus facilement des informations dans un catalogue ou dans un moteur de recherche. 

Elle permet à un moteur de recherche de donner des résultats après une requête. Pour ce faire, elle utilise quatre étapes fondamentales : 

  • la segmentation, qui consiste en l'identification des différentes zones dans un document (zone de texte, zone d'image, zone de tableau, etc.) ;
  • la normalisation, qui consiste à reconnaître les mots-clés de la requête à partir d'un index suivant une norme ;
  • l'analyse syntaxique, qui permet l'identification de la fonction grammaticale de chaque mot dans une phrase ;
  • la comptabilisation et la pondération, qui permettent de comptabiliser les mots dans un document et d'en estimer leur fréquence.

Au cours de ce processus, l'indexation automatique génère et exploite un index de données et de métadonnées.

N.B. : Lorsque l'analyse porte sur le sens du texte, on parle d'indexation automatisée.


Contre-exemples :

  • Indexation matières avec RAMEAU
  • Indexation des documents du CDI avec le thésaurus Motbis
  • Indexation et classification de documents avec la CDU ou la classification Dewey dans une bibliothèque



Complément(s) d'information

La lemmatisation, les lemmes :


La lemmatisation est une analyse lexicale qui conduit au regroupement de termes par lemmes. Un lemme, ou forme canonique, désigne le terme générique qui comprend les différentes formes lexicales qui peuvent dériver de ce terme. Par exemple, le lemme nourriture comprend le terme nourriture au singulier et au pluriel, toutes les formes de conjugaison du verbe nourrir, les adjectifs dérivés nourricier, nourrissant, ainsi que leurs formes variables.

La gestion des lemmes est intégrée dans les algorithmes des moteurs de recherche afin d'associer les mots-clés présentés par l'utilisateur dans sa requête, avec les termes qui ont une forme lexicale proche dans l'interrogation de l'index ou base de données.



Mise en séquence



Séquences pédagogiques
2nde :

SOGLIUZZO Gaelle. Comment fonctionne un moteur de recherche : l'exemple de Google. In Culture de l'info et des médias en lycée [en ligne], 2013. Disponible sur : http://beaumont-redon.fr/wp/cultureinfomedias/2013/11/20/comment-fonctionne-un-moteur-de-recherche-lexemple-de-google/


RABAT Frédéric. Une année avec Google (suite). In Documentation. Académie de Rouen [en ligne], 2008. Disponible sur : http://documentation.spip.ac-rouen.fr/spip.php?article192


COLIN Véronique. Comment fonctionne un moteur de recherche. In Doc TICE. Site des documentalistes de l'académie de Besançon [en ligne], 2013. Disponible sur : http://documentation.ac-besancon.fr/comment-fonctionne-un-moteur-de-recherche/


Liste des notions

A (algorithme, auteur...)

B (base de données, bruit...)

C (catalogue, classement...)

D (document, droit de l'information...)

E (édition, évaluation...)

F (folksonomie)

H (hébergement)

I (identité numérique, indexation...)

J (journalisme)

L (langage documentaire)

M (média, moteur...)

N (normes, numérique...)

O (opérateur, outils de recherche...)

P (pertinence, publication...)

R (référence, réseaux sociaux...)

S (site web, source...)

T (thésaurus, type de document...)

V (veille, vocabulaire contrôlé...)

W (web sémantique)