Le Wikinotions InfoDoc est un projet collaboratif piloté par l'APDEN, pour un enseignement en information-documentation, contribuant à l'Education aux médias et à l'information (EMI).

Notion : Indexation automatique





Notion organisatrice de référence :

Indexation



Notions associées :

Index, Instabilité documentaire, Internet, Métadonnée, Métamoteur, Mot clé, Moteur de recherche, Outil de recherche, Référencement, Web sémantique.



Caractéristiques



Niveau débutant :

  • Consiste en une opération informatique et automatique
  • Concerne des documents numériques en ligne
  • Suppose une méthode logicielle
  • Conduit à  la création d'un index
  • Permet de retrouver facilement des données informationnelles



Niveau avancé :

  • S'appuie sur une programmation d'algorithmes
  • Prend en considération la fréquence des mots
  • Suppose des opérations diverses :
    • l'extraction des mots vides (comme des mots fonctionnels, tels des articles)
    • la prise en considération de la place des mots dans le document (titraille, chapeau, casse...)
    • l'opération de stemming ou lemmatisation (effacement des terminaisons pour retrouver les racines des mots)
  • Peut concerner :
    • des textes
    • des images
    • des documents sonores
    • de la vidéo



Définitions



Niveau débutant :

L'indexation automatisée consiste en une opération informatique et automatique qui concerne des documents numériques en ligne. Elle suppose une méthode logicielle qui conduit à  la création d'un index. Cette indexation automatisée permet de retrouver facilement des données informationnelles parmi plusieurs documents, à  l'aide d'un moteur de recherche



Niveau avancé :

L'indexation automatisée consiste en une opération informatique et automatique qui concerne des documents numériques en ligne. Elle suppose une méthode logicielle qui conduit à  la création d'un index. Cette indexation automatisée permet de retrouver facilement des données informationnelles parmi plusieurs documents, à  l'aide d'un moteur de recherche.

La méthode logicielle de l'indexation automatisée s'appuie sur une programmation d'algorithmes qui prend en considération la fréquence des mots. Elle suppose des opérations diverses :

  • l'extraction des mots vides (comme des mots fonctionnels, tels des articles) ;
  • la prise en considération de la place des mots dans le document (titraille, chapeau, casse...) ;
  • l'opération de stemming ou lemmatisation (effacement des terminaisons pour retrouver les racines des mots).

L'indexation automatisée peut concerner des textes, mais aussi d'autres natures d'information, à  savoir des vidéos, des documents sonores, et des images. Pour les images, il peut s'agir d'une indexation réalisée à  partir des métadonnées liées à  l'image, mais aussi à  partir d'une reconnaissance du contenu graphique de l'image.



Complément(s) de définition



La lemmatisation, les lemmes :


La lemmatisation est une analyse lexicale qui conduit au regroupement de termes par lemmes. Un lemme, ou forme canonique, désigne le terme générique qui comprend les différentes formes lexicales qui peuvent dériver de ce terme. Par exemple, le lemme nourriture comprend le terme nourriture au singulier et au pluriel, toutes les formes de conjugaison du verbe nourrir, les adjectifs dérivés nourricier, nourrissant, ainsi que leurs formes variables.

La gestion des lemmes est intégrée dans les algorithmes des moteurs de recherche afin d'associer les mots-clés présentés par l'utilisateur dans sa requête, avec les termes qui ont une forme lexicale proche dans l'interrogation de l'index ou base de données.



Exemples et contre-exemples



Exemples :



Contre-exemples :

  • Indexation matières avec RAMEAU
  • Indexation des documents du CDI avec le thésaurus Motbis
  • Indexation et classification de documents avec la CDU ou la classification Dewey dans une bibliothèque



Séquences

2nde :

Sogliuzzo, Gaelle. Comment fonctionne un moteur de recherche : l'exemple de Google. In Culture de l'info et des médias en lycée [en ligne], 2013. Disponible sur : http://beaumont-redon.fr/wp/cultureinfomedias/2013/11/20/comment-fonctionne-un-moteur-de-recherche-lexemple-de-google/


Rabat, Frédéric. Une année avec Google (suite). In Documentation. Académie de Rouen [en ligne], 2008. Disponible sur : http://documentation.spip.ac-rouen.fr/spip.php?article192


Colin, Véronique. Comment fonctionne un moteur de recherche. In Doc TICE. Site des documentalistes de l'académie de Besançon [en ligne], 2013. Disponible sur : http://documentation.ac-besancon.fr/comment-fonctionne-un-moteur-de-recherche/


Liste des notions

A (algorithme, auteur...)

B (base de données, bruit...)

C (catalogue, classement...)

D (document, droit de l'information...)

E (édition, évaluation...)

F (folksonomie)

H (hébergement)

I (identité numérique, indexation...)

J (journalisme)

L (langage documentaire)

M (média, moteur...)

N (normes, numérique...)

O (opérateur, outils de recherche...)

P (pertinence, publication...)

R (référence, réseaux sociaux...)

S (site web, source...)

T (thésaurus, type de document...)

V (veille, vocabulaire contrôlé...)

W (web sémantique)