; Les enjeux de l’indexation automatique de vos documents - ANT'inno

Les enjeux de l’indexation automatique de vos documents

Les organisations produisent de plus en plus de documents au format numérique (comptes-rendus de réunion, procédures, propositions commerciales…).

Demander aux utilisateurs de classer et d’indexer ces documents est un frein de plus en plus rédhibitoire au partage et à la constitution de la mémoire de l’entreprise.

Si le classement nous semble aujourd’hui une pratique archaïque en raison des moteurs de recherche (en savoir plus), il n’en est pas de même pour l’indexation.

En effet, l’indexation par propriétés ou du contenu, est l’outil indispensable pour pouvoir retrouver les documents enregistrés. Autrement dit, sans indexation, on ne peut pas retrouver.

C’est pourquoi, le temps passé par vos collaborateurs à enregistrer ces informations dans votre base documentaire partagée (intranet collaboratif ou tout autre système de gestion de fichiers) doit être le plus court, le plus simple et le plus intuitif possible.

L’enjeu est crucial car ne pas capitaliser se révèle de plus en plus coûteux : on refait ce que l’on a déjà fait, éventuellement de manière partielle, on perd du temps à chercher une information qui n’a pas été enregistrée, on ne profite pas du travail et de l’expertise des autres (« anciens » ou actuels), etc

L’objectif : réduire le temps d’indexation des documents et améliorer leur exploitation

Autrement dit, il faut à la fois simplifier cet enregistrement (peu ou pas de formation ni de compétences spécifiques requises) en l’automatisant le plus possible et rendre néanmoins leur exploitation efficace.

Il est donc important de réduire les contraintes à l’entrée par la réduction des efforts de classement et de qualification et de disposer d’outils de qualité pour l’indexation (analyse) intégrale des contenus.

Le compromis à trouver entre l’effort à l’« entrée » (enregistrement) et l’efficacité à la « sortie » (recherche) repose sur l’indexation automatique du contenu. Et plus cette indexation sera efficace, pertinente, plus exploitable sera le contenu. D’où l’intérêt du moteur linguistique (cf. plus loin).

Qu’est-ce que l’indexation ?

Il faut préciser ce que l’on entend par indexation, car il y en a au moins deux types :

  • Indexation par propriétés, la plupart du temps manuelle : la valorisation de propriétés (métadonnées, facettes, positionnement dans un plan de classement, droits d’accès, etc.) attachées à chaque document ou information, et définies par des listes de valeurs (thésaurus), prédéfinies ou pas, ou par d’autres types d’informations ; date, référence, texte, etc.
  • Indexation intégrale du contenu: l’analyse des mots du texte pour constituer des « fichiers inversés », c’est-à-dire des fichiers contenant les mots des textes et référençant leurs occurrences dans les documents.

La réduction des efforts à l’entrée n’est toutefois pas antinomique avec le classement, dès lors que celui-ci s’appuie plutôt sur des facettes ou propriétés, simples, indépendantes et définies à « grosse maille » afin qu’elles soient exploitables très intuitivement par tous, quel que soit son niveau de formation.

En effet, l’apport de ces facettes est indispensable dans des contextes à forte connotation « administrative », mais aussi utile dés lors que le nombre de documents dépasse quelques dizaines de milliers. Car ces propriétés sont autant de filtres permettant de réduire le périmètre de recherche.

Cette indexation par facettes ou propriétés est la plupart du temps manuelle, mais elle peut être assistée ou partiellement automatisée (LAD, Lecture Automatique de Document ou RAD, Reconnaissance Automatique de Documents). Plus cette assistance est importante, plus elle réduit le travail de l’utilisateur.  Ainsi de la valorisation automatique de certaines propriétés génériques (date de versement, auteur du versement, format du fichier, etc.).

Mais au stade actuel, et sur des propriétés non génériques (type de document, par exemple), elle n’est vraiment opérationnelle que sur des documents un tant soit peu normalisés (factures, CV, formulaires spécialisés, etc.).

L’indexation automatique contribue à la bonne exploitation des informations

L’extraction d’entités nommées (Noms propres de lieu, de personnes, de sociétés, ..) peut contribuer à la qualification des documents versés et ainsi à enrichir l’exploitabilité des contenus.

De même, l’analyse profonde des contenus, via les mécanismes d’apprentissage (Intelligence Artificielle), permet d’enrichir encore cette exploitabilité, par exemple, en fournissant une assistance à la catégorisation de documents.

Enfin, l’indexation du contenu, par analyse des textes eux-mêmes, est particulièrement intéressante en ce qu’elle contribue à l’allègement de l’effort de l’utilisateur à l’entrée, puisque réduisant la nécessité de classement de qualification « riches » et en ce qu’elle lui fournit un outil de recherche à la « sortie ».

Elle évite, par exemple, sans l’exclure, la qualification par des mots clés, de type thésaurus, qui, pour intéressante qu’elle puisse être, requiert un travail très important de lecture et de compréhension globale des textes, tout en limitant cette qualification à quelques mots représentatifs de ce contenu, et donc passant à coté des « signaux faibles », par exemple.

L’influence des moteurs de recherche sur l’indexation et l’exploitation

Cette indexation peut être faite par des moteurs d’indexation et de recherche, sachant qu’il faut distinguer deux grandes classes de moteur :

  • Les moteurs statistiques, qui indexent tous les mots des textes, constituant ainsi un index de « mots clés » (sans distinction liée à la catégorie grammaticale de ces mots, ni à leur conjugaison et autres accords)
  • Les moteurs linguistiques, qui analysent de manière plus profonde les textes afin de distinguer à la fois la nature grammaticale des mots (nom commun, verbe, article, adjectif, etc.) et leur liens (adjectif qualifiant un nom commun, par exemple) et n’indexant au final que ceux effectivement porteurs de sens (donc autres que les articles et prépositions, par exemple), et sous leur forme d’entrée d’un dictionnaire (forme dite « lemmatisée » : infinitif pour les verbes, masculin singulier pour les noms communs et les adjectifs).

 

La recherche avec chacun de ces types de moteur est évidemment différente :

  • Avec un moteur statistique, on va poser une question sous la forme de plusieurs « mots-clés », sans considération grammaticale ni syntaxique. L’outil propose alors les documents contenant ces mots, tels qu’ils sont écrits dans la question, et, souvent, les ordonnant en fonction du nombre d’occurrences de ces termes.
  • Avec un moteur linguistique, on va poser une question en langage naturel, à charge de celui-ci d’analyser la nature et les liens des termes de cette question, indépendamment de leur genre (masculin-féminin), de leur nombre (singulier-pluriel) ou leur forme conjuguée (pour les verbes). Il fournit alors les documents contenant ces termes, en privilégiant les mots reliés syntaxiquement, et donc sémantiquement, de la même façon que dans la question. L’utilisateur est guidé dans son exploitation des résultats, organisés en fonction de leur pertinence, explicitée, relativement à la question posée, ce qui lui évite d’avoir à feuiller inutilement des pages et de pages de réponses peu pertinentes.