; La GED crosslingue : un avantage pour les multinationales - ANT'inno

La GED crosslingue : un avantage pour les multinationales

Des résultats de recherche plus pertinents & plus complets

L’analyse crosslingue effectuée par le moteur d’ANT’inno, développé en partenariat avec le CEA, conduit non seulement à des résultats de recherche particulièrement pertinents mais permet aussi d’obtenir des résultats de recherche dans d’autres langues que celle de la question.

Il s’agit d’une extension « sémantique », à savoir que la question posée par l’utilisateur donne lieu à plusieurs recherches simultanées, aussi bien sur la base de mots « voisins » de ceux de la question dans la même langue (reformulation monolingue) que de mots « voisins » (traduits) dans d’autres langues (reformulation crosslingue ou interlingue).

Il ne s’agit pas seulement d’une correspondance mot à mot dont on connait le peu de pertinence, mais aussi d’une correspondance basée sur les liens syntaxiques entre les mots de la question, et dans chacune des langues concernées.

Sur les quatre documents présentés ci-dessus, on voit que, non seulement ils correspondant bien à la question posée « Les stratégies numériques des entreprises » mais que le moteur a géré les synonymies ou reformulations – par exemple « digitale » et « numérique » mais a aussi remonté des résultats en anglais, on parle de cross-linguisme.

Notre GED crosslingue ANT’box intègre pour le moment quatre langues : Français, Anglais, Espagnol et Arabe. Nous travaillons en ce moment à l’intégration du Chinois (Mandarin).

La GED crosslingue un atout pour les organisations internationales

Ce mécanisme permet d’exploiter de manière simple, sans traduction préalable, des corpus multilingues. Ainsi, dans un contexte où l’on dispose de documents, par exemple, en français, anglais et arabe, il suffit de les « glisser » dans la GED crosslingue ANT’box pour que leur contenu soit analysé dans leur langue. Ensuite, une question exprimée en français (par exemple) va fournir des résultats aussi bien en français qu’en anglais et en arabe. L’exploitation de corpus multilingue est ainsi particulièrement simplifiée.

Exemple

La production de lait en Chine

  • Reformulation monolingue en français : produits laitiers chinois, production laitière en Chine, usine de lait en Chine, …
  • Reformulation crosslingue en anglais : milk product from China, chinese dairy product, chinese dairy factory, …

Aussi bien dans la langue de la question que dans les autres langues, la pertinence des réponses est liée évidemment à l’occurrence des mots de la question dans les documents proposés mais aussi à l’équivalence des liens syntaxiques entre ces mots, dans chaque langue.

Autrement dit encore, c’est bien lorsqu’il y a équivalence des mots et de leurs liens syntaxiques que la réponse sera effectivement intéressante et utile.

Plus de pertinence c’est moins de temps à chercher

L’organisation des réponses en « classes de pertinence », regroupant des documents de même niveau de pertinence et expliquant la pertinence de chaque groupe, permet à l’utilisateur de connaitre le niveau de cette pertinence avant d’aller consulter les documents concernés, et ce, indépendamment de la langue de ces documents. Il ne perd ainsi pas de temps avec le « bruit » (documents peu pertinents) généré par les questions et le « silence » (documents pertinents non proposés) est réduit de par les extensions sémantiques dans les différentes langues traitées.  Autrement dit encore, la pertinence est elle aussi crosslingue.

Enfin, si l’utilisateur ne connait pas la langue d’un des documents réponses, alors que celui-ci est placé dans une classe de pertinence de très haut niveau, la plateforme permet l’appel à un outil d’aide à la traduction (Systran, en l’occurrence), qui, si celle-ci ne peut être comparée à une traduction humaine experte, fournir néanmoins à l’utilisateur une idée suffisamment précise du contenu du document pour qu’il puisse décider, ou non, d’en demander une traduction de qualité.