Colloque

Traduction automatique contextuelle avec sélection du mot de contexte pertinent

Dorsaf Haouari

Jian-Yun NIE

Membre a labase

Dorsaf Haouari : Université de Montréal

Résumé de la communication

La bibliothèque numérique est une base de documents numériques caractérisée par un large volume de données diverses. Toutefois, trouver le bon document qui répond au besoin de l'utilisateur est une tâche difficile. Pour cela, l'utilisation d'un outil de recherche automatique est nécessaire. Cependant, se limiter à une recherche monolingue restreint l'accès à l'ensemble des documents pertinents dans la langue de la requête et ne retourne pas les documents pertinents écrits dans d'autres langues. En conséquence, le besoin d'un outil de recherche translinguistique qui dépasse les barrières de la langue est nécessaire.
La recherche translinguistique nécessite la traduction de la requête. Nous proposons un modèle de traduction qui tient compte des longues dépendances entre les mots. Le modèle est calculé à partir des fréquences relatives des alignements d'un mot cible à un mot source dans un contexte précis. Nous proposons également de sélectionner le mot de contexte pertinent à la traduction. Un mot de contexte est jugé pertinent si la distribution de probabilité de traduction contextuelle est différente de celle hors contextuelle. Nous présenterons les résultats de l’utilisation des différentes méthodes de sélection du mot de contexte pour traduire un mot source et analyserons leur impact sur la performance en recherche de documents.

Résumé du colloque

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.