Colloque

L'extraction des termes complexes : une approche modulaire semi-automatique

Ismaïl Biskri

Sylvain Joyal

Membre a labase

Ismaïl Biskri

Résumé du colloque

La langue écrite ou parlée, la traduction, le résumé, la gestion documentaire ou de l'information et bien sûr la terminologie et dans la dernière décennie l'ontologie, un repérage complet et adéquat des termes complexes dans un corpus traitant d'un domaine spécifique est considéré comme un prétraitement des plus importants pour l'obtention de résultats d'une meilleure qualité. Dans un passé très récent, un certain nombre d'outils pour le repérage de termes ont été développés et proposés à la littérature scientifique. Ces outils acceptent comme input un texte ou corpus, généralement, prétraité (étiqueté par exemple). Ils produisent de façon automatique une liste de candidats termes soit au moyen d'une approche statistique (bayésienne par exemple) soit au moyen d'une approche linguistique. Les approches statistiques peuvent être multilingues. Elles sont cependant bruitées. Les approches linguistiques sont moins bruitées, mais ne peuvent toutefois rendre compte de corpus multilingues ou certains néologismes dans des domaines spécifiques. Ces dernières approches semblent plus adaptées à des textes stéréotypés. La plupart des méthodes d'extraction de termes complexes préconisent l'utilisation d'un filtre linguistique pour le repérage de termes. Ce filtre utilise des patrons de termes comme ceux montrés dans les travaux de Béatrice Daille. Dans une seconde étape, et ce pour réduire le bruit, elles utilisent des filtres statistiques ou de nature syntaxique voir sémantique. Les raisons qui sont données pour justifier ce choix sont multiples : la perte de termes modifiés par un adverbe ou un adjectif; l'utilisation de filtres statistiques avant celle de filtres linguistiques induit beaucoup de bruits; la fréquence des termes est parfois erronée, particulièrement quand il n'y a pas au préalable une opération de lemmatisation; les méthodes statistiques sont sensibles à la taille du corpus. Plus le corpus est grand plus ces méthodes donnent de meilleurs résultats. Toutefois, malgré ces raisons, certains auteurs continuent à privilégier les méthodes statistiques, avec l'introduction de filtres linguistiques simples pour apporter des corrections aux bruits (par exemple MANTEX). Ces auteurs affirment que les approches linguistiques cachent pour la plupart des problèmes complexes voire majeurs; l'étiquetage des termes. Certains auteurs évaluent à 40 minutes le travail nécessaire pour corriger 1000 mots étiquetés; la lemmatisation. Le problème devant être surmonté est la nature polysémique de la langue. Le sens des mots varie très souvent en fonction du contexte dans lequel il est utilisé; la structure du terme. La structure syntaxique du terme est généralement considérée de type « syntagme nominal ». Pourtant cette règle souffre des exceptions et n'est pas vraie pour tous les domaines. La majorité des outils disponibles dédiés à l'extraction des termes complexes ont une propriété commune : ils sont automatiques et n'interagissent que très peu avec l'usager. L'emphase mise par les programmeurs de ces outils sur leur aspect automatique cache, généralement, des pré- ou post-traitements (manuels ou pas) non triviaux, en particulier : l'étiquetage du corpus, la lemmatisation et l'évaluation des termes candidats. Mais ce qui est particulièrement problématique est le dépouillement des résultats eux mêmes, particulièrement si on considère leur taux de rappel et de précision. La méthode et l'outil que nous présentons dans cet article permettent le repérage d'expressions récurrentes (termes) à partir d'un corpus. Toutefois, notre approche est très différente des autres : par son design. Il est interactif et permet le contrôle permanent de l'usager : l'outil a des capacités d'apprentissage. L'identification des termes complexes est fondée sur un ensemble de termes préalablement validé par l'usager. Le logiciel semi-automatique que nous avons développé assiste l'ingénieur des connaissances, l'expert du domaine (traité dans un corpus), ou le linguiste dans leur tâche. Dans l'esprit de nos précédents travaux, nous pensons que l'intervention humaine est incontournable dès lors qu'il s'agit de traitement des langues naturelles pour des résultats de haute qualité. L'identification des termes complexes n'en est qu'une modalité. La traduction ou le résumé sont d'autres exemples d'applications où le traitement automatique réalise des performances relativement pauvres comparées à des standards humains. La communauté de linguistique computationnelle ainsi que celle de l'intelligence artificielle semblent partagées en deux groupes : d'une part ceux dont l'objectif est la complète automaticité qui écarte toute intervention, d'autre part ceux dont l'objectif est d'assister intelligemment des humains dans des tâches qui ne peuvent être faites ou contrôlées que par des humains. Notre travail est définitivement représentatif du second groupe. Il y a une autre raison importante pour maintenir le contrôle humain : permettre une analyse qui tienne compte de la perspective, de la subjectivité et des connaissances du domaine de l'usager. En d'autres termes, plusieurs usagers utilisant le même outil peuvent obtenir plusieurs résultats différents : c'est ce que nous appelons une approche flexible pour le repérage des termes complexes. Les mêmes termes complexes ne sont pas nécessairement similaires par exemple en médecine et en anthropologie. C'est la raison pour laquelle la compétence d'un expert est importante. Un autre aspect que nous avons pris en considération dans notre travail a trait à l'apprentissage. Celui utilisé dans notre système est relativement simple. Il est par contre un ajout à même de favoriser le point de vue de l'usager. Notre système de repérage de termes améliore la qualité des résultats en se basant sur un ensemble de termes préalablement validés par l'usager. Cet ensemble de termes représente en soi un patrimoine qui permet d'améliorer les performances du logiciel. Enfin, le système est de conception modulaire. Chaque module (fonction) est indépendant des autres. Seul l'usager (étant donné ses besoins) peut décider quel module exécuter. Ce genre de représentation de LATAO (Lecture et Analyse de Textes Assistées par Ordinateur) est inspiré d'un projet plus général : SATIM (Système de l'Analyse et du Traitement de l'Information Multidimensionnelle).

Contexte

Section :

Gestion, innovation et technologie de l'information

Thème du colloque :

Gestion, innovation et technologie de l'information

Responsables :

Hamadou Saliah-Hassane

Hôte : Université du Québec à Montréal

Découvrez d'autres communications scientifiques

Dans le même colloque
Du même congressiste

Titre du colloque :

Gestion, innovation et technologie de l'information

TIC et développement durable en Haïti : leçons et perspectives

Jean-Marie Raymond Noel

La sécurité des services Web dans un contexte de transaction intra ou inter-entreprises

Abdenbi Erryahi

Amélioration de la gestion des investissements en technologies par de nouveaux processus stratégiqu…

Daniel Tremblay

Voir tous les contenus de ce colloque

Autres communications du même congressiste :

Thème du colloque :

Gestion, innovation et technologie de l'information

Raisonnement et calcul de l'aspect et du temps

Ismaïl Biskri

SATIM : une architecture modulaire pour l'analyse et le traitement de l'information multidimensionn…

Jean Guy Meunier

Analyse des marqueurs de sujet de l'arabe standard en vue d'une implémentation

Ismaïl Biskri