pen icon Colloque
quote

Le pré-traitement des textes pour l'automatique documentaire

MM

Membre a labase

Michael Mepham

Résumé du colloque

Les logiciels courants de documentation automatique fondent leur manipulation des textes sur une définition graphique du mot. Nous postulons que seul le recours à une définition lexicale permettra d'atteindre des performances sensiblement meilleures, et que le pré-traitement assisté s'impose comme voie de solution aux problèmes qui se présentent. Nous mettons cette idée à l'épreuve dans une expérience sur une base documentaire réelle. Nous traitons le texte avant de l'ériger en base afin d'imposer une définition lexicale des unités. Ce pré-traitement lexical comprend l'identification des syntagmes lexicaux figés, la lemmatisation, la catégorisation et la désambiguïsation, ainsi que la détermination de relations de synonymie et de référence anaphorique. La base documentaire qui en résulte comporte quatre niveaux d'interrogation: mots graphiques, lemmes, synonymes et synonymes de référence. L'exploitation expérimentale permet de comparer l'interrogation de la base traitée avec celle non traitée. Nous relèverons de cas concrets où le rendement diffère. Ils seront analysés en fonction des connaissances formelles, sémantiques et universelles requises lors de leur pré-traitement. En conclusion, nous commenterons les perspectives de notre approche.

Contexte

Section :
Linguistique
news icon Thème du colloque :
Linguistique
host icon Hôte : Université Laval

Découvrez d'autres communications scientifiques

news icon

Titre du colloque :

Linguistique

Autres communications du même congressiste :

news icon

Thème du colloque :

Linguistique