Colloque

Approches connexionnistes dans la lecture et l'analyse de textes assistées par ordinateur

Jean Guy Meunier

Georges Nault

Membre a labase

Jean Guy Meunier

Résumé du colloque

Depuis l’avènement de l'ordinateur et surtout des micro-ordinateurs dans le domaine du traitement et de l'analyse de textes, on a vu naître un nombre extraordinaire de banques de textes complets et non formatés qu'il faut soit fouiller («information retrieval») ou extraire certaines connaissances («data mining»). L'objectif général de notre recherche fut de conceptualiser et d’expérimenter certains modèles de classificateurs dynamiques et plastiques sur des bases de données de textes intégraux. La dynamisation était requise parce qu'il faut souvent travailler sur des corpus en constante modification. La plasticité aussi devait être respectée en raison de la variété des requêtes qui peuvent être faites sur un même texte. Les objectifs généraux de la recherche exploraient donc des modèles mathématiques de type computation émergente pour les appliquer à la lecture et l'analyse de texte assistées par ordinateur (LATAO) et plus particulièrement dans cette expérimentation à de la recherche terminologique. Le premier sous-objectif consistait à effectuer une classification des régions sémantiques de termes. Ceci permettait de déterminer éventuellement les acceptions d'un terme et de délimiter les contextes spécifiques qui explorent une acception particulière (analyse conceptuelle et thématique). Un deuxième sous-objectif consistait à construire un design informatique intégrateur qui soutiendrait de telles chaînes de traitement. Cette plate-forme informatique (ALADIN) ne se présenterait pas comme un programme clos mais plutôt comme un «atelier» de génie logiciel qui permettrait d'exploiter des librairies existantes et de les appliquer à l'analyse et la lecture de texte assistées par ordinateur. Nous ne présentons ici que les expériences et les résultats concernant le premier sous-objectif. Le second sous-objectif est aussi poursuivi mais ne fait pas l'objet de cette présentation. MÉTHODOLOGIE La démarche méthodologique pour atteindre le premier objectif commençait par un travail d'analyse et de filtrage linguistique (lemmatiseurs) sur le texte. Ensuite le texte était transformé sous forme matricielle et deux modèles connexionnistes auto-associatifs sans supervision étaient appliqués. Ainsi, nous avons, sur deux textes différents, appliqué une variante du modèle BSB (Anderson 1982, Proulx 1993) et le modèle ART (Grossberg et Carpenter 1993). Nous faisions l’hypothèse que ces deux modèles pouvaient effectuer la classification des fragments contenant des similarités lexicales (champs lexicaux similaires). RÉSULTATS Sur le plan de l’expérimentation, les modèles BSB se sont avérés problématiques parce que n'offrant pas la dynamique requise. Leurs paramètres ne pouvaient pas contrôler adéquatement la nouveauté. Le modèle ART 1 au contraire, s'est révélé plus fécond parce qu’intrinsèquement capable de négocier les stimuli totalement nouveaux, c'est-à-dire ne faisant pas partie d'un échantillonnage contrôlé. Le modèle produisait des classifications de fragments qui, lorsque décantées de leur vocabulaire commun, permettait de cerner les réseaux lexicaux dans lesquels un certain terme opérait. Le tout était contrôlé par des terminologues dans un test interjuge. Le modèle Art a, par exemple pour le terme «code», identifié dans un texte échantillon (La Convention de la Baie James de Hydro-Québec, 800pp) qu'il opérait comme code civil, code vestimentaire, code de la route, code d'investissements, code informatique. Mais les deux modèles demeurent limités quant à la plasticité. DÉVELOPPEMENTS FUTURS Le succès de cette approche nous permet d'envisager une modification importante de la stratégie à savoir l'exploration de la création automatique de réseaux hypertextes. De plus, il nous apparaît possible d'appliquer sur le sous-corpus de textes définissant une acception particulière d'un terme des stratégies d'extraction des connaissances. Enfin, il nous semble possible d'appliquer des modèles classificateurs encore plus dynamiques et plastiques comme les champs de Markov cachés (Bouchaffra, Meunier 1995). Ceci nous permettrait de répondre davantage à la plasticité des requêtes qui cherchent à explorer des thématiques conceptuelles dans un texte. Enfin, le tout devrait être implanté dans une plate-forme génie logiciel modulaire (ALADIN) pouvant effectuer d'autres chaînes de traitement de l'information (Seffah Meunier 1995)