Colloque

Le modèle linguistique Compreno développé par ABBYY

Elena Kozlova

Maria Goncharova

Membre a labase

Elena Kozlova : ABBYY

Résumé de la communication

Nous présentons le modèle linguistique Compreno développé par ABBYY. Initialement conçu pour la traduction automatique, il est à présent destiné aux différentes applications du TALN ( l'analyse sémantique et syntaxique, la recherche plein texte, l'extraction d'informations). Le pivot du modèle est une hiérarchie sémantique, faite par les linguistes à la base du russe et de l'anglais. Néanmoins elle s'est montrée suffisamment universelle pour inclure les lexiques d'autres langues (français, allemand, chinois). Pour l'instant l'ampleur des lexiques anglais et russe est comparable à celle de Wordnet. Les lexiques d'autres langues sont en cours de construction. Les dépendances sémantiques dans le modèle sont décrites par des positions sémantiques universelles (plus de 300 au total). La description syntaxique, spécifique pour chaque langue, est réalisée à l'aide du paradigme syntaxique qui prend en considération des propriétés universelles des parties du discours ainsi que des particularités lexico-syntaxiques des mots. Les dépendances syntaxiques sont décrites par des positions syntaxiques qui représentent les réalisations de surface possibles des positions sémantiques dans une langue. Ces mécanismes sont à la base de la désambigüisation des sens dans le contexte. Le choix lexical correct est aidé par des données statistiques collectées à travers des corpus. Le modèle possède plusieurs outils pour traiter les groupes de mots figés et l'asymétrie translingue

Résumé du colloque

Le sujet de ce colloque traite de la linguistique informatique et plus particulièrement du traitement automatique des langues naturelles (TALN/TAL) ainsi que de son interaction avec les sciences cognitives. Il s’agit d’un domaine qui se situe au carrefour de la linguistique, de l’intelligence artificielle et des sciences cognitives dans leurs recherches sur le langage naturel.

Le colloque proposé vise les différentes applications du TALN dans un contexte monolingue, bilingue ou multilingue, telles que le développement des méthodologies nécessaires pour la construction et l’enrichissement des ressources linguistiques. Tous les aspects du traitement automatique des langues sont considérés, en particulier les travaux théoriques ayant pour but de décrire les phénomènes linguistiques par des modèles calculatoires, le développement de logiciels d’aide aux linguistes pour leurs travaux de recherche, tels que des études de corpus, le développement de logiciels et de ressources pour utiliser, traiter, organiser et conserver des données linguistiques écrites ou orales.

Plus spécifiquement, nous proposons d’abord les sujets suivants :

– modèles de calcul des langues naturelles

– réseaux sémantiques de grande taille

– modèles cognitifs et psychologiques des langues naturelles

– évolution des langues naturelles

– traitement du discours

– pragmatique, processus cognitifs et sociaux des langues

– résumé automatique et extraction d’information

– interfaces et systèmes de dialogue

– traduction automatique

– traitement des ressources multilingues

– outils et ressources en TALN

– corpus linguistique

– forage de données.

Il sera demandé aux présentateurs de mettre en valeur les aspects liés au traitement automatique des langues naturelles, quel que soit le sujet abordé, ainsi qu’à leur pertinence au niveau des sciences cognitives.