Colloque

Comparaison et évaluation de différentes méthodes de représentation d'expressions polylexicales

Alexsandro Fonseca

Membre a labase

Alexsandro Fonseca : UQAM - Université du Québec à Montréal

Résumé de la communication

Pendant les dernières années, plusieurs travaux se sont consacrés aux expressions polylexicales. Cependant, la majorité se concentre sur l'extraction, la désambiguïsation et l'interprétation de ces expressions. Une partie moins significative de la littérature se consacre à la représentation et à l'intégration des EPs aux autres tâches du TALN (Ramisch, 2012).

Dans cet article, nous évaluons l'utilisation de quatre différentes méthodes de représentation, en les appliquant à la représentation des EPs du portugais du Brésil. À partir d'un ensemble d'EPs du portugais automatiquement extraites, nous voulons évaluer chacune de ses méthodes par rapport à leur pouvoir de représentation et de généralisation. La première approche est présentée par Villavicencio et al. (2004). Elle se restreint aux expressions idiomatiques et aux constructions de verbes à particule. Il consiste d'un codage pour les EPs basé sur le codage de leurs mots constituants. La deuxième approche est présentée par Grégoire (2010) et il s'applique à des EPs en général, implémentée pour la langue hollandaise. Elle utilise l'idée de « Equivalence Class Method » (Odijk 2004) pour créer une classification des EPs. La troisième (Multiflex) et la quatrième (POLENG) approches sont présentées par Gralinski et al. (2010) et sont implémentées pour la langue polonaise. Multiflex est basée sur une représentation en graphe et POLENG est plus simple, les EPs sont décrites par une chaîne de caractères compacte et linéaire.

Résumé du colloque

Le sujet de ce colloque traite de la linguistique informatique et plus particulièrement du traitement automatique des langues naturelles (TALN/TAL) ainsi que de son interaction avec les sciences cognitives. Il s’agit d’un domaine qui se situe au carrefour de la linguistique, de l’intelligence artificielle et des sciences cognitives dans leurs recherches sur le langage naturel.

Le colloque proposé vise les différentes applications du TALN dans un contexte monolingue, bilingue ou multilingue, telles que le développement des méthodologies nécessaires pour la construction et l’enrichissement des ressources linguistiques. Tous les aspects du traitement automatique des langues sont considérés, en particulier les travaux théoriques ayant pour but de décrire les phénomènes linguistiques par des modèles calculatoires, le développement de logiciels d’aide aux linguistes pour leurs travaux de recherche, tels que des études de corpus, le développement de logiciels et de ressources pour utiliser, traiter, organiser et conserver des données linguistiques écrites ou orales.

Plus spécifiquement, nous proposons d’abord les sujets suivants :

– modèles de calcul des langues naturelles

– réseaux sémantiques de grande taille

– modèles cognitifs et psychologiques des langues naturelles

– évolution des langues naturelles

– traitement du discours

– pragmatique, processus cognitifs et sociaux des langues

– résumé automatique et extraction d’information

– interfaces et systèmes de dialogue

– traduction automatique

– traitement des ressources multilingues

– outils et ressources en TALN

– corpus linguistique

– forage de données.

Il sera demandé aux présentateurs de mettre en valeur les aspects liés au traitement automatique des langues naturelles, quel que soit le sujet abordé, ainsi qu’à leur pertinence au niveau des sciences cognitives.