Colloque

Extraction automatique des verbes arabes spécialisés

Nizar Ghazzawi

Membre a labase

Nizar Ghazzawi : Université de Montréal

Résumé de la communication

Dans le cadre de notre étude des verbes arabes spécialisés, nous procédons à l'extraction de ces derniers au moyen d'un extracteur automatique, à savoir TermoStat (Drouin 2003). Notre objectif est de voir dans quelle mesure un extracteur automatique conçu pour le français, l'anglais, le portugais, l'italien et l'espagnole pourra accueillir une langue sémitique, morphologiquement complexe telle que la langue arabe. Notre travail se distingue par le fait qu'il présentera un extracteur pour les verbes arabes spécialisés, contrairement aux outils disponibles qui procèdent à l'extraction automatique des unités terminologiques complexes ou simples, mais de nature nominale. Notre méthodologie de travail consiste à mettre en place un analyseur morphosyntaxique (MADA, Habash et al. 2009) et un corpus arabe de langue générale ainsi qu'un corpus spécialisé pour effectuer l'extraction. En ce qui concerne le corpus général, nous nous servons du corpus général que propose l'Université de Leeds en Grande-Bretagne. Pour le corpus spécialisé, nous disposons d'un corpus spécialisé du domaine de l'informatique totalisant presque 500 000 mots, extrait de matériel sur le web. Suite à l'extraction, nous procédons à l'interprétation des résultats au moyen des listes KWIC que TermoStat établit pour chaque unité repérée. Ces listes nous permettent de valider les unités extraites selon les critères de validation terminologique de L'Homme (2004).

Résumé du colloque

Le sujet de ce colloque traite de la linguistique informatique et plus particulièrement du traitement automatique des langues naturelles (TALN/TAL) ainsi que de son interaction avec les sciences cognitives. Il s’agit d’un domaine qui se situe au carrefour de la linguistique, de l’intelligence artificielle et des sciences cognitives dans leurs recherches sur le langage naturel.

Le colloque proposé vise les différentes applications du TALN dans un contexte monolingue, bilingue ou multilingue, telles que le développement des méthodologies nécessaires pour la construction et l’enrichissement des ressources linguistiques. Tous les aspects du traitement automatique des langues sont considérés, en particulier les travaux théoriques ayant pour but de décrire les phénomènes linguistiques par des modèles calculatoires, le développement de logiciels d’aide aux linguistes pour leurs travaux de recherche, tels que des études de corpus, le développement de logiciels et de ressources pour utiliser, traiter, organiser et conserver des données linguistiques écrites ou orales.

Plus spécifiquement, nous proposons d’abord les sujets suivants :

– modèles de calcul des langues naturelles

– réseaux sémantiques de grande taille

– modèles cognitifs et psychologiques des langues naturelles

– évolution des langues naturelles

– traitement du discours

– pragmatique, processus cognitifs et sociaux des langues

– résumé automatique et extraction d’information

– interfaces et systèmes de dialogue

– traduction automatique

– traitement des ressources multilingues

– outils et ressources en TALN

– corpus linguistique

– forage de données.

Il sera demandé aux présentateurs de mettre en valeur les aspects liés au traitement automatique des langues naturelles, quel que soit le sujet abordé, ainsi qu’à leur pertinence au niveau des sciences cognitives.