Colloque

Reconnaissance et désambiguïsation des entités nommées : application aux revues françaises du 19e siècle

Alaa Abi Haidar

Yusra Ibrahim

Jean-Gabriel Ganascia

Membre a labase

Alaa Abi Haidar : Sorbonne Université

Résumé de la communication

Dans cet article, nous présentons notre méthode de reconnaissance des entités nommées non-supervisée (UNERD) que nous testons sur un corpus revues françaises comprenant 260 questions du 19ème siècle. Ce corpus a était récemment numérisé et publié par la Bibliothèque Nationale de France (BnF). Notre méthode se base sur la détection automatique des noms de personnes, de lieux, et d'organisations qui se trouvent dans le texte. Notre méthode originale utilise une base de connaissance française (Aleda) avec une approche statistique et contextuelle. Nous montrons que notre méthode est plus performante que d'autres approches supervisées lorsque l'apprentissage se limite à une petite portion des données annotées, puisque l'annotation manuelle est très coûteuse et fastidieuse, surtout dans des langues étrangères et des domaines spécifiques.

Résumé du colloque

Le sujet de ce colloque traite de la linguistique informatique et plus particulièrement du traitement automatique des langues naturelles (TALN/TAL) ainsi que de son interaction avec les sciences cognitives. Il s’agit d’un domaine qui se situe au carrefour de la linguistique, de l’intelligence artificielle et des sciences cognitives dans leurs recherches sur le langage naturel.

Le colloque proposé vise les différentes applications du TALN dans un contexte monolingue, bilingue ou multilingue, telles que le développement des méthodologies nécessaires pour la construction et l’enrichissement des ressources linguistiques. Tous les aspects du traitement automatique des langues sont considérés, en particulier les travaux théoriques ayant pour but de décrire les phénomènes linguistiques par des modèles calculatoires, le développement de logiciels d’aide aux linguistes pour leurs travaux de recherche, tels que des études de corpus, le développement de logiciels et de ressources pour utiliser, traiter, organiser et conserver des données linguistiques écrites ou orales.

Plus spécifiquement, nous proposons d’abord les sujets suivants :

– modèles de calcul des langues naturelles

– réseaux sémantiques de grande taille

– modèles cognitifs et psychologiques des langues naturelles

– évolution des langues naturelles

– traitement du discours

– pragmatique, processus cognitifs et sociaux des langues

– résumé automatique et extraction d’information

– interfaces et systèmes de dialogue

– traduction automatique

– traitement des ressources multilingues

– outils et ressources en TALN

– corpus linguistique

– forage de données.

Il sera demandé aux présentateurs de mettre en valeur les aspects liés au traitement automatique des langues naturelles, quel que soit le sujet abordé, ainsi qu’à leur pertinence au niveau des sciences cognitives.