Colloque

Linguistique textuelle et textmining appliqués à l'analyse contrastive des médias : le cas de la médiatisation de la protection des données personnelles et des technologies sans contact

Mathilde De Saint Leger

Brigitte Juanals

Jean-Luc MINEL

Membre a labase

Mathilde De Saint Leger : Centre national de la recherche scientifique

Résumé de la communication

Cette communication présente une approche instrumentée du traitement médiatique de l'information dans un contexte monolingue. L'objectif est une analyse contrastive de 3 types de médias en France, la presse généraliste, la presse professionnelle et économique, et les blogs de journalistes, sur la problématique des données personnelles et des technologies sans contact en lien avec les mobiles. Notre démarche se situe au carrefour de la linguistique textuelle et de la fouille de données textuelle instrumentées avec des outils de TAL; elle s'appuie notamment sur les outils TXM (Heiden & al. 2010) et Calliope (de Saint Leger 2005). Nous commencerons par exposer notre méthodologie. Dans un deuxième temps, nous exposerons les résultats du traitement d'un corpus de 569 articles collectés automatiquement sur la période 2011-2012. L'extraction automatique de la terminologie fondée sur la méthode des segments répétés complétée par un traitement textométrique et les techniques de clustérisation, nous ont permis d'identifier les thématiques principales et les acteurs de ce domaine, et de contraster ces 3 types de médias.

Résumé du colloque

Le sujet de ce colloque traite de la linguistique informatique et plus particulièrement du traitement automatique des langues naturelles (TALN/TAL) ainsi que de son interaction avec les sciences cognitives. Il s’agit d’un domaine qui se situe au carrefour de la linguistique, de l’intelligence artificielle et des sciences cognitives dans leurs recherches sur le langage naturel.

Le colloque proposé vise les différentes applications du TALN dans un contexte monolingue, bilingue ou multilingue, telles que le développement des méthodologies nécessaires pour la construction et l’enrichissement des ressources linguistiques. Tous les aspects du traitement automatique des langues sont considérés, en particulier les travaux théoriques ayant pour but de décrire les phénomènes linguistiques par des modèles calculatoires, le développement de logiciels d’aide aux linguistes pour leurs travaux de recherche, tels que des études de corpus, le développement de logiciels et de ressources pour utiliser, traiter, organiser et conserver des données linguistiques écrites ou orales.

Plus spécifiquement, nous proposons d’abord les sujets suivants :

– modèles de calcul des langues naturelles

– réseaux sémantiques de grande taille

– modèles cognitifs et psychologiques des langues naturelles

– évolution des langues naturelles

– traitement du discours

– pragmatique, processus cognitifs et sociaux des langues

– résumé automatique et extraction d’information

– interfaces et systèmes de dialogue

– traduction automatique

– traitement des ressources multilingues

– outils et ressources en TALN

– corpus linguistique

– forage de données.

Il sera demandé aux présentateurs de mettre en valeur les aspects liés au traitement automatique des langues naturelles, quel que soit le sujet abordé, ainsi qu’à leur pertinence au niveau des sciences cognitives.