pen icon Communication
quote

La lexicalisation complexe en génération automatique de texte

FL

Membre a labase

François Lareau : Université de Montréal

Résumé de la communication

La génération automatique de texte est une branche de la linguistique computationnelle qui vise la production automatique d'énoncés en langue naturelle qui expriment de l'information qu'on veut communiquer. Je présenterai d'abord l'architecture classique d'un générateur de texte, en m'attardant plus particulièrement aux modules linguistiques d'un tel système. Je montrerai quel type d'information est nécessaire pour cette tâche, et comment elle se représente formellement. Ensuite, je parlerai plus en détail de l'étape de la lexicalisation (le choix des mots pour l'expression d'un message). Traditionnellement, cette opération s'effectue en une seule étape. Or, je montrerai que pour obtenir des textes fluides et naturels, il faut un modèle stratifié de la lexicalisation afin de traiter un type particulier de locution appelé collocation, c'est-à-dire une expression idiomatique où il existe un lien privilégié entre des mots qui «vont ensemble» (par exemple, «procéder à l'arrestation» au lieu de «arrêter»). Il existe dans les langue une grande variété de collocations («subir une perte», «peur bleue», «porter des accusations», etc.) et le phénomène, loin d'être marginal dans l'usage, est omniprésent. L'arbitraire de ces combinaisons de mots exige que l'information soit encodée d'une façon ou d'une autre dans un système de génération de texte, et c'est de cet encodage que je parlerai plus en détail.

Contexte

section icon Thème du congrès 2014 (82e édition) :
La recherche : zones de convergence et de créativité
news icon Domaine de la communication :
Langues et langages
section icon Date : 14 mai 2014

Découvrez d'autres communications scientifiques

news icon

Thème du communication :

Langues et langages

Autres communications du même congressiste :

news icon

Domaine de la communication :

Langues et langages