Colloque

Élaboration de ressources linguistiques pour la génération de texte

Florie Lambrey

François Lareau

Membre a labase

Florie Lambrey : Université de Montréal

Résumé de la communication

La profusion de documents scientifiques pousse le monde académique à recourir à des logiciels de synthèse qui analysent les textes et en extraient les informations pertinentes pour ensuite les reformuler. Le plus souvent, ces logiciels emploient des algorithmes statistiques qui opèrent à un niveau assez superficiel. Afin d'obtenir de meilleurs résumés, un traitement plus approfondi des textes est nécessaire. À l'aide d'une analyse linguistique solide, la tâche d'extraction de contenu fournit une structure conceptuelle représentant le contenu du document. Ensuite, le module de génération de texte reconstruit ce contenu en énoncé en langue naturelle. L'élaboration de ressources lexicales et grammaticales est donc essentielle au développement d'un logiciel de synthèse de document. Dans cette communication, nous présenterons notre générateur de texte multilingue, Géco, qui s'appuie sur des ressources linguistiques. Sa grammaire contient des règles génériques servant à modéliser les phénomènes récurrents dans les langues, ce qui la rend adaptée à la génération multilingue. De même, ses dictionnaires décrivent les spécificités de chaque langue. Nous montrerons que ces choix de conceptualisation et structuration des ressources permettent de refléter plusieurs aspects subtils de la langue, visibles au travers des textes générés par notre système. Nous parlerons également de la possibilité de réutiliser ces ressources d'une langue à l'autre.

Résumé du colloque

Les ressources linguistiques et lexicales sont utilisées à plusieurs fins dans différents domaines : traitement automatique de la langue (TAL), terminologie, indexation, didactique des langues, fouille de texte, analyse de contenu, etc. Ainsi, les documents textuels non structurés traités par des systèmes de TAL peuvent nécessiter des ressources linguistiques pour appréhender leur contenu : terminologies, réseaux lexicaux, bases de connaissances, ontologies, etc., où les liens entre termes sont explicites. Aussi, pour décrire, indexer ou classifier des documents (textuels, visuels, audio, vidéo), on recourt à des thésaurus, à des plans de classification, etc. Et l’enseignement utilise souvent des ressources pédagogiques linguistiques ou terminologiques.

Des relations diverses existent entre ces ressources, les documents auxquels elles sont appliquées et les applications auxquelles elles servent. Notre colloque permettra d’étudier ces interactions en tentant de répondre aux questions suivantes :

— Quelles ressources sont mieux adaptées à une application, à un genre, à un type de document ou de discours particulier? Qu’en est-il des corpus non linguistiques (images ou vidéos, par exemple)?

— En quoi les ressources reflètent-elles le corpus de documents ou de connaissances qui ont servi à les créer?

— Quelles adaptations des ressources sont nécessaires pour traiter un corpus donné?

— Comment combiner des ressources pour atteindre un traitement optimal, ou composer un corpus pour en extraire des ressources optimales?

— Comment intégrer une documentation ou une organisation aux ressources pour maximiser leur réutilisation?

— Quels écueils rencontrerait une utilisation imprévue de ressources données?

Les communications présentées dans le colloque aborderont ces questions d’un point de vue théorique, pratique ou empirique.

Le caractère interdisciplinaire de la thématique proposée vise à rassembler des chercheurs issus de divers champs afin de partager les expertises.

Contexte

Thème du congrès 2016 (84e édition) :

Points de rencontre

Section :

Section 600 - Colloques multisectoriels

Thème du colloque :

Documents et ressources pour leur traitement : un couplage crucial

Responsables :

Lyne Da Sylva Patrick Drouin

Date : 9 mai 2016

Découvrez d'autres communications scientifiques

Dans le même colloque
Du même congressiste

Titre du colloque :

Documents et ressources pour leur traitement : un couplage crucial

De quelques aspects de l'adjectif dans un corpus textuel autour des énergies renouvelables

Maria Francesca BONADONNA

Exploitation d'un corpus spécialisé pour apprenants en vue de l'enseignement-apprentissage du lexiq…

Marjan Alipour

Construction automatique de corpus spécialisés pour l'application de méthodes d'analyse distributio…

Daphnée Azoulay

Voir tous les contenus de ce colloque

Autres communications du même congressiste :

Thème du colloque :

Documents et ressources pour leur traitement : un couplage crucial

Élaboration de ressources linguistiques pour la génération de texte

Florie Lambrey