pen icon Colloque
quote

L'environnement vu par ses documents : utilisation de techniques de fouille de textes dans un contexte de description linguistique

DF

Membre a labase

Dominic Forest : Université de Montréal

Résumé de la communication

Nous présentons l'utilisation d'une approche de fouille de textes dans le cadre d'un projet regroupant des chercheurs en sciences de l'information et en linguistique. L'objectif du projet est la description du domaine de l'environnement à partir d'un important corpus web de 23 514 documents moissonnés à partir de 1 969 sites web totalisant 47 364 125 occurrences. L'étape dont nous rendons compte dans cette communication est une première étape de fouille de textes visant à extraire la structure thématique d'un échantillon du corpus en appliquant de façon itérative un algorithme de classification non supervisée pour identifier une structure hiérarchique de documents partageant des thématiques communes. Notre approche est novatrice puisqu'elle permet de traiter un corpus complexe composé de différents genres textuels et de multiples domaines, incluant des rapports d'experts, des articles de journaux, des pamphlets idéologiques et des travaux de vulgarisation. À partir de nos résultats, nous sommes à même d'alimenter le travail de linguistes par la possibilité de visualiser les principaux thèmes sous la forme d'un dendrogramme interactif de thèmes et par la création de sous-corpus spécialisés. Au final, nos résultats démontrent que l'utilisation de cette approche basée sur la fouille de textes comme première étape exploratoire pour appréhender les corpus massifs et bruités du Web améliore la précision des étapes subséquentes menant à la description linguistique d'un domaine.

Résumé du colloque

Les ressources linguistiques et lexicales sont utilisées à plusieurs fins dans différents domaines : traitement automatique de la langue (TAL), terminologie, indexation, didactique des langues, fouille de texte, analyse de contenu, etc. Ainsi, les documents textuels non structurés traités par des systèmes de TAL peuvent nécessiter des ressources linguistiques pour appréhender leur contenu : terminologies, réseaux lexicaux, bases de connaissances, ontologies, etc., où les liens entre termes sont explicites. Aussi, pour décrire, indexer ou classifier des documents (textuels, visuels, audio, vidéo), on recourt à des thésaurus, à des plans de classification, etc. Et l’enseignement utilise souvent des ressources pédagogiques linguistiques ou terminologiques.

Des relations diverses existent entre ces ressources, les documents auxquels elles sont appliquées et les applications auxquelles elles servent. Notre colloque permettra d’étudier ces interactions en tentant de répondre aux questions suivantes :

— Quelles ressources sont mieux adaptées à une application, à un genre, à un type de document ou de discours particulier? Qu’en est-il des corpus non linguistiques (images ou vidéos, par exemple)?

— En quoi les ressources reflètent-elles le corpus de documents ou de connaissances qui ont servi à les créer?

— Quelles adaptations des ressources sont nécessaires pour traiter un corpus donné?

— Comment combiner des ressources pour atteindre un traitement optimal, ou composer un corpus pour en extraire des ressources optimales?

— Comment intégrer une documentation ou une organisation aux ressources pour maximiser leur réutilisation?

— Quels écueils rencontrerait une utilisation imprévue de ressources données?

Les communications présentées dans le colloque aborderont ces questions d’un point de vue théorique, pratique ou empirique.

Le caractère interdisciplinaire de la thématique proposée vise à rassembler des chercheurs issus de divers champs afin de partager les expertises.

Contexte

section icon Thème du congrès 2016 (84e édition) :
Points de rencontre
section icon Date : 9 mai 2016

Découvrez d'autres communications scientifiques

Autres communications du même congressiste :