pen icon Colloque
quote

Construction automatique de corpus spécialisés pour l'application de méthodes d'analyse distributionnelle

DA

Membre a labase

Daphnée Azoulay : Université de Montréal

Résumé de la communication

Les méthodes d'analyse distributionnelle permettent, au moyen de mesures statistiques, de faire ressortir des liens de similarités entre les mots et d'observer les phénomènes les plus récurrents de la langue. Bien que ces méthodes soient souvent utilisées en linguistique de corpus, elles sont rarement employées dans le domaine de la terminologie (Périnet et Hamon 2014). La taille généralement inférieure des corpus spécialisés par rapport à celle des corpus généraux est peut-être l'un des facteurs réduisant l'intérêt pour ce type d'analyse appliqué au travail terminologique. Cependant, la quantité importante de documents désormais accessibles sur le Web nous laisse envisager la possibilité de construire des corpus spécialisés de taille considérable. Notre projet vise donc à automatiser la compilation de textes spécialisés afin d'obtenir des corpus de grande taille sur lesquels seront appliquées des méthodes d'analyse distributionnelle.

Nous présenterons une méthode de construction automatique de corpus spécialisés dont le processus itératif utilise le Web et l'extracteur de termes TermoStat (Drouin 2003). Nous décrirons également une méthode d'évaluation des corpus qui utilise le modèle neuronal word2vec (Mikolov et al. 2013) et dont le but est d'évaluer leur cohérence thématique ainsi que l'influence de leur taille sur la précision de l'information distributionnelle.

Résumé du colloque

Les ressources linguistiques et lexicales sont utilisées à plusieurs fins dans différents domaines : traitement automatique de la langue (TAL), terminologie, indexation, didactique des langues, fouille de texte, analyse de contenu, etc. Ainsi, les documents textuels non structurés traités par des systèmes de TAL peuvent nécessiter des ressources linguistiques pour appréhender leur contenu : terminologies, réseaux lexicaux, bases de connaissances, ontologies, etc., où les liens entre termes sont explicites. Aussi, pour décrire, indexer ou classifier des documents (textuels, visuels, audio, vidéo), on recourt à des thésaurus, à des plans de classification, etc. Et l’enseignement utilise souvent des ressources pédagogiques linguistiques ou terminologiques.

Des relations diverses existent entre ces ressources, les documents auxquels elles sont appliquées et les applications auxquelles elles servent. Notre colloque permettra d’étudier ces interactions en tentant de répondre aux questions suivantes :

— Quelles ressources sont mieux adaptées à une application, à un genre, à un type de document ou de discours particulier? Qu’en est-il des corpus non linguistiques (images ou vidéos, par exemple)?

— En quoi les ressources reflètent-elles le corpus de documents ou de connaissances qui ont servi à les créer?

— Quelles adaptations des ressources sont nécessaires pour traiter un corpus donné?

— Comment combiner des ressources pour atteindre un traitement optimal, ou composer un corpus pour en extraire des ressources optimales?

— Comment intégrer une documentation ou une organisation aux ressources pour maximiser leur réutilisation?

— Quels écueils rencontrerait une utilisation imprévue de ressources données?

Les communications présentées dans le colloque aborderont ces questions d’un point de vue théorique, pratique ou empirique.

Le caractère interdisciplinaire de la thématique proposée vise à rassembler des chercheurs issus de divers champs afin de partager les expertises.

Contexte

section icon Thème du congrès 2016 (84e édition) :
Points de rencontre
section icon Date : 9 mai 2016

Découvrez d'autres communications scientifiques

Autres communications du même congressiste :