Colloque

Comparaison entre deux méthodes automatiques d'extraction de relations sémantiques et une approche manuelle

Emmanuelle Dusserre

Patrick Drouin

Membre a labase

Emmanuelle Dusserre : Université Grenoble Alpes

Résumé de la communication

Notre projet a pour objectif d'identifier automatiquement à partir d'un corpus des relations sémantiques entre mots du Lexique scientifique transdisciplinaire (lexique partagé par divers domaines scientifiques) (Tutin 2014). Pour y parvenir, nous exploitons des techniques du traitement automatique des langues; plus particulièrement une analyse distributionnelle automatisée. D'une part, nous utilisons Hyperwords, un logiciel permettant l'exploitation de la méthode distributionnelle (Harris 1955) et d'autre part, nous faisons appel à l'algorithme word2vec (Mikolov et al. 2013) reposant sur une architecture en réseaux de neurones artificiels.
Le corpus analysé est issu de Scientext ; il comporte 3,6 millions de mots et regroupe des articles, des thèses et des écrits d'étudiants recouvrant dix disciplines scientifiques. Nous nous intéressons plus particulièrement aux relations sémantiques des noms et verbes du Lexique scientifique transdisciplinaire et à la création de regroupements de voisins sémantiques par le biais de graphes. Ces derniers seront comparés avec les classes sémantiques des mots du Lexique scientifique transdisciplinaire constituées manuellement par l'équipe du LIDILEM de Grenoble, afin de montrer les similarités et divergences des deux approches.

Résumé du colloque

Les ressources linguistiques et lexicales sont utilisées à plusieurs fins dans différents domaines : traitement automatique de la langue (TAL), terminologie, indexation, didactique des langues, fouille de texte, analyse de contenu, etc. Ainsi, les documents textuels non structurés traités par des systèmes de TAL peuvent nécessiter des ressources linguistiques pour appréhender leur contenu : terminologies, réseaux lexicaux, bases de connaissances, ontologies, etc., où les liens entre termes sont explicites. Aussi, pour décrire, indexer ou classifier des documents (textuels, visuels, audio, vidéo), on recourt à des thésaurus, à des plans de classification, etc. Et l’enseignement utilise souvent des ressources pédagogiques linguistiques ou terminologiques.

Des relations diverses existent entre ces ressources, les documents auxquels elles sont appliquées et les applications auxquelles elles servent. Notre colloque permettra d’étudier ces interactions en tentant de répondre aux questions suivantes :

— Quelles ressources sont mieux adaptées à une application, à un genre, à un type de document ou de discours particulier? Qu’en est-il des corpus non linguistiques (images ou vidéos, par exemple)?

— En quoi les ressources reflètent-elles le corpus de documents ou de connaissances qui ont servi à les créer?

— Quelles adaptations des ressources sont nécessaires pour traiter un corpus donné?

— Comment combiner des ressources pour atteindre un traitement optimal, ou composer un corpus pour en extraire des ressources optimales?

— Comment intégrer une documentation ou une organisation aux ressources pour maximiser leur réutilisation?

— Quels écueils rencontrerait une utilisation imprévue de ressources données?

Les communications présentées dans le colloque aborderont ces questions d’un point de vue théorique, pratique ou empirique.

Le caractère interdisciplinaire de la thématique proposée vise à rassembler des chercheurs issus de divers champs afin de partager les expertises.

Contexte

Thème du congrès 2016 (84e édition) :

Points de rencontre

Section :

Section 600 - Colloques multisectoriels

Thème du colloque :

Documents et ressources pour leur traitement : un couplage crucial

Responsables :

Lyne Da Sylva Patrick Drouin

Date : 9 mai 2016

Découvrez d'autres communications scientifiques

Dans le même colloque
Du même congressiste

Titre du colloque :

Documents et ressources pour leur traitement : un couplage crucial

L'environnement vu par ses documents : utilisation de techniques de fouille de textes dans un conte…

Dominic Forest

Quelles ressources lexicales électroniques pour l'enseignement du vocabulaire? Du dictionnaire en l…

Ophélie Tremblay

Thésaurus distributionnels pour la recherche d'information et vice versa

Vincent Claveau

Voir tous les contenus de ce colloque

Autres communications du même congressiste :

Thème du colloque :

Documents et ressources pour leur traitement : un couplage crucial

Comparaison entre deux méthodes automatiques d'extraction de relations sémantiques et une approche …

Emmanuelle Dusserre