Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Membre a labase
Emmanuelle Dusserre : Université Grenoble Alpes
Notre projet a pour objectif d'identifier automatiquement à partir d'un corpus des relations sémantiques entre mots du Lexique scientifique transdisciplinaire (lexique partagé par divers domaines scientifiques) (Tutin 2014). Pour y parvenir, nous exploitons des techniques du traitement automatique des langues; plus particulièrement une analyse distributionnelle automatisée. D'une part, nous utilisons Hyperwords, un logiciel permettant l'exploitation de la méthode distributionnelle (Harris 1955) et d'autre part, nous faisons appel à l'algorithme word2vec (Mikolov et al. 2013) reposant sur une architecture en réseaux de neurones artificiels.
Le corpus analysé est issu de Scientext ; il comporte 3,6 millions de mots et regroupe des articles, des thèses et des écrits d'étudiants recouvrant dix disciplines scientifiques. Nous nous intéressons plus particulièrement aux relations sémantiques des noms et verbes du Lexique scientifique transdisciplinaire et à la création de regroupements de voisins sémantiques par le biais de graphes. Ces derniers seront comparés avec les classes sémantiques des mots du Lexique scientifique transdisciplinaire constituées manuellement par l'équipe du LIDILEM de Grenoble, afin de montrer les similarités et divergences des deux approches.
Les ressources linguistiques et lexicales sont utilisées à plusieurs fins dans différents domaines : traitement automatique de la langue (TAL), terminologie, indexation, didactique des langues, fouille de texte, analyse de contenu, etc. Ainsi, les documents textuels non structurés traités par des systèmes de TAL peuvent nécessiter des ressources linguistiques pour appréhender leur contenu : terminologies, réseaux lexicaux, bases de connaissances, ontologies, etc., où les liens entre termes sont explicites. Aussi, pour décrire, indexer ou classifier des documents (textuels, visuels, audio, vidéo), on recourt à des thésaurus, à des plans de classification, etc. Et l’enseignement utilise souvent des ressources pédagogiques linguistiques ou terminologiques.
Des relations diverses existent entre ces ressources, les documents auxquels elles sont appliquées et les applications auxquelles elles servent. Notre colloque permettra d’étudier ces interactions en tentant de répondre aux questions suivantes :
— Quelles ressources sont mieux adaptées à une application, à un genre, à un type de document ou de discours particulier? Qu’en est-il des corpus non linguistiques (images ou vidéos, par exemple)?
— En quoi les ressources reflètent-elles le corpus de documents ou de connaissances qui ont servi à les créer?
— Quelles adaptations des ressources sont nécessaires pour traiter un corpus donné?
— Comment combiner des ressources pour atteindre un traitement optimal, ou composer un corpus pour en extraire des ressources optimales?
— Comment intégrer une documentation ou une organisation aux ressources pour maximiser leur réutilisation?
— Quels écueils rencontrerait une utilisation imprévue de ressources données?
Les communications présentées dans le colloque aborderont ces questions d’un point de vue théorique, pratique ou empirique.
Le caractère interdisciplinaire de la thématique proposée vise à rassembler des chercheurs issus de divers champs afin de partager les expertises.
Titre du colloque :
Thème du colloque :