Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Membre a labase
Pierre André Ménard : CRIM
La prolifération des publications scientifiques offre à la fois une manne de nouvelles connaissances et un défi pour la recherche bibliographique des chercheurs académiques. Qu’ils soient débutants ou expérimentés, les chercheurs doivent défricher leur volumineux recueil d’articles pour cibler ou filtrer des concepts liés à leur domaine de recherche: théories abordées, méthodes employées, bases de données exploitées, populations étudiées, évaluations effectuées, etc. Étant donné la faible disponibilité d’outils pour supporter les chercheurs dans cette tâche, surtout en français, un regard du côté du traitement des langues naturelles s’impose. Cette recherche explore l’application d’un algorithme de désambiguïsation terme-sens de la plateforme d’annotation textuelle PACTE.
La plateforme PACTE offre plusieurs outils bilingues d’analyse textuelle. L’expérience effectuée présente l’analyse d’un corpus textuel de plus de 200 articles scientifiques, l’objectif étant d’identifier les articles pertinents lors de la création de la revue de littérature d’une recherche en démographie. En prélude à cet exercice, un lexique spécialisé sur les concepts pertinents du domaine (méthodes, variables, données, théories, etc.) a été défini avec le module de gestion lexical de la plateforme. L’algorithme se base sur cette ressource pour entraîner un modèle basé sur la distance lexicale des domaines. L’évaluation qualitative des thématiques ciblées démontre le potentiel applicatif de cette méthode.
Thème du communication :
Domaine de la communication :