Colloque

Fouille de textes et cartographie thématique des corpus numériques

Dominic Forest

Marcela Baiocchi

Membre a labase

Dominic Forest : Université de Montréal

Résumé de la communication

On observe depuis une dizaine d'années une hausse du nombre d'initiatives visant à numériser et à diffuser le patrimoine informationnel des différentes branches du savoir. Dans certains domaines, les conséquences des initiatives de numérisation ont des répercussions sur le développement d'applications visant à assister la recherche, l'analyse, la structuration et la gestion des informations. Lors de cette communication, nous exposerons comment certaines

techniques de fouille de textes peuvent être exploitées afin d'assister l'extraction

et l'organisation et la visualisation d'informations présentes dans des corpus de

documents scientifiques en sciences humaines. Les données que nous avons

traitées dans le cadre de nos recherches sont issues de la plate-forme Érudit. La

démarche que nous avons menée repose sur une méthodologie inspirée de travaux dans le domaine de la fouille de données. Cette démarche est composé

de 4 principales étapes : 1. Le pré‐traitement, 2. La transformation numérique, 3. L'application des algorithmes de fouille et l'extraction des termes caractéristiques et 4. L'évaluation et la visualisation. Dans cette démarche, nous avons principalement mis à contribution les propriétés structurantes des algorithmes de

classification que nous avons couplées à des modalités devisualisation de l'information qui permettent de présenterde manière conviviale les résultats obtenus.

Résumé du colloque

Alors que les capacités de stockage et de calcul s’accroissent de façon exponentielle et que les outils de fouille, d’analyse et de visualisation des collections numériques se multiplient, les propriétés du corpus d’Érudit (erudit.org) offrent des perspectives de recherche exceptionnelle en bibliométrie, en linguistique informatique, en Web sémantique, ainsi qu’en histoire et en sociologie des sciences.

L’exploration automatisée d’un corpus numérique enrichi comme celui d’Érudit, regroupant une quantité croissante d’archives et de numéros courants de revues scientifiques et culturelles, mais aussi de thèses, et de documents et données divers, permet en effet d’extraire, de compiler et d’analyser quantité de données autrement dispersées sur de nombreuses plateformes ou dont l’accès était limité au format papier.

Mais qu’en est-il concrètement de ces nouvelles possibilités de recherche? Il s’agira ainsi de se demander, à partir de l’exemple d’Érudit, quelles questions inédites le traitement automatisé d’un corpus numérique permet de poser et comment ce corpus devrait idéalement évoluer (collections, structuration, sémantisation) afin de répondre aux besoins émergents des chercheurs; d’explorer, en somme, les possibilités de recherche présentes et futures que recèle une plateforme comme Érudit.