Colloque

Contraintes et atouts du corpus Érudit pour le traitement automatique de la langue

Lyne Da Sylva

Membre a labase

Lyne Da Sylva : Université de Montréal

Résumé de la communication

La présentation procédera à un examen systématique des caractéristiques du corpus d'Érudit

d'un point de vue de traitement automatique de la langue (TAL). Celles‐ci incluent les suivantes :

(1) ses caractéristiques informatiques, dont principalement le format des documents, la

présence de métadonnées explicites et l'existence de balisage sémantique étendu; (2) les

caractéristiques linguistiques du corpus, notamment le degré de multilinguisme des textes, le

vocabulaire utilisé, étudié à la fois d'un point de vue terminologique et de sémantique lexicale,

ainsi que quelques éléments de linguistique textuelle telle qu'observée dans un échantillon du

corpus; (3) un certain nombre de critères pragmatiques, incluant les distinctions entre revues

scientifiques et culturelles ainsi que les propriétés de cette bibliothèque numérique comparée

aux corpus normalement utilisés en TAL.

Ceci sera suivi d'une analyse, d'une part, des atouts que ces caractéristiques identifiées

présentent, et d'autre part des contraintes qu'elles imposent au traitement.

Résumé du colloque

Alors que les capacités de stockage et de calcul s’accroissent de façon exponentielle et que les outils de fouille, d’analyse et de visualisation des collections numériques se multiplient, les propriétés du corpus d’Érudit (erudit.org) offrent des perspectives de recherche exceptionnelle en bibliométrie, en linguistique informatique, en Web sémantique, ainsi qu’en histoire et en sociologie des sciences.

L’exploration automatisée d’un corpus numérique enrichi comme celui d’Érudit, regroupant une quantité croissante d’archives et de numéros courants de revues scientifiques et culturelles, mais aussi de thèses, et de documents et données divers, permet en effet d’extraire, de compiler et d’analyser quantité de données autrement dispersées sur de nombreuses plateformes ou dont l’accès était limité au format papier.

Mais qu’en est-il concrètement de ces nouvelles possibilités de recherche? Il s’agira ainsi de se demander, à partir de l’exemple d’Érudit, quelles questions inédites le traitement automatisé d’un corpus numérique permet de poser et comment ce corpus devrait idéalement évoluer (collections, structuration, sémantisation) afin de répondre aux besoins émergents des chercheurs; d’explorer, en somme, les possibilités de recherche présentes et futures que recèle une plateforme comme Érudit.