Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Membre a labase
Lyne Da Sylva : Université de Montréal
La présentation procédera à un examen systématique des caractéristiques du corpus d'Érudit
d'un point de vue de traitement automatique de la langue (TAL). Celles‐ci incluent les suivantes :
(1) ses caractéristiques informatiques, dont principalement le format des documents, la
présence de métadonnées explicites et l'existence de balisage sémantique étendu; (2) les
caractéristiques linguistiques du corpus, notamment le degré de multilinguisme des textes, le
vocabulaire utilisé, étudié à la fois d'un point de vue terminologique et de sémantique lexicale,
ainsi que quelques éléments de linguistique textuelle telle qu'observée dans un échantillon du
corpus; (3) un certain nombre de critères pragmatiques, incluant les distinctions entre revues
scientifiques et culturelles ainsi que les propriétés de cette bibliothèque numérique comparée
aux corpus normalement utilisés en TAL.
Ceci sera suivi d'une analyse, d'une part, des atouts que ces caractéristiques identifiées
présentent, et d'autre part des contraintes qu'elles imposent au traitement.
Alors que les capacités de stockage et de calcul s’accroissent de façon exponentielle et que les outils de fouille, d’analyse et de visualisation des collections numériques se multiplient, les propriétés du corpus d’Érudit (erudit.org) offrent des perspectives de recherche exceptionnelle en bibliométrie, en linguistique informatique, en Web sémantique, ainsi qu’en histoire et en sociologie des sciences.
L’exploration automatisée d’un corpus numérique enrichi comme celui d’Érudit, regroupant une quantité croissante d’archives et de numéros courants de revues scientifiques et culturelles, mais aussi de thèses, et de documents et données divers, permet en effet d’extraire, de compiler et d’analyser quantité de données autrement dispersées sur de nombreuses plateformes ou dont l’accès était limité au format papier.
Mais qu’en est-il concrètement de ces nouvelles possibilités de recherche? Il s’agira ainsi de se demander, à partir de l’exemple d’Érudit, quelles questions inédites le traitement automatisé d’un corpus numérique permet de poser et comment ce corpus devrait idéalement évoluer (collections, structuration, sémantisation) afin de répondre aux besoins émergents des chercheurs; d’explorer, en somme, les possibilités de recherche présentes et futures que recèle une plateforme comme Érudit.
Titre du colloque :
Thème du colloque :