Colloque

Les projets de données liées chez Canadiana.org

Daniel Velarde

Julienne PASCOE

Membre a labase

Daniel Velarde : Canadiana

Résumé de la communication

En tant qu'organisation dirigée par ses membres, dont le but est de fournir un large accès au patrimoine documentaire canadien, Canadiana.org s'est donné pour mission de relier les ressources patrimoniales culturelles du Canada au monde en faisant appel aux principes des données liées. Cette communication vise à analyser les défis et les possibilités qu'offrent les données liées pour la description et l'exploration des ressources patrimoniales du Canada. Elle comprendra un résumé des principes du Web sémantique tels qu'ils s'appliquent au patrimoine culturel, à la vision et à la stratégie de Canadiana concernant les données liées, et aux approches expérimentales sur le développement et l'enrichissement des métadonnées en utilisant le modèle et les technologies des données liées.

Les données liées sont un ensemble de meilleurs pratiques et de spécifications techniques pour la publication et la liaison de données structurées sur le Web. Il s'agit de l'une des plus récentes initiatives se rapportant aux données à être développées par Canadiana.org. Les principes du Web sémantique permettent aux institutions de la mémoire de relier des collections hétérogènes dans les divers domaines des bibliothèques, archives et musées, en exploitant les capacités de distribution sur le Web pour faciliter la description et l'accès au patrimoine documentaire à travers des silos institutionnels.

Résumé du colloque

Alors que les capacités de stockage et de calcul s’accroissent de façon exponentielle et que les outils de fouille, d’analyse et de visualisation des collections numériques se multiplient, les propriétés du corpus d’Érudit (erudit.org) offrent des perspectives de recherche exceptionnelle en bibliométrie, en linguistique informatique, en Web sémantique, ainsi qu’en histoire et en sociologie des sciences.

L’exploration automatisée d’un corpus numérique enrichi comme celui d’Érudit, regroupant une quantité croissante d’archives et de numéros courants de revues scientifiques et culturelles, mais aussi de thèses, et de documents et données divers, permet en effet d’extraire, de compiler et d’analyser quantité de données autrement dispersées sur de nombreuses plateformes ou dont l’accès était limité au format papier.

Mais qu’en est-il concrètement de ces nouvelles possibilités de recherche? Il s’agira ainsi de se demander, à partir de l’exemple d’Érudit, quelles questions inédites le traitement automatisé d’un corpus numérique permet de poser et comment ce corpus devrait idéalement évoluer (collections, structuration, sémantisation) afin de répondre aux besoins émergents des chercheurs; d’explorer, en somme, les possibilités de recherche présentes et futures que recèle une plateforme comme Érudit.