Colloque

Bibliothèque du Réseau francophone numérique : étude sémiotique de ses données ouvertes liées

Lyne Da Sylva

Marielle Saint-Germain

Membre a labase

Lyne Da Sylva : Université de Montréal

Résumé de la communication

Le Réseau francophone numérique (RFN, rfnum.org), fondé en 2006 par un groupe de six pays de la Francophonie, a pour mission de favoriser la numérisation de documents patrimoniaux francophones et de faciliter leur consultation en ligne. Le réseau compte dix-sept pays à ce jour. Un des projets du réseau a été la création d’une bibliothèque numérique (BN), soit un ensemble de documents numérisés dont les métadonnées ont été encodées en données ouvertes liées (Linked Open Data). Les métadonnées des 522 documents, hébergés dans les sites des membres respectifs, sont disponibles par requête SPARQL ou accès OAI-PMH (Open Archives Initiative-Protocol for Metadata Harvesting).

Dans le but d’étudier le processus de communication à l’œuvre dans la création des BN, notre étude s’intéresse aux choix méthodologiques manifestes dans la formulation des données ouvertes liées de la BN. Spécifiquement, nous étudions les propriétés sémiotiques (soit sémantiques et informationnelles) de ces données liées.

Nous présenterons les caractéristiques saillantes des documents de la BN (qui inclut journaux, livres, revues, cartes et plans, images et matériel audiovisuel) par le biais de leurs métadonnées. Puis, puisant à la théorie de la sémiotique, nous analyserons les signes sélectionnés par chaque groupe national, mettant en relief la représentation de la communauté visée et donc les enjeux de la diffusion de ces documents. Ce court exercice esquissera une approche méthodologique sémiotique novatrice.

Résumé du colloque

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.