Colloque

Huma-Num : une infrastructure de recherche au service des données de la recherche et des savoirs en sciences humaines et sociales

Stéphane Pouyllau

Membre a labase

Stéphane Pouyllau : Centre national de la recherche scientifique

Résumé de la communication

Huma-Num est une très grande infrastructure de recherche visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales (SHS). Elle est bâtie sur une organisation originale consistant à mettre en oeuvre un dispositif humain (concertation collective) et technologique (services numériques pérennes) à l'échelle nationale et européenne en s'appuyant sur un important réseau de partenaires et d'opérateurs des humanités numériques. Elle favorise la coordination de la production raisonnée et collective de corpus de données ouvertes et interopérables. Elle développe pour cela un dispositif technologique unique permettant le traitement, la conservation, l'accès et l'interopérabilité des données de la recherche des SHS. Ce dispositif est composé d'unegrillede services dédiés pour les données de la recherche, d'une plateforme d'accès unifié (ISIDORE) et d'une procédure d'archivage à long terme. Elle propose en outre desguides debonnes pratiquestechnologiques généralistes à destination des chercheurs. Huma-Num coordonne la participation française àDARIAH(Digital Research Infrastructure for the Arts and Humanities), dont l'objectif est de développer l'échange de données, d'expertises et de services au niveau européen. Huma-Num est portée par le CNRS, l'Université Aix Marseille et le Campus Condorcet. La communication présentera la stratégie et la position d'Huma-num dans le cycle de vie des données numériques en SHS.

Résumé du colloque

Alors que les capacités de stockage et de calcul s’accroissent de façon exponentielle et que les outils de fouille, d’analyse et de visualisation des collections numériques se multiplient, les propriétés du corpus d’Érudit (erudit.org) offrent des perspectives de recherche exceptionnelle en bibliométrie, en linguistique informatique, en Web sémantique, ainsi qu’en histoire et en sociologie des sciences.

L’exploration automatisée d’un corpus numérique enrichi comme celui d’Érudit, regroupant une quantité croissante d’archives et de numéros courants de revues scientifiques et culturelles, mais aussi de thèses, et de documents et données divers, permet en effet d’extraire, de compiler et d’analyser quantité de données autrement dispersées sur de nombreuses plateformes ou dont l’accès était limité au format papier.

Mais qu’en est-il concrètement de ces nouvelles possibilités de recherche? Il s’agira ainsi de se demander, à partir de l’exemple d’Érudit, quelles questions inédites le traitement automatisé d’un corpus numérique permet de poser et comment ce corpus devrait idéalement évoluer (collections, structuration, sémantisation) afin de répondre aux besoins émergents des chercheurs; d’explorer, en somme, les possibilités de recherche présentes et futures que recèle une plateforme comme Érudit.