Colloque

Comment mutualiser les données documentaires et les potentialités d'exploration sans concentrer le pouvoir de décision dans les systèmes et architextes?

Jérôme Valluy

Membre a labase

Jérôme Valluy : Université Paris 1 Panthéon-Sorbonne

Résumé de la communication

L'édition numérique de textes scientifiques et pédagogiques est écartelée entre un mouvement de dilution dans l'océan des autoéditions numériques en libre accès et, en sens inverse, un mouvement de concentration politique ou commerciale de la décision éditoriale. Les plateformes francophones s'inscrivent dans la deuxième tendance par emprise étatique française (Hal, Persee, OpenEdition) ou gestion commerciale (Cairn). Par ailleurs, trop étroitement académiques ou commercialement contraintes, elles ne tirent pas parti des gigantesques ressources (écrits, sons, images) de l'océan numérique en libre accès et ne parviennent pas à suivre l'évolution vers les ouvrages numériques dynamiques ("enrichis", "augmentés") faisant appel à ces ressources. Dans ce contexte Erudit pourrait accroître son volume de publications et le potentiel collectif d'exploration et de réutilisation des contenus, en créant un dispositif ouvert intégrant, par duplication, les bases de données de sites sous SPIP ou Wordpress, en libre accès intégral, de collectifs d'auteurs (revues, laboratoires, associations, réseaux, équipes...) demeurant autonomes tant pour leurs contenus que pour les modalités d'affichages sur leurs sites. Si le système est accessible aux collectifs sans contrôle a priori ( mais avec contrôle a posteriori des contenus publiés au regard des lois canadiennes), il offrira une alternative précieuse à toute la francophonie.

Résumé du colloque

Alors que les capacités de stockage et de calcul s’accroissent de façon exponentielle et que les outils de fouille, d’analyse et de visualisation des collections numériques se multiplient, les propriétés du corpus d’Érudit (erudit.org) offrent des perspectives de recherche exceptionnelle en bibliométrie, en linguistique informatique, en Web sémantique, ainsi qu’en histoire et en sociologie des sciences.

L’exploration automatisée d’un corpus numérique enrichi comme celui d’Érudit, regroupant une quantité croissante d’archives et de numéros courants de revues scientifiques et culturelles, mais aussi de thèses, et de documents et données divers, permet en effet d’extraire, de compiler et d’analyser quantité de données autrement dispersées sur de nombreuses plateformes ou dont l’accès était limité au format papier.

Mais qu’en est-il concrètement de ces nouvelles possibilités de recherche? Il s’agira ainsi de se demander, à partir de l’exemple d’Érudit, quelles questions inédites le traitement automatisé d’un corpus numérique permet de poser et comment ce corpus devrait idéalement évoluer (collections, structuration, sémantisation) afin de répondre aux besoins émergents des chercheurs; d’explorer, en somme, les possibilités de recherche présentes et futures que recèle une plateforme comme Érudit.