Colloque

Open Science et présence numérique en sciences humaines et sociales

Camille Prime-Claverie

Annaïg Mahé

Membre a labase

Camille Prime-Claverie : Université Paris Nanterre

Résumé de la communication

Dans la mouvance de la science ouverte qui vise un meilleur accès aux publications, aux résultats et aux données de la recherche, leur partage et leur réutilisation, différents dispositifs communicationnels à destination de la communauté scientifique ont vu le jour : archives ouvertes, réseaux sociaux de chercheurs, plateformes de blogging scientifique, etc. Qu’ils soient portés par des initiatives privées (ResearchGate, Academia.edu, etc.) ou publiques (HAL, OpenEdition), les chercheurs se les approprient avec des stratégies et motivations différentes.

Cette communication s’inscrit dans un programme de recherche qui vise l’étude des pratiques communicationnelles et de mise en visibilité des chercheurs en sciences humaines et sociales dans le nouvel écosystème scientifique numérique. Elle présente un travail en cours qui a pour objectif d’étudier du point de vue des acteurs les interactions entre la plateforme Hypothèses.org et l’archive ouverte HAL-SHS. Il s’agira d’évaluer le degré d’investissement et d’implication des chercheurs sur ces plateformes afin d’en dégager des comportements types.

Pour cette étude, nous adoptons une démarche quantitative et travaillons sur deux corpus extraits par le protocole OAI-PMH : le premier, constitué des billets de blogs de la plateforme Hypothèses.org postés en 2015. Le second regroupant l’ensemble des notices déposées dans HAL-SHS (2002-2015).

Résumé du colloque

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.