Colloque

Les nouveaux paradigmes scientifiques : alternance de citations et d’oublis, étude automatique sur une volumineuse bibliothèque numérique et exemple de l’astrophysique

Jean-Charles Lamirel

Membre a labase

Jean-Charles Lamirel : LORIA

Résumé de la communication

Le but de ce travail est de mettre en évidence, dans une volumineuse bibliothèque numérique, l'émergence parfois longue et contestée ou même un temps ignorée de nouveaux paradigmes scientifiques.

L’originalité de ce travail est d’exploiter le texte plein des publications en mettant en jeu de manière coordonnée des méthodes d’extraction d’entités nommées et des méthodes d’apprentissage non supervisé spécifiques au texte, capables de fonctionner à grande échelle. La combinaison de ces méthodes représente une nouvelle approche dans le domaine.

L’expérimentation que nous menons repose sur un corpus anglophone de 235479 articles sélectionnés à partir d’une requête générale sur les thèmes de l’astronomie et de l'astrophysique, couvrant une large période (190 années entre 1825 et 2014). Nous utilisons des mesures de centralité, dont certaines originales, et des techniques de détection d’entités nommées pour identifier les références à des chercheurs dans les textes (références bibliographiques, bien sûr, mais aussi nominales), puis des méthodes de sélection de variables, basées sur la métrique de maximisation d’étiquetage,pour identifier l’influence de ces chercheurs et de leur recherche à travers le temps. Nous illustrerons notre approche en prenant plus spécifiquement comme exemples la théorie des cordes et celle du big bang. Nous analysons ensuite la pertinence des résultats obtenus à partir de vérité terrain.

Résumé du colloque

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.