Colloque

Constitution et exploitation du corpus NLP4NLP pour l’analyse bibliométrique de 50 ans de recherche en traitement automatique de la parole et du langage naturel

Joseph Mariani

Gil Francopoulo

Patrick Paroubek

Membre a labase

Joseph Mariani : Centre national de la recherche scientifique

Résumé de la communication

Nous avons constitué le corpus NLP4NLP pour étudier le contenu des publications scientifiques dans le domaine du traitement automatique de la parole et du langage naturel. Il contient les articles publiés dans 34 conférences et revues principales du domaine, sur une période de 50 ans (1965-2015), comprenant 65.000 documents, rassemblant 50.000 auteurs et représentant environ 270 millions de mots. La plupart de ces publications sont en langue anglaise, certaines en français, en allemand ou en russe. Certaines sont en accès libres, d’autres ont été fournies par leurs maisons d’édition. Pour constituer et analyser ce corpus, plusieurs outils ont été utilisés ou développés. Certains d’entre eux utilisent des méthodes de traitement du langage naturel qui ont été publiées dans le corpus, d’où son nom. Il a été nécessaire d’effectuer de nombreuses corrections manuelles qui ont montré l’importance d’établir des normes permettant d’identifier de manière unique les auteurs, les publications, les données ou les sources. Nous avons conduit différentes études : évolution au fil du temps du nombre d’articles et d’auteurs, collaborations entre auteurs, citations entre papiers et entre auteurs, évolution des thèmes de recherche et identification des auteurs qui les ont introduits, détection des innovations et des ruptures épistémologiques, réutilisation des articles et plagiat, utilisation des ressources linguistiques, dans le cadre d’une analyse globale ou comparative entre sources.

Résumé du colloque

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.