Colloque

Indexer les entités nommées dans une volumineuse bibliothèque numérique scientifique multidisciplinaire

Anubhav Gupta

Denis Maurel

Membre a labase

Anubhav Gupta : Université de Tours

Résumé de la communication

Cette communication porte sur la recherche des entités nommées dans une volumineuse bibliothèque numérique scientifique multidisciplinaire. L'objectif étant de permettre une interrogation avancée de cette bibliothèque en accompagnant le mot clé recherché d'une catégorisation. Par exemple la requête "Washington - nom de personne" évitera de retrouver des textes parlant de la ville ou de l'état, ou comprenant une adresse. De même la requête "2005 - date" ne retournera pas les textes citant dans la bibliographie un article de 2005, mais des articles comprenant une mention de l’année 2005 elle-même. Les entités, catégorisées et quantifiées, sont enregistrées, au format TEI stand-off, dans un fichier externe propre à chaque article.
Nous utilisons un système à base de règles, des cascades de graphes sur la plateforme libre Unitex. Les systèmes par apprentissage nécessiteraient trop de textes annotés, étant donné la grande diversité de la base. Ces graphes décrivent le contexte des entités nommées pour les repérer. Nous avons implanté un nouveau type de graphes, le graphe de généralisation d’étiquetage, qui généralise dans un article (et dans celui-là seulement) les entités déjà repérées au moins une fois par leur contexte. Par exemple, un article comprenait 25 fois la mention HCR (Haut-commissariat aux réfugiés), mais seulement 3 fois avec un contexte permettant de l’identifier. L'utilisation de ces nouveaux graphes a permis la bonne quantification dans le fichier stand-off.

Résumé du colloque

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.