Colloque

GRAD : une mesure pour évaluer l’informativité de résumés

Liana Ermakova

Frédérique Bordignon

Marianne Noel

Nicolas Turenne

Membre a labase

Liana Ermakova : Université de Lorraine

Résumé de la communication

Cette recherche s’intéresse à l’article scientifique et plus précisément à son résumé ou abstract. Réalisée dans le cadre des chantiers d’usage de l’initiative d’excellence ISTEX, elle vise à comparer la quantité d’informations livrées par l’abstract avec celle du texte intégral (fulltext) de l’article qu’il résume. La communication se propose de détailler l’état de l’art et les limites des mesures existantes. La plupart de ces méthodes (e.g. ROUGE) nécessitent une intervention humaine importante car elles comparent le résumé considéré avec un ensemble des résumés de référence (gold standard). De plus, les métriques basées sur le chevauchement de vocabulaires ne sont pas appropriées pour la comparaison avec le texte intégral. La métrique proposée intitulée GRAD vise a dépasser les défauts des mesures existantes et s’appuie sur la représentation graphique du texte. Nous basant sur l’hypothèse qu’un résumé informatif doit être composé de sommets qui sont connectés avec un maximum d’autres sommets, nous proposons de calculer ce que nous appelons le taux d’informativité (ou le taux de générosité) de l’abstract par rapport au texte intégral. En outre, nous introduisons un cadre entièrement automatique pour évaluer les métriques qui n’exige aucune annotation humaine. Les expérimentations conduites sur une collection d’articles scientifiques disponibles sur la plate-forme ISTEX prouvent que la métrique proposée est meilleure de façon significative comparativement aux mesures existantes.

Résumé du colloque

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.