Colloque

Apprentissage non supervisé pour l’extraction de relations d’hyperonymie à partir de textes scientifiques

Elena Manishina

Mouna Kamel

Cassia Trojahn

Nathalie Aussenac-Gilles

Membre a labase

Elena Manishina : Université de Lorraine / Université Toulouse 3

Résumé de la communication

Les articles scientifiques, spécifiques d’un domaine, sont riches en connaissances dudit domaine. Ces connaissances non structurées nécessitent le développement des techniques d’extraction de connaissances efficaces, qui consistent à identifier les concepts et les relations qui les relient. Les modèles d’extraction basés sur des approches d’apprentissage supervisé nécessitent l'annotation du corpus, ce qui est coûteux en temps et en ressources humaines. Des travaux récents montrent que les méthodes d’apprentissage non supervisé donnent des résultats équivalents lorsqu’elles sont appliquées à des corpus volumineux. Appliquer de telles approches à des corpus de taille modeste est un nouveau défi.

L’approche que nous proposons tente de relever ce défi, en détectant automatiquement les concepts du domaine et en mettant en œuvre un algorithme de classification basé sur les réseaux de neurones, afin d’identifier les relations entre concepts. Notre objectif est de construire un système indépendant du domaine, pour lequel le paradigme de sélection de traits permettrait d’ajuster les paramètres du système en fonction du domaine et de la relation ciblée. L’évaluation menée à ce jour sur les articles
issus de la revue Nature du corpus ISTEX montre que notre modèle donne de meilleurs résultats que l’algorithme K-Means, dans les mêmes conditions d’évaluation, ce qui apparaît comme une alternative aux approches supervisées.

Résumé du colloque

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.