Colloque

La visualisation des réseaux sémantiques et l’hypertexte des auteurs et des mots clés comme moyens de recherche d’information et d’indexation des revues

Audilio Gonzalez

Membre a labase

Audilio Gonzalez : Institut de Recherche en Sciences de l'Information et de la Communication (IRSIC EA 4262)

Résumé de la communication

L'hétérogénéité et la complexité de l'information sont un défi aux techniques de recherche d'information traditionnels et aux théories de recherche de l’information. (Zhang, J. 2008). Les publications scientifiques n’échappent pas à ce défi, car les systèmes traditionnels d'extraction d'informations et de recherche d'information se font avant tout par mots-clés (Gil-Leiva & Alonso-Arroyo 2007). Notre travail prend en exemple la revue Hermès (http://documents.irevues.inist.fr/handle/2042/8538) pour constituer un corpus qui fera l’objet d’une analyse visuelle. L’utilisation de la visualisation pour la recherche d'information dans la revue peut apporter une explication du point de vue théorique et pratique de l’hypertextualité de l’indexation des publications.
Les nouvelles méthodes de visualisation permettent la navigation hypertextuelle dans une publication scientifique et donnent un aperçu visuel et interactif de la revue.
Les relations et les liens entre les articles sont rarement illustrés, et l'environnement de récupération manque d'un mécanisme interactif pour la navigation. Avec la méthode d’analyse de réseaux (ARS) on récupère l’espace multidimensionnel de l’information (Bôrner & Polley 2014). Notre article propose de techniques de visualisation interactives qui sont utiles pour l'exploration et l'analyse des textes. Ceci nous permet de visualiser les deux aspects fondamentaux : d’une part, les réseaux sémantiques (résultant de l’ensemble de la revue et les relations avec mots clés) et d’autre part, la spatialité cognitive de l’information.

Résumé du colloque

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.