Colloque

Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit : état des connaissances et points de réflexion

Philippe Langlais

Membre a labase

Philippe Langlais : Université de Montréal

Résumé de la communication

L'extraction automatique de connaissances à partir de données textuelles en partie structurées trouve un nombre croissant d'applications comme l'aide interactive au furetage de grande collections de documents, le recensement d'informations implicites dans les textes ou encore la réponse à des questions complexes. Dans cette présentation je compte décrire des chaînes de traitement développées par la communauté du traitement des langues et proposer des scénarios possibles de leur intégration dans une plateforme de furetage interactive dédiée à Érudit. La première étape de cette réalisation consiste à construire une base de connaissances sous la forme d'une (large) collection de triplets <sujet,relation,prédicat> à la façon des triplets RDF qui constituent le socle du Web sémantique. J'illustrerai les sorties des extracteurs de triplets actuels sur quelques documents d'Érudit. La seconde étape consiste à structurer ces triplets. Je dresserai une cartographie des principaux niveaux de structuration que l'on peut obtenir automatiquement. La troisième et dernière étape consiste à mettre à l'usage une telle base de connaissances. Je décrirai à cet effet 2 applications qui selon moi auraient un intérêt dans une plateforme dédiée à Érudit: le furetage interactif d'une large collection de documents et la réponse automatique à des questions complexes.

Résumé du colloque

Alors que les capacités de stockage et de calcul s’accroissent de façon exponentielle et que les outils de fouille, d’analyse et de visualisation des collections numériques se multiplient, les propriétés du corpus d’Érudit (erudit.org) offrent des perspectives de recherche exceptionnelle en bibliométrie, en linguistique informatique, en Web sémantique, ainsi qu’en histoire et en sociologie des sciences.

L’exploration automatisée d’un corpus numérique enrichi comme celui d’Érudit, regroupant une quantité croissante d’archives et de numéros courants de revues scientifiques et culturelles, mais aussi de thèses, et de documents et données divers, permet en effet d’extraire, de compiler et d’analyser quantité de données autrement dispersées sur de nombreuses plateformes ou dont l’accès était limité au format papier.

Mais qu’en est-il concrètement de ces nouvelles possibilités de recherche? Il s’agira ainsi de se demander, à partir de l’exemple d’Érudit, quelles questions inédites le traitement automatisé d’un corpus numérique permet de poser et comment ce corpus devrait idéalement évoluer (collections, structuration, sémantisation) afin de répondre aux besoins émergents des chercheurs; d’explorer, en somme, les possibilités de recherche présentes et futures que recèle une plateforme comme Érudit.