pen icon Communication
quote

Intégration de la sémantique dans la représentation de documents par les arbres de dépendances syntaxiques

EA

Membre a labase

Emilie Au

Résumé de la communication

De nombreuses représentations de documents ne prennent pas compte à la fois de l'information syntaxique et de l'information sémantique contenues dans les documents. Or, le sens du contenu d'un document dépend de la syntaxe et de la sémantique des phrases qui le constituent. Nous proposons donc une représentation de documents dans laquelle les phrases sont modélisées par des arbres de dépendances syntaxiques dont chaque nœud représente un mot auquel est associé un sens déterminé par un algorithme de désambiguïsation du sens des mots et chaque arête une relation de dépendance syntaxique. Notre nouveau modèle de représentation de documents sera évalué à travers la classification automatique de textes. Il sera également évalué à travers la génération automatique de résumés. Notre modèle de génération automatique de résumés repose sur une méthode itérative sur un graphe dont chaque sommet représente une phrase modélisée comme ci-dessus et chaque arête relie deux sommets si la similarité sémantique mesurée entre ces deux derniers est suffisamment élevée. La méthode itérative utilisée est TextRank, une méthode s'inspirant de l'algorithme de classement de pages web de Google, PageRank. De bons résultats ont été obtenus avec la représentation de documents basée sur les arbres de dépendances syntaxiques. Notre but est raffiner le modèle déjà existant en y intégrant l'information sémantique.

Contexte

section icon Date : 13 mai 2011
host icon Hôte : Université de Sherbrooke, Université Bishop’s

Découvrez d'autres communications scientifiques

Autres communications du même congressiste :