pen icon Communication
quote

Construction et enrichissement de ressources linguistiques à partir de Wikipédia

FS

Membre a labase

Fatiha Sadat : UQAM - Université du Québec à Montréal

Résumé de la communication

Ce projet de recherche concerne l’exploitation de wikipédia comme étant une ressource semi-structurée de connaissances linguistiques et en particulier comme étant un corpus comparable, pour l'extraction de terminologie bilingue.

L'approche tend à extraire d’abord des paires de terme et traduction à partir de types des informations, liens et textes de Wikipédia. Une deuxième approche basée sur l’information linguistique, afin de ré-ordonner les termes et leurs traductions pertinentes et ainsi éliminer les termes cibles inutiles, est utilisée.

Les évaluations préliminaires utilisant les paires de langues français-anglais, japonais-français et japonais-anglais ont montré une bonne qualité des paires de termes extraits. Cette étude est très favorable pour la construction et l’enrichissement des ressources linguistiques tels que les dictionnaires et ontologies multilingues. Aussi, elle est très utile pour un système de recherche d’information translinguistique (RIT) ainsi que pour améliorer la qualité d'un traducteur automatique statistique.

Contexte

section icon Thème du congrès 2013 (81e édition) :
Savoirs sans frontières
section icon Date : 6 mai 2013

Découvrez d'autres communications scientifiques

Autres communications du même congressiste :