Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Membre a labase
Fatiha Sadat : UQAM - Université du Québec à Montréal
Ce projet de recherche concerne l’exploitation de wikipédia comme étant une ressource semi-structurée de connaissances linguistiques et en particulier comme étant un corpus comparable, pour l'extraction de terminologie bilingue.
L'approche tend à extraire d’abord des paires de terme et traduction à partir de types des informations, liens et textes de Wikipédia. Une deuxième approche basée sur l’information linguistique, afin de ré-ordonner les termes et leurs traductions pertinentes et ainsi éliminer les termes cibles inutiles, est utilisée.
Les évaluations préliminaires utilisant les paires de langues français-anglais, japonais-français et japonais-anglais ont montré une bonne qualité des paires de termes extraits. Cette étude est très favorable pour la construction et l’enrichissement des ressources linguistiques tels que les dictionnaires et ontologies multilingues. Aussi, elle est très utile pour un système de recherche d’information translinguistique (RIT) ainsi que pour améliorer la qualité d'un traducteur automatique statistique.
Thème du communication :
Domaine de la communication :