Communication

Construction et enrichissement de ressources linguistiques à partir de Wikipédia

Fatiha Sadat

Membre a labase

Fatiha Sadat : UQAM - Université du Québec à Montréal

Résumé de la communication

Ce projet de recherche concerne l’exploitation de wikipédia comme étant une ressource semi-structurée de connaissances linguistiques et en particulier comme étant un corpus comparable, pour l'extraction de terminologie bilingue.

L'approche tend à extraire d’abord des paires de terme et traduction à partir de types des informations, liens et textes de Wikipédia. Une deuxième approche basée sur l’information linguistique, afin de ré-ordonner les termes et leurs traductions pertinentes et ainsi éliminer les termes cibles inutiles, est utilisée.

Les évaluations préliminaires utilisant les paires de langues français-anglais, japonais-français et japonais-anglais ont montré une bonne qualité des paires de termes extraits. Cette étude est très favorable pour la construction et l’enrichissement des ressources linguistiques tels que les dictionnaires et ontologies multilingues. Aussi, elle est très utile pour un système de recherche d’information translinguistique (RIT) ainsi que pour améliorer la qualité d'un traducteur automatique statistique.

Contexte

Thème du congrès 2013 (81e édition) :

Savoirs sans frontières

Section :

Section 200 - Sciences naturelles, mathématiques et génie

Domaine de la communication :

Technologie de l'information et des communications

Date : 6 mai 2013

Découvrez d'autres communications scientifiques

Dans le même domaine
Du même congressiste

Thème du communication :

Technologie de l'information et des communications

La téléphonie mobile : les facteurs d’influence de l’utilisation d’un téléphone cellulaire au Camer…

Gérard Fillion

L’usine du savoir : un modèle de référence pour une infrastructure de la gestion des connaissances …

Daniel Fitzpatrick

Étude et implantation des systèmes de communication dans les systèmes sur puce (SoCs et SoPCs)

Salah Toumi

Voir tous les contenus de ce communication

Autres communications du même congressiste :

Domaine de la communication :

Technologie de l'information et des communications

Construction automatique de lexiques bilingues d’entités nommées à partir du corpus parallèle (angl…

Fatima Deffaf

Construction et enrichissement de ressources linguistiques à partir de Wikipédia

Fatiha Sadat