pen icon Colloque
quote

RENAR : un système de repérage automatique des entités nommées pour la langue arabe

WZ

Membre a labase

Wajdi Zaghouani

Résumé du colloque

Nous allons présenter RENAR, un outil de repérage d'entités nommées à base de règles qui a été créé spécifiquement pour la langue arabe. Cet outil est totalement intégré dans le système de veille médiatique, Europe Media Monitor qui est une plateforme multilingue d’information et d’alerte médiatique en temps réel permettant d’avoir un aperçu quotidien des nouvelles à travers le monde. Le processus de repérage des entités nommées avec RENAR commence par une étape de prétraitement lexical qui permet de préparer le texte brut à l'analyse linguistique en segmentant tout d'abord le texte en phrases, puis en normalisant son orthographe. Par la suite, l’opération d’extraction des entités nommées se fait sur deux étapes : la première étape est basée sur la consultation directe du lexique qui se compose de plusieurs dictionnaires. Lors de cette étape, le système commence par la comparaison de chaque entrée dans le texte brut avec chacune des entrées des différents dictionnaires que nous avons construits. Une fois une entité nommée reconnue grâce à un dictionnaire, elle sera automatiquement retenue sans passer par la deuxième étape, qui est réservée exclusivement à la détection des entités nommées ne figurant pas dans le lexique. La deuxième étape repose sur des fichiers de règles écrites à la main sous forme d’expressions régulières qui permettent de détecter les entités nommées grâce aux dictionnaires et à la liste des marqueurs lexicaux.

Contexte

host icon Hôte : Université de Sherbrooke, Université Bishop’s

Découvrez d'autres communications scientifiques

Autres communications du même congressiste :