Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Résumé du colloque
Nous allons présenter RENAR, un outil de repérage d'entités nommées à base de règles qui a été créé spécifiquement pour la langue arabe. Cet outil est totalement intégré dans le système de veille médiatique, Europe Media Monitor qui est une plateforme multilingue d’information et d’alerte médiatique en temps réel permettant d’avoir un aperçu quotidien des nouvelles à travers le monde. Le processus de repérage des entités nommées avec RENAR commence par une étape de prétraitement lexical qui permet de préparer le texte brut à l'analyse linguistique en segmentant tout d'abord le texte en phrases, puis en normalisant son orthographe. Par la suite, l’opération d’extraction des entités nommées se fait sur deux étapes : la première étape est basée sur la consultation directe du lexique qui se compose de plusieurs dictionnaires. Lors de cette étape, le système commence par la comparaison de chaque entrée dans le texte brut avec chacune des entrées des différents dictionnaires que nous avons construits. Une fois une entité nommée reconnue grâce à un dictionnaire, elle sera automatiquement retenue sans passer par la deuxième étape, qui est réservée exclusivement à la détection des entités nommées ne figurant pas dans le lexique. La deuxième étape repose sur des fichiers de règles écrites à la main sous forme d’expressions régulières qui permettent de détecter les entités nommées grâce aux dictionnaires et à la liste des marqueurs lexicaux.
Vous devez être connecté pour ajouter un élément à vos favoris.
Veuillez vous connecter ou créer un compte pour continuer.
Outils de citation
Citer cet article :
MLA
APA
Chicago
Ajouter un dossier
Vous pouvez ajouter vos contenus préférés à des dossiers organisés. Une fois le dossier créé,
vous pouvez ajouter un article ou un contenu de la liste ou de la vue détaillée au dossier sélectionné dans la liste.