pen icon Communication
quote

Annotation des erreurs dans un corpus en langue arabe

WZ

Membre a labase

Wajdi Zaghouani

Résumé de la communication

Nous présentons le projet QALB (Qatar Arabic Language Bank) qui porte sur la création d’un corpus en langue arabe de 2 millions de mots annotés manuellement avec les erreurs et leurs corrections (orthographe, syntaxe, grammaire, ponctuation et l’usage des dialectes). Le deuxième volet de ce projet porte sur la création d’un système de correction automatique des erreurs pour la langue arabe.

Afin de couvrir une plus grande variété de textes, le corpus couvre trois sources : commentaires sur des articles en ligne par des lecteurs du site Aljazeera.net, des travaux d’étudiants natifs arabophones, des travaux d’apprenants de l’arabe ainsi qu’un ensemble de textes de Wikipédia traduits automatiquement de l’anglais vers l’arabe.
L’annotation manuelle d’un corpus de 2 millions de mots présente plusieurs défis. Tout d'abord, nous avons rédigé un manuel d’annotation d’une centaine de pages afin de guider l’équipe d’annotateurs dans leur tâche et pour les aider à produire une annotation consistante. Ensuite, plusieurs séances de formation ont été nécessaires pour former l’équipe d’annotateurs.

Afin de s’assurer de la qualité de l’annotation durant ce projet, des mesures d’accords inter-annotateurs sont prises régulièrement d’une manière aléatoire. L’accord moyen inter-annotateurs est de l’ordre de 95%, ce qui prouve que les guides d’annotation ont été bien appliqués par les annotateurs durant ce projet.

Contexte

section icon Thème du congrès 2015 (83e édition) :
Sortir des sentiers battus
news icon Domaine de la communication :
Langues et langages
section icon Date : 27 mai 2015

Découvrez d'autres communications scientifiques

news icon

Thème du communication :

Langues et langages

Autres communications du même congressiste :

news icon

Domaine de la communication :

Langues et langages