Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Membre a labase
Wajdi Zaghouani
Nous présentons le projet QALB (Qatar Arabic Language Bank) qui porte sur la création d’un corpus en langue arabe de 2 millions de mots annotés manuellement avec les erreurs et leurs corrections (orthographe, syntaxe, grammaire, ponctuation et l’usage des dialectes). Le deuxième volet de ce projet porte sur la création d’un système de correction automatique des erreurs pour la langue arabe.
Afin de couvrir une plus grande variété de textes, le corpus couvre trois sources : commentaires sur des articles en ligne par des lecteurs du site Aljazeera.net, des travaux d’étudiants natifs arabophones, des travaux d’apprenants de l’arabe ainsi qu’un ensemble de textes de Wikipédia traduits automatiquement de l’anglais vers l’arabe.
L’annotation manuelle d’un corpus de 2 millions de mots présente plusieurs défis. Tout d'abord, nous avons rédigé un manuel d’annotation d’une centaine de pages afin de guider l’équipe d’annotateurs dans leur tâche et pour les aider à produire une annotation consistante. Ensuite, plusieurs séances de formation ont été nécessaires pour former l’équipe d’annotateurs.
Afin de s’assurer de la qualité de l’annotation durant ce projet, des mesures d’accords inter-annotateurs sont prises régulièrement d’une manière aléatoire. L’accord moyen inter-annotateurs est de l’ordre de 95%, ce qui prouve que les guides d’annotation ont été bien appliqués par les annotateurs durant ce projet.
Thème du communication :
Domaine de la communication :