Communication

Annotation syntaxique d’un corpus pour la langue arabe

Wajdi Zaghouani

Membre a labase

Wajdi Zaghouani

Résumé de la communication

Nous présentons le corpus Arabic TreeBank, une ressource que nous avons développée au sein de la Linguistic Data Consortium. Il s'agit d'un corpus de 600,000 mots annotés syntaxiquement selon la structure Penn TreeBank. Cette ressource est annotée selon une approche d'annotation manuelle. Nous décrivons, les différentes étapes de ce projet y compris la préparation et le choix des données, l'infrastructure informatique et l'outil d'annotation, les choix méthodologiques qui ont guidés les diverses phases de préparation du corpus y compris les difficultés linguistiques. Enfin, Nous formulons les enjeux d’une telle ressource pour la linguistique et le traitement automatique du langage et nous présentons les premières exploitations.