pen icon Communication
quote

Annotation syntaxique d’un corpus pour la langue arabe

WZ

Membre a labase

Wajdi Zaghouani

Résumé de la communication

Nous présentons le corpus Arabic TreeBank, une ressource que nous avons développée au sein de la Linguistic Data Consortium. Il s'agit d'un corpus de 600,000 mots annotés syntaxiquement selon la structure Penn TreeBank. Cette ressource est annotée selon une approche d'annotation manuelle. Nous décrivons, les différentes étapes de ce projet y compris la préparation et le choix des données, l'infrastructure informatique et l'outil d'annotation, les choix méthodologiques qui ont guidés les diverses phases de préparation du corpus y compris les difficultés linguistiques. Enfin, Nous formulons les enjeux d’une telle ressource pour la linguistique et le traitement automatique du langage et nous présentons les premières exploitations.

Contexte

section icon Thème du congrès 2014 (82e édition) :
La recherche : zones de convergence et de créativité
news icon Domaine de la communication :
Langues et langages
section icon Date : 15 mai 2014

Découvrez d'autres communications scientifiques

news icon

Thème du communication :

Langues et langages

Autres communications du même congressiste :

news icon

Domaine de la communication :

Langues et langages