Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Membre a labase
Wajdi Zaghouani
Nous présentons le corpus Arabic TreeBank, une ressource que nous avons développée au sein de la Linguistic Data Consortium. Il s'agit d'un corpus de 600,000 mots annotés syntaxiquement selon la structure Penn TreeBank. Cette ressource est annotée selon une approche d'annotation manuelle. Nous décrivons, les différentes étapes de ce projet y compris la préparation et le choix des données, l'infrastructure informatique et l'outil d'annotation, les choix méthodologiques qui ont guidés les diverses phases de préparation du corpus y compris les difficultés linguistiques. Enfin, Nous formulons les enjeux d’une telle ressource pour la linguistique et le traitement automatique du langage et nous présentons les premières exploitations.
Thème du communication :
Domaine de la communication :