pen icon Communication
quote

Le développement d'un corpus annoté sémantiquement pour la langue arabe

WZ

Membre a labase

Wajdi Zaghouani

Résumé de la communication

La notion du schéma prédicatif, qui permet d'attribuer un rôle sémantique aux différents arguments des prédicats verbaux dans la phrase, a contribué à l'apparition de plusieurs corpus annotés sémantiquement comme le VerbNet et le PropBank. Dans ce travail, je présente la méthodologie que je compte suivre afin d'appliquer les principes de la notion du schéma prédicatif dans la cadre de la langue arabe avec l'étude et la classification des verbes arabes dans le but de développer un corpus informatisé de type Propbank. Selon la méthode de développement de corpus de type Propbank, un numéro est donné aux arguments pour distinguer leur fonction dans la phrase. L’agent est consigné comme l’argument Arg0, le thème ou patient est l’argument Arg1 et ainsi de suite comme l'illustre l'exemple suivant : Paul mange une pomme [Prédicat Manger], [Arg0 Paul], [Arg1 une pomme]. En plus des arguments numérotés spécifiés pour chaque verbe, les constituants restants qui apparaissent dans la phrase sont annotés comme arguments modificateurs. Ils représentent sémantiquement des concepts primitifs tels que la cause, le lieu, le temps ou la manière. Le fait d’avoir des corpus annotés sémantiquement contribuera certainement à l'avancement des connaissances sur les acceptions du verbe dans la langue arabe et à l’amélioration des outils linguistiques tels que les systèmes d'extraction de l'information et surtout les systèmes de traduction automatique.

Contexte

section icon Date : 12 mai 2011
host icon Hôte : Université de Sherbrooke, Université Bishop’s

Découvrez d'autres communications scientifiques

Autres communications du même congressiste :