Résultats de recherche

filters logos

Filtrer les résultats

arrow down
Années
exclamation icon
Type de contenu
Exporter les résultats Sauvegarder les résultats
5 résultats de recherche
pen icon Communication
Annotation des erreurs dans un corpus en langue arabe
quote

Nous présentons le projet QALB (Qatar Arabic Language Bank) qui porte sur la création d’un corpus en langue arabe de 2 millions de mots annotés manuellement avec les erreurs et leurs corrections (orthographe, syntaxe, grammaire, ponctuation et l’usage des dialectes). Le deuxième volet de ce projet porte sur la création d’un système de correction automatique des erreurs pour la langue arabe.Afin de couvrir une plus grande variété de textes, le corpus couvre trois sources : commentaires sur des articles en ligne par des lecteurs du site Aljazeera.net, des travaux d’étudiants natifs arabophones, des travaux d’apprenants de l’arabe ainsi qu’un ensemble …

quote
pen icon Communication
Annotation syntaxique d’un corpus pour la langue arabe
quote

Nous présentons le corpus Arabic TreeBank, une ressource que nous avons développée au sein de la Linguistic Data Consortium. Il s'agit d'un corpus de 600,000 mots annotés syntaxiquement selon la structure Penn TreeBank. Cette ressource est annotée selon une approche d'annotation manuelle. Nous décrivons, les différentes étapes de ce projet y compris la préparation et le choix des données, l'infrastructure informatique et l'outil d'annotation, les choix méthodologiques qui ont guidés les diverses phases de préparation du corpus y compris les difficultés linguistiques. Enfin, Nous formulons les enjeux d’une telle ressource pour la linguistique et le traitement automatique du langage et …

quote
pen icon Communication
La construction d'une ressource lexicale pour la langue arabe
quote

Levin (1993) donne une description d'environ 3200 verbes de l'anglais. Elle analyse les comportements syntaxiques (alternances) des verbes ainsi que leurs sens en fonction des types d’alternances qu’ils peuvent accepter. Une alternance décrit un changement dans la structure syntaxique du verbe et de ses arguments (passif, transitivité, effacement d'argument, inversion du sujet/verbe, verbe support, etc.). Cette description a permis l'apparition de la notion du schéma prédicatif, inspirée entre autres des travaux de Fillmore (1968), Jackendoff (1972) puis de Saeed (2003) et qui permet d'attribuer un rôle sémantique aux différents arguments des prédicats verbaux dans un corpus donné.C'est dans ce cadre …

quote
pen icon Colloque
RENAR : un système de repérage automatique des entités nommées pour la langue arabe
quote

Nous allons présenter RENAR, un outil de repérage d'entités nommées à base de règles qui a été créé spécifiquement pour la langue arabe. Cet outil est totalement intégré dans le système de veille médiatique, Europe Media Monitor qui est une plateforme multilingue d’information et d’alerte médiatique en temps réel permettant d’avoir un aperçu quotidien des nouvelles à travers le monde. Le processus de repérage des entités nommées avec RENAR commence par une étape de prétraitement lexical qui permet de préparer le texte brut à l'analyse linguistique en segmentant tout d'abord le texte en phrases, puis en normalisant son orthographe. Par …

quote
pen icon Communication
Le développement d'un corpus annoté sémantiquement pour la langue arabe
quote

La notion du schéma prédicatif, qui permet d'attribuer un rôle sémantique aux différents arguments des prédicats verbaux dans la phrase, a contribué à l'apparition de plusieurs corpus annotés sémantiquement comme le VerbNet et le PropBank. Dans ce travail, je présente la méthodologie que je compte suivre afin d'appliquer les principes de la notion du schéma prédicatif dans la cadre de la langue arabe avec l'étude et la classification des verbes arabes dans le but de développer un corpus informatisé de type Propbank. Selon la méthode de développement de corpus de type Propbank, un numéro est donné aux arguments pour distinguer …

quote