Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Résumé du colloque
Depuis peu de temps le multilinguisme devient une contrainte dont il faut tenir compte dans le développement de chaînes de traitement dédiées à l'analyse et au traitement de l'information textuelle. Si les classifications numériques ont prouvé leur efficacité dans le traitement de gros corpus, aucune réflexion sérieuse n'a été entamée quant à leur capacité à traiter des corpus peu importe leur langue. La principale limite rencontrée étant relative au choix du mot comme paramètre privilégié de l'opération de "tokenisation". Ce choix induit deux contraintes majeures : (i) la définition computationnelle du mot. Celle-ci s'avère très difficile à mettre en oeuvre pour certaines langues comme l'allemand ou l'arabe ; (ii) l'utilisation de la lemmatisation comme moyen de normalisation et de réduction du lexique. Cet aspect suppose l'utilisation d'un lemmatiseur pour chaque langue considérée. Il en résulte une lourdeur certaine du système. La notion de n-grams est devenue un axe privilégié dans l'acquisition et l'extraction des connaissances dans les textes. Nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluerons nos résultats obtenus avec cet outil. Nous présenterons des perspectives quant aux traitements multimédias envisageables avec le même type d'approche.
Vous devez être connecté pour ajouter un élément à vos favoris.
Veuillez vous connecter ou créer un compte pour continuer.
Outils de citation
Citer cet article :
MLA
APA
Chicago
Ajouter un dossier
Vous pouvez ajouter vos contenus préférés à des dossiers organisés. Une fois le dossier créé,
vous pouvez ajouter un article ou un contenu de la liste ou de la vue détaillée au dossier sélectionné dans la liste.