Colloque

L'analyse multidimensionnelle de l'information : du texte au multimédia

Ismaïl Biskri

Jean Guy Meunier

Membre a labase

Ismaïl Biskri

Résumé du colloque

Depuis peu de temps le multilinguisme devient une contrainte dont il faut tenir compte dans le développement de chaînes de traitement dédiées à l'analyse et au traitement de l'information textuelle. Si les classifications numériques ont prouvé leur efficacité dans le traitement de gros corpus, aucune réflexion sérieuse n'a été entamée quant à leur capacité à traiter des corpus peu importe leur langue. La principale limite rencontrée étant relative au choix du mot comme paramètre privilégié de l'opération de "tokenisation". Ce choix induit deux contraintes majeures : (i) la définition computationnelle du mot. Celle-ci s'avère très difficile à mettre en oeuvre pour certaines langues comme l'allemand ou l'arabe ; (ii) l'utilisation de la lemmatisation comme moyen de normalisation et de réduction du lexique. Cet aspect suppose l'utilisation d'un lemmatiseur pour chaque langue considérée. Il en résulte une lourdeur certaine du système. La notion de n-grams est devenue un axe privilégié dans l'acquisition et l'extraction des connaissances dans les textes. Nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluerons nos résultats obtenus avec cet outil. Nous présenterons des perspectives quant aux traitements multimédias envisageables avec le même type d'approche.