Colloque

L'extraction de connaissances dans les textes : le meilleur des deux mondes en combinant numérique et linguistique

Ismaïl Biskri

Sylvain Delisle

Membre a labase

Ismaïl Biskri

Résumé du colloque

De nos jours, le flux de données textuelles sous format électronique prend une grande ampleur. Les méthodes d'informatique linguistique qui donnent des résultats très fins et très intéressants sur des textes relativement courts deviennent inefficaces dès qu'il s'agit de gros corpus. Les méthodes numériques quant à elles, peuvent "absorber" des quantités énormes de textes dans des temps raisonnables. Cependant, elles ne garantissent pas un résultat au niveau de finesse désiré. Dès lors, un couplage des méthodes linguistiques avec des méthodes numériques devient particulièrement intéressant. Nous présentons un modèle hybride, à la fois robuste et fin, qui s'inspire des modèles neuronaux et de l'analyse linguistique informatique. Ce modèle est associé à une démarche d'analyse textuelle en deux temps. Dans une première étape, on utilise un outil que nous dirons "bulldozer" pour classifier d'une manière grossière les données textuelles et ainsi permettre à un utilisateur, dans une deuxième étape, de sélectionner les parties du texte sur lesquelles il veut extraire des connaissances d'une manière plus fine et ce au moyen de méthodes linguistiques. Nous montrons aussi comment ce modèle a été réalisé à l'aide d'outils informatiques.