Colloque

Une méthode de chunking multilingue endogène

Jacques Vergne

Membre a labase

Jacques Vergne

Résumé du colloque

Le chunking consiste à segmenter un texte en chunks, segments sous-phrastiques qu'on peut définir de manière approchée comme des syntagmes non récursifs, ou bien comme des groupes accentuels. Traditionnellement, le chunking est monolingue, et utilise des ressources lexicales monolingues, le plus souvent partielles : un lexique de mots grammaticaux et de ponctuations, qui marquent des débuts et fin de chunks (dans les langues occidentales). Cette méthode, dès lors qu'on veut l'étendre à de nombreuses langues, nécessite de multiplier les ressources monolingues. Nous présentons une autre méthode : le chunking endogène, c'est-à-dire qui n'utilise aucune ressource hormis le texte analysé lui-même, de langue inconnue du chunker. Cette méthode s'inspire des travaux de Zipf : la minimisation de l'effort de communication conduit le locuteur à raccourcir les mots fréquents. On peut alors caractériser une frontière entre deux chunks de manière différentielle et locale : la frontière entre deux chunks consiste en deux mots successifs m1 et m2, m1 étant plus long et plus rare que m2, ce qui revient à caractériser localement m1 comme mot lexical et m2 comme mot grammatical. Cette nouvelle méthode originale a l'avantage de s'appliquer à un grand nombre de langues, avec le même algorithme, sans aucune ressource monolingue : ces langues doivent avoir une écriture alphabétique, ainsi qu'une pratique du mot écrit qui sépare par un espace les mots grammaticaux des mots lexicaux.