Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Résumé du colloque
Le chunking consiste à segmenter un texte en chunks, segments sous-phrastiques qu'on peut définir de manière approchée comme des syntagmes non récursifs, ou bien comme des groupes accentuels. Traditionnellement, le chunking est monolingue, et utilise des ressources lexicales monolingues, le plus souvent partielles : un lexique de mots grammaticaux et de ponctuations, qui marquent des débuts et fin de chunks (dans les langues occidentales). Cette méthode, dès lors qu'on veut l'étendre à de nombreuses langues, nécessite de multiplier les ressources monolingues. Nous présentons une autre méthode : le chunking endogène, c'est-à-dire qui n'utilise aucune ressource hormis le texte analysé lui-même, de langue inconnue du chunker. Cette méthode s'inspire des travaux de Zipf : la minimisation de l'effort de communication conduit le locuteur à raccourcir les mots fréquents. On peut alors caractériser une frontière entre deux chunks de manière différentielle et locale : la frontière entre deux chunks consiste en deux mots successifs m1 et m2, m1 étant plus long et plus rare que m2, ce qui revient à caractériser localement m1 comme mot lexical et m2 comme mot grammatical. Cette nouvelle méthode originale a l'avantage de s'appliquer à un grand nombre de langues, avec le même algorithme, sans aucune ressource monolingue : ces langues doivent avoir une écriture alphabétique, ainsi qu'une pratique du mot écrit qui sépare par un espace les mots grammaticaux des mots lexicaux.
Vous devez être connecté pour ajouter un élément à vos favoris.
Veuillez vous connecter ou créer un compte pour continuer.
Outils de citation
Citer cet article :
MLA
APA
Chicago
Ajouter un dossier
Vous pouvez ajouter vos contenus préférés à des dossiers organisés. Une fois le dossier créé,
vous pouvez ajouter un article ou un contenu de la liste ou de la vue détaillée au dossier sélectionné dans la liste.