Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Filtrer les résultats
Nous présentons l'utilisation d'une approche de fouille de textes dans le cadre d'un projet regroupant des chercheurs en sciences de l'information et en linguistique. L'objectif du projet est la description du domaine de l'environnement à partir d'un important corpus web de 23 514 documents moissonnés à partir de 1 969 sites web totalisant 47 364 125 occurrences. L'étape dont nous rendons compte dans cette communication est une première étape de fouille de textes visant à extraire la structure thématique d'un échantillon du corpus en appliquant de façon itérative un algorithme de classification non supervisée pour identifier une structure hiérarchique de …