Colloque

La comparaison statistique des classifications

François-Joseph Lapointe

Pierre Legendre

Pierre Couillard

Membre a labase

François-Joseph Lapointe

Résumé du colloque

Plusieurs mesures de consensus entre classifications ont été développées récemment afin de comparer diverses solutions engendrées par des algorithmes de groupement différents ou basées sur des jeux de données indépendants. Le besoin d'une méthode statistique pour comparer ces mesures s'est fait à démontrer. Certains auteurs (Hubert & Baker 1977, Shao & Rohlf 1986) ont proposé des tests par permutation ou des simulations afin d'évaluer la signification de certains résultats. Aucune méthode ne peut néanmoins s'appliquer spécifiquement aux phénogrammes utilisés en taxonomie numérique. Nous proposons de tester le consensus entre deux classifications par une double permutation des matrices ultramétriques associées. Chaque matrice produite devra cependant répondre à certains critères définissant une classification «aléatoire»: topologie, position des feuilles, niveaux d'axe. La permutation simultanée des éléments des deux classifications suivie d'une seconde permutation des lignes et colonnes de chaque matrice nous permet de générer des classifications aléatoires en accord avec la définition. Le consensus est évalué selon une mesure de distance intermédiaire (Faith & Belbin 1986) combinant à la fois les aspects de complexité "organisée" et "désorganisée"(Day 1983).