Communication

L’analyse parallèle et le sophisme du 95e percentile

Pier-Olivier Caron

André Achim

Membre a labase

Pier-Olivier Caron : Université TÉLUQ

Résumé de la communication

L’analyse parallèle (AP; Horn, 1965) est l’une des meilleures procédures afin d’identifier le nombre de composantes à retenir dans une analyse en composante principale (ACP). Elle repose sur une simulation d’échantillonnage répété de valeurs propres lorsqu’il n’y a aucune corrélation entre les variables. Glorfeld (1995) et d’autres ont suggéré de préférer le 95e percentile plutôt que la moyenne des valeurs propres. Cette technique est devenue pratique courante, car divers auteurs réitèrent fréquemment que l’AP sur extrait des composantes. L’objectif de la présente étude est d’illustrer en quoi la conception de Glorfeld est erronée. En fait, la seule condition pour laquelle l’AP peut sur-extraire est lorsqu’il y a présence de variable orpheline, des variables ne recevant d’information d’aucun facteur, mais contribuant au bruit dans la matrice de corrélation. Ces variables sont faciles à identifier et leur présence n’est jamais justifiée dans une ACP. En leur absence, l’AP devrait plutôt avoir tendance à sous-estimer le nombre de composantes. Des simulations d’AP basées sur des matrices de corrélations de Beauducel (2001) et Peres-Neto et al. (2005) sont utilisés afin de montrer que la proposition de Glorfeld ne tient pas la route. Les résultats confirment que l’AP a plutôt tendance à sous-extraire, particulièrement lorsque certaines composantes ont des valeurs propres modestes. L’inspection des communalités pour identifier et exclure les variables orphelines est recommandée.