Sommaire
L’ACP, Analyse en Composantes Principales ou Principal Component Analysis (PCA) en anglais, fait partie des 3 méthodes les plus courantes utilisées en statistique descriptive multidimensionnelle. Ces 3 méthodes sont : l’Analyse en Composantes Principales, l’Analyse Factorielle des Correspondances et l’Analyse des Correspondances Multiples.
Qu’est-ce que l’ACP ?
L’analyse en composantes principales ou ACP est une des techniques de data mining les plus utilisées. Elle consiste à exploiter des informations multivariées dans un grand jeu de données décrit sous forme de tableau. Ce tableau de données comporte « n » individus représentés dans les lignes et « p » variables quantitatives dans les colonnes.
Par exemple,
- 20 élèves et leurs notes pour chaque matière. (n=20 et p=français, mathématiques, sciences, arts plastiques, etc.)
- 10 variétés de crevettes et leurs variables sensorielles (n=10 et p=goût, texture de la chair, odeur, couleur)
- 5 athlètes et leur performance (n=5 et p=temps, taille, poids, masse musculaire, endurance)
L’objectif de l’ACP est de représenter sous forme graphique l’essentiel de l’information contenue dans le tableau. L’analyse exploratoire des données se porte essentiellement sur des variables quantitatives et de leurs liaisons simultanées entre elles.
Une grande quantité d’informations peut être interprétée à partir de l’ACP. Mais les deux principaux éléments exploitables sont :
- La recherche de composantes principales (géométrie)
- La recherche de « mapping » ou représentations graphiques (statistique)
Les composantes principales ou axes principaux sont caractérisés par des variables non-corrélées. Ce sont des combinaisons linéaires, représentées par des droites (D) qui résument au mieux les variables initiales. La première droite doit saisir le maximum de variétés de points à partir du tableau des données. Il reste un résidu non capturé par cette première droite. Une deuxième droite vient alors en complément. Cette deuxième composante principale doit être orthogonale à la première et ne doit avoir aucune corrélation linéaire avec elle. Il ne doit pas y avoir de redondance d’information entre les deux droites ainsi formées. On procède de la même manière pour le calcul des autres composantes et en extraire une synthèse d’information pertinente.
D’autre part, le nuage de points est obtenu grâce à la représentation graphique. Sous cette forme, les proximités en termes de liaison statistique ou en termes de similitude sont plus faciles à interpréter.
Les productions d’une A.C.P. qui sont particulièrement utiles à la compréhension des résultats sont les suivantes :
- la carte factorielle sur les deux premiers axes,
- les corrélations entre les variables ayant des tendances identiques
- le pourcentage de variance expliquée par les axes factoriels,
A quoi sert l’ACP ou l’Analyse en Composantes Principales ?
Aujourd’hui, plusieurs domaines ont recours à l’ACP pour l’exploitation et l’interprétation des données. La biologie, l’environnement, la gestion forestière, la science sociale, le marketing utilisent cette méthode dans leur analyse statistique. Le traitement d’images se sert également de cette méthode pour la compression d’image et la reconnaissance faciale.
L’ACP est ainsi utilisée pour décrire les données et résumer la matrice des corrélations. Elle aide à visualiser et à décorréler des données dans le but de réduire le nombre et la dimension des données à traiter.
L’ACP permet de voir graphiquement ce qui ne peut être vu à partir des multitudes de données brutes. En effet, il est impossible de déceler une anomalie ou une exception rien qu’en regardant les chiffres et les tableaux. Les visualisations graphiques des données permettent de localiser ces « outliers ». « Outliers », en statistique, signifie des individus déviants. Ils ont des caractéristiques qui diffèrent de l’ensemble. La méthode ACP identifie les individus outliers très rapidement sur la carte factorielle. Les points situés très éloignés des autres sont potentiellement des outliers.
L’interprétation des résultats se fait par le biais des questions suivantes : Y a-t-il des similarités entre les individus pour toutes les variables observées? Peut-on opposer un groupe d’individus à un autre ? Peut-on déterminer des groupes d’individus à partir des variables ?
En résumé, l’ACP fournit une représentation synthétique et visuelle du jeu de données aussi bien en agro-alimentaire, écologie qu’en gestion de parc automobile, en gestion des ressources humaines avec My Peopledoc ou en éducation. Les cartes factorielles donnent regroupent les informations sur les individus et les cercles de corrélations sur les différentes variable. L’ACP vise à mettre en valeur l’information pertinente afin de faciliter l’exploration des jeux de données.