L'analyse en composantes principales

Name: Langage R et statistiques Initiation à l'analyse de données
Rating: 5 (1 reviews)

Utilisation de l’ACP

L’analyse en composantes principales ou ACP (Principal Component Analysis ou PCA) est une méthode statistique assez différente des modèles linéaires vus jusqu’à présent, même si elle se base aussi sur les relations linéaires entre les données. Si l’ACP débute son histoire en 1901 avec la parution de l’article de Karl Pearson "On lines and planes of closest fit to systems of points in space" dans Philosophical Magazine, c’est le développement de l’informatique qui lui permet de prendre son essor. C’est une équipe française menée par Jean-Paul Benzécri qui a mis au point l’analyse factorielle des correspondances ou AFC, type d’analyse dont l’ACP fait partie, dans les années 1960. Incontournable dans de nombreux domaines, elle permet de réduire le nombre de variables, de connaître les liens entre les variables et/ou les individus, de qualifier des groupes d’individus. Elle est particulièrement utilisée en France.

Attention, l’ACP n’accepte que des variables quantitatives comme variables actives, c’est-à-dire comme variables sur lesquelles l’analyse est basée. Elle peut incorporer une ou plusieurs variables qualitatives (dans la limite du raisonnable) comme variables supplémentaires pour aider à comprendre les résultats (cf. section Ajout de variables supplémentaires dans R). Pour incorporer des variables qualitatives et quantitatives, il faut réaliser une analyse factorielle des données mixtes ou AFDM (Factorial Analysis of Mixed Data ou FAMD), également nommée analyse factorielle mixte ou AFM. Pour des variables uniquement qualitatives, il faut faire une analyse factorielle des correspondances multiples...

Bases mathématiques de l’ACP

1. Approche par les individus

Le principe de base de l’analyse en composantes principales est de chercher les dimensions qui expliqueraient au mieux le nuage de points. Cela revient donc à chercher des relations linéaires entre les dimensions explorées. Se limiter aux relations linéaires alors qu’il en existe d’autres (cf. chapitre La régression) peut paraître restrictif, mais cela facilite et accélère les calculs. Surtout, cette méthode s’adapte bien dans la plupart des cas. Il est aussi toujours possible, face à des données qui suivent des lois exponentielles ou autres, de les modifier avant de les ajouter dans l’ACP, en leur appliquant une transformation logarithmique, exponentielle… (cf. chapitre La régression).

Précédemment, il a été vu que lorsqu’une variable Y est fortement corrélée de manière linéaire à une autre variable X, il est possible de l’estimer en trouvant les coefficients de l’équation linéaire images/08eq08.PNG

, ce qui permet de diminuer le nombre de dimensions étudiées (cf. figure 08-02). En effet, en ne conservant que la variable explicative X, il est possible d’estimer la variable réponse Y. Le même principe va être appliqué pour l’ACP. Sauf qu’au lieu de se limiter aux variables existantes, l’ACP va permettre de créer la variable, appelée dimension, qui étale au mieux les données et donc qui explique le plus la variance des données.

Figure 08-02 : La variable y peut être approximée, calculée à partir des valeurs de x, grâce à l’équation a * x + b, ici a = 3,22 et b = 4,67.

set.seed(8) 
 
exemple_relation_lineaire <- 
  tibble( ...

Mise en place de l’ACP

1. Déroulement de l’ACP

D’un point de vue pratique, pour réaliser une analyse en composantes principale, procédez ainsi :

Sélectionnez des variables actives. L’ACP ne sera dans un premier temps réalisée que sur elles. Il sera ensuite possible d’ajouter des variables qualitatives et quantitatives supplémentaires.

Prenez la décision de réduire ou non les variables. Retenez que, par défaut, dans le package utilisé {FactoMineR}, elles sont réduites automatiquement avant la réalisation de l’analyse.

Faites l’ACP avec la fonction PCA() de {FactoMineR}.

Sélectionnez le nombre de dimensions à conserver dans l’analyse. Attention, c’est une partie à ne pas négliger, il est important de bien faire.

Interprétez les sorties de l’analyse et les indicateurs supplémentaires calculés. Il est important à ce moment-là de revenir aussi aux données brutes.

Pour la mise en pratique qui suit, le jeu de données utilisé est wine du package {FactoMineR}.

La fonction data() du package {utils} permet de charger le jeu de données dans l’environnement global, car il ne l’est pas par défaut.

data("wine") 
glimpse(wine) 
summary(wine)

Attention, les packages {tidyverse} et {FactoMineR} doivent être chargés pour que les lignes de code fonctionnent.

Ce jeu de données regroupe les résultats d’une analyse sensorielle conduite sur 21 vins du Val de Loire par l’Institut national des recherches en agronomie d’Angers. Les vins ont été notés de 1 à 5 selon 24 critères, dont 5 ont été mesurés avant...

Limites et ouverture des analyses factorielles

1. Données manquantes en ACP

Un point rapidement abordé, mais pas assez développé, sur l’ACP est le cas des données manquantes.

En effet, il n’y a que peu de limites à l’utilisation de l’ACP : les données n’ont pas besoin de suivre une loi normale ou d’être homogènes. Par contre, les données manquantes ne doivent pas être oubliées.

Comme l’ACP fonctionne sur des environnements à k ou n dimensions, avec n le nombre d’individus et k le nombre de variables, l’absence d’une donnée signifie l’absence d’une valeur pour une dimension. Contrairement à la réalisation de modèles linéaires généralisés mixtes ou non vus dans le chapitre Les modèles linéaires généralisés, la fonction PCA() de {FactoMineR} traite automatiquement les données manquantes en les remplaçant par la moyenne de la variable.

Cette méthode de remplacement est intéressante, mais ne prend pas en compte les liens entre les variables, ce qui est dommage dans le cas de l’ACP qui se base justement sur eux. N’étant pas satisfaits de cette méthode par défaut, les créateurs du package {FactoMineR} ont élaboré le package {missMDA} pour traiter les valeurs manquantes en utilisant les méthodes d’analyse factorielle : l’ACP, l’ACM, l’AFDM et l’AFM.

Le remplacement des données manquantes par une valeur de référence n’est pas l’idéal

Le jeu de données utilisé ici est snorena du package {missMDA}. Le jeu de données contient les caractéristiques de 100 personnes : âge...