Analyse de données Module 4 : L’ACP en pratique M4 1 / 7 L’analyse en composant

Analyse de données Module 4 : L’ACP en pratique M4 1 / 7 L’analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s’intéresse ici à l’utilisation pratique de l’ACP. 1 Objectifs L’objectif de l’analyse en composantes principales (ou ACP) est purement descriptif : il s’agit « d’explorer » un ensemble d’observations rassemblées sous la forme d’un tableau de données indiquant pour chaque unité statistique les valeurs observées d’un certain nombre de variables quantitatives. L’unité statistique peu être primaire (par exemple un individu, une entreprise) ou secondaire. Dans ce dernier cas, il s’agit de regroupement d’unités statistiques primaires. Exemple d’unité statistique secondaire. On a interrrogé des clients d’un groupe bancaire sur la satisfaction de leur agence (notation de l’accueil, des heures d’ouverture, de la disponibilité, …). L’unité statistique primaire est l’individu. Si on veut travailler sur les agences du groupe bancaire (unité statistique secondaire) on calculera, par exemple, des moyennes de notation par agence pour chaque variable et on réalisera l’ACP en prenant comme individu les unités statistiques secondaires et comme variables les notes moyennes de chaque agence. Le tableau de données peut être de dimensions importantes : le nombre de lignes (d’unités statistiques) peut atteindre plusieurs centaines, et le nombre de colonnes (de variables) plusieurs dizaines. Le nombre d’observations, suivant son importance, pourra donner un caractère de généralité aux propriétés structurelles ; il est en effet rare que l’on fasse appel, dans le cadre de l’analyse de données multidimensionnelle, à la statistique inférentielle. L’analyse en composantes principales est fondée sur le calcul des moyennes, variances et coefficients de corrélation. Les données doivent donc être quantitatives : elles peuvent être discrètes ou ordinales (par ordre de préférence). Exemple : On étudie les données sur 50 clients de l’hypermarché EUROMARKET constituées de l’âge, du revenu, du montant des achats, du nombre d’enfants, de la catégorie socioprofessionnelle (CSP) et du sexe. Les variables quantitatives sont les suivantes : l’âge, le revenu, le montant des achats, le nombre d’enfants. Nous verrons ultérieurement comment tenir compte du sexe et de la catégorie socioprofessionnelle dans les analyses. Nous pouvons étudier les couples d’observations (âge, revenu) en les représentant graphiquement et en calculant le coefficient de corrélation. Cette représentation graphique montrera que le revenu s’accroît en fonction de l’âge, jusqu’à 60 ans environ, ce que nous pouvons expliquer par le fait qu’au- delà de 60 ans, les clients sont en retraite et voient leurs ressources financières diminuer. L’analyse en composantes principales généralise cette démarche en prenant en compte la totalité des variables quantitatives : ainsi, nous verrons que les personnes de 60 ans et plus n’ont en général pas d’enfant à charge, et par suite le montant de leurs achats est moins élevé : il y a donc une tendance générale dans les données, liée à l’âge, qui permet d’expliquer la diminution de la consommation de plusieurs façons. La taille de ce tableau est insuffisante pour que les interprétations soient intéressantes. Mais elle permet de donner la totalité des résultats concernant les variables et d’effectuer des calculs sur quelques unités statistiques à l’aide d’une simple calculatrice. La taille du tableau de données rend les calculs à la main impossible et donc l’utilisation d’un logiciel de traitement spécifique est indispensable. Ces logiciels sont très nombreux et l’on peut les segmenter selon plusieurs types : - les logiciels de traitement d’enquête (Le Sphinx, ethnos, Question, …). Bien que leur spécialité soit le traitement de questionnaires, ils intègrent quelques méthodes d’analyses Analyse de données Module 4 : L’ACP en pratique M4 2 / 7 factorielles. Les sorties sont relativement sommaires et les options disponibles sont limitées (pas de rotation des axes, …) - les logiciels boîtes à outils (XLSTAT, Statbox). Ils permettent de réaliser diverses analyses factorielles (ACP, AFC, ACM), quelques techniques de classification (Classification hiérarchique, K moyennes) ainsi que les techniques de prévision classiques. Les données sont gérées à partir du logiciel Microsoft Excel et les sorties s’effectuent dans des feuilles de calculs. Globalement, ils offrent un bon rapport qualité/prix - Les logiciels de statistique (SPSS, SPAD, SAS, …). Conçus pour manipuler et analyser de grands tableaux de données, ils sont très complets sur le plan des méthodes présentes et sur les options disponibles. L’utilisation est plus complexe et nécessite parfois plusieurs journées (voire plusieurs mois) de formation. Leur prix en fait un outil réservé aux cabinets statistiques ou aux directions statistiques de grandes entreprises. Dans ce cours, nous présenterons une sortie du logiciel STAT MANIA, et utiliserons pour les exercices et activités les sorties du logiciel Statbox. 2) La réalisation de l’ACP Pour réaliser une ACP on suit une démarche en plusieurs étapes : 1 Préparation des données S’assurer que les données sont quantitatives. Dans la pratique, on considère souvent les variables qualitatives ordinales comme des quantitatives. Par exemple, dans les enquêtes de satisfaction les variables qualitatives ordinales possèdent les modalités suivantes : Pas du tout satisfait ; plutôt pas satisfait ; moyennement satisfait ; plutôt satisfait ; Tout à fait satisfait. On considère que ces modalités correspondent a une note donnée par l’individu avec 1 pour Pas du tout satisfait, 2 pour plutôt pas satisfait … et on obtient ainsi que variable quantitative discrète que l’on pourra utiliser en ACP. Remarque : en pratique on s’autorise une certaine liberté d’interprétation qui n’a pas de fondement statistique. En effet, 4 est supérieur à 2, ce qui traduit bien que « plutôt satisfait » indique une satisfaction supérieure à « plutôt pas satisfait ». Mais, mathématiquement, 4 est le double de 2 ; et rien ne justifie le fait que « plutôt satisfait » traduise une satisfaction deux fois plus importante que « plutôt pas satisfait ». On rappelle également que la variable sexe, même si elle est codifié 1 pour les hommes et 2 pour les femmes est une variable qualitative et ne doit donc pas être utilisée dans l’ACP. Données manquantes : L’ACP ne sait pas traiter les données manquantes. Certains logiciels proposent de supprimer les individus possédant des données manquantes, alors que d’autres vont remplacer la donnée manquante par un zéro. 2 Paramétrer le logiciel Il faut indiquer au logiciel les divers paramètres de l’ACP : - les variables actives (celles qui permettront de discriminer les individus), - les variables supplémentaires (voir § suivant), - la présence éventuelle d’individus supplémentaires - le nombre de valeurs propres a calculer - le nombre d’axes à représenter - éventuellement, le libellé des individus (ou l’identifiant des individus) Individus et variables supplémentaires Individus supplémentaires Analyse de données Module 4 : L’ACP en pratique M4 3 / 7 Afin de faciliter l’interprétation des résultats, on peut introduire dans le tableau de données de départ des données que l’on appelle individus supplémentaires. Les unités statistiques supplémentaires sont des unités statistiques sur lesquelles on dispose des observations des variables mais dont on ne veut pas tenir compte dans le calcul des paramètres statistiques. On définit souvent comme unités statistiques supplémentaires les centres de gravité de groupes formés à priori, définis par les moyennes des variables de ces groupes. Ainsi, dans l’exemple d’Euromarket, on pourrait introduire dans les données précédentes deux individus supplémentaires l’un caractéristique du groupe « Homme » et l’autre du groupe « Femme » Le tableau de données de départ devient donc N° âge revenu achats enfants 1 51 195888 150.15 3 2 39 128456 173.12 2 … … … GHommes Age moyen des hommes Revenu moyen des hommes Achat moyen des hommes Nb d’enfants moyen des hommes GFemmes Age moyen des femmes Revenu moyen des femmes Achat moyen des femmes Nb d’enfants moyen des femmes On définit donc deux unités statistique supplémentaires dont on ne doit pas tenir compte dans les calculs puisqu’ils ne représentent pas d’unités statistiques réelles : ce sont des unités statistiques supplémentaires. L’intérêt des données supplémentaires est de caractériser sur les graphiques des groupes d’unités statistiques supplémentaires Variables supplémentaires : Ce sont des variables n’ayant pas de rapport direct avec l’analyse mais que l’on souhaite voir représentées dans les graphiques. Certains logiciels utilisent les termes de variables actives et passives (pour supplémentaires). 3 Réaliser les calculs On a vu dans les modules précédents les différents calculs à réaliser. Vu la taille du tableau de données que l’on traite habituellement, c’est le logiciel qui réalisera cette étape. Le logiciel produit alors différents tableaux et graphiques (mapping) qu’il faudra interpréter. 3) Interpréter les résultats 1 Déterminer le nombre d’axes de l’analyse Pour répondre à cette question, il faut consulter le tableau des valeurs propres qui accompagne l’ACP. Les valeurs propres sont classées de façon décroissante. L’inertie de chaque axe et l’inertie cumulée figurent également dans ce tableau. Il y a deux manières pour déterminer le nombre d’axes à prendre en compte : - Un critère “absolu” : ne retenir que les axes dont les valeurs propres sont supérieures à 1 (c'est le critère de Kaiser). - Un critère “relatif” : retenir les valeurs propres qui “dominent” les autres, en se référant au graphique en barres des valeurs propres (“screeplot”, chez uploads/Management/ m04-4-pdf.pdf

  • 63
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Fev 28, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.0702MB