1 Statistique Avancée 2 ( https://www.youtube.com/watch?v=sZB_xIvPlBg) Un jeu d

1 Statistique Avancée 2 ( https://www.youtube.com/watch?v=sZB_xIvPlBg) Un jeu de données (Data Set en anglais) est un ensemble de valeurs (ou données) où chaque valeur est associée à une variable (ou attribut) et à une observation. Par exemple, Dans une base de données, un jeu de données peut contenir des données métier (noms, salaires, coordonnées, chiffre des ventes, etc.). Le but de ce chapitre consiste à mener une analyse descriptive pour nettoyer et expliquer les jeux de données. Cette analyse ne se résume pas seulement à un résumé du présent ou du passé mais doit contenir aussi des projections et des impacts des résultats obtenus. Raisonnablement, ceci ne peut pas être fait que si on a une connaissance fine des jeux de données. Un modèle statistique avancé ne peut tenir que s’il a une connaissance statistique descriptive des jeux de données. Il y aura des paragraphes plutôt théoriques, sur la théorie des statistiques, et des chapitres pratiques. Ces derniers vous invitent à appliquer les statistiques en langage R ou en Python. 3 En statistiques, on étudie des trucs, des bidules et des choses. Ces « choses », on les appelle des individus. Ces individus peuvent être des objets, des personnes, des animaux, des mesures physiques, etc. L’individu, c’est l’unité d’observation. Des individus ont des caractéristiques, on les appelle des caractères ou des variables. L’ensemble des individus s’appelle la population. On note souvent sa taille N, correspondant au nombre d’individus de la population. Il est très fréquent de ne pas connaître la taille exacte d'une population. Lorsque l’on sélectionne certains individus d’une population, on obtient un échantillon. Sa taille est souvent notée n. On utilisera souvent le terme de jeu de données. Ces termes n'ont pas de définition très précise, mais dans ce cours, ils seront équivalents à échantillon. On représente en général un échantillon sous forme de tableau, où chaque ligne correspond à un individu, et chaque colonne représente une variable. 4 Cette représentation est à l’origine du format de fichier CSV (comma separated values). Ce format peut être ouvert avec les logiciels tableurs (Microsoft® Excel, OpenOffice Calc), et est facilement interprétable par les langages R et Python. Les statistiques et les probabilités sont deux domaines étroitement liés, mais ils sont distincts. Quand on ne fait qu’observer et décrire objectivement un phénomène, alors on fait des statistiques. Mais lorsqu’on modélise les observations, c’est-à-dire, on trouve des lois mathématiques capables de générer les données que l’on observe, on fait des probabilités. 5 En statistiques, les données que l'on observe sont appelées observations, ou parfois réalisations. A partir de ces observations, on peut modéliser. Dans le domaine des probabilités, on manipule des variables aléatoires, des lois de probabilité, etc. Si vous étudiez la proportion femmes/hommes d'un pays, on sélectionne un échantillon dans lequel on observe ces proportions : par exemple 55% de femmes et 45% d'hommes. Ce sont des statistiques. Mais si on dit ensuite dans ce pays, un enfant qui naît a un pourcentage de 55% d’être une fille, alors on fait des probabilités. (https://www.youtube.com/watch?v=99jDA-hN3P8) Les variables que nous créons ne sont pas toutes de même type. Certaines sont des nombres (la variable "montant"), certaines sont des tranches de nombres (la variable "tranche_depense"), certaines sont des mots (comme la catégorie d'opération : « loyer », « courses », etc.). Il y a deux types de variables, chacun d’eux est subdivisé en deux groupes. 6  Ce sont les variables qui prennent des valeurs numériques, à condition que ces valeurs expriment une quantité et aient un sens lorsque l’on y applique des opérations arithmétiques. Une variable quantitative est soit discrète, soit continue. Si le nombre de valeurs possibles (et probables) d'une variable est très grand, alors on peut la considérer comme continue. Sinon, on la considère comme discrète.  Ce sont toutes les variables qui ne sont pas quantitatives. Les valeurs qu’elles prennent sont appelées des catégories, ou modalités. Ces dernières sont exprimées sous forme littérale (par un mot, une phrase ou un code) ou par un codage numérique sur lequel les opérations arithmétiques n’ont aucun sens. Une variable qualitative est nominale ou ordinale. Une variable est ordinale si ses modalités peuvent être ordonnées. La variable "tranche_depense" est ordinale, car on peut dire qu’une dépense de la tranche « petite dépense » est plus petite qu’une « dépense moyenne », elle-même plus petite qu’une 7 « grosse dépense ». Dans un autre cadre, les mentions attribuées à un examen (moyen, bien, très bien) sont aussi une variable ordinale. L’identifiant d’une opération est nominal, car on ne peut pas dire que l’opération numéro 1 est « inférieure » à l’opération numéro 40 (on suppose ici que les identifiants ne sont pas forcément classés par date d’opération). • Le secteur d’emploi, la couleur, le sexe, la nature de la fonction occupée, la profession, les opinions politiques, le type sanguin, etc., sont des caractères qualitatifs dont on prend note mais qu’on ne mesure pas ; • La taille d’un individu, le revenu, le temps, le nombre, etc., sont des caractères quantitatifs pour lesquels on effectue une mesure en utilisant un instrument approprié (le mètre, un test d’intelligence, un chronomètre, un cadran, le dirham, etc.). 8 Identifier la population, l’unité 1. Une enquête porte sur la nature de l’incapacité (mobilité, agilité, vision, audition…) qui affecte 2. emploi à temps partiel. On veut connaître le nombre approximatif d’heure de travail par semaine. On interroge 38 individus choisis au Jusqu'à maintenant, nous avons vu comment afficher un échantillon (sous forme de tableau où chaque ligne représente un individu, et chaque colonne une variable). Pour représenter par exemple la variable categ, on pourrait sélectionner la colonne categ du tableau du jeu de données et l'afficher telle quelle : 9 Mais il faut avouer que c'est assez illisible ! En plus, il est fréquent d'avoir des échantillons de 1000 individus ou plus. Une colonne avec 1000 valeurs dedans, c'est très moche et très difficile à interpréter. Il y a une solution bien meilleure, qui consiste à dire : Il y a 39 fois la valeur COURSES, 212 fois la valeur AUTRE, 21 fois la valeur TRANSPORT, etc. Cette formulation est appelée distribution empirique. C'est cette distribution que l'on se propose de représenter graphiquement ici. 10 Les différentes "possibilités" que l'on puisse observer pour la variable categ sont ses modalités. Les modalités de la variable categ sont : courses, transport, autre, loyer, etc. Pour une variable quantitative cependant, on les appelle les valeurs possibles. On associe à chaque modalité (ou valeur) un effectif. L'effectif de la modalité courses est ncourses=39. En divisant un effectif par le nombre d'individus de l'échantillon (noté n), on obtient une fréquence. La distribution empirique d'une variable, c'est l’ensemble des valeurs (ou modalités) prises par cette variable, ainsi que leurs effectifs associés. On peut présenter ceci sous forme de tableau. Passons maintenant aux représentations graphiques. 11 • Cas des variables qualitatives Diagramme en secteurs • Cas des variables quantitatives discrètes 12 • Histogramme Une variable qualitative peut être : (soit nominale, soit ordinale) ; (soit nominale, soit continue) ; (soit discrète, soit ordinale) ; (soit discrète, soit continue). Question 2 : Si une variable prend ses modalités dans la liste : "petit", "moyen", "grand", alors elle est : ordinale ; nominale ; discrète ; continue. La fréquence d'une modalité est calculée par : (le nombre d'individus de cette modalité divisé par la taille de l'échantillon) ; (le nombre d'individus de cette modalité multiplié par la taille de l'échantillon). Avant de calculer une fréquence cumulée, quelle précaution faut-il prendre ? « Ordonner les modalités (ou les classes d'agrégation) dans l'ordre croissant (ou décroissant) » ; « Vérifier que la taille de l'échantillon est inférieure (ou égale) à la taille de la population ». Un histogramme représente : « la distribution d'une variable » ; « pas grand-chose, mais c'est joli quand même » ; « la représentation des fréquences cumulées ». Trouvez la phrase fausse : « Un individu comporte plusieurs échantillons » ; « Une population est composée d'individus » ; « Une variable caractérise un individu » ; « Un échantillon provient d'une population ». 13 Une analyse univariée est une analyse effectuée sur une variable à la fois. Le but est de définir des paramètres dont les valeurs numériques permettent de simplifier ou de présenter ou de résumer l’information contenue dans la distribution étudiée. • La moyenne d'âge d’une population en 2010, le taux de réussite au quiz de fin de la partie 2 de ce chapitre et l'indice d'érosion des sols de la région d’un pays sont toutes des statistiques. Une statistique est un indicateur numérique calculé à partir d'un échantillon. Par exemple : • La moyenne d'âge est calculée à partir des habitants d'un pays ; • Le taux de réussite à un quiz est calculé à partir des réponses données par les étudiants ; • L’indice d'érosion des sols est calculé à partir de relevés effectués sur des parcelles de terrain. 14 Une statistique est utile car elle nous permet de résumer un uploads/Geographie/chapitre-2-statistique.pdf

  • 32
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager