Partie 1 Introduction générale Statistique descriptive 2019-2020 Thierry Kamion

Partie 1 Introduction générale Statistique descriptive 2019-2020 Thierry Kamionka 1 / 27 Objectifs de cette partie Présentation du cours Les concepts de base de la statistique descriptive Premiers pas avec le logiciel SAS 2 / 27 Présentation du cours L’objet du cours : la statistique descriptive ou exploratoire La statistique résume l’information par des grandeurs pertinentes (les statistiques). La statistique simplifie ̸= approche qualitative, monographie. La statistique descriptive porte sur des informations collectées soit de manière exhaustive (recensement), soit par enquête ̸= statistique mathématique. La statistique descriptive limite le recours à la modélisation ̸= statistique inférentielle. 3 / 27 Présentation du cours La démarche de l’analyse statistique Rendu / Livrable Travail de l'ombre Explorer Comprendre Description Analyse Conclusions et Recommandations Des données, Une question floue, souvent mal posée et/ou pas adaptée aux données Formuler les bonnes questions Avoir les idées claires Le bon graphique, La bonne statistique, Ce qui est pertinent! CE QUE LES INTERLOCUTEURS RETIENNENT savoir faire simple Matières avancées 4 / 27 Domaines d’applications : nombreux ▶agronomie ▶balistique ▶biologie ▶démographie ▶économie ▶épidémiologie ▶finance ▶marketing ▶médecine ▶météorologie ▶physique ▶psychologie ▶sciences politiques ▶... ⇒et de plus en plus nombreux avec l’essor des enregistrements des données... 5 / 27 Présentation du cours Objectifs Acquérir le recul nécessaire pour faire un bon usage des outils de description de l’information. ▶Fournir le vocabulaire et le cadre théorique pour explorer une problématique et en comprendre les tenants et les aboutissants. ▶Présenter des méthodes nombreuses et adaptées à des données de natures variées : représentations graphiques, statistique uni- et bi-variée, mesures d’association, rudiments sur l’analyse des séries temporelles. ▶Mettre en œuvre ces méthodes avec le logiciel SAS : savoir travailler sur des bases de données, appliquer les méthodes adaptées, en connaître les avantages et les inconvénients. 6 / 27 Présentation du cours Organisation I Statistique descriptive uni-variée : représentation et analyse d’un seul caractère. Premiers pas avec SAS II Statistique descriptive bi-variée : représentation conjointe de deux caractères et mesures d’association. Traitements courants avec SAS III Introduction aux séries temporelles : rudiments sur la représentation et le traitement des séries temporelles. Utilisation avancée de SAS 7 / 27 Présentation du cours Volume horaire et évaluation Volume horaire : 11 séances de 3h ▶Des séances de cours (05/09, 20/09, 04/10). Des séances de TD (13/09, 27/09, 25/10, 29/11, 06/12, 13/12,19/12). Une séance mixte le 15/11. ▶Deux séances de suivi pour encadrer le mémoire (25/10 et le 06/12). ▶Un TP noté le 19/12. Évaluation : ▶25 % : présence, participation, exercices à rendre. ▶25 % : TP noté. ▶50 % : mémoire collectif (groupes de 2 ou 3 élèves) à rendre pour le 17 janvier 2019. 8 / 27 Présentation du cours Le mémoire de fin de semestre Le mémoire de fin de semestre est un élément essentiel du cours : il permet de mettre en pratique les méthodes et outils vus pendant tout le semestre. L’objectif est de produire une note problématisée et synthétique (10 pages hors annexes) à partir d’une question et d’une base de données (European social survey ou ESS). Calendrier du travail sur le mémoire : ▶Séance 1 : Distribution de la note de présentation du mémoire. ▶Entre la séance 1 et la séance 2 : Constitution des groupes et choix de 5 sujets (classés). ▶Séance 4 (27 septembre) : Affectation des sujets et premiers travaux sur l’ESS. 9 / 27 Présentation du cours Le mémoire de fin de semestre Calendrier du travail sur le mémoire (suite) : ▶04 octobre : Rendu du sujet problématisé, d’une première analyse et d’une liste de variables d’intérêt ainsi que du code de construction de la table de travail. ▶25 octobre : Suivi n°1. ▶26 novembre : Rendu d’une introduction rédigée et d’une partie du mémoire. ▶06 décembre : Suivi n°2. ▶17 janvier : Rendu définitif. Exemples de sujets : opinions politiques et niveau de vie, famille et bonheur. 10 / 27 Présentation du cours Le site Web Un site web du cours avec les transparents, les sujets de TD, liens vers les données, le rappel du calendrier, ... : https ://sites.google.com/view/ensae-stat-des 11 / 27 Bibliographie Statistique descriptive : ▶DeVeaux, Velleman, Bock : Intro Stats, Pearson Intl Ed ▶Py : Statistique descriptive, Economica La statistique sans formule mathématique, Pearson Education ▶Tenenhaus : Statistique, méthodes pour décrire, expliquer prévoir, Dunod Sas : ▶Duguet : Introduction à Sas, Economica ▶Sautory : La statistique descriptive avec Sas, Insee Guides ▶Destandau Le Guen : Analyse exploratoire des données avec SAS/INSIGHT, Insee Guides 12 / 27 Les concepts de base de la statistique descriptive Population et unités statistiques Population : l’ensemble des éléments qui concernent l’objet de l’étude (champ). Exemple : ensemble de pays, population résidant en France, entreprises de plus de 50 salariés, etc. Individus ou unités statistiques : les éléments de cette population. Exemple : pays, personnes, entreprises, etc. Échantillon : un sous-ensemble de la population que l’on a interrogé dans le cas d’une enquête statistique. 13 / 27 Les concepts de base de la statistique descriptive Les caractères et leurs modalités Les individus sont décrits selon des caractères auxquels l’analyse s’intéresse (= dimensions, caractéristiques, variables) Ces caractères peuvent prendre différentes modalités (=valeurs). Exemples ▶le sexe : le sexe biologique d’un individu est un caractère présentant deux modalités (homme ou femme) ; ▶la taille ; la taille d’un individu en cm est un caractère pouvant prendre un grand nombre de modalités (en pratique un nombre décimal positif inférieur à 250). Un individu a au plus une seule modalité exprimée par caractère. 14 / 27 Les concepts de base de la statistique descriptive Les natures de caractères Caractères de nature quantitative : une variable est quantitative si ses modalités sont des nombres réels qui mesurent leurs valeurs (= des nombres sur lesquels faire des opérations a un sens). Exemples : la taille, le chiffre d’affaires d’une entreprise, l’âge. Caractères de nature qualitative : une variable est qualitative si ses modalités ne sont pas des nombres réels qui mesurent leurs valeurs (ne se prettent pas à un calcul algébrique). Exemples : le sexe, la marque d’une voiture, le niveau de diplôme. 15 / 27 Les concepts de base de la statistique descriptive Les natures de caractères Certains caractères qualitatifs sont susceptibles d’être ordonnés : avis sur un produit (pas du tout, un peu, beaucoup), fréquence imprécise (jamais, parfois, souvent). On parle alors de variable qualitative ordonnée ou de variable qualitative ordinale. Elles se distinguent des variables quantitatives par le fait que leurs modalités ne peuvent pas s’exprimer les unes en fonction des autres. Dans le cas où il n’existe pas d’ordre sur les modalités, on parle de variable qualitative nominale (exemples : sexe, profession). 16 / 27 Les concepts de base de la statistique descriptive Caractères qualitatifs ▶Un caractère à deux modalités est dichotomique exemple : sexe (H ou F), âge > 50 ans (oui ou non) ▶Un caractère à plus de deux modalités est polytomique exemple : opinion (pas du tout, un peu, beaucoup) ; activité (inactifs, actifs occupés, chômeurs) ▶Les différentes rubriques ou postes d’une nomenclature peuvent être associées aux modalités d’un caractère qualitatif exemples : Nomenclature des Professions et Catégories Socioprofessionnelles (PCS 2003), Nomenclature d’activités française (NAF 2008) 17 / 27 Les concepts de base de la statistique descriptive Nomeclatures - PCS La nomenclature PCS 2003 comporte quatre niveaux d’agrégation emboîtés. Au niveau le plus fin, un poste de la nomenclature PCS correspond à une profession. Au niveau le plus agrégé se trouvent les groupes socioprofessionnels : 8 postes. Les niveaux d’agrégation intermédiaires sont ceux des catégories socioprofessionnelles à deux chiffres : 42 postes avec une version agrégée en 24 postes. Le niveau des professions comporte 486 postes d’actifs, et 11 postes supplémentaires pour les personnes sans activité professionnelle. 18 / 27 Les concepts de base de la statistique descriptive Nomeclatures - PCS code Libellé 1 Agriculteurs exploitants 2 Artisans, commerçants et chefs d’entreprise 3 Cadres et professions intellectuelles supérieures 4 Professions Intermédiaires 5 Employés 6 Ouvriers 7 Retraités 8 Autres personnes sans activité professionnelle 19 / 27 Les concepts de base de la statistique descriptive Les regroupements de modalités ▶Classe ou catégorie : regroupement de plusieurs modalités d’une nomenclature ; =tranche pour variable continue. ex : tranche de revenu : 0-999, 1000-1499, 1500-1999, 2000-3999, ≤4000... ▶Si regroupement d’une variable continue, on appelle amplitude la longueur de l’intervalle d’une classe. ▶Exemples : Classe d’âge : 0 à moins de 5 ans, 5 à moins de 10 ans, 10 à moins de 15 ans, ..., 95 à moins de 100 ans, plus de 100 ans Tranches de durée du chômage : moins de 1 mois, 1 à moins de 3 mois, 3 à moins de 6 mois, 6 mois à moins de 1 an, 1 à moins de 2 ans, 2 ans et plus. ▶Le nombre de classes doit être choisi de manière à ce que les effectifs de chaque classe soient non nuls et du même ordre de grandeur. 20 / 27 Ex : Enquête sur l’emploi : Population ? Echantillon ? Variables ? 21 / 27 Les concepts uploads/Management/ cours1-1-2019.pdf

  • 34
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Fev 03, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.3978MB