Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 27/01/2009 1 © Stéphan
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 27/01/2009 1 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Présentation de l’auteur • En charge de la statistique et du data mining dans un grand groupe bancaire • Enseigne le data mining en Master 2 à l’Université Paris- Dauphine, à l’Université Rennes 1 et à l’ISUP (Université Paris 6) • Docteur en Mathématiques 27/01/2009 2 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr • Docteur en Mathématiques • Auteur de : • Data Mining et Scoring (épuisé), Éditions Dunod, 2002 • Data Mining et Statistique Décisionnelle, Éditions Technip, 2005, 2de édition 2007, préface de Gilbert Saporta Ouvrage consacré à l’application en entreprise des techniques et méthodologies de data mining et statistique Présentation du cours • Cette présentation est issue de cours donnés dans des DESS et Master 2 d’Économétrie et d’Ingénierie Statistique entre 1999 et 2009. • Ces enseignements ont ensuite trouvé un développement dans des ouvrages publiés chez Dunod puis chez Technip. • Ces cours sont donc consacrés aux techniques de data mining, de statistique décisionnelle et de scoring, et à leur 27/01/2009 3 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr mining, de statistique décisionnelle et de scoring, et à leur mise en oeuvre en entreprise. Ils contiennent une introduction, une partie technique (préparation des données, analyse factorielle, régression linéaire, régression logistique, GLM, analyse discriminante, arbres de décision, réseaux de neurones, algorithmes génétiques, SVM, k-means et centres mobiles, CAH…) et une partie méthodologique (conduite de projet, facteurs de succès, RSI, aspects informatiques, CNIL…). Plan du cours • Qu’est-ce que le data mining ? • A quoi sert le data mining ? • Les deux grandes familles de techniques • Le déroulement d’un projet de data mining • Coûts et gains du data mining • Facteurs de succès - Erreurs - Consulting • Informatique décisionnelle et de gestion 27/01/2009 4 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr • Informatique décisionnelle et de gestion • La préparation des données • Techniques descriptives de data mining • Techniques prédictives de data mining • Logiciels de statistique et de data mining • CNIL et limites légales du data mining • Le text mining • Le web mining Qu’est-ce que le data mining ? 27/01/2009 5 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Qu’est-ce que le data mining ? Place du data mining 27/01/2009 6 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr La fouille de données • Le data mining est l’ensemble des : • algorithmes et méthodes • … destinés à l’exploration et l’analyse • … de (souvent) grandes bases de données informatiques • … en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a 27/01/2009 7 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr associations, des tendances inconnues (non fixées a priori), des structures particulières restituant de façon concise l’essentiel de l’information utile • … pour l’aide à la décision Data mining ≠statistiques descriptives • Les techniques de data mining sont bien sûr plus complexes que de simples statistiques descriptives : • outils d’intelligence artificielle (réseaux de neurones) • algorithmes sophistiqués (algorithmes génétiques, analyse relationnelle) • théorie de l’information (arbres de décision) 27/01/2009 8 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr • théorie de l’information (arbres de décision) • beaucoup d’analyse des données « traditionnelle » (analyse factorielle, classification, analyse discriminante, etc.) Data mining et statistique 1/2 • Hier : • études de laboratoire • expérimentations cliniques • actuariat • analyses de risque - scoring 27/01/2009 9 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr • analyses de risque - scoring • Volumes de données limités • Analyse du réel pour mieux le comprendre : • les 1ères observations permettent de formuler des hypothèses théoriques que l’on confirme ou infirme à l’aide de tests statistiques Data mining et statistique 2/2 • Aujourd’hui : • de l’∞petit (génomique) à l’∞grand (astrophysique) • du plus quotidien (reconnaissance de l’écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique) • du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les 27/01/2009 10 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr (détection de la fraude dans la téléphonie mobile ou les cartes bancaires) • du plus industriel (contrôle qualité…) au plus théorique (sciences humaines, biologie…) • du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d’audience TV) • Volumes de données importants • Systèmes d’aide à la décision plus ou moins automatiques Des statistiques ... • Statistique : • quelques centaines d’individus • quelques variables recueillies avec un protocole spécial (échantillonnage, plan d’expérience...) • fortes hypothèses sur les lois statistiques suivies • les modèles sont issus de la théorie et confrontés aux données • méthodes probabilistes et statistiques 27/01/2009 11 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr • méthodes probabilistes et statistiques • utilisation en laboratoire • Analyse des données : • quelques dizaines de milliers d’individus • quelques dizaines de variables • construction des tableaux « Individus x Variables » • importance du calcul et de la représentation visuelle ... au Data mining • Data mining : • plusieurs millions d’individus • plusieurs centaines de variables • nombreuses variables non numériques, parfois textuelles • données recueillies avant l’étude, et souvent à d’autres fins • données imparfaites, avec des erreurs de saisie, de codification, des valeurs manquantes, aberrantes • population constamment évolutive (difficulté d’échantillonner) 27/01/2009 12 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr • population constamment évolutive (difficulté d’échantillonner) • nécessité de calculs rapides, parfois en temps réel • on ne recherche pas toujours l’optimum mathématique, mais le modèle le plus facile à appréhender par des utilisateurs non- statisticiens • faibles hypothèses sur les lois statistiques suivies • les modèles sont issus des données et on en tire des éléments théoriques • méthodes statistiques, d’intelligence artificielle et de théorie de l’apprentissage (« machine learning ») • utilisation en entreprise Préhistoire • 1875 : régression linéaire de Francis Galton • 1896 : formule du coefficient de corrélation de Karl Pearson • 1900 : distribution du χ² de Karl Pearson • 1936 : analyse discriminante de Fisher et Mahalanobis • 1941 : analyse factorielle des correspondances de Guttman • 1943 : réseaux de neurones de Mc Culloch et Pitts 27/01/2009 13 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr • 1943 : réseaux de neurones de Mc Culloch et Pitts • 1944 : régression logistique de Joseph Berkson • 1958 : perceptron de Rosenblatt • 1962 : analyse des correspondances de J.-P. Benzécri • 1964 : arbre de décision AID de J.P.Sonquist et J.-A.Morgan • 1965 : méthode des centres mobiles de E. W. Forgy • 1967 : méthode des k-means de Mac Queen • 1972 : modèle linéaire généralisé de Nelder et Wedderburn Histoire • 1975 : algorithmes génétiques de Holland • 1975 : méthode de classement DISQUAL de Gilbert Saporta • 1980 : arbre de décision CHAID de KASS • 1983 : régression PLS de Herman et Svante Wold • 1984 : arbre CART de Breiman, Friedman, Olshen, Stone • 1986 : perceptron multicouches de Rumelhart et McClelland 27/01/2009 14 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr • 1986 : perceptron multicouches de Rumelhart et McClelland • 1989 : réseaux de T. Kohonen (cartes auto-adaptatives) • vers 1990 : apparition du concept de data mining • 1993 : arbre C4.5 de J. Ross Quinlan • 1996 : bagging (Breiman) et boosting (Freund-Shapire) • 1998 : support vector machines de Vladimir Vapnik • 2000 : régression logistique PLS de Michel Tenenhaus • 2001 : forêts aléatoires de L. Breiman Le data mining aujourd’hui • Ces techniques ne sont pas toutes récentes • Ce qui est nouveau, ce sont aussi : • la recherche en IA et en théorie de l’apprentissage • les capacités de stockage et de calcul offertes par le matériel et les techniques informatiques modernes • la constitution de giga-bases de données pour les besoins 27/01/2009 15 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr • la constitution de giga-bases de données pour les besoins de gestion des entreprises • les logiciels universels, puissants et conviviaux • l’intégration du data mining dans les processus de production ²qui permettent de traiter de grands volumes de données et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises Le data mining aujourd’hui • Le data mining se répand particulièrement dans les secteurs qui, par leur activité, détiennent de nombreuses informations économiques et comportementales 27/01/2009 16 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr comportementales individualisées : VPC, grande distribution, téléphonie, banque... • Selon le MIT (Massachussets Institute of Technology) : le data mining est l’une des 10 technologies émergentes qui « changeront le monde » au XXIe siècle. Data mining et CRM 27/01/2009 17 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Data mining et CRM Rappel : Gestion de la relation client • La richesse des entreprises : leurs clients • Objectifs des entreprises : • augmenter la rentabilité uploads/Management/ bi-datamining-presentation.pdf
Documents similaires
-
49
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Aoû 06, 2022
- Catégorie Management
- Langue French
- Taille du fichier 0.4175MB