1 Data Mining 2 - Fondements théoriques Françoise Soulié Fogelman Master MI2R M
1 Data Mining 2 - Fondements théoriques Françoise Soulié Fogelman Master MI2R MICR Cours Fouille de Données KXEN-Confidential 2 Agenda z La question métier ■ Comment décrire un problème data mining ■ Comment décrire la question métier z Données z Modèles z Evaluation des Techniques de Modélisation z Le modèle d’apprentissage statistique de V. Vapnik 2 KXEN-Confidential 3 Comment décrire un problème data mining z Le début de tout projet data mining ■ Un utilisateur métier pose une question La Direction veut augmenter le revenu sur ce produit : – “Pouvez-vous me dire quels clients actuels je dois contacter pour leur offrir ce produit avec mon prix spécial promotion ? “ La Production s’est aperçu que ce processus produits beaucoup plus de défauts que cet autre : – “Pouvez-vous me dire les caractéristiques de ces processus qui expliquent cet écart ? “ ■ … pour prendre une décision concernant une action à lancer z Ces questions sont liées aux objectifs stratégiques de l’entreprise ■ Le Plan Stratégique détaille les objectifs stratégiques de l’entreprise ■ Le Plan opérationnel liste Les actions prévues Les KPI - Key Performance Indicators - utilisés pour mesurer les résultats des actions z Aujourd’hui, les entreprises veulent industrialiser le processus de décision et contrôler leurs actions KXEN-Confidential 4 Comment décrire la question métier z Pour chaque question métier posée, il faut : ■ Comprendre le processus métier associé ■ Quelles sont les variables associées ■ Quel est le résultat attendu z Les variables d’entrée ■ Ou variables explicatives ■ Ou inputs ■ Doivent être disponibles z La cible ■ Ou variable expliquée ■ Ou output ■ Doit être mesurable ■ Et “actionnable” 3 KXEN-Confidential 5 Exemples de questions métier z Ciblage marketing ■ Propensité d’achat ■ Rétention ■ Push d’offres en temps réel z Segmentation ■ Segmentation clients ■ Segmentation offres z Crédit ■ Probabilité de défaut z Distribution ■ Prévision de revenu, de vente ■ Ventes co-occurrentes z Industrie ■ Prévision des défauts, ■ Nombre de pannes ■ Appels pour intervention ■ Pièces nécessaires KXEN-Confidential 6 Comment décrire la question métier z Le projet Data Mining vise donc à : ■ Exploiter les données existantes pour ■ Produire un modèle répondant à la question métier Le modèle fournit les éléments pour construire un Business Case ■ Exploiter le modèle pour réaliser une action ciblée z Exemple ■ Définir la cible d’une campagne marketing, i.e. la liste des personnes à contacter. ■ Le modèle donne une indication du retour attendu J’ai un budget de 100 000 € Mon modèle m’indique que en contactant 10 000 clients (ceux qui ont le meilleur score), je devrais obtenir un taux de retour de 12% Le retour net de ma campagne devrait donc être de 20 000 € (si chaque client qui répond me rapporte 100 €) 4 KXEN-Confidential 7 Agenda z La question métier z Données ■ Le processus données ■ Construire l’Analytical Data Set ■ Caractéristiques des données z Modèles z Evaluation des Techniques de Modélisation z Le modèle d’apprentissage statistique de V. Vapnik KXEN-Confidential 8 Le processus données z Les données sont à la base du data mining ■ No data, no model ! z Le processus de collecte de données est complexe : il faut ■ Identifier l’ensemble des sources de données ■ Mettre en place les mécanismes de collecte ■ Mettre les données en cohérence ■ Manipuler & transformer les données z … pour constituer le “Analytical Data Set” Data Mining Data Preparation Data Manipulation Data Access Mail e-mail POS Call Center Phone Fax SMS / MMS Web Analytical Data Set Customer Touch Points Production databases Legacy systems Files Data Access ODS Data Warehouse External Files 5 KXEN-Confidential 9 Le processus données Exemple Manipulation des données ÂBase clients telco Préparation des données ÂAnalytical Data Set Customer Id Last name First name Address Birth date Profession Education Local traffic Traffic to mobile Traffic to Internet Preferred mode Quality of payment Number of calls Duration of calls Mobile 1 2 3 4 … 128 Lion Leo S. 12 Baltimore Street 1975/02/2 9 Clown PhD 02:37:00 01:23:00 07:46:00 CC E 37 03:24:00 1 … … … … KXEN-Confidential 10 Le processus données Manipulation des données z Réconcilier les formats hétérogènes ■ Meta-données et référentiels z Rapprocher des labellés différents ■ Données internes & externes Préparation des données z Produire des données calculées ■ Agrégats ■ Variables calculées z Coder les variables ■ Binning ■ Regroupement de catégories … Data Preparation Analytical Data Set Data Warehouse Data Manipulation Data Access Data Access ODS 6 KXEN-Confidential 11 Construire l’Analytical Data Set Analytical Data Set : Représentation tabulaire des données z Une ligne représente une “observation” ■ Par exemple : un client z Une colonne représente une “variable” ■ Par exemple : âge, nom Autre termes pour "Observation" Autre termes pour "Variable" Ligne Colonne Exemple Attribut Table Champ Event Propriété Instance - Record - KXEN-Confidential 12 Construire l’Analytical Data Set Manipulation des données z Référentiel & meta-données ■ Les données sur les données Nom des variables, sens, format ■ Mapping des meta-données Noms de champs et types de formats d’input variés vers un format commun z Transformer les contenus de variables similaires vers un format commun unique ■ Consistence Ex : format “civilité, prénom, nom” z Jointures : de sources de données multiples z Filtrage des données z Règles métier ■ Ex : variables positives (“nb d’appels”), borné (“âge” < 150), dans un domaine (“sexe” dans {mâle, femelle} z Outliers ■ Détecté en fonction du dictionnaire, des règles et flaggé ■ Traité ensuite Data Manipulation Data Access Data Access ODS 7 KXEN-Confidential 13 Construire l’Analytical Data Set Préparation des données z Sélection des variables ■ Choisir les variables utiles z Définition de la cible z Les transformations “métier” ■ Champs calculés : produire de nouvelles variables à partir de variables existantes Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication z Codage : les transformations statistiques nécessaires pour un certain modèle ■ Changer les types de continu à nominal ou ordinal (binning ou regroupement de catégories) ■ Eclater une variable en plusieurs ou Regrouper plusieurs variables en une seule Représentation d’une variable multi-catégorie z Évaluer la qualité des données pour determiner ■ Les valeurs manquantes (blancs, espaces, nuls) ■ Les outliers ■ Les corrélations Data Preparation Analytical Data Set Data Warehouse KXEN-Confidential 14 Construire l’Analytical Data Set Qualité des données z Les données doivent être ■ Exactes : valeurs correctes ■ Non redondantes : doublons ■ Complètes : données “manquantes” “missing-rate” d’une variable : combien d’observations ne l’ont pas “filling-rate” d’une observation : combien de variables sont remplies z Traitement des données “manquantes” 1. Éliminer toutes les lignes non remplies complètement On risque d’éliminer beaucoup de lignes ! 2. Remplacer les données manquantes par des valeurs calculées Variable nominale : catégorie la plus fréquente, Variable continue : moyenne 3. Créer une classe spéciale Voir Démo KXEN 8 KXEN-Confidential 15 Caractéristiques des données z Chaque variable a 3 caractéristiques : 1. Type Continue Ordinal : variables discrètes (numérique ou texte) dont l’ordre a un sens Nominal : variables discrètes dont l’ordre n’a pas de sens – Numérique : binaire (0 ou 1), codes postaux (75 013, 92 125 …) – Texte : chaînes de caractères sans ordre (CC –carte crédit, CH –chèque, RA – retrait automatique) 2. Format de stockage Date Number String Le format de stockage … est utilisé pour décrire des variables quand leur valeur correspond à … Par exemple ... date Dates exprimées dans les formats : AAAA-MM-JJ, AAAA/MM/JJ Variable date de naissance "2001-11-30", "1999/04/28" number Nombres sur lesquels on peut faire des opérations Variable "Salaire", en dollars US : "1000", "1593" et "2000,54" Variable "Age", en années "21", "34" et "99" string Chaîne de caractères alpha-numérique Variable "Nom de famille": "Lion", "Martin" et "Miller" Variable "Numéro de téléphone "800 555 1234" et "800 555 4321" Variable "Profession": "professeur", "ingénieur" et "clown" KXEN-Confidential 16 Caractéristiques des données z Chaque variable a 3 caractéristiques : 3. Rôle Le rôle de la variable dans le projet Le rôle peut changer dans un autre projet Rôle de la variable Autres termes Cible Variable expliquée Variable dépendante Output Explicative Variable causale Variable indépendante Input Exclue Skip Poids * 9 KXEN-Confidential 17 Un exemple : le problème “census” Variables skip integer continuous KxIndex target 0 number nominal class input 857 string nominal native-country input 0 number continuous hours-per-week input 0 number continuous capital-loss input 244 number continuous capital-gain input 0 string nominal sex input 0 string nominal race input 0 string nominal relationship input 2 809 string nominal occupation input 0 string nominal marital-status input 0 number ordinal education-num input 0 string nominal education input 0 number continuous fnlwgt input 2 799 string nominal workclass input 0 number continuous age Rôle Nombre de manquant Stockage Valeur Variable uploads/Industriel/ 06-datamining-kxen-2.pdf
Documents similaires










-
33
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Apv 22, 2022
- Catégorie Industry / Industr...
- Langue French
- Taille du fichier 1.0300MB