Systèmes d’information décisionnels (Data Warehouse / Data Mining) E. GRISLIN-L
Systèmes d’information décisionnels (Data Warehouse / Data Mining) E. GRISLIN-LE STRUGEON Université de Valenciennes, ISTV Emmanuelle.Grislin@univ-valenciennes.fr D. DONSEZ Université Joseph Fourier, IMA Didier.Donsez@imag.fr 1996-2006 http://www-adele.imag.fr/~donsez/cours 222 <#> Plan 1. Introduction » Problématique- Le Système d’Information - La Suite Décisionnelle 2. L’Entrepôt de Données » Extraction des données - Constitution de l’entrepôt - Modélisation 3. Les Bases Multidimensionnelles » Analyse multidimensionnelle - OLAP - Data Marts 4. La Restitution des Informations » Data Mining 5. La Gestion de Projet Data Warehouse 6. Les outils 7. Perspectives du Data Warehouse 8. Conclusion et Bibliographie 333 <#> 1. Introduction - Problématique Objectif » Améliorer les performances décisionnelles de l'entreprise Comment ? » en répondant aux demandes d’analyse des décideurs Exemple » clientèle : Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les conserver ou les faire revenir ? Ces clients sont-ils intéressants pour moi ? » marketing, actions commerciales : Où placer ce produit dans les rayons ? Comment cibler plus précisément le mailing concernant ce produit ? » ... 444 <#> 1. Introduction - Problématique Une grande masse de données : » Distribuée » Hétérogène » Très Détaillée A traiter : » Synthétiser / Résumer » Visualiser » Analyser Pour une utilisation par : » des experts et des analystes d'un métier » NON informaticiens » NON statisticiens 555 <#> 1. Introduction - Le système d’information Moyen d’atteindre ces objectifs : Le Data Warehouse, un système d’information dédié aux applications décisionnelles En Aval des bases de production (ie bases opérationnelles) En Amont des prises de décision » basé sur des indicateurs (Key Business Indicators (KBI)) 666 <#> 1. Introduction - La Suite Décisionnelle Bases de Production Entrepôt de Données (Data Warehouse) Base MultiDimensionnelle Prédiction / Simulation Prise de Décision 777 <#> 1. Introduction - Utilisation Mailing » amélioration du taux de réponse Banque, Assurance » déterminer les profils client Risque d'un Prêt, Prime plus précise Commerce » ciblage de clientèle » déterminer les promotions » aménagement des rayons (2 produits en corrélation) 888 <#> 1. Introduction - Utilisation Logistique » adéquation demande / production Santé » épidémiologie (VIH, Amiante, ...) Econométrie » prédiction de trafic autoroutier Ressources Humaines » adéquation activité / personnel 999 <#> Déclinaisons métiers du Décisionnel SPM (Strategic Performance Management) » Déterminer et contrôler les indicateurs clé de la performance de l’entreprise FI (Finance Intelligence) » Planifier, analyse et diffuser l’information financière. Mesurer et gérer les risques. HCM (Human Capital Management) » Aligner les stratégies RH, les processus et les technologies. Modéliser la carte des RH (Ressources Humaines) CRM (Customer Relationship Management) » Améliorer la connaissance client, Identifier et prévoir la rentabilité client. Accroître l’efficacité du marketing client. SRM (Supplier Relationship Management) » Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat. 101010 <#> D’après une enquête de l’IDC auprès de 45 organisations ayant un Data Warehouse en fonctionnement (fin 1995-1996) : » 90% des entreprises ont un RSI au moins égal à 40% » 50% ont un RSI supérieur à 160% » 25% ont un RSI supérieur à 600% 1. Introduction - RSI Retour sur investissement du datawarehousing 0 5 10 15 20 3−49 50−99 100−199 200−499 500−999 ≥1000 Retour sur investissement (%) Organisations (%) RSI moyen = 401% RSI médian = 167% 111111 <#> 1. Introduction - Rentabilisation Durée de rentabilisation du data warehouse 0 10 20 30 40 0−1 1−2 1−3 ≥5 Période de rentabilisation (années) Organisations (%) 121212 <#> 1. Introduction - Rentabilisation Constat: orientation marché (client, techno, produit) » Stratégies proactive meilleur que des stratégies réactives » Cf livre de David Gotteland 131313 <#> 2. L'Entrepôt de Données (Data Warehouse) Définition de Bill Inmon (1996) «Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Principe » Base de Données utilisée à des fins d’analyse. » Caractéristiques : orientation sujets («métiers») données intégrées données non volatiles données datées 141414 <#> 2. L'Entrepôt de Données (Data Warehouse) Objectif » Retrouver une information historique et transversale à l’entreprise Data Warehouse BD Prod Service Commercial BD Prod Service Financier BD Prod Service Livraison Clientèle Clientèle Historique Données réparties Vue «au-jour-le- jour» Recoupements d’informations Vue sur l’évolution des informations Comment »Fédérer/Regrouper l'ensemble des données de l'entreprise 151515 <#> 2. DW - OLTP versus DW Bases de Production ( OLTP ) Entrepôt de Données (DW) Données •atomiques •orienté application •à jour •dynamiques •résumés •orienté sujet •historiques •statiques Utilisateurs •employés de bureau •nombreux •concurrents •mises à jour •requêtes prédéfinies •réponses immédiates •accès à peu de données •analystes •peu •non concurrents •interrogations •requêtes "one-use" •réponses moins rapides •accès à beaucoup d’information 161616 <#> 2. DW - OLTP DW Données de production : » SGBD et supports physiques hétérogènes » Qualité inégale des données » Représentations hétérogènes Objectif d’obtention de données : » centralisées » fiables » interprétables 171717 <#> Extraction Transformation filtrer trier homogénéiser nettoyer ... Chargement (Loading) 2. DW - Alimentation (ETL) du DW 181818 <#> m,f 1,0 male, female FRF USD EUR char(10) dec(13,2) numeric(7) m,f EUR numeric(10) intégration des données 2. DW - Transformations 191919 <#> DW - Transformation Existence de plusieurs sources non conformité des représentations découpages géographiques différents codage des couleurs identification des produits différents produits en vrac difficulté de comparaison des sources de données Mise en conformité nécessaire Secteur Nord Secteur Est Secteur Sud Secteur Ouest Prune Violet 202020 <#> 2. DW - Constitution de l'entrepôt Extraction des données » Besoin d’outils spécifiques pour : accéder aux bases de production (requêtes sur des BD hétérogènes) améliorer la qualité des données : «nettoyer», filtrer, ... transformer les données : intégrer, homogénéiser dater systématiquement les données Référentiel » La métabase contient des métadonnées : des données sur les données du D.W. quelles sont les données «entreposées», leur format, leur signification, leur degré d’exactitude les processus de récupération/extraction dans les bases sources la date du dernier chargement de l’entrepôt l’historique des données sources et de celles de l’entrepôt Méthodologie : sera vu plus loin 212121 <#> 2. DW - Stockage Optimisation » besoin de synthèse agrégation des données vs » besoin de détails conservation des données détaillées Notion de granularité Structures » directe simple » cumul simple » résumés roulants : structure généralement choisie 222222 <#> 2. DW - Stockage Structure directe simple • pas d’accumulation • rafraîchissement sur une longue période JANVIER 2003 J Adams 123 Main Street P. Anderson 456 High Street K Appleby 10 A Street L Azimoff 64 N Ranch Rd ....................... FEVRIER 2003 J Adams 123 Main Street K Appleby 10 A Street L Azimoff 64 N Ranch Rd W Abraham12 Hwy 9 J Adams Jan-pres123 Main street W Abraham Feb-pres12 Hwy 9 P. Anderson Jan-Jan 456 High Street ............................. 232323 <#> 2. DW - Stockage Structure de cumul simple Jan 1 Jan 2 Jan 3 ... Fev 1 Fev 2 Fev 3 ... Mar 1 Mar 2 Mar 3 ... • Espace de stockage important • Pas de perte de détail 242424 <#> 2. DW - Stockage Structure par résumés roulants jour 1 jour 2 jour 7 sem 1 sem 2 sem 4 mois 1 mois 2 mois 12 année 1année 2 année n • très compact • perte d’information • plus l’information vieillit, moins elle est détaillée ... ... ... ... 252525 <#> 2. DW - Modélisation Schéma entités-relations (classique) Schéma en étoile (star schema) Schéma en flocon (snowflake schema) » tables de faits : nombreux champs, tables centrales » dimensions : peu de champs, permettent d’interpréter les faits 262626 <#> 2. DW - Schéma «étoile» clé_date jour mois trimestre année id: clé_date acc Dimension Temps description référence catégorie branche id: référence acc Dimension Produit département numero vendeur id: numero vendeur acc Dimension Commercial clé_date référence numero vendeur montant unités ref: numero vendeur acc ref: référence acc ref: clé_date acc VENTES 272727 <#> 2. DW - Schéma «flocon» numero dpt id: numero dpt acc Département numero dpt numero vendeur Nom id: numero vendeur acc ref: numero dpt acc Vendeur réf branche id: réf branche acc Branche réf branche réf catégorie id: réf catégorie acc ref: réf branche acc Catégorie réf catégorie description réf produit id: réf produit acc ref: réf catégorie acc Produit clé_date réf produit numero vendeur montant unités ref: numero vendeur acc ref: réf produit acc ref: clé_date acc VENTES clé_date jour mois trimestre année id: clé_date acc Dimension Temps 282828 <#> 2. DW - Rappel sur les Aggrégats Exemple de BD » Produit(GENCOD, Designation, Marque, Nature, PrixAchat, PrixReventeConseille) » Vente (GENCOD, NMAG, Date, Qte, PrixVente) » Magasin(NMAG, Enseigne, Adresse, Ville, Dept) » Nat2Cat(Nature, Categorie) » Cat2Ray(Categorie, Rayonnage) » Dep2Reg(Dept, Region) Exercice » Donnez les clés primaires et les clés étrangères 292929 <#> 2. DW - Questions et Requêtes Montant totale des ventes par ville et par uploads/Management/ presentation-detaillee-univ-valenciennes-systeme-d-info-decisionnels.pdf
Documents similaires
-
104
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 15, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.3649MB