24/12/2015 1 Entrepôts de données Année 2015-2016 Jérôme Darmont http://eric.un

24/12/2015 1 Entrepôts de données Année 2015-2016 Jérôme Darmont http://eric.univ-lyon2.fr/~jdarmont/ Actualités du cours Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 1 http://eric.univ-lyon2.fr/~jdarmont/?page_id=2519 http://eric.univ-lyon2.fr/~jdarmont/?feed=rss2 https://twitter.com/darmont_lyon2 hashtag #edemse Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 2 Plan du cours  Introduction : le processus décisionnel  Modélisation conceptuelle des entrepôts  Modélisation logique des entrepôts  Mise en œuvre d’un entrepôt de données  Analyse en ligne (OLAP) BI or not BI?  Informatique décisionnelle (business intelligence) : à l’usage des décideurs  Accéder rapidement et simplement aux informations stratégiques  Donner du sens aux données  Donner une vision transversale des données d’une organisation  Extraire, grouper, organiser, agréger corréler les données Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 3 Qui sont mes meilleurs clients ? Quelle est l’évolution du taux d’occupation des chambres ? Quelle est l’efficacité des politiques publiques en matière d’écologie ? Problématique  Données disponibles  Volumineuses  Hétérogènes  Très détaillées Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 4  Traitement  Synthétiser/résumer  Visualiser  Analyser  Utilisateurs  Non informaticiens  Non statisticiens Système d’information décisionnel Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 5 www.rhpsoft.com Décision 24/12/2015 2 Entrepôt de données, la définition Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 6 Un entrepôt de données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. W.H. Inmon, 1991 Orientées sujet Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 7  Agrégation des informations de différents métiers  Pas de prise en compte de l’organisation fonctionnelle des données Lydie Soler, AgroParisTech/INRA Intégrées Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 8 Lydie Soler, AgroParisTech/INRA Non volatiles Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 9 Lydie Soler, AgroParisTech/INRA Base de données opérationnelle Entrepôt de données On Line Transaction Processing vs. On Line Analytical Processing Historisées Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 10 Lydie Soler, AgroParisTech/INRA Base de données opérationnelle Entrepôt de données Processus d’entreposage de données Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 11 www.kahassoc.com 24/12/2015 3 Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 12 Plan du cours  Introduction : le processus décisionnel  Modélisation conceptuelle des entrepôts  Modélisation logique des entrepôts  Mise en œuvre d’un entrepôt de données  Analyse en ligne (OLAP) Métaphore du cube de données Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 13  Fait : sujet d’analyse  Ensemble de mesures  Dimensions : axes d’analyse docs.oracle.com Produit Localisation Temps Hiérarchie de dimension Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 14 docs.oracle.com Hiérarchies multiples Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 15 Elsa Nègre, Université Paris Dauphine Attributs de dimensions Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 16 DIM PRODUIT Nom Type Gamme  Paramètres  Définissent les niveaux hiérarchiques  Attribut faibles  Descriptifs DIM PRODUIT Nom Type Gamme Prix unitaire Couleur Schéma en étoile Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 17 DIM PRODUIT Nom Type Gamme Prix unitaire Couleur DIM LOCALISATION Ville Région Pays DIM TEMPS Jour Mois Trimestre Année FAIT VENTE Chiffre d’affaire Modèle dénormalisé + Limitation des jointures - Redondance 24/12/2015 4 Schéma en flocon de neige Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 18 H VILLE H REGION H JOUR FAIT VENTE H PAYS H MOIS H TRIM. H ANNEE H PRODUIT H TYPE H GAMME Schéma en constellation Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 19 DIM LOCALISATION DIM TEMPS FAIT VENTE DIM PRODUIT FAIT PRIX DIM VENDEUR FAIT SAL. Modèle multidimensionnel de Rizzi et Golfarelli Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 20 Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 21 Plan du cours  Introduction : le processus décisionnel  Modélisation conceptuelle des entrepôts  Modélisation logique des entrepôts  Mise en œuvre d’un entrepôt de données  Analyse en ligne (OLAP) Quelle approche pour l’OLAP ? Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 22 olap.com/which-olap-is-best/ Approche ROLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 23  Relational OLAP : Stockage de l’entrepôt dans une base de données relationnelle  Faits, dimensions ou niveaux hiérarchiques : tables  Analyse OLAP : requêtes SQL99 (GROUP BY CUBE…)  Avantages  Facilité et faible coût de mise en œuvre  Stockage de gros volumes de données  Evolution facile  Inconvénients  Performance (jointures)  Reformatage nécessaire des résultats pour les utilisateurs finaux SQL 24/12/2015 5 Étoile ROLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 24  DIM_PRODUIT(IDproduit, Nom, Type, Gamme, PrixUnitaire, Couleur)  DIM_LOCALISATION(IDloc, Ville, Région, Pays)  DIM_TEMPS(IDtemps, Jour, Mois, Trimestre, Année)  FAIT_VENTE(IDproduit#, IDloc#, IDtemps#, ChiffreAffaire) Flocon ROLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 25  H_PRODUIT(IDproduit, Nom, PrixUnitaire, Couleur, IDtype#)  H_TYPE(IDtype, NomType, IDgamme#  H_GAMME(IDgamme, NomGamme)  H_VILLE(IDville, NomVille, IDrégion#)  H_REGION(IDrégion, NomRégion, IDpays#)  H_PAYS(IDpays, NomPays)  H_JOUR(IDjour, Jour, IDmois#)  H_MOIS(IDmois, Mois, IDtrim#)  H_TRIMESTRE(IDtrim, Trimestre, IDannée#)  H_ANNEE(IDannée, Année)  FAIT_VENTE(IDproduit#, IDville#, IDjour#, Chiffre_affaire) DIM_PRODUIT DIM_LOCALISATION DIM_TEMPS Index binaires Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 26 ID Titre Année Genre 1 Brazil 1984 Science Fiction 2 Underground 1995 Drame 3 Easy Rider 1969 Drame 4 Psychose 1960 Drame 5 Annie Hall 1977 Comédie 6 Jurasic Park 1992 Science Fiction 7 Metropolis 1926 Science Fiction 8 Manhattan 1979 Comédie 9 Smoke 1995 Comédie Index binaire sur l’attribut Genre N-uplet 9 8 7 6 5 4 3 2 1 Science Fiction 0 0 1 1 0 0 0 0 1 Drame 0 0 0 0 0 1 1 1 0 Comédie 1 1 0 0 1 0 0 0 0 Relation Film Index binaires et entrepôts  Avantages  Faible coût de stockage  Rapides en lecture, pas d’accès aux données pour :  Requêtes de comptage  Opérations bits à bits  Inconvénient  Peu performants si mises à jour nombreuses  Rafraîchissement des index Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 27 Opérations sur index binaires Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 28 N-uplet 9 8 7 6 5 4 3 2 1 Science Fiction 0 0 1 1 0 0 0 0 1 Drame 0 0 0 0 0 1 1 1 0 Comédie 1 1 0 0 1 0 0 0 0 N-uplet 9 8 7 6 5 4 3 2 1 Comédie 1 1 0 0 1 0 0 0 0 1995 1 0 0 0 0 0 0 1 0 AND 1 0 0 0 0 0 0 0 0  Nombre de comédies Compter le nombre de 1 dans le bitmap associé  Nombre de comédies en 1995 AND entre les deux bitmaps correspondants et comptage Vues matérialisées Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 29 Hector Garcia-Molina, Stanford Problématique : que matérialiser ? 24/12/2015 6 Fragmentation (horizontale dérivée) Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 30 DIM1 DIM2 FAITS P3 P2 P1 P4 P1.1 P1.2 P2.1 P2.2 P2.3 Approche MOLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 31  Muldidimensional OLAP : Stockage natif des cubes dans des tableaux multidimensionnels  Avantage  Calculs d’agrégats rapides  Inconvénients  Difficulté de mise en œuvre, systèmes majoritairement propriétaires  Volume de données limité  Problème d’éparsité des cubes  Redondance des données avec l’entrepôt source  Rafraîchissement limité (reconstruction périodique complète) www.wikixbrl.info Compression de cube Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 32 Yannis Sismanis et al., 1992 Approche HOLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 33  Hybrid OLAP :  Stockage de l’entrepôt dans une base de données relationnelle  Stockage des données agrégées dans des cubes MOLAP  Avantages  Bon compromis coût/performance sur de gros volumes de données  Exploite les fonctionnalités de SQL  Cube connecté à l’entrepôt relationnel  Inconvénients  Difficulté de mise en œuvre  Pas aussi rapide que MOLAP  Passage à l’échelle moins facile qu’en ROLAP Approche HTAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 34  Hybrid Transaction / Analytical Processing :  SGBD en mémoire vive  Traitements OLTP et OLAP simultanés  Avantages  Calcul distribué rapide des requêtes  Pas de redondance des données  Informations transactionnelles rendues disponibles rapidement dans les modèles décisionnels  Unification des tables relationnelles et des modèles décisionnels  Inconvénient  Modification drastique des architectures décisionnelles 2014 Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 35 Plan du cours  Introduction : le processus décisionnel  Modélisation conceptuelle des entrepôts  Modélisation logique des entrepôts  Mise en œuvre d’un entrepôt de données  Analyse en ligne (OLAP) 24/12/2015 7 Approche top-down (Inmon) Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 36  Conception intégrale de l’entrepôt a priori  Magasins de données (datamarts) extraits de l’entrepôt  Avantages  Vision conceptuelle globale de l’entrepôt  Architecture intégrée  Normalisation des données, absence de redondance  Inconvénients  Difficulté de mise en œuvre  Manque d’évolutivité Approche bottom-up (Kimball) Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 37  Construction incrémentale de l’entrepôt  L’entrepôt de données est une union de magasins de données  Notion de bus décisionnel et de dimensions conformes  Avantages  Simplicité de mise en œuvre  Résultats rapides  Inconvénient  Problèmes d’intégration des magasins de données Schémas multidimensionnels, magasin de données Cycle de vie d’un entrepôt Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 38 holowczak.com Alimentation de l’entrepôt Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 39 Extract, Transform, Load www.imc.com Extraction Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 40  Sources de données variées  Bases de données opérationnelles  Fichiers  Logs  Web…  Stratégies de rafraîchissement de l’entrepôt  Push : déclencheurs dans les sources  Pull : requêtage des sources  Périodicité du rafraîchissement  Contrainte : ne pas perturber les opérations OLTP Transformation Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 41  Unification des données  Noms des uploads/Geographie/ emse-ed-unprotected.pdf

  • 27
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager