24/12/2015 1 Entrepôts de données Année 2015-2016 Jérôme Darmont http://eric.un
24/12/2015 1 Entrepôts de données Année 2015-2016 Jérôme Darmont http://eric.univ-lyon2.fr/~jdarmont/ Actualités du cours Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 1 http://eric.univ-lyon2.fr/~jdarmont/?page_id=2519 http://eric.univ-lyon2.fr/~jdarmont/?feed=rss2 https://twitter.com/darmont_lyon2 hashtag #edemse Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 2 Plan du cours Introduction : le processus décisionnel Modélisation conceptuelle des entrepôts Modélisation logique des entrepôts Mise en œuvre d’un entrepôt de données Analyse en ligne (OLAP) BI or not BI? Informatique décisionnelle (business intelligence) : à l’usage des décideurs Accéder rapidement et simplement aux informations stratégiques Donner du sens aux données Donner une vision transversale des données d’une organisation Extraire, grouper, organiser, agréger corréler les données Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 3 Qui sont mes meilleurs clients ? Quelle est l’évolution du taux d’occupation des chambres ? Quelle est l’efficacité des politiques publiques en matière d’écologie ? Problématique Données disponibles Volumineuses Hétérogènes Très détaillées Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 4 Traitement Synthétiser/résumer Visualiser Analyser Utilisateurs Non informaticiens Non statisticiens Système d’information décisionnel Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 5 www.rhpsoft.com Décision 24/12/2015 2 Entrepôt de données, la définition Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 6 Un entrepôt de données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. W.H. Inmon, 1991 Orientées sujet Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 7 Agrégation des informations de différents métiers Pas de prise en compte de l’organisation fonctionnelle des données Lydie Soler, AgroParisTech/INRA Intégrées Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 8 Lydie Soler, AgroParisTech/INRA Non volatiles Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 9 Lydie Soler, AgroParisTech/INRA Base de données opérationnelle Entrepôt de données On Line Transaction Processing vs. On Line Analytical Processing Historisées Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 10 Lydie Soler, AgroParisTech/INRA Base de données opérationnelle Entrepôt de données Processus d’entreposage de données Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 11 www.kahassoc.com 24/12/2015 3 Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 12 Plan du cours Introduction : le processus décisionnel Modélisation conceptuelle des entrepôts Modélisation logique des entrepôts Mise en œuvre d’un entrepôt de données Analyse en ligne (OLAP) Métaphore du cube de données Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 13 Fait : sujet d’analyse Ensemble de mesures Dimensions : axes d’analyse docs.oracle.com Produit Localisation Temps Hiérarchie de dimension Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 14 docs.oracle.com Hiérarchies multiples Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 15 Elsa Nègre, Université Paris Dauphine Attributs de dimensions Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 16 DIM PRODUIT Nom Type Gamme Paramètres Définissent les niveaux hiérarchiques Attribut faibles Descriptifs DIM PRODUIT Nom Type Gamme Prix unitaire Couleur Schéma en étoile Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 17 DIM PRODUIT Nom Type Gamme Prix unitaire Couleur DIM LOCALISATION Ville Région Pays DIM TEMPS Jour Mois Trimestre Année FAIT VENTE Chiffre d’affaire Modèle dénormalisé + Limitation des jointures - Redondance 24/12/2015 4 Schéma en flocon de neige Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 18 H VILLE H REGION H JOUR FAIT VENTE H PAYS H MOIS H TRIM. H ANNEE H PRODUIT H TYPE H GAMME Schéma en constellation Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 19 DIM LOCALISATION DIM TEMPS FAIT VENTE DIM PRODUIT FAIT PRIX DIM VENDEUR FAIT SAL. Modèle multidimensionnel de Rizzi et Golfarelli Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 20 Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 21 Plan du cours Introduction : le processus décisionnel Modélisation conceptuelle des entrepôts Modélisation logique des entrepôts Mise en œuvre d’un entrepôt de données Analyse en ligne (OLAP) Quelle approche pour l’OLAP ? Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 22 olap.com/which-olap-is-best/ Approche ROLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 23 Relational OLAP : Stockage de l’entrepôt dans une base de données relationnelle Faits, dimensions ou niveaux hiérarchiques : tables Analyse OLAP : requêtes SQL99 (GROUP BY CUBE…) Avantages Facilité et faible coût de mise en œuvre Stockage de gros volumes de données Evolution facile Inconvénients Performance (jointures) Reformatage nécessaire des résultats pour les utilisateurs finaux SQL 24/12/2015 5 Étoile ROLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 24 DIM_PRODUIT(IDproduit, Nom, Type, Gamme, PrixUnitaire, Couleur) DIM_LOCALISATION(IDloc, Ville, Région, Pays) DIM_TEMPS(IDtemps, Jour, Mois, Trimestre, Année) FAIT_VENTE(IDproduit#, IDloc#, IDtemps#, ChiffreAffaire) Flocon ROLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 25 H_PRODUIT(IDproduit, Nom, PrixUnitaire, Couleur, IDtype#) H_TYPE(IDtype, NomType, IDgamme# H_GAMME(IDgamme, NomGamme) H_VILLE(IDville, NomVille, IDrégion#) H_REGION(IDrégion, NomRégion, IDpays#) H_PAYS(IDpays, NomPays) H_JOUR(IDjour, Jour, IDmois#) H_MOIS(IDmois, Mois, IDtrim#) H_TRIMESTRE(IDtrim, Trimestre, IDannée#) H_ANNEE(IDannée, Année) FAIT_VENTE(IDproduit#, IDville#, IDjour#, Chiffre_affaire) DIM_PRODUIT DIM_LOCALISATION DIM_TEMPS Index binaires Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 26 ID Titre Année Genre 1 Brazil 1984 Science Fiction 2 Underground 1995 Drame 3 Easy Rider 1969 Drame 4 Psychose 1960 Drame 5 Annie Hall 1977 Comédie 6 Jurasic Park 1992 Science Fiction 7 Metropolis 1926 Science Fiction 8 Manhattan 1979 Comédie 9 Smoke 1995 Comédie Index binaire sur l’attribut Genre N-uplet 9 8 7 6 5 4 3 2 1 Science Fiction 0 0 1 1 0 0 0 0 1 Drame 0 0 0 0 0 1 1 1 0 Comédie 1 1 0 0 1 0 0 0 0 Relation Film Index binaires et entrepôts Avantages Faible coût de stockage Rapides en lecture, pas d’accès aux données pour : Requêtes de comptage Opérations bits à bits Inconvénient Peu performants si mises à jour nombreuses Rafraîchissement des index Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 27 Opérations sur index binaires Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 28 N-uplet 9 8 7 6 5 4 3 2 1 Science Fiction 0 0 1 1 0 0 0 0 1 Drame 0 0 0 0 0 1 1 1 0 Comédie 1 1 0 0 1 0 0 0 0 N-uplet 9 8 7 6 5 4 3 2 1 Comédie 1 1 0 0 1 0 0 0 0 1995 1 0 0 0 0 0 0 1 0 AND 1 0 0 0 0 0 0 0 0 Nombre de comédies Compter le nombre de 1 dans le bitmap associé Nombre de comédies en 1995 AND entre les deux bitmaps correspondants et comptage Vues matérialisées Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 29 Hector Garcia-Molina, Stanford Problématique : que matérialiser ? 24/12/2015 6 Fragmentation (horizontale dérivée) Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 30 DIM1 DIM2 FAITS P3 P2 P1 P4 P1.1 P1.2 P2.1 P2.2 P2.3 Approche MOLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 31 Muldidimensional OLAP : Stockage natif des cubes dans des tableaux multidimensionnels Avantage Calculs d’agrégats rapides Inconvénients Difficulté de mise en œuvre, systèmes majoritairement propriétaires Volume de données limité Problème d’éparsité des cubes Redondance des données avec l’entrepôt source Rafraîchissement limité (reconstruction périodique complète) www.wikixbrl.info Compression de cube Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 32 Yannis Sismanis et al., 1992 Approche HOLAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 33 Hybrid OLAP : Stockage de l’entrepôt dans une base de données relationnelle Stockage des données agrégées dans des cubes MOLAP Avantages Bon compromis coût/performance sur de gros volumes de données Exploite les fonctionnalités de SQL Cube connecté à l’entrepôt relationnel Inconvénients Difficulté de mise en œuvre Pas aussi rapide que MOLAP Passage à l’échelle moins facile qu’en ROLAP Approche HTAP Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 34 Hybrid Transaction / Analytical Processing : SGBD en mémoire vive Traitements OLTP et OLAP simultanés Avantages Calcul distribué rapide des requêtes Pas de redondance des données Informations transactionnelles rendues disponibles rapidement dans les modèles décisionnels Unification des tables relationnelles et des modèles décisionnels Inconvénient Modification drastique des architectures décisionnelles 2014 Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 35 Plan du cours Introduction : le processus décisionnel Modélisation conceptuelle des entrepôts Modélisation logique des entrepôts Mise en œuvre d’un entrepôt de données Analyse en ligne (OLAP) 24/12/2015 7 Approche top-down (Inmon) Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 36 Conception intégrale de l’entrepôt a priori Magasins de données (datamarts) extraits de l’entrepôt Avantages Vision conceptuelle globale de l’entrepôt Architecture intégrée Normalisation des données, absence de redondance Inconvénients Difficulté de mise en œuvre Manque d’évolutivité Approche bottom-up (Kimball) Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 37 Construction incrémentale de l’entrepôt L’entrepôt de données est une union de magasins de données Notion de bus décisionnel et de dimensions conformes Avantages Simplicité de mise en œuvre Résultats rapides Inconvénient Problèmes d’intégration des magasins de données Schémas multidimensionnels, magasin de données Cycle de vie d’un entrepôt Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 38 holowczak.com Alimentation de l’entrepôt Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 39 Extract, Transform, Load www.imc.com Extraction Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 40 Sources de données variées Bases de données opérationnelles Fichiers Logs Web… Stratégies de rafraîchissement de l’entrepôt Push : déclencheurs dans les sources Pull : requêtage des sources Périodicité du rafraîchissement Contrainte : ne pas perturber les opérations OLTP Transformation Entrepôts de données http://eric.univ-lyon2.fr/~jdarmont/ 41 Unification des données Noms des uploads/Geographie/ emse-ed-unprotected.pdf
Documents similaires










-
27
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Apv 11, 2021
- Catégorie Geography / Geogra...
- Langue French
- Taille du fichier 2.2270MB