1 TD n°1 – Intégration et qualité des données Master MSI Intégration des donnée

1 TD n°1 – Intégration et qualité des données Master MSI Intégration des données - ETL Exercice 1 Dans cette exercice, nous utilisions la base de donnée Soucouf étudié dans le cours SGBD. L'entreprise Soucouf est une PME vendant du matériel et des livres informatiques à une clientèle constituée essentiellement d'entreprises. Soucouf comporte cinq agences (magasins) dans la région grenobloise et gère les stocks de ces agences dans un unique dépôt. Le système d'information étudié dans le cadre de ce TD concerne la gestion commerciale de Soucouf. Il est résumé ci-dessous. Modèle entité-association Dictionnaire des données Attribut Signification Domaine CLIENTID N° du client entier NOMCLI Nom du client chaîne(50) ADRCLI Adresse du client chaîne(250) CPCLI Code postal du client chaîne(10) VILLECLI Ville du client chaîne(50) TELCLI N° de tel. du client chaîne(20) AGENCEID N° de l'agence entier NOMAGENCE Nom de l'agence chaîne(50) COMMANDEID N° de la commande entier DATECOM Date de la commande date FACTUREID N° de la facture entier DATEFACT Date de la facture date DATEREGLE Date du règlement de la facture date MODEREGLE Mode de règlement de la facture chaîne(20) TAUXID N° du taux de TVA entier TAUX Valeur du taux de TVA réel PRODUITID N° de référence du produit entier DESIGN Désignation du produit chaîne(50) FAMILLEID N° de la famille de produit entier LIBFAM Libellé de la famille de produit chaîne(50) QTE Quantité de produits sur la commande entier CATALOGUEID N° du catalogue entier DATEDEBUT Date de début de validité du catalogue date DATEFIN Date de fin de validité du catalogue date PRIXHT Prix HT du produit sur le catalogue réel 0,1 1,1 0,n 1,n 1,n 1,1 0,n 1,n 1,1 1,1 0,n CLIENT CLIENTID NOMCLI ADRCLI CPCLI VILLECLI TELCLI FACTURE FACTUREID DATEFACT DATEREGLE MODEREGLE COMMANDE COMMANDEID DATECOM PRODUIT PRODUITID DESIGN PASSE CONTIENT QTE CATALOGUE CATALOGUEID DATEDEBUT DATEFIN COUTE PRIXHT SOLDE TVA TAUXID TAUX A TAUX APPARTIENT FAMILLE FAMILLEID LIBFAM 1,1 0,n 0,n AGENCE AGENCEID NOMAG TRAITE 0,1 1,1 0,n 1,n 1,n 1,1 0,n 1,n 1,1 1,1 0,n CLIENT CLIENTID NOMCLI ADRCLI CPCLI VILLECLI TELCLI FACTURE FACTUREID DATEFACT DATEREGLE MODEREGLE COMMANDE COMMANDEID DATECOM PRODUIT PRODUITID DESIGN PASSE CONTIENT QTE CATALOGUE CATALOGUEID DATEDEBUT DATEFIN COUTE PRIXHT COUTE PRIXHT SOLDE TVA TAUXID TAUX A TAUX APPARTIENT APPARTIENT FAMILLE FAMILLEID LIBFAM FAMILLE FAMILLEID LIBFAM 1,1 0,n 0,n AGENCE AGENCEID NOMAG TRAITE 2 Modèle relationnel CLIENT(CLIENTID, NOMCLI, ADRCLI, CPCLI, VILLECLI, TELCLI) AGENCE(AGENCEID, NOMAGENCE) COMMANDE(COMMANDEID, DATECOM, CLIENTID, AGENCEID) FACTURE(FACTUREID, DATEFACT, DATEREGLE, MODEREGLE, COMMANDEID) TVA(TAUXID, TAUX) FAMILLE(FAMILLEID, LIBFAM) PRODUIT(PRODUITID, DESIGN, FAMILLEID, TAUXID) CATALOGUE(CATALOGUEID, DATEDEBUT, DATEFIN) COUTE(CATALOGUEID, PRODUITID, PRIXHT) CONTIENT(COMMANDEID, PRODUITID, QTE) On a conçu un entrepôt de données avec le schéma en étoile suivant : On veut utiliser la base de données transactionnelle soucouf-OLTP (la base de données relationnelles), fournie, pour remplir l’entrepôt de données de SOUCOUF. a. Constituer la table de correspondance entre le schéma transactionnel et le schéma en étoile, en spécifiant clairement les transformations à réaliser. b. Analyser le contenu des tables CLIENT et COMMANDE et indiquez la liste des opérations de nettoyage de données qui devront être opérées pour pouvoir charger ces tables dans l’entrepôt. c. A partir d’un fichier CSV (claendrier.csv) réaliser l’alimentation de la table CALENDRER de l’entrepôt (créer un Job)  : Attention aux différences entre l’organisation de données dans ce fichier et l’organisation dans la table CCALENDRIER. d. A partir d’un fichier CSV (departement.csv) et de la table client du Soucouf, créer un job pour alimenter la table CLIENT de l’entrepôt  : Attention il faut nettoyer les données dans la table client (soucouf) et les formater en accord avec la table CLIEND (ED). Noter également les données qui seront rejetées du fichier (departement.csv) (pourquoi sont-elles rejetées ?) e. Analyser le contenu des la table produit_soucouf.csv (dans le fichier CSV et pas la table dans la BD soucouf). Spécifier clairement les transformations à réaliser. Réaliser un job Talend pour produire une table de données nettoyées. f. A partir de la table produit (soucouf) et de la table famille (soucouf), créer un job pour alimenter la table PRODUIT du ED (Attention toujours des données propres). 3 g. En fin, créer un job (ou les joubs) nécessaire(s) pour alimenter la table VENTE de l’entrepôt en se basant sur les tables (commande, contient et coute) de la BD soucouf. uploads/Industriel/ td1-etl.pdf

  • 55
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager