17/03/2017 1 O. Boussa id 2017 Du Data Warehouse au… Data Lake L’avènement de l
17/03/2017 1 O. Boussa id 2017 Du Data Warehouse au… Data Lake L’avènement de la Data T1 Gestion des données massives O. Boussaid Mars 2017 Gestion des données massives O. Boussa id 2017 1°) Contexte et motivation 2°) Structuration classique des données 3°) Définition intuitive des Data Lakes 4°) Data Lake, DWH, DMP 5°) Data Lake : Définitions 6°) Data Lake : Méthodologie 7°) Data Lake vs Data Warehouse 8°) Data Lake : Stratégie et implémentation T2 Gestion des données massives 17/03/2017 2 O. Boussa id 2017 Les Data Lakes T3 Gestion des données massives qL'explosion massive des sources d'information (Big Data : Réseaux sociaux, capteurs, objets connectés…) produit un impact important sur le monde des affaires. qIl est nécessaire que les technologies de l’information proposent de nouvelles architectures pour acquérir et comprendre l'information. qLes technologies de l’information doivent proposer de nouvelle approches de collecte, d'organisation et d'analyse des Big data. qLes technologies classiques liées à la BI et aux entrepôts de données peuvent s’avérer insuffisantes, voire inadaptées aux Big data. Contexte et motivation O. Boussa id 2017 Les Data Lakes T4 Gestion des données massives Contexte et motivation La structuration des données est-elle un bien ou une entrave ? qLes données opérationnelles de l’entreprise sont structurées puis stockées dans des bases de données (relationnelles). qElles sont dotées de structures : Tables, champs, enregistrements, dimensions…, avant d’être stockées. qLa structure facilite la navigation dans les données. qCas des données pérennes de gestion, financières... qInconvénients : §la modification de la structure peut être complexe et coûteuse. §Risque de perte de données. §Approche mal adaptée si les traitements en aval, ne sont pas connus en amont. 17/03/2017 3 O. Boussa id 2017 Les Data Lakes T5 Gestion des données massives Contexte et motivation La structuration des données est-elle un bien ou une entrave ? qDes bases de données aux entrepôts de données… qLes entrepôts de données ont permis de centraliser les données structurées dans des silos de données. qLes données entreposées sont structurées selon des modèles en étoile. qDans un entrepôt, l’information est détaillée selon un niveau de granularité le plus faible. qNombreuses possibilités d’agrégations et donc d’analyses qLes agrégations sont aussi des regroupements des données : donc une structuration de l’information qLe choix de ces regroupements se fait alors au détriment d’autres possibilités. O. Boussa id 2017 Les Data Lakes T6 Gestion des données massives Contexte et motivation La structuration des données est-elle un bien ou une entrave ? qLes bases de données ou les entrepôts de données sont des structures verticales qLa structuration en Tables, en Dimensions, en Hiérarchies donne de la verticalité à la structure. qDéconstruction est alors ardue et complexes en cas de modification d’organisation. qLa modélisation en étoile convient bien à des données structurées et dont on connaît la finalité (l’usage) bien en avant. qElle n’est pas adaptée aux données non structurées, telles que les données sociales. qElle ne peut pas être déliée de l’usage des données, qui doit être connu avant leur utilisation. 17/03/2017 4 O. Boussa id 2017 Les Data Lakes T7 Gestion des données massives qConcept évoqué la 1° fois en 1999 par Dorian Pyle dans son livre ‘’Data preparation for Data mining’’. qMais aussi, par James Dixon, de Penthao. qLes entreprise s’emparent de ce nouveau concept pour en faire du ‘’Business Data Lake’’. qLe données sont conservées sur le même plan. Elles ne nécessitent pas de structure ! qEt surtout, on ne connaît pas à l’avance leur utilisation. qLa structure n’apparaît qu’au moment de l’analyse. qConcept du Data Lake, ou Data Reservoir, ou ’’Entreprise Data Hubs’’, ou ’’Data Platform’’. O. Boussa id 2017 Les Data Lakes T8 Gestion des données massives qLes Data Lakes sont une structure plate des données qu’on conserve pour garder l’historique sans savoir à priori les analyses qu’on voudrait leur appliquer. qLes données sont stockées sous une multitude de fichiers (distribués, dans le cas d’Hadoop) qC’est au moment de leur analyse, qu’on les regroupe en créant une structure. qExemple : • les logs de sites web, • les tweets, • les profiles sociaux, • les commentaires de blogs, • les photos • … 17/03/2017 5 O. Boussa id 2017 Les Data Lakes T9 Gestion des données massives qC’est un espace de stockage dans lequel on déverse les données provenant de systèmes internes et externes pour en tirer de la connaissance, des prévisions et des actions. qSous la forme de rapports agiles, visuels, combinant de multiples sources de données, ou d’applications métiers qPour restituer, directement ou sous forme : §de web services (outils de relation clients des vendeurs ou d’un centre d’appels) §de recommandations sur un site web, §d’alertes §de prescriptions à destination des différents métiers. O. Boussa id 2017 Les Data Lakes T10 Gestion des données massives qOnt-ils des vocations différentes ? qLa flexibilité du Data Lake pour croiser et analyser les données lui permet de se distinguer nettement de l’entrepôt de données. qLa modélisation des entrepôts de données repose sur un ‘’Model On Write’’ : la manière de stocker et d’organiser la donnée est définie au préalable. qLe Data Lake se base sur un ‘’Model On Read’’ : les données sont stockées sans traitement préalable. qUtilisation en cycle agile des données pour traiter un cas d’usage. Le Data Lake est-il différent de l’entrepôt de données ? 17/03/2017 6 O. Boussa id 2017 Les Data Lakes T11 Gestion des données massives qLa DMP sert à segmenter les audiences et les clients, en temps réel, selon leur comportement, pour leur appliquer des scénarios d’activation, que ce soit par le média, le social ou les canaux CRM classiques (email, SMS, etc.). qIls sont plutôt complémentaires. qLa DMP alimente le Data Lake. Ce dernier procèdera à des multiples analyses Le Data Lake est différent de la Data Management Platform (DMP) ? O. Boussa id 2017 Les Data Lakes T12 Gestion des données massives qIl faut disposer d’une stratégie Data avant de déployer un Data Lake. qUne approche en 3 phases : 1. L’identification du cas d’usage a. Soit améliorer des cas d’usage déjà existants b. Soit viser une innovation par la data 2. La définition d’une feuille de route a. L’alimentation du Data Lake doit se faire selon une priorisation des cas d’usage 3. Le choix de l’infrastructure a. Coût du stockage b. Flexibilité d’alimentation Besoin d’une stratégie pour déployer un Data Lake. 17/03/2017 7 O. Boussa id 2017 Les Data Lakes T13 Gestion des données massives Les utilisateurs de Data Lakes Chef de projet Conçoit, développe et s’occupe au quotidien de la plateforme. C’est le maître d’œuvre du Data Lake. Data Engineer Connecte le Data Lake à toutes les sources de données ; s’assure de la qualité de la donnée ; et lie la plateforme aux applications externes. Data Analyst Définit les KPI et les métriques à des fins de reporting, de dahboarding pour comprendre les processus métiers. Data Scientist Exploite en profondeur l’ensemble des données à des fins de prospection, pour déterminer les grandes tendances business et les opportunités que l’organisation devra saisir. Admin système Responsable de l’infrastructure du Data Lake et de la sécurité. O. Boussa id 2017 Les Data Lakes T14 Gestion des données massives qData Engineers (profil IT connaissant les technologies Big Data). qData Scientists (profil mathématique et statistique). qData Architects, (concevoir l’architecture technique supportant le Data Lake), qExperts de la visualisation de données qData Stewards (pour maintenir les flux de données entrants et sortants du Data Lake), qAdministrateurs système (pour maintenir opérationnel les machines, réseaux, services…). Les ressources humaines : constitution d’une équipe 17/03/2017 8 O. Boussa id 2017 Les Data Lakes T15 Gestion des données massives qUn Data Lake est un repository de stockage qui contient une très grande quantité de données originelles dans leur format natif, jusqu’à ce qu’elles soit exploitées. qUn Data Lake a une architecture plate pour le stockage de données. Chaque donnée à un identifiant unique, et est renseignée par des métadonnées. Définition… ou plutôt des définitions O. Boussa id 2017 Les Data Lakes T16 Gestion des données massives qUn Data Lake est un repository de données massives, facilement accessibles, flexibles et scalables. qUn Data Lake est une plateforme de management de données pour l’analyse des sources de données disparates (variété) dans leur format natif. Définition… ou plutôt des définitions 17/03/2017 9 O. Boussa id 2017 Les Data Lakes T17 Gestion des données massives qLe catalogue des métadonnées : Catalogue des données dans le Data Lake KEY VALUE ROW ID COLUMN TIME STAMP TAG TAG GROUP VISIBILITY qChaque information sur la donnée est matérialisée dans une cellule d’une table de métadonnées. qPeu importe où la donnée est localisée, les tags permettent de l’identifier. qOn peut également définir les autorisations d’accès sur les fichiers. Source: Booz Allen Hamilton O. Boussa id 2017 Les Data Lakes T18 Gestion des données massives q4 types de tags permettent de définir chaque cellules: § Identifiants de l’entité (plusieurs lignes peuvent avoir le même identifiant). § Le type de donnée (vidéo, tweet, n° de compte…). § Groupes d’appartenance (Tag group). § Version de la donnée (par la uploads/Management/1-cours-data-lakes-2017.pdf
Documents similaires










-
29
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 27, 2022
- Catégorie Management
- Langue French
- Taille du fichier 3.2142MB