Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

17/03/2017 1 O. Boussa id 2017 Du Data Warehouse au… Data Lake L’avènement de l

17/03/2017 1 O. Boussa id 2017 Du Data Warehouse au… Data Lake L’avènement de la Data T1 Gestion des données massives O. Boussaid Mars 2017 Gestion des données massives O. Boussa id 2017 1°) Contexte et motivation 2°) Structuration classique des données 3°) Définition intuitive des Data Lakes 4°) Data Lake, DWH, DMP 5°) Data Lake : Définitions 6°) Data Lake : Méthodologie 7°) Data Lake vs Data Warehouse 8°) Data Lake : Stratégie et implémentation T2 Gestion des données massives 17/03/2017 2 O. Boussa id 2017 Les Data Lakes T3 Gestion des données massives qL'explosion massive des sources d'information (Big Data : Réseaux sociaux, capteurs, objets connectés…) produit un impact important sur le monde des affaires. qIl est nécessaire que les technologies de l’information proposent de nouvelles architectures pour acquérir et comprendre l'information. qLes technologies de l’information doivent proposer de nouvelle approches de collecte, d'organisation et d'analyse des Big data. qLes technologies classiques liées à la BI et aux entrepôts de données peuvent s’avérer insuffisantes, voire inadaptées aux Big data. Contexte et motivation O. Boussa id 2017 Les Data Lakes T4 Gestion des données massives Contexte et motivation La structuration des données est-elle un bien ou une entrave ? qLes données opérationnelles de l’entreprise sont structurées puis stockées dans des bases de données (relationnelles). qElles sont dotées de structures : Tables, champs, enregistrements, dimensions…, avant d’être stockées. qLa structure facilite la navigation dans les données. qCas des données pérennes de gestion, financières... qInconvénients : §la modification de la structure peut être complexe et coûteuse. §Risque de perte de données. §Approche mal adaptée si les traitements en aval, ne sont pas connus en amont. 17/03/2017 3 O. Boussa id 2017 Les Data Lakes T5 Gestion des données massives Contexte et motivation La structuration des données est-elle un bien ou une entrave ? qDes bases de données aux entrepôts de données… qLes entrepôts de données ont permis de centraliser les données structurées dans des silos de données. qLes données entreposées sont structurées selon des modèles en étoile. qDans un entrepôt, l’information est détaillée selon un niveau de granularité le plus faible. qNombreuses possibilités d’agrégations et donc d’analyses qLes agrégations sont aussi des regroupements des données : donc une structuration de l’information qLe choix de ces regroupements se fait alors au détriment d’autres possibilités. O. Boussa id 2017 Les Data Lakes T6 Gestion des données massives Contexte et motivation La structuration des données est-elle un bien ou une entrave ? qLes bases de données ou les entrepôts de données sont des structures verticales qLa structuration en Tables, en Dimensions, en Hiérarchies donne de la verticalité à la structure. qDéconstruction est alors ardue et complexes en cas de modification d’organisation. qLa modélisation en étoile convient bien à des données structurées et dont on connaît la finalité (l’usage) bien en avant. qElle n’est pas adaptée aux données non structurées, telles que les données sociales. qElle ne peut pas être déliée de l’usage des données, qui doit être connu avant leur utilisation. 17/03/2017 4 O. Boussa id 2017 Les Data Lakes T7 Gestion des données massives qConcept évoqué la 1° fois en 1999 par Dorian Pyle dans son livre ‘’Data preparation for Data mining’’. qMais aussi, par James Dixon, de Penthao. qLes entreprise s’emparent de ce nouveau concept pour en faire du ‘’Business Data Lake’’. qLe données sont conservées sur le même plan. Elles ne nécessitent pas de structure ! qEt surtout, on ne connaît pas à l’avance leur utilisation. qLa structure n’apparaît qu’au moment de l’analyse. qConcept du Data Lake, ou Data Reservoir, ou ’’Entreprise Data Hubs’’, ou ’’Data Platform’’. O. Boussa id 2017 Les Data Lakes T8 Gestion des données massives qLes Data Lakes sont une structure plate des données qu’on conserve pour garder l’historique sans savoir à priori les analyses qu’on voudrait leur appliquer. qLes données sont stockées sous une multitude de fichiers (distribués, dans le cas d’Hadoop) qC’est au moment de leur analyse, qu’on les regroupe en créant une structure. qExemple : • les logs de sites web, • les tweets, • les profiles sociaux, • les commentaires de blogs, • les photos • … 17/03/2017 5 O. Boussa id 2017 Les Data Lakes T9 Gestion des données massives qC’est un espace de stockage dans lequel on déverse les données provenant de systèmes internes et externes pour en tirer de la connaissance, des prévisions et des actions. qSous la forme de rapports agiles, visuels, combinant de multiples sources de données, ou d’applications métiers qPour restituer, directement ou sous forme : §de web services (outils de relation clients des vendeurs ou d’un centre d’appels) §de recommandations sur un site web, §d’alertes §de prescriptions à destination des différents métiers. O. Boussa id 2017 Les Data Lakes T10 Gestion des données massives qOnt-ils des vocations différentes ? qLa flexibilité du Data Lake pour croiser et analyser les données lui permet de se distinguer nettement de l’entrepôt de données. qLa modélisation des entrepôts de données repose sur un ‘’Model On Write’’ : la manière de stocker et d’organiser la donnée est définie au préalable. qLe Data Lake se base sur un ‘’Model On Read’’ : les données sont stockées sans traitement préalable. qUtilisation en cycle agile des données pour traiter un cas d’usage. Le Data Lake est-il différent de l’entrepôt de données ? 17/03/2017 6 O. Boussa id 2017 Les Data Lakes T11 Gestion des données massives qLa DMP sert à segmenter les audiences et les clients, en temps réel, selon leur comportement, pour leur appliquer des scénarios d’activation, que ce soit par le média, le social ou les canaux CRM classiques (email, SMS, etc.). qIls sont plutôt complémentaires. qLa DMP alimente le Data Lake. Ce dernier procèdera à des multiples analyses Le Data Lake est différent de la Data Management Platform (DMP) ? O. Boussa id 2017 Les Data Lakes T12 Gestion des données massives qIl faut disposer d’une stratégie Data avant de déployer un Data Lake. qUne approche en 3 phases : 1. L’identification du cas d’usage a. Soit améliorer des cas d’usage déjà existants b. Soit viser une innovation par la data 2. La définition d’une feuille de route a. L’alimentation du Data Lake doit se faire selon une priorisation des cas d’usage 3. Le choix de l’infrastructure a. Coût du stockage b. Flexibilité d’alimentation Besoin d’une stratégie pour déployer un Data Lake. 17/03/2017 7 O. Boussa id 2017 Les Data Lakes T13 Gestion des données massives Les utilisateurs de Data Lakes Chef de projet Conçoit, développe et s’occupe au quotidien de la plateforme. C’est le maître d’œuvre du Data Lake. Data Engineer Connecte le Data Lake à toutes les sources de données ; s’assure de la qualité de la donnée ; et lie la plateforme aux applications externes. Data Analyst Définit les KPI et les métriques à des fins de reporting, de dahboarding pour comprendre les processus métiers. Data Scientist Exploite en profondeur l’ensemble des données à des fins de prospection, pour déterminer les grandes tendances business et les opportunités que l’organisation devra saisir. Admin système Responsable de l’infrastructure du Data Lake et de la sécurité. O. Boussa id 2017 Les Data Lakes T14 Gestion des données massives qData Engineers (profil IT connaissant les technologies Big Data). qData Scientists (profil mathématique et statistique). qData Architects, (concevoir l’architecture technique supportant le Data Lake), qExperts de la visualisation de données qData Stewards (pour maintenir les flux de données entrants et sortants du Data Lake), qAdministrateurs système (pour maintenir opérationnel les machines, réseaux, services…). Les ressources humaines : constitution d’une équipe 17/03/2017 8 O. Boussa id 2017 Les Data Lakes T15 Gestion des données massives qUn Data Lake est un repository de stockage qui contient une très grande quantité de données originelles dans leur format natif, jusqu’à ce qu’elles soit exploitées. qUn Data Lake a une architecture plate pour le stockage de données. Chaque donnée à un identifiant unique, et est renseignée par des métadonnées. Définition… ou plutôt des définitions O. Boussa id 2017 Les Data Lakes T16 Gestion des données massives qUn Data Lake est un repository de données massives, facilement accessibles, flexibles et scalables. qUn Data Lake est une plateforme de management de données pour l’analyse des sources de données disparates (variété) dans leur format natif. Définition… ou plutôt des définitions 17/03/2017 9 O. Boussa id 2017 Les Data Lakes T17 Gestion des données massives qLe catalogue des métadonnées : Catalogue des données dans le Data Lake KEY VALUE ROW ID COLUMN TIME STAMP TAG TAG GROUP VISIBILITY qChaque information sur la donnée est matérialisée dans une cellule d’une table de métadonnées. qPeu importe où la donnée est localisée, les tags permettent de l’identifier. qOn peut également définir les autorisations d’accès sur les fichiers. Source: Booz Allen Hamilton O. Boussa id 2017 Les Data Lakes T18 Gestion des données massives q4 types de tags permettent de définir chaque cellules: § Identifiants de l’entité (plusieurs lignes peuvent avoir le même identifiant). § Le type de donnée (vidéo, tweet, n° de compte…). § Groupes d’appartenance (Tag group). § Version de la donnée (par la uploads/Management/1-cours-data-lakes-2017.pdf