Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. La data
  3. Les grandes solutions de gestion de données
Extrait - La data Guide de survie dans le monde de la donnée
Extraits du livre
La data Guide de survie dans le monde de la donnée
1 avis
Revenir à la page d'achat du livre

Les grandes solutions de gestion de données

Introduction

Dans les chapitres précédents, nous avons abordé les grands outils ou solutions permettant d’accéder, déplacer, analyser, redresser, stocker et valoriser les données. Cela fait beaucoup d’approches différentes qui permettent d’adresser les données selon leurs différentes natures et caractéristiques mais surtout qui permettent de répondre à des besoins multiples et divers.

Nous disposons donc d’une boîte à outils et de solutions suffisamment complètes afin de répondre à quasiment tous les cas d’utilisation de données. Néanmoins, si les possibilités d’imbrication de ces outils et solutions sont quasi infinies on retrouve classiquement de grands patterns d’architecture de données, comme :

  • le Data Warehouse (ou entrepôt de données) ;

  • le Data Lake ;

  • les solutions de référentiel ou MDM (Master Data Management) ;

  • le Data Hub ;

  • les outils d’EDI.

Le Data Warehouse

Le Data Warehouse, appelé aussi entrepôt de données, répond clairement à des besoins d’analyse de données (Analytics). On parle ici de décisionnel, a contrario des applications ou plateformes d’échanges de données comme le Data Hub qui ont davantage une vocation de gestion de données opérationnelles (données chaudes). La différence est notable puisque l’objectif d’un tel stockage d’information est de permettre à des utilisateurs d’analyser des données froides (stables) afin qu’ils en déduisent des tendances, qu’ils comprennent des évènements passés, et pourquoi pas, effectuent des prédictions.

L’entrepôt de données porte plutôt bien son nom puisqu’il a pour vocation de stocker dans un espace géant les données stratégiques qui vont faire l’objet d’une analyse ultérieure. On va donc y copier de manière régulière les données opérationnelles et ainsi constituer un historique de données accessible. La conséquence immédiate est que cet entrepôt va croître en volume et d’ailleurs c’est cette accumulation de données qui va faire sa richesse. Une autre réelle caractéristique du Data Warehouse est que l’on n’y modifie jamais les données qui y sont insérées. En réalité, on ne fait qu’y ajouter des informations. Jamais on n’effectuera de suppression physique dans la base de données, on préférera effectuer par exemple une suppression...

Le Data Lake

Un lac de données (ou Data Lake) est un espace de stockage généralisé dans l’entreprise. Sa vocation est de permettre l’agrégation de données de tout type, à tout moment et sans réelles limites. Un Data Lake doit donc permettre et faciliter l’ingestion et le stockage de tout type de données, qu’elles soient structurées, semi ou non structurées. Il doit donc être très flexible et l’immédiate conséquence à cette condition est de ne pas imposer de modélisation.

Pas de schéma de stockage ni d’uniformisation des données donc, les flux de données entrants se contentent de déposer leurs données dans le lac de données. La phase d’intégration est donc grandement simplifiée d’un point de vue contrôle mais elle doit faire face à la contrainte de volume en revanche. De plus, le Data Lake doit proposer aux utilisateurs bon nombre d’outils pour trouver, traiter et transformer a posteriori l’information souvent brute qui a est déposée.

Le véritable revers de la médaille d’une telle flexibilité est que le lac de données peut rapidement devenir chaotique. En effet, sans une rigueur stricte de catalogage des données entrantes, le lac de données peut très vite contenir des données en double, incohérentes, voire pire totalement inconnues (ou du moins dont plus personne ne connaît le sens ou même l’origine). C’est aussi pour cela que les solutions sont bien souvent très outillées en matière d’analyse de...

Le référentiel (MDM)

1. Introduction

Aborder les référentiels d’entreprise revient à toucher le Saint Graal de la gouvernance pour les données de référence. N’oublions pas l’idée maîtresse derrière la gouvernance de données : fiabiliser et contrôler la gestion et la connaissance des données dans le temps. On a vu précédemment comment les solutions de gouvernance permettaient de cartographier, auditer et mieux comprendre les données telles qu’elles étaient stockées dans le système d’information. On a aussi abordé les moyens à mettre en œuvre pour pouvoir fournir une donnée de qualité et de confiance à tout moment. Malgré toutes ces initiatives, on se rend très vite compte qu’il est réellement complexe, voire impossible, de maîtriser l’inflation de données provenant de multiples sources opérationnelles (comme le Big Data, les capteurs, les IOT, les logs, etc.). On est donc face à un enjeu global de taille qui est de maîtriser ces données. Pour y parvenir, il paraît intéressant de commencer par une partie de ces données. Pourquoi ne pas mettre tout d’abord sous contrôle la partie la plus stable et constante de ces données à savoir les données de référence ?

En effet, a contrario des données transactionnelles ou opérationnelles, ces données de référence constituent un socle de données de base sur lequel les applications opérationnelles et décisionnelles...

Le Data Hub

Le Data Hub a - comme son nom le suggère - pour fonction de faciliter les échanges de données entre plusieurs systèmes disparates à des fins opérationnelles et pourquoi pas décisionnelles (a contrario d’initiatives uniquement décisionnelles). C’est donc un service global et centralisé d’interconnexion des données de l’entreprise. Certains définissent le Data Hub comme une zone de stockage de données virtuelle, c’est en réalité bien plus que cela car le Data Hub doit pouvoir aussi gérer les échanges à différentes latences entre des applications ou systèmes qui n’ont pas été conçus pour partager des informations.

Les échanges de données étant opérationnels, cela signifie qu’ils sont nombreux et moins volumineux. Cela implique aussi que les temps de réponse (parfois temps réel) sont un aspect important de ce type de plateforme. Initialement, les grandes solutions de Data Hub ne géraient (pour l’instant) que les données structurées ou semi-structurées, mais avec l’avènement du Big Data, c’est une caractéristique qui évolue et il n’est plus rare de trouver un Data Hub en amont d’un Data Lake par exemple.

1. Les natures de Data Hub

Les Data Hub peuvent être de plusieurs natures :

  • Le hub applicatif : au sein d’un applicatif ou d’une solution complexe métier, ce type de hub a pour rôle de faciliter les échanges entre les différentes briques logicielles qui constituent la solution. À...

L’EDI

Les EDI (Échange de Données Informatisées ou Electronic Data Interchange) sont des solutions qui ont été conçues pour que des entreprises différentes puissent échanger des données. Le besoin est donc très loin d’être nouveau et les premières solutions d’EDI ont vu le jour dans les années 1980, voire même avant. Mais ce qui a fait (et continue de faire) leur succès est la notion de standard qui y est bien souvent apposée.

1. Principes de fonctionnement de l’EDI

L’idée de l’EDI est à la base très simple : il doit être possible de permettre à des organisations différentes de pouvoir échanger des données dans des échanges dits B2B (Business To Business). Mais, qui dit organisations différentes, dit données différentes, structures différentes, qualités de données différentes, organisations différentes ; il est donc nécessaire de réunir ce que tout oppose.

Il a fallu commencer par définir a minima les protocoles (normes) d’échange de ces données afin de prendre en compte les différentes typologies de données à échanger puis bien sur les données échangées elles-mêmes.

On parle de message EDI et même de transaction EDI pour nommer les données qui vont transiter entre les parties. Très concrètement, ces messages EDI sont des fichiers normés (et on verra plus loin qu’il y a énormément de normes aujourd’hui, chacune dépendant...

Bilan

À titre informatif, voici un tableau récapitulatif des différentes grandes solutions de gestion de données et leurs caractéristiques :

 

Data Hub

Data Warehouse

Data Lake

MDM

EDI

Données Opérationnelles

Oui

Non

Oui

Oui

Oui

Données Décisionnelles (analytique)

Non

Oui

Oui

Non

Non

Données de référence

Non (sauf MDM en mode hub)

Non

Non

Oui

Non

Chargement via ETL/ELT

Possible

Oui

Oui

Oui

Possible

Données structurées

Oui

Oui

Oui

Oui

Oui

Données semi-structurées

Oui

Non

Oui

Non

Oui

Données non structurées

Non

Non

Oui

Non

Oui

Gestion de gros volumes

Non

Oui

Oui

Non

Non

Modélisation

Oui

Oui

Non

Oui

Non (sauf si gestion de cache)

Certification des données (Qualité de données)

Oui

Oui

Non

Oui

Partiellement

Intégration de données bidirectionnelle

Oui

Non

Non

Oui

Oui

Intégration de données en temps réel

Oui

Non

Non

Oui

Oui

Besoin de gouvernance forte

Oui

Non

Non

Oui

Non