Blog ENI : Toute la veille numérique !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Azure Data Factory
  3. Introduction à ADF
Extrait - Azure Data Factory Intégrez vos données avec le service serverless d'Azure
Extraits du livre
Azure Data Factory Intégrez vos données avec le service serverless d'Azure Revenir à la page d'achat du livre

Introduction à ADF

Cloud et ETL

Au sein du Cloud de Microsoft, Azure, l’ETL (Extract Transform Load) proposé se nomme Azure Data Factory (ADF) et tient une place centrale au sein de nombreuses architectures orientées données. Car ce service d’intégration de données hybrides (Cloud et On-Premise) répond aux problématiques de chargement de données depuis de nombreuses sources, sur Internet, ou dans les intranets des entreprises. Tout en permettant d’appliquer au besoin des transformations sur ces données afin de répondre à de nombreux cas d’usage tels que l’alimentation d’un Data Warehouse, d’un Data Lake, ou plus simplement la mise en place d’un flux d’alimentation d’une source depuis une destination.

Ce n’est pas tout. En plus de pouvoir ordonnancer des pipelines de chargement de données, ADF intègre des outils pour la planification des flux ainsi que le monitoring de ceux-ci.

À ce stade, si vous étiez à l’aise avec SSIS, il est possible de ne pas encore cerner les différences majeures entre ces deux produits qui partagent un certain nombre de mécanismes tels que la création de flux de données de manière graphique. Toutefois, l’utilisation du Cloud rend les deux outils radicalement différents : plus besoin de provisionner de machines, ADF est un service managé...

Architectures

Azure Data Factory est un outil flexible, utilisable au sein de nombreuses architectures. En tant qu’ETL (Extract Transform Load), ELT (Extract Load Transform), ordonnanceur, mais aussi dans le cadre d’une migration de package SSIS en PaaS. Si de nombreux scénarios sont possibles, il existe déjà pléthore d’architectures standards et éprouvées.

1. Architecture SSIS PaaS

Le nombre de projets ETL réalisés depuis bientôt vingt ans, d’abord en DTS (Data Transformation Service), migrés avec SQL Server 2005 en SSIS (SQL Server Integration Service) puis en déploiement de projet avec l’arrivée de SQL Server 2012, a été riche en apprentissages pour les architectes et développeurs. En effet, chaque évolution technologique sur ces flux de données a représenté des changements souvent délicats et douloureux de par la nature complexe des transformations, et les capacités presque infinies de l’ETL de Microsoft (ActiveX, Script Task, Variables…).

Un des acquis de cette expérience est qu’il est préférable d’éviter de tout changer en même temps. Partant de ce principe, il est possible d’adopter une première étape de migration de SQL Server 2016 et supérieur On-Premise vers SSIS Integration Runtimes au sein d’Azure Data Factory. Cela afin de séparer la montée en compétence vers un environnement Cloud, les implications réseau, le changement des outils de monitoring ainsi que l’infrastructure de la refonte complète des packages (qui peut être un projet conséquent et peut être inutile dans un contexte de migration d’applications historiques ne nécessitant pas d’investissements...

Positionner ADF et SSIS

SQL Server Integration Services et Azure Data Factory ont de nombreux points communs, il a longtemps été dit qu’ils ne pouvaient être comparés étant donné la faiblesse d’ADF en ce qui concerne les transformations. Si cela eut été vrai, DataFlow apporte ces éléments qui manquaient jusque-là (transformation de jointure, de recherche, etc.).

ADF est une évolution majeure de SSIS. Orienté Cloud, il comporte des évolutions qui ont longtemps manqué à SSIS telles que :

  • Un code lisible et compréhensible (JSON).

  • La possibilité de générer de l’ADF avec du C#, du JSON, ou des API REST, ce qui facilite grandement les développements et l’industrialisation.

  • La mise à l’échelle (Scalability).

Mais aujourd’hui, son utilisation apporte des contraintes telles que :

  • L’impossibilité d’utiliser ADF dans un contexte 100 % On-Premise. Dans ce contexte, seul SSIS est utilisable.

  • L’impossibilité d’utiliser ADF en dehors d’Azure, si d’aventure vous souhaitez quitter le Cloud de Microsoft, il sera nécessaire de réimplémenter l’intégralité de votre logique (et cela peut demander un effort considérable).

Si votre objectif est de migrer dans le Cloud, avec une forte appétence...