Sommaire

Introduction aux Data FlowData Flow

Les Data Flow permettent de gérer les transformations de données graphiquement, sans connaître le code du moteur qui va être en charge de réaliser la transformation. C’est Databricks qui est en charge de réaliser le traitement. Toutefois, nul besoin de connaître le Scala ou le Python, Azure Data Factory se charge de générer un langage descriptif qui sera ensuite interprété par un travail d’exécution sur Databricks à partir des paramétrages réalisés graphiquement, via Mapping Data Flow ou Wrangling Data Flow.

La configuration du cluster Databricks utilisé est intégrée à l’Integration Runtimes Azure, il est possible de modifier le type de machine provisionnée parmi General Purpose ou Compute Optimized ou Memory Optimized, ainsi que le nombre de cœurs de 4 à 256. Enfin, il est possible de gérer le délai sans calcul à partir duquel le cluster est éteint et donc à partir duquel la facturation s’arrête.

images/3-5-EP-8.PNG

Attention, un cluster Databricks peut vite coûter très cher, il ne faut donc pas provisionner 256 cœurs à la légère.

Afin de créer un Data Flow, il est nécessaire de cliquer sur l’ellipse en regard du menu Data Flow - Add Data Flow puis de choisir le type de Data Flow à créer.

images/3-5-EP-48.PNG