Blog ENI : Toute la veille numérique !
-25€ dès 75€ sur les livres en ligne, vidéos... avec le code FUSEE25. J'en profite !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Pentaho
  3. Présentation de l'ETL PDI
Extrait - Pentaho Mise en place d'une solution Open Source de Business Intelligence
Extraits du livre
Pentaho Mise en place d'une solution Open Source de Business Intelligence Revenir à la page d'achat du livre

Présentation de l'ETL PDI

Principes de fonctionnement des ETL (Extract-Transform-Load)

1. Définition générale

Dans un système d’information d’entreprise, les données sont stockées dans de multiples formats :

  • systèmes de gestion de base de données relationnels (SGBD-R),

  • fichiers plats (CSV...),

  • flux XML,

  • tableurs,

  • ...

et ne sont pas directement utilisables pour une exploitation en Informatique Décisionnelle.

Les raisons sont multiples :

  • Non-disponibilité de l’information : les données hébergées par les SGBD-R sont gérées de manière transactionnelle. Cela signifie que des ajouts, modifications, consultations, suppressions, mises à jour des enregistrements ont lieu de manière continue et également concurrente (accès aux données depuis des postes de saisie multiples). Il n’est donc pas satisfaisant d’intervenir directement sur ces données avec des outils relevant de l’Informatique Décisionnelle.

  • Présentation inadéquate des données : dans un système dit de production, les données sont conservées et actualisées sur une période de référence, éventuellement entreposées ensuite sous forme d’historique mais rarement agrégées. Dans un stockage orienté décisionnel, les contraintes sont différentes. À titre d’exemple pour une analyse de chiffre d’affaires sur des familles de produits, il n’est pas nécessaire de conserver toutes les propriétés caractérisant les produits eux-mêmes (le code produit, la désignation et le code d’appartenance à une famille pourraient suffire). Par contre conserver les informations sur les ventes sur plusieurs années peut avoir du sens si une analyse comparative dans la durée est envisagée.

  • Lisibilité...

Installation de Pentaho Data Integration (PDI)

1. Téléchargement

Dans le chapitre "Prise en main rapide de Pentaho", les composants logiciels suivants ont été installés :

  • le serveur Pentaho Business Intelligence Server,

  • le composant Pentaho User Console qui est l’interface client du serveur Web de publication des résultats,

  • le composant Pentaho Administration Console qui est l’interface d’administration de Pentaho.

L’ETL Pentaho Data Integration (PDI) fait aussi partie de la suite Pentaho mais doit être installé séparément.

Pour des raisons de disponibilité de connecteurs pour certains types de bases de données (en particulier JDBC-ODBC), le choix a été fait ici d’utiliser l’avant-dernière version de Pentaho Data Integration, c’est-à-dire la version 3.2.0.

La transposition des transformations développées dans le cadre du chapitre "Mise en œuvre de PDI" ne devrait poser aucune difficulté (compatibilité ascendante) dans la récente version 4.0.0. D’autre part dans cette nouvelle version, l’interface utilisateur n’a été modifiée que très peu.

PDI est disponible en téléchargement à l’adresse http://sourceforge.net/projects/pentaho/files/Data%20Integration/.

2. Installation

Il est conseillé...

Présentation générale de l’ETL PDI

1. Fonctionnalités principales de PDI

Pentaho Data Integration, antérieurement connu sous l’appellation Kettle, est un ETL Open Source qui permet de concevoir et exécuter des opérations de manipulation et de transformation de données très complexes.

PDI, comme la majorité des ETL d’ailleurs, permet une modélisation graphique des opérations sur les données que ce soit en matière de récupération (Extract), de retraitement (Transform) ou de stockage en sortie (Load) essentiellement dans des datewarehouses ou des datamarts.

La spécificité de PDI est que l’utilisateur n’est pas contraint à utiliser des séquences de programmation dans la définition des étapes de son traitement ETL. Toutes les étapes du traitement, qui sont positionnées et séquencées sur un flux, sont élaborées au travers d’un assistant qui évite à l’utilisateur d’avoir recours à du code programmé. Seules des connaissances en SQL peuvent être nécessaires. Pour des traitements avancés, on peut avoir recours à des scripts rédigés en JavaScript.

Kettle est devenu Open Source à partir de la version 2.2 et depuis son entrée dans le projet de plate-forme décisionnelle...