Blog ENI : Toute la veille numérique !
-25€ dès 75€ sur les livres en ligne, vidéos... avec le code FUSEE25. J'en profite !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Pentaho
  3. Modélisation en Informatique Décisionnelle
Extrait - Pentaho Mise en place d'une solution Open Source de Business Intelligence
Extraits du livre
Pentaho Mise en place d'une solution Open Source de Business Intelligence Revenir à la page d'achat du livre

Modélisation en Informatique Décisionnelle

Principes de modélisation

1. Principes de base du modèle relationnel

Dans les bases de données de production, les données ne sont pas a priori agencées correctement pour une exploitation multidimensionnelle. Ces bases de données sont construites selon un schéma relationnel et respectent des règles de forme normale.

Une base de données relationnelle est constituée de tables (matrices). Chaque ligne de table (enregistrement) regroupe des informations liées à un même événement (table de relation ou de jointure) ou des informations se rapportant à un même enregistrement d’une table de données de base.

Par exemple dans une table de données de base concernant des produits, on peut trouver dans un même enregistrement les valeurs de propriétés d’un produit, c’est-à-dire par exemple le code du produit, son libellé, son prix de vente HT...

Une table de relation stocke par exemple le n° de l’enseignant réservant la salle, le n° de la salle, la date de réservation, les heures de début et de fin de réservation..., dans un modèle de données de réservation de salles informatiques.

Les manipulations sur les tables d’une base de données relationnelle sont effectuées par l’intermédiaire d’opérations basées sur la théorie des ensembles (algèbre relationnelle). Ces opérations sont techniquement réalisées au niveau des systèmes de gestion de bases de données via le langage SQL.

En algèbre relationnelle, des opérateurs sont disponibles pour obtenir une relation à partir d’une autre, pour combiner deux relations (ou plus) pour en générer une troisième...

Sans trop vouloir entrer dans le détail de chacun de ces opérateurs relationnels, citons tout de même ceux-ci :

  • Sélection : obtention à partir d’un ensemble X (table de données de base ou table de jointure) d’un second ensemble Y (sous-ensemble de X) ne regroupant que des nuplets (enregistrements) correspondent à des critères donnés.

  • Projection : obtention à partir d’un ensemble X d’un deuxième ensemble Y dans lequel seuls certains...

Architecture type d’un système décisionnel

Les principes de base d’une modélisation relationnelle (celle qui est principalement utilisée par les systèmes de gestion de bases de données OLTP) ont été vus au travers du paragraphe "Principes de base du modèle relationnel". Les opérateurs d’algèbre relationnelle (et les requêtes SQL qui servent à les coder) sont tout de même aussi largement employés en Informatique Décisionnelle car les Datawarehouses et les Datamarts sont aussi essentiellement gérés par des SGBD relationnels.

Les composants logiciels à mettre en œuvre pour passer progressivement des données brutes (données OLTP) à des données synthétisées sont multiples. En général on retrouve l’architecture ci-dessous dans les projets décisionnels :

03EP08.png

Modélisation en univers décisionnel

1. Notion de cube

Les analyses décisionnelles sont basées sur une vision multidimensionnelle des données.

La modélisation multidimensionnelle des données facilite l’analyse d’une valeur numérique (une quantité, une mesure...) selon différentes dimensions. À chaque fait (une vente dans le schéma ci-après) est associé une ou plusieurs valeurs numériques et le fait est repérable dans le cube en fonction des dimensions qui sont donc des axes d’analyse.

Dans notre schéma chaque fait (facture client) sera positionné dans le cube selon trois axes (le code du client, le mois de la facture et le canal de distribution associé au client).

03EP09.png

2. Modélisation conceptuelle

La modélisation multidimensionnelle utilise les concepts de fait et de dimension (et de hiérarchie de dimension). La répartition des données peut être réalisée selon un modèle en étoile ou selon un modèle en flocon.

a. Concept de fait

Un fait regroupe les mesures correspondant aux informations de l’activité analysée, par exemple une facture de vente qui a pour mesure le montant HT global.

Les mesures sont des valeurs numériques, généralement continues. Elles peuvent être résumées (sommation, dénombrement, valeur minimale, valeur maximale...).

Il existe plusieurs catégories de mesures :

  • Les mesures additives peuvent être additionnables le long de toutes les dimensions. Par exemple on pourrait sommer le CA correspondant à des factures clients sur une période d’un mois.

  • Les mesures semi-additives sont sommables le long de certaines dimensions seulement. Par exemple cela n’aurait pas de sens de cumuler les niveaux de stock au fil du temps.

  • Les mesures non additives ne peuvent être sommables en fonction d’aucune dimension. Cela est le cas du prix d’un produit ou d’un service ou du nombre d’occurrences dans une table des faits.

On différencie aussi les mesures selon les critères suivants :

  • Les mesures distributives peuvent être déterminées à partir d’autres mesures, c’est le cas de la valeur minimale et de la valeur maximale.

  • Les mesures algébriques...