Comprendre les spécificités du décisionnel

Le multidimensionnel : hiérarchiser la donnée

1. Les dimensions

Toujours dans l’optique de rapprocher le modèle de la réalité des faits, la modélisation multidimensionnelle permet de passer d’une organisation tabulaire de la donnée - la modélisation relationnelle - à une organisation hiérarchique.

Exemple

Exemple de passage d’une version tabulaire de la donnée (base de données relationnelle) à une version hiérarchique (base de données multidimensionnelle) :

Dans la base de données relationnelle, la donnée est décrite ligne par ligne et éclatée entre différentes tables. Dans le modèle multidimensionnel, les données sont toutes réunies d’un même macro-objet et sont organisées par niveau, avec des éléments fins et des agrégats : il existe une relation ascendant/descendant entre tous les éléments d’un objet.

En termes de vocabulaire précis, un agrégat désigne tout ce qui n’est pas le niveau le plus fin de la hiérarchie, quel que soit son niveau. Pour spécifier une hiérarchie, il faut donc être clair sur la notion de niveau, en évoquant par exemple le "n-ième niveau d’agrégation", supposant que l’on parte du niveau fin au niveau le plus agrégé, ou au contraire, le "énième plus haut niveau d’agrégation" en partant du sommet jusqu’au niveau fin.

Attention également avec les notions de "parent/enfant" et "ascendant/descendant" car si un "niveau fin" correspond toujours au dernier niveau de la hiérarchie, ces deux autres notions sont relatives : un niveau agrégé peut être "enfant" ou "descendant" d’un autre. Il s’agit donc de la position d’un niveau par rapport à un autre, et non de sa position absolue dans la hiérarchie.

Un même macro-objet (la dimension, comme "Géographie") contient donc plusieurs objets de natures différentes (les différents niveaux, comme "Pays", "Région" ou "Ville"), alors qu’une table de base de données contient le même type d’objets...

Les fondamentaux de la base de données relationnelle

1. Le rôle de la base de données relationnelle

Si le multidimensionnel permet de stocker et manipuler la donnée de manière optimale pour un usage décisionnel, il doit cependant reposer sur une base de données qui, bien qu’à usage décisionnel, soit de type relationnel. Si un cube est tout à fait capable de stocker des données et fonctionner de manière autonome (dans le cas du MOLAP uniquement), la donnée issue des systèmes sources a un format incompatible avec le format attendu en entrée de la solution OLAP. À noter que dans le cas d’une solution ROLAP, la base de données relationnelle est également indispensable car c’est le seul endroit où est physiquement stockée la donnée.

Au-delà de cet impératif technique, il y a également nécessité - comme évoqué dans le chapitre précédent - de "repenser" la donnée : sélectionner les données adéquates, historiser, réunir différentes données au sein d’un même objet et donner une valeur fonctionnelle aux données. Toutes ces transformations se font et ne peuvent se faire que dans la base de données décisionnelle. Les parties suivantes détaillent les principes fondamentaux de cette base.

2. La dénormalisation

a. Principe

Pour rappel, la normalisation consiste à atomiser l’information au sein d’une base de données afin de minimiser les redondances d’informations. On peut notamment citer la norme "3NF" (troisième forme normale), par exemple. Le but de la normalisation est à la fois d’optimiser l’espace de stockage et d’optimiser la maintenance des données : une information n’étant pas redondante, une modification de valeur ne sera à effectuer qu’à un seul endroit pour mettre à jour les données. En contrepartie, information est éclatée dans de nombreuses tables et l’obtenir sous une forme enrichie nécessite de nombreuses jointures consommatrices de temps.

La dénormalisation vise, elle, à consolider l’information dans un minimum de tables, afin qu’elle soit directement...