Présentation de PowerPivot
L’analyse de données
Activité
Nous sommes dans une ère d’abondance de la donnée : taille des disques durs en hausse, débits réseau élevés, un trafic Internet qui croît exponentiellement. Et pourtant, pouvons-nous dire que nos connaissances ont augmenté proportionnellement ? Avons-nous une meilleure maîtrise de nos procédés industriels, de nos finances ou de notre activité ? Ce n’est pas le cas, car il y a un monde entre la donnée brute et la connaissance intelligente que nous pouvons en tirer.
Ce monde est précisément celui de l’analyse des données. Longtemps, ce domaine fut un espace de jeu réservé aux ingénieurs programmant en Fortran des machines extrêmement coûteuses. Puis, il y a de cela plus de vingt ans, Microsoft créa Excel. Excel est un tableur, et a mis à disposition de tout un chacun des outils simples et puissants d’analyse de données.
En fait, ces deux qualités ont été poussées à un tel paroxysme qu’aujourd’hui encore, de nombreux directeurs de services informatiques se battent pour imposer des outils de remplacement à des analystes refusant d’abandonner leurs feuilles de calcul. Ces nouveaux logiciels ont beau être plus rapides, plus conformes aux nouvelles exigences de traçabilité, plus ergonomiques, aucun d’eux n’a réussi à supplanter Excel et son extraordinaire souplesse. Un utilisateur chevronné d’Excel peut tout faire avec : calculer des moyennes pour une classe, faire des prédictions...
Des solutions pour les gros volumes
La problématique
Excel peut tout faire, mais il souffre tout de même d’une limitation : celle sur la taille des données. Longtemps, Excel a été confiné à l’étude de 255 colonnes et de 65 000 lignes sur une feuille. Les versions récentes ont relevé cette dernière valeur à 1 000 000 de lignes. Toutefois, ceci n’est pas suffisant pour des analyses de données qui se comptent sur plusieurs millions d’individus.
Ainsi, il est impossible de réaliser une analyse des impôts sur les revenus de tous les foyers fiscaux français sur une feuille Excel, ou bien de lister tous les achats réalisés sur dix ans sur telles plates-formes de boutique en ligne…
Même lorsque les résultats restent limités aux possibilités d’Excel, les forts volumes posent des problèmes de performances, et ceci n’est pas limité à Excel. Les bases de données elles aussi peuvent réaliser des calculs simples sur quelques millions de lignes de données, mais dès lors que les analyses n’utilisent plus les index, ou sont tellement complexes qu’elles empêchent les optimisations de ces logiciels de fonctionner correctement, les temps de traitement sont fortement dégradés.
Or, les décideurs veulent des résultats de plus en plus affinés, et toujours plus vite. Il a donc fallu mettre au point une approche nouvelle pour obtenir rapidement des analyses de données robustes.
OLAP, BI, Cubes de données ?
Après que toutes les solutions simples aient été épuisées (utiliser des machines plus puissantes, réécrire certains algorithmes pour contourner des limites logicielles là où c’était possible, etc.), il a fallu réaliser des modifications plus radicales dans les processus d’analyse de données pour obtenir les performances nécessaires.
L’approche la plus répandue est celle des cubes de données dits « OLAP », et de ce qui est traditionnellement nommé la « BI », pour Business Intelligence. Cette approche a consisté à modifier le compromis entre l’utilisation de l’espace...
L’approche PowerPivot
Avantages
PowerPivot est basé sur un moteur de gestion de cube éprouvé et performant. L’inclusion de SSAS dans Excel permet à celui-ci de bénéficier d’une linéarité de performance qui lui faisait jusqu’alors défaut, en plus de sa limitation en termes de taille de données.
On parle de linéarité de performance pour les approches par cube, car le fait de pré-agréger une somme en mémoire rend la lecture de celle-ci aussi rapide qu’elle soit basée sur un million ou dix millions de lignes de données. Seul le pré-calcul est plus lent, mais c’est précisément le rôle du cube de réaliser cette opération en amont, de façon à pouvoir fournir la somme demandée de manière quasi-immédiate.
Mais PowerPivot est aussi une réponse aux limites traditionnelles de la BI. Nous avons parlé un peu plus haut des sévères problématiques qui sont apparues sur les grands projets de mise en place de la BI, où les retours sur investissement se sont parfois révélés extrêmement peu flatteurs. Une des raisons d’échec les plus courantes est la mauvaise prise en compte des besoins. Le fait de placer le cube dans Excel a non seulement réjoui les analystes, mais participe à la lutte contre cette problématique.
En effet, les analystes sont les personnes auxquelles les directions financières ou opérationnelles vont demander des indicateurs, des analyses statistiques et toutes sortes de valeurs issues des données du cube. Dans l’approche BI, ces indicateurs étaient partie prenante de l’architecture du cube, et donc difficiles à modifier. De plus, la complexité des infrastructures nécessaires a souvent fait que la prise en main des cubes s’est faite par des équipes techniques plus préoccupées de l’aspect réseau, puissance de calcul et déploiement logiciel que du métier proprement dit. Le retour de la définition du cube dans les mains des analystes, grâce à la souplesse que son intégration dans Excel apporte, est donc une excellente nouvelle pour la qualité des analyses : les analystes savent beaucoup...