Les outils statistiques
Présentation
Conçu à l’origine par des statisticiens, Tableau met à votre disposition une série d’outils statistiques prêts à l’emploi, dont vous pouvez vous servir sans forcément en maîtriser toutes les subtilités mathématiques. Ce chapitre va vous présenter ces principaux outils : les lignes de tendance, les prévisions, le clustering (ou partitionnement de données) et les boîtes à moustaches.
Afficher une ligne de tendance
Rechercher une ligne de tendance, c’est déterminer la fonction mathématique qui s’approche le plus des données ; elle peut avoir différents usages, mais l’interprétation la plus courante consiste à voir dans la ligne de tendance la régularité mathématique qui se cache derrière la contingence des événements individuels.
Prenons un exemple : la fondatrice d’AlimOL voudrait voir l’évolution des ventes depuis la création de l’entreprise.
Créez un classeur fondé sur le fichier Ventes_AlimOL.txt ou reprenez l’un de ceux que vous avez déjà réalisés. Vous aurez besoin des champs calculés ci-dessous (créez-les au besoin).
-
CA : [Quantité] * [Prix Unitaire]
-
CA light : [CA] * [Allégé]
-
% light : SUM([CA light]) / SUM([CA])
Créez une nouvelle feuille nommée Historique des ventes.
Créez une courbe représentant le chiffre d’affaires avec l’année de la date de commande en abscisses.
Descendez au niveau de la combinaison trimestre-année.

Évolution du CA depuis la création de l’entreprise
Le graphique montre des pics et des creux, et la fondatrice voudrait voir quelle est la tendance globale d’évolution...
Faire des prévisions
À partir de la tendance, peut-on extrapoler l’avenir ? C’est le pari des modèles de prévision, que nous allons utiliser pour répondre aux demandes de la fondatrice d’AlimOL.
Revenez sur la feuille Historique des ventes (celle qui présente les ventes tous rayons confondus), et dupliquez-la.
Depuis le volet Analytique, faites glisser Prévision depuis la section Modèle sur la courbe existante.

Ajouter une prévision
Tableau affiche automatiquement les données réelles en bleu foncé et une prévision statistique en bleu clair. Ce réglage est matérialisé par la gélule Indicateur de prévisions que Tableau a placée sur la propriété Couleur (vous pouvez bien sûr déplacer ou dupliquer cette gélule pour présenter vos données différemment).

Évolution du CA avec une prévision
La gélule SOMME(CA) présente maintenant une flèche, qui est l’icône des prévisions dans Tableau. Vous pouvez cliquer sur cette icône pour utiliser les différents calculs liés à la prévision, notamment les bornes haute et basse de l’intervalle de confiance.
La fondatrice voudrait comprendre un peu plus comment interpréter la prévision.
Dans le menu Analyse, choisissez...
Regrouper des données en clusters
La responsable marketing d’AlimOL voudrait lancer une étude sur les clients, qu’elle souhaite catégoriser selon deux axes : le volume du chiffre d’affaires généré, mais aussi leur tendance à acheter des produits allégés. Pour commencer, elle voudrait voir comment les clients se répartissent sur ces deux axes.
Nous allons avoir besoin d’un identifiant de client, la combinaison nom / prénom fera l’affaire. Si vous n’avez pas de champ Client, vous pouvez procéder comme suit :
Dans le volet Données, sélectionnez Nom puis Prénom, faites un clic droit et choisissez Créer - Champ combiné. Renommez le nouveau champ en Client.
Construisons un nuage de points :
Créez une nouvelle feuille, filtrez sur 2024 et affichez le filtre.
Glissez le champ CA sur l’étagère Colonnes, le champ %Light sur l’étagère Lignes et le champ Clients sur la propriété Détails.

Répartition des clients en fonction du chiffre d’affaires généré et de leur part d’achat light
Le nuage de points n’est pas très lisible, car les quelques très gros clients à droite viennent tasser tous les autres sur la gauche. Pour mieux répartir les clients...
Visualiser la dispersion avec les boîtes à moustaches
La boîte à moustaches (en anglais, box-and-whisker plot, en raccourci boxplot) est un graphique inventé par le statisticien John Tukey pour représenter la dispersion des valeurs d’une mesure parmi une population. Dans Tableau, c’est à la fois un accessoire graphique du volet Analytique et un modèle proposé par le volet Montre-moi.
La responsable marketing d’AlimOL cherche à compléter son analyse en clusters par une étude de leur répartition entre petits et gros clients, donc sur le seul critère du chiffre d’affaires généré.
Sur une nouvelle feuille, placez le champ Client sur la propriété Détails, le champ CA sur l’étagère Lignes et le champ Date Comm sur l’étagère Colonnes.
Modifiez le Type de repère en Cercle ; les clients étant trop tassés vers le bas, passez l’axe vertical en représentation Logarithmique (comme nous l’avons fait pour les clusters).
Réglez la Taille de manière à ce que les points ne soient pas trop les uns sur les autres.
Activez le volet Analytique, puis glissez une Boîte à moustaches sur le graphique.

Dispersion des clients selon le chiffre d’affaires annuel
Comment lire ce type de graphique ? Par convention, les clients sont répartis en quatre groupes comportant chacun le même nombre de clients.
-
Le quart des plus petits clients est situé en dessous de la boîte.
-
Le quart suivant correspond à la partie inférieure de la boîte (en gris foncé)....
Exercices : construire un jitter plot
Les boîtes à moustaches représentent bien l’étendue correspondant à chacun des quatre quarts d’une population, ainsi que les outliers. Cependant, la position des points de données non aberrants est peu visible, et même leur densité appraît mal. Une amélioration intéressante pour cela est le jitter plot (un terme qui pourrait être traduite par « graphique agité » ou encore « graphique à neige », pour évoquer à la fois les boules à neige qu’on secoue ou les parasites sur un vieil écran de télévision à réception hertzienne).
Dupliquez la feuille avec les boîtes à moustaches.
Notre problème de fond est que les clients ne se distinguent les uns des autres que par leur chiffre d’affaires, donc sur l’axe vertical. Horizontalement, ils sont tous à la même position, ce qui aboutit à les empiler au milieu de leur boîte à moustaches.
Exercice 1 : imaginez un champ calculé très simple, qui permettrait de distinguer les clients les uns des autres sur l’axe horizontal. Les clients doivent avoir la meilleure répartition possible, afin d’éviter qu’ils s’agglutinent sur la même position.
Exercice 2 : mettez...
Solutions commentées : construire un jitter plot
Exercice 1 : imaginez un champ calculé très simple, qui permettrait de distinguer les clients les uns des autres sur l’axe horizontal. Les clients doivent avoir la meilleure répartition possible, afin d’éviter qu’ils s’agglutinent sur la même position.
Nous pouvons bien sûr utiliser le champ % light ou une autre donnée pour espacer les clients, mais comme nous l’avons vu, la majorité des clients la majorité des clients ont des % light assez faibles, les points qui les représentent sont donc tous tassés vers le bas du graphique ; plus largement, toute tentative d’utiliser une donnée significative risque d’aboutir à une mauvaise répartition, précisément parce qu’elle aura pour effet d’ajouter une nouvelle information plutôt que de chercher à répartir les clients.
Pour utiliser au mieux l’espace du graphique, le mieux serait au contraire que la fonction de répartition soit parfaitement arbitraire. Nous pourrions par exemple, attribuer aux clients un numéro selon leur ordre alphabétique, mais cela suppose pour nous de mettre en place un calcul de table, et pour Tableau de traiter un gros volume de calculs supplémentaires.
Un moyen simple et économique d’obtenir une répartition...