Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. La data
  3. Analyser et fiabiliser les données
Extrait - La data Guide de survie dans le monde de la donnée
Extraits du livre
La data Guide de survie dans le monde de la donnée
1 avis
Revenir à la page d'achat du livre

Analyser et fiabiliser les données

Introduction

L’objectif de ce chapitre est de passer en revue les outils et moyens à mettre en œuvre afin de mieux comprendre et analyser les données. En effet, une donnée peut avoir différentes facettes dont celle d’être intimement liée à un contexte. Une donnée peut avoir une interprétation dans un contexte donné et une autre totalement différente - voire opposée - dans une autre perspective. Par ailleurs, une donnée a une vie et peut varier, s’altérer dans le temps ou tout simplement subir des changements lors de son transport ou dans son support de stockage.

Avant de pouvoir utiliser une donnée, il est donc important de l’analyser afin de vérifier qu’elle correspond à nos attentes au moment de son utilisation. Imaginez que l’on récupère des jeux de données non documentés et non expliqués. Dans ce cas précis, il sera indispensable de passer par la case analyse. Une bonne pratique est de s’assurer que les données que l’on va utiliser sont bel et bien conformes, et c’est tout l’objet de ce chapitre.

Nous verrons tout d’abord comment analyser nos données sous un prisme technique ou structurel : c’est ce que l’on appelle le profilage de données (ou le Data Profiling). Cette analyse se focalise principalement sur les types, formats, nombre d’occurrences de la donnée et ne demande aucune connaissance particulière sur la donnée. Cette phase a pour objectif de poser un état des lieux factuel sur les composantes structurelles de la donnée et va faire ressortir les caractéristiques...

La préparation de données

Malheureusement les données ne sont pas toujours prêtes à l’emploi. Telles quelles, il est rarement possible d’en extraire afin de produire les résultats attendus (comme l’évolution d’un chiffre d’affaires, le calcul d’un indicateur de satisfaction, etc.). Dans l’immense majorité des cas, il va falloir retravailler les données brutes afin de les rendre exploitables dans la perspective d’une analyse, d’une alimentation ou même d’une modélisation (Machine Learning).

Une chose est certaine, si cette phase est en quelque sorte la face cachée de l’iceberg, ce n’en est pas moins une étape importante et surtout qui peut s’avérer très chronophage si elle n’est pas effectuée avec les bonnes compétences et ressources. On dit par exemple que les analystes de données et autres data scientistes passent plus de 80 % de leur temps à préparer leurs données. Il ne leur reste donc plus que 20 % de leur temps pour réaliser leur travail sur les données.

La préparation de données consiste donc à collecter et transformer les données afin que l’on puisse travailler dessus. On reconnaît bien là les deux premières phases de notre fameux ETL (voire ELT). Et pour cause la démarche est très similaire. À ceci près que la finalité est souvent très différente. Dans une démarche de type ETL, les données sont au final transportées vers une (ou plusieurs) source de données cibles, ce dans...

Analyse descriptive

Notons avant toute chose que l’analyse de données nécessite que les données soient mises à disposition sous un format tabulaire (lignes et colonnes). Ce chapitre concerne donc les données structurées. À l’heure actuelle, toutes les solutions (ou presque) fonctionnent avec des données structurées de la sorte. Une fois mises à disposition sous ce format, l‘idée est d’analyser d’un point de vue technique les données fournies, de les décrire et d’identifier, pourquoi pas, un premier niveau d’exceptions (par exemple la détection d’outliers).

Cette étape a plusieurs noms : on l’appelle analyse descriptive ou profilage de données (Data Profiling).

Cette analyse doit décrire l’échantillon de données - ou tout le jeu de données - en effectuant le profil de chaque colonne pour y découvrir les informations importantes sur les attributs, notamment la fréquence et la distribution des valeurs de données, les formats, les patterns et les valeurs nulles, minimums et maximums. Toutes les données sont donc lues pour fournir une analyse et un état des lieux exhaustifs.

Mais les outils ou solutions permettent souvent d’aller bien plus loin en matière d’analyse. Voyons en détail les différentes analyses qu’il est possible de réaliser sur un jeu de données sans pour autant en avoir une connaissance fonctionnelle. Pour ce faire nous pourrions utiliser des outils No Code tels qu’Informatica, Talend ou SAS DataFlux qui, avec un simple clic, permettent d’obtenir ce type...

Analyse exploratoire et visualisation de données

Grâce au profilage de données, on peut mieux comprendre la façon dont étaient structurées et formatées nos données. Tout comme le chapitre précédent, ce chapitre ne concerne donc que les données structurées. Jusque là, on était encore dans la partie descriptive de l’analyse des données. Il est plutôt rare que ce type d’analyse soit suffisant car, comme on l’a vu à maintes reprises, une donnée n’a de valeur et de sens que lorsqu’elle est placée dans un contexte. Il est donc indispensable d’approfondir cette première analyse et passer à la phase exploratoire proprement dite.

On va alors chercher des liens entre les données, des tendances, des groupements, etc. C’est véritablement ici que l’on va pouvoir trouver de la valeur dans les données explorées. Mais disons-le franchement, à ce niveau, il n’existe pas d’outil magique qui vous permettra de prendre vos données en entrée pour récupérer en sortie les bonnes conclusions ! En effet une bonne connaissance du métier, du contexte, voire même des organisations est indispensable. Il sera alors nécessaire de combiner connaissances fonctionnelles, outils appropriés et jeu de données représentatif pour pouvoir faire ressortir les bons résultats.

En ce qui concerne les outils, ou plutôt le type d’outils, il faut regarder du côté de la visualisation de données (la DataViz). Ces outils, grâce à leur souplesse et leur approche...

Quelques exemples d’analyses

1. L’analyse de données par cohorte

L’analyse de cohorte est un type d’analyse particulièrement utilisé par les équipes Marketing des sociétés car elle permet d’analyser des segments de population (au sens statistique) afin de pouvoir y extraire des caractéristiques ou des comportements communs. Ce type d’analyse est aussi très utilisé pour extraire des informations ou plutôt les facteurs d’influence de chaque groupe (ou cohorte) sur les autres.

Très clairement, ce type d’analyse est fréquent dans le e-commerce ou tout type d’activité qui vise à augmenter le nombre d’adhérents de manière générale.

Analyser le taux de conversion de client gratuit en client payant (premium) est un cas d’école.

Voici un excellent exemple pour illustrer ce qu’est une analyse cohorte : prenons une société qui lance une campagne marketing d’ampleur. Les téléconseillers sont chargés de faire un grand nombre d’appels dans le but de prendre des rendez-vous.

Voici le fichier des appels et rendez-vous tel que relevé après quatre jours de campagne :

Jour

Nombre d’appels

Rendez-vous pris

Taux de transformation

J1

100

10

10 %

J2

150

30

20 %

J3

120

40

33 %

J4

90

50

55 %

À y regarder de près, le taux de transformation est assez peu stable d’un jour à l’autre (on passe de 10 % à 20 % le lendemain, etc.). Le problème ici est que les téléconseillers gèrent des rappels et les clients qui ont été...

Qualité de la donnée

On vient de voir comment analyser et qualifier les données d’un point de vue technique avec le profilage de données et du point de vue fonctionnel avec la visualisation de données. Mais comment déterminer si la donnée est de bonne qualité ?

1. Pourquoi faire de la qualité de données ?

Il peut y avoir beaucoup de raisons pour lesquelles la qualité de données devient réellement un élément fondamental. Dans le monde de la finance, on retrouvera bon nombre de projets impliquant une part de qualité de données non négligeable tels que :

  • les projets autour de la gestion d’identité (gestion de données de tiers, projets KYC (Know Your Customer), construction de MDM pour la vue unique de tiers et organisation, détection de fraude) ;

  • la gestion des risques (KPI et monitoring sur les données, modélisation, agilité) ;

  • les projets autour de contraintes réglementaires (GDPR , Basel, Solvency II, BCBS 239, FATCA) ;

  • les projets analytiques Big Data (intégration de données sociale et fraude, analyse de portefeuille) ;

  • la sécurisation de données (GDPR, développements et tests Off/On Shore, réglementations/rétention des informations, acquisition et monitoring de la qualité de données ML/OFAC, contrats d’assurance vie en déshérence) ;

  • les grands projets de modernisation et de décommisionnement applicatifs (migration, validation et tests/recette, synchronisation, archivage, intégration cloud) ;

  • les projets d’intégration de données partenaires...