Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. La data
  3. La donnée sous toutes ses facettes
Extrait - La data Guide de survie dans le monde de la donnée
Extraits du livre
La data Guide de survie dans le monde de la donnée
1 avis
Revenir à la page d'achat du livre

La donnée sous toutes ses facettes

Introduction

Avant de se lancer dans la découverte de ce que l’on peut faire avec des données, il est important de revenir sur quelques évidences. Certains esquisseront sans doute un sourire en lisant le titre du premier chapitre. Mais à y regarder de plus près, ce qui peut paraître évident ne l’est pas nécessairement quand on creuse un tout petit peu le sujet. Alors, faisons cet effort de poser les fondamentaux, et réfléchissons ensemble aux questions suivantes :

  • Qu’est-ce qu’une donnée ?

  • Comment se décrit-elle ?

  • Comment s’utilise-t-elle ?

  • Comment la contrôler ?

Qu’est-ce qu’une donnée ?

Notre premier réflexe à tous est d’ouvrir notre navigateur et d’aller sur Wikipédia. 

Voici donc la définition d’une donnée :

Une donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d’une solution à un problème en relation avec cette donnée.

Une donnée est en quelque sorte un fait, un constat, quelque chose de concret. Mais c’est aussi bien souvent un fait brut. On distinguera dès maintenant la nuance entre une donnée et une information. La donnée est en effet un point de départ alors que l’information est bien souvent ce que l’on espère en tirer : un résultat exploitable en quelque sorte. Pour faire une métaphore, la donnée est du charbon et l’information est un diamant.

Malheureusement, passer du stade de donnée(s) à celui d’information(s) nécessite du travail. Cela tombe bien car l’objet de ce livre est également de voir comment procéder pour atteindre cet objectif.

Les données peuvent donc être rangées, formatées, typées ou simplement perçues de plusieurs manières selon leur état ou le contexte et pourquoi pas aussi la façon dont on les récupère. À y regarder de plus près, il y a vraiment beaucoup de qualificatifs qui peuvent définir les nombreuses caractéristiques d’une donnée.

images/01DP01.png

Cartographie des caractéristiques d’une donnée

En faisant cet exercice de cartographie...

Propriétés physiques

1. Le type

C’est probablement la première chose à laquelle on pense dès lors que l’on récupère une donnée. À vrai dire, si on faisait un sondage auprès de développeurs, il est presque certain que c’est la première chose qui leur viendrait à l’esprit. Qu’est-ce que le type d’une donnée ? La définition de Wikipédia est plutôt généraliste :

En programmation informatique, un type de donnée, ou simplement un type, définit la nature des valeurs que peut prendre une donnée, ainsi que les opérateurs qui peuvent lui être appliqués.

On peut voir un type comme une catégorie structurelle de données. Voici quelques exemples de types, mais la liste n’est pas exhaustive : nombre, texte, date, monétaire, booléen... voilà pour les plus connus. Évidemment, si vous regardez du côté de ceux qui stockent les données (comme les bases de données ou même les langages de programmation), vous découvrirez encore plus de variations de ces types de base. En effet, le type de données permet aussi de définir l’espace de stockage nécessaire à cette donnée.

a. Bits et octets

La réalité est que l’on peut créer autant de types de données que l’on veut, tout simplement parce que tous les types de données ne sont que des extensions d’un seul type de base : le binaire.

Une information binaire ne propose que deux possibilités ou valeurs : zéro (0) ou un (1).

[0,1]...

Propriétés d’exposition

1. Le format

Nous avons vu dans les sections précédentes les types de données et parfois même nous avons dû aborder la notion de format tant ces deux notions peuvent être liées. Voyons maintenant comment, pour un même type de données, on peut distinguer plusieurs formats. Il est important de noter ici qu’une même donnée peut avoir plusieurs formats ou mises en formes possible (c’est le cas typiquement de la date). Il est même possible que la manière dont on formate une donnée influe sur la valeur de la donnée elle-même (comme nous le verrons juste après avec les dates par exemple). D’une certaine manière, il faut garder en tête qu’il y a plusieurs manières de présenter la donnée. Toutes peuvent être correctes d’un point de vue syntaxique mais peut-être pas du point de vue du sens même de cette donnée. Il est important donc de connaître le(s) bon(s) format(s) à utiliser pour pouvoir exploiter correctement cette donnée. Le ou les format(s) sont donc des informations importantes (métadonnée) sur la donnée.

a. Date

L’exemple le plus fréquent en matière de confusion type - format se trouve dès lors que l’on doit gérer des données de type date.

Imaginez que vous récupériez une donnée date telle que celle-ci : 12/01/2021

  • Est-ce le 12 janvier 2021 ? (format européen)

  • Ou le 1er décembre 2021 ? (format américain)

En effet, tous les pays ne gèrent pas l’affichage...

Propriétés structurelles

1. La granularité

Quelle est la granularité d’une donnée ? Un document (comme une facture), une liste de produits, un simple montant (TTC), ou une pile de documents sont des données. Mais pour catégoriser une donnée on doit commencer par connaître sa profondeur et son périmètre.

Quand on veut travailler sur des données, que ce soit pour faire une analyse ou effectuer des traitements (validation de factures, lancement de bons de commande, résiliation, création de compte, etc.), il est capital de disposer de ces données avec la profondeur attendue. Pour prendre l’exemple d’une facture, il est important de savoir si le montant remonté est le montant de la facture ou le montant d’un des articles de cette même facture. La première étape consiste donc à déterminer la granularité des données, a minima afin de savoir quelles seront les étapes de transformations qui seront nécessaires ultérieurement pour arriver au résultat voulu (si nécessaire, bien entendu).

Dans la granularité on retrouve le concept de conteneur-contenant, de "macro-data" ou "micro-data" dans le sens où des données peuvent en encapsuler d’autres, plus fines.

Malheureusement, on ne connaît pas toujours la granularité de nos données, parfois même il faudra le découvrir par nous-même via une analyse structurelle des données approfondie (aussi appelée Data Profiling). Dans tous les cas de figure, il est important, voire vital, de se poser des questions sur la granularité...

Propriétés fonctionnelles

1. Le contexte

Le contexte est peut-être la caractéristique la plus importante qui permet d’une part de bien expliquer une donnée et d’autre part de la positionner dans un cadre fonctionnel ou d’utilisation. Malheureusement c’est aussi souvent la plus complexe à définir. La valeur d’une donnée, ce qui fera par ailleurs qu’elle sera exploitable, est inéluctablement liée à son contexte. Et ce contexte n’est malheureusement pas quantifiable. Il est parfois même assez abstrait car il s’explique et se comprend par rapport à un environnement fonctionnel précis. Il fait partie intégrante de la définition, du moins de la signification supposée de la donnée et a une grande influence sur ce qu’elle représente concrètement.

Exemples

  • Contexte spatial : Comment utiliser correctement une valeur immobilière sans la localité ?

  • Contexte temporel : Que faire d’un chiffre d’affaires sans sa durée et la date ?

Cela implique qu’une donnée a une valeur dans son contexte et peut donc être invalide hors de ce dernier. C’est le cas d’une date de péremption par exemple. On parle alors de fraîcheur de la donnée dans le cadre d’une donnée qui peut être altérée dans le temps. D’une manière générale, une donnée se définit par rapport à un ou plusieurs contextes et c’est aux utilisateurs (producteurs et/ou consommateurs) de définir la qualité de cette donnée par rapport au contexte...

Vocabulaire des données

Nos données sont surtout définies par leurs usages. On verra dans les chapitres suivants que ces données sont une mine d’or et que l’on va pouvoir en faire à peu près ce que l’on en veut. Mais avant d’aborder ces différents usages et afin de clore ce chapitre, il est important de préciser quelques éléments de langage que l’on rencontre de plus en plus dans la littérature.

Attention car ces terminologies sont très relatives et dépendent totalement du contexte d’utilisation de ladite donnée.

Donnée chaude

Cette image de donnée chaude désigne une donnée qui vient d’être récupérée dans un système et qui va être très rapidement utilisée par un ou d’autres systèmes. Ce sont des données qui sont en fait très utilisées dans le système d’informations mais qui ont pour défaut d’être très volatiles.

Exemple : les informations de stock produit dans un ERP.

Donnée d’intention

Une donnée d’intention est une donnée chaude qui doit être utilisée très rapidement sans quoi elle deviendra obsolète ou périmée (donnant même un résultat faux).

Exemple : données de comportement d’un acheteur naviguant sur Internet -> intention d’achat.

Donnée froide

Une donnée froide est une donnée qui est stable (qui ne changera plus ou quasiment plus). A contrario de la donnée chaude, la donnée froide reste donc valable de manière...