Affinage des données avec OpenRefine

La section ci-dessous va démontrer l’usage d’un second outil de nettoyage de données, à l’approche sensiblement différente de celle utilisée par Power Query (et qui s’apparentait assez fort à un ETL).

Un ETL (Extract Transform Load) est un outil spécialisé, comme son nom l’indique, dans l’extraction, la transformation et le chargement de données. Il s’agit en général d’outils assez lourds, réservés à des traitements de masse. Ils sont donc considérés comme ne relevant pas du domaine étudié par le présent ouvrage, même si - dans des processus plus industriels de publication de données - ils ont bien sûr toute leur place.

L’idée maître d’OpenRefine est de gérer des données "sales", à savoir contenant des doublons, des données identiques a priori mais écrites de manière légèrement différentes, ce qui empêche leur équivalent informatique, etc. Google est à l’origine de ce produit initialement appelé Google Refine. Après quelques années, le produit a été transféré en un projet open source, comme l’indique le site original (https://code.google.com/p/google-refine/). Toutefois, la présence du logo Google en évidence sur l’interface utilisateur...

Pour consulter la suite, découvrez le livre suivant :
couv_DPOPE.png
60-signet.svg
En version papier
20-ecran_lettre.svg
En version numérique
41-logo_abonnement.svg
En illimité avec l'abonnement ENI
130-boutique.svg
Sur la boutique officielle ENI
Précédent
Filtrage de données avec Power Query
Suivant
Manipulation de données structurées avec Wrangler