Sommaire

Manipulation de données structurées avec Wrangler

Open Refine est certainement un des meilleurs outils pour nettoyer de la donnée peu structurée, avec des formats étranges, des provenances multiples provoquant la présence des doublons, bref de la donnée de mauvaise qualité, bien que présentée sous forme tabulaire. Mais les sources sont parfois plus structurées dans leur contenu, tout en étant fournies sous des formes moins strictes qu’un tableau. Nous allons montrer comment utiliser dans ce cas un autre outil plus adapté.

1. Utilisation de l’ancêtre Data Wrangler

Le produit Wrangler commercialisé par Trifacta est issu d’un outil web édité par l’Université de Stanford, initialement présenté sous forme d’une application web gratuite, et nommée Data Wrangler. Bien que cette dernière ne soit plus supportée, nous allons rapidement montrer son fonctionnement sur un exemple simple, pour expliquer les caractéristiques essentielles de Wrangler, et en particulier les fonctionnalités de proposition automatique de transformation.

a. Récupération de données brutes

Pour cet exemple, nous allons simplement copier de la donnée sous forme de texte telle qu’on la trouve sur d’innombrables sites web. Par exemple :

Faites défiler la page jusqu’à ...