Les limites de la restructuration de données

Dans les précédentes sections, nous avons montré comment utiliser Wrangler et Power Query pour retravailler des ensembles de données faiblement structurées de façon à pouvoir exploiter ces dernières par la suite. Bien sûr, il existe des cas dans lesquels même les meilleurs outils trouvent leurs limites, à savoir lorsque la déstructuration des données ne suit pas une logique particulière.

Par exemple, le fichier des effectifs de la Police municipale par commune fourni sur https://www.data.gouv.fr/fr/datasets/police-municipale-effectifs-par-commune/ sous le nom de téléchargement PM_enquete_2014_communes_ ASVP.xlsx ne suit pas une logique suffisante pour qu’il soit possible de le traiter de manière informatique. Un simple coup d’œil au fichier Excel montre que la réutilisation des données n’était clairement pas dans les objectifs du producteur.

Sur la première capture ci-dessous, le titre occupe quinze lignes en haut du fichier, ce qui posera problème à certains outils. Même dans le cas où il est possible de gérer un nombre de lignes à passer, les garanties sont faibles que le fichier de l’année suivante reste exactement sur ce nombre.

La colonne département contient comme prévu le nom du département avec le nombre associé entre parenthèses (ce qui est assez simple...

Pour consulter la suite, découvrez le livre suivant :
couv_DPOPE.png
60-signet.svg
En version papier
20-ecran_lettre.svg
En version numérique
41-logo_abonnement.svg
En illimité avec l'abonnement ENI
130-boutique.svg
Sur la boutique officielle ENI
Précédent
Recomposition de données déstructurées avec Power Query
Suivant
Autres fonctionnalités des outils