Récupérer des données depuis Wikipédia

Quand vous voulez récupérer des données spécifiques, vous effectuez une recherche sur Internet et les premiers résultats retournés correspondent souvent aux pages de Wikipédia. Wikipédia est un projet d’encyclopédie collective établie sur Internet, universelle, multilingue et fonctionnant sur le principe du partage collaboratif.

La plupart des pages de Wikipédia contiennent des tableaux de données qu’il est tentant de récupérer dans un tableur Excel. Seulement, un copié-collé de ces tableaux produit toujours un résultat inexploitable.

Nous allons bâtir un exemple sur la page Wikipédia qui contient les codes ISO des pays (https://fr.wikipedia.org/wiki/ISO_3166-1). Chaque pays est identifié de façon unique par un code de 2 ou 3 lettres. Par exemple, pour la France, le code ISO est FR ou FRA. Pour la conception d’une base de données, il est toujours préférable de coder chaque pays à partir de son code ISO plutôt que d’utiliser le nom complet du pays pour éviter les sources d’erreur.

images/07SOB20.png

Capture d’écran des données récupérées sur le site Wikipédia

Faire un copié-collé vers Excel

Le premier réflexe que tout utilisateur peut avoir dans ce contexte est de sélectionner tout le tableau, puis de le copier et enfin de le coller dans...

Pour consulter la suite, découvrez le livre suivant :
couv_SOBMPQ.png
60-signet.svg
En version papier
20-ecran_lettre.svg
En version numérique
41-logo_abonnement.svg
En illimité avec l'abonnement ENI
130-boutique.svg
Sur la boutique officielle ENI
Précédent
Gérer les connexions
Suivant
Suivre un flux OData