Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Robotic Process Automation
  3. Data scraping
Extrait - Robotic Process Automation Automatisez vos processus métier
Extraits du livre
Robotic Process Automation Automatisez vos processus métier Revenir à la page d'achat du livre

Data scraping

Introduction

Dans les argumentaires des solutions de RPA, les fonctionnalités les plus couramment citées sont celles permettant des échanges de données entre systèmes de gestion de bases de données hétérogènes, la gestion des flux de données texte. Tout ceci a été étudié dans les précédents chapitres.

Le "data scraping" (ou "web scraping") constitue également une fonctionnalité phare d’UiPath.

UiPath est vraiment à la pointe sur ce sujet du data scraping, en étant capable d’interpréter le contenu de pages web et d’en extraire de manière intelligente des contenus textuels, présentés sous forme de tableaux ou non sur Internet.

Vous verrez, au travers de deux exemples, la simplicité du data scraping sous UiPath et serez en mesure d’organiser des rapatriements de données du même type, les données étant la plupart du temps structurées sous forme de tableaux sur les pages web.

Sachez enfin qu’UiPath propose plusieurs techniques pour automatiser ces récupérations de données. De nombreux exemples et vidéos disponibles sur Internet vous aideront à les découvrir.

Application Data scraping - Liste des personnes

Le premier exemple de data scraping consiste en la récupération du fichier HTML personnes.html publié sur un compte FTP et disponible à la consultation à l’adresse http://christian.vigouroux.online.fr/uipath/personnes.html. Ce script HTML affiche sous la forme d’un tableau les quatre champs (NOM, prénom, Age et Sexe) d’un jeu de données constitué de quatre enregistrements. Pour cette application basique, les données sont uniquement présentées sous la forme d’un message de contrôle.

1. Présentation de l’application

L’objectif est de récupérer la liste de données qu’affiche le script accessible à l’adresse http://christian.vigouroux.online.fr/uipath/personnes.html :

images/XVIII-1-1_01.png

La copie d’écran a été retouchée pour une meilleure lisibilité, le tableau est normalement centré par rapport à la page web.

Le process UiPath se contente de faire un affichage de contrôle de chaque enregistrement sans procéder à une exploitation plus poussée.

2. Application UiPath

Avant d’envisager une opération de data scraping avec UiPath, vous devez installer dans votre navigateur internet une extension UiPath.

La documentation officielle pour réaliser cette installation pour le navigateur Google Chrome est disponible à l’adresse : https://docs.uipath.com/studio/v2019/docs/extension-for-chrome

Des extensions UiPath existent pour les principaux navigateurs, dont Google Chrome mais aussi Microsoft Edge et Mozilla Firefox.

L’installation peut s’effectuer directement sous UiPath Studio, via le menu...

Application Data scraping - Vainqueurs du Tour de France

La deuxième application, plus ambitieuse, utilise dans le traitement UiPath une page web donnant la liste des vainqueurs du Tour de France cycliste depuis sa première édition (données disponibles sous Wikipédia), réalise une récupération complète de cette liste et la retranscrit ensuite dans une feuille d’un classeur Microsoft Excel.

1. Présentation de l’application

Cette deuxième application est basée sur la liste des vainqueurs du Tour de France cycliste sous forme d’un tableau HTML, disponible sur Wikipédia à l’adresse : https://fr.wikipedia.org/wiki/Palmar%C3%A8s_du_Tour_de_France.

Le début du tableau (la première édition a eu lieu en 1903) se présente comme suit (le nombre de colonnes a été volontairement réduit) :

images/XVIII-2-1_01.png

Un report partiel des données dans un classeur Excel (liste_vainqueurs_TDF.xlsx) est réalisé après l’extraction.

2. Application UiPath

L’ordinogramme présente des similitudes avec celui de l’application Data scraping - Liste des personnes :

images/XVIII-2-2_01.png

Pour éviter la création d’un nouveau classeur Microsoft Excel (de nom liste_vainqueurs_TDF) à chaque exécution du processus, l’option a été prise de supprimer le classeur...