Sommaire

Webscraping facile avec les modules urllib et HTMLParser Webscraping Module urllib Module HTMLParser

Python est un langage de choix pour la programmation réseau, ainsi que la programmation web, notamment grâce à, encore fois, son très large panel de bibliothèques disponibles. Le webscrapping est une technique permettant de récupérer une page d’un site web et d’en analyser son contenu. Deux modules tirent leurs épingles du jeu : urllib et html. Ces deux modules servent essentiellement à manipuler des pages web, c’est-à-dire les récupérer depuis un serveur et en extraire des informations pertinentes.

Avec le module urllib, la récupération du contenu d’une page et l’interrogation d’un serveur s’effectuent en à peine trois lignes. Bien évidemment, le Raspberry Pi doit être connecté à Internet avant de commencer à utiliser le module et interroger des sites. L’URL (Uniform Resource Locator) de la page interrogée est l’article de la France (en français) du site www.wikipedia.org : URL (Uniform Resource Locator)

>>> import urllib.request 
>>> reponse =  
urllib.request.urlopen(’https://fr.wikipedia.org/wiki/France’) 
>>> page = reponse.read()

Ici, la variable page stocke le contenu de l’article. Attention car la valeur renvoyée par read() est une séquence de type bytes qu’il faudra convertir ...