Reprenons les basiques
La très utile librairie urllib2 va nous être indispensable pour la suite. Résumons ce que nous avons vu dans le chapitre Réseau : la bibliothèque Scapy.
import urllib2
body=urllib2.open("http://www.eni.fr")
print body.read()
Nous venons d’effectuer une requête GET à un site web. Cela va nous retourner un objet fichier que nous pourrons lire.
Nous aimerions pouvoir définir des en-têtes spécifiques, créer des requêtes POST, utiliser les cookies...
Nous allons créer la même requête que précédemment mais en utilisant la classe request et en définissant un User-Agent HTTP customisé.
import urllib2
url = "http://www.eni.fr"
headers = {}
headers['User-Agent'] = 'Googlebot'
request = urllib2.Request(url,headers=headers)
response = urllib2.urlopen(request)
print response.read()
response.close()
Nous obtenons la réponse ci-dessous :
└─> python web_header_agent.py
<html>
<head>
<title>ENI Groupe, spécialiste de la formation à
l’informatique</title>
<meta name="description" content="ENI GROUPE, des professionnels de la
formation informatique, spécialiste en e-learning, éditeurs
de livre, développement, ingénierie, conseil, Microsoft,
formation...