Reprenons les basiques

La très utile librairie urllib2 va nous être indispensable pour la suite. Résumons ce que nous avons vu dans le chapitre Réseau : la bibliothèque Scapy.


import urllib2 
body=urllib2.open("http://www.eni.fr") 
print body.read()
 

Nous venons d’effectuer une requête GET à un site web. Cela va nous retourner un objet fichier que nous pourrons lire.

Nous aimerions pouvoir définir des en-têtes spécifiques, créer des requêtes POST, utiliser les cookies...

Nous allons créer la même requête que précédemment mais en utilisant la classe request et en définissant un User-Agent HTTP customisé.


import urllib2 
url = "http://www.eni.fr" 
headers = {} 
headers['User-Agent'] = 'Googlebot' 
request = urllib2.Request(url,headers=headers) 
response = urllib2.urlopen(request) 
print response.read() 
response.close()
 

Nous obtenons la réponse ci-dessous :


└─>  python web_header_agent.py  
<html> 
<head> 
<title>ENI Groupe, sp&eacute;cialiste de la formation &agrave;  
l&rsquo;informatique</title> 
<meta name="description" content="ENI GROUPE, des professionnels de la  
formation informatique, sp&eacute;cialiste en e-learning, &eacute;diteurs
de livre, d&eacute;veloppement, ing&eacute;nierie, conseil, Microsoft,  
formation...
couv_EP2HAFO.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
Introduction
Suivant
Mapping de site web