Le Web

1. Introduction

La « prise d’empreinte », c’est-à-dire la recherche d’informations sur une personne, une entité ou une entreprise, est l’élément primordial pour une attaque réussie. C’est la partie du travail qui va prendre le plus de temps.

Il faut connaître parfaitement sa cible. Pour cela, des outils et des sites web sont disponibles, tels que Maltego, 123people, les réseaux sociaux et autres.

Mais il arrive, et plus souvent que l’on ne peut l’imaginer, que ces outils soient trop génériques et ne correspondent pas au besoin ou que le flot d’informations reçu soit trop volumineux pour pouvoir être traité rapidement.

Il devient alors nécessaire de créer des outils. Pour la recherche d’informations sur un site web, nous allierons l’utilisation des bibliothèques pour le web telles que urllib, urllib2 et celle des expressions régulières vues précédemment.

2. Récupération d’une page source

La librairie utilisée sera urllib2.

Deux méthodes vont nous être utiles ici : Request() et urlopen().

chap2_exo25.py


#!/usr/bin/env python  
# ­­*­­ coding: UTF­8 ­­*­­  
import sys, urllib2  
req=urllib2.Request(sys.argv[1])  
fd=urllib2.urlopen(req)  
while 1:  
    data=fd.read(1024)  
    if not len(data):  
        break...
couv_EP2HAFO.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
Les expressions régulières
Suivant
Analyser les pages HTML et XHTML