Analyser les pages HTML et XHTML

1. Introduction

Parfois, il est assez difficile de construire son expression régulière afin de filtrer la donnée souhaitée.

Python possède un module nommé HTMLParser qui va nous permettre de parser plus facilement nos pages web.

2. Première approche

Nous allons partir d’un document HTML simple que nous allons écrire nous-même.

Document de départ : chap2_HTML.html


<HTML> 
<HEAD> 
<TITLE> Titre du Document </TITLE> 
</HEAD> 
<BODY> 
Voici le corps du texte 
</BODY> 
</HTML>
 

Nous allons voir comment récupérer juste le titre de ce document.

chap2_exo29.py


#!/usr/bin/env python  
 
from HTMLParser import HTMLParser  
import sys  
 
class TitleParser(HTMLParser):  
        def __init__(self):  
                self.title=""  
                self.readingtitle=0  
                HTMLParser.__init__(self)  
 
        def handle_starttag(self,tag,attrs):  
                if tag=='title':  
                        self.readingtitle=1  
 
        def handle_data(self,data):  
            ...
couv_EP2HAFO.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
Le Web
Suivant
Le XML