Analyser les pages HTML et XHTML
1. Introduction
Parfois, il est assez difficile de construire son expression régulière afin de filtrer la donnée souhaitée.
Python possède un module nommé HTMLParser qui va nous permettre de parser plus facilement nos pages web.
2. Première approche
Nous allons partir d’un document HTML simple que nous allons écrire nous-même.
Document de départ : chap2_HTML.html
<HTML>
<HEAD>
<TITLE> Titre du Document </TITLE>
</HEAD>
<BODY>
Voici le corps du texte
</BODY>
</HTML>
Nous allons voir comment récupérer juste le titre de ce document.
chap2_exo29.py
#!/usr/bin/env python
from HTMLParser import HTMLParser
import sys
class TitleParser(HTMLParser):
def __init__(self):
self.title=""
self.readingtitle=0
HTMLParser.__init__(self)
def handle_starttag(self,tag,attrs):
if tag=='title':
self.readingtitle=1
def handle_data(self,data):
...