Modélisation de sujet avec LDA et LSI

1. Extraire une liste de mots d’un texte

a. Analyse lexicale ou tokenization

L’un des prétraitements nécessaires à l’utilisation des algorithmes présentés dans ce chapitre est la transformation d’un texte en liste de mots. Cette étape de transformation d’un texte en liste d’entités lexicales (appelées « tokens ») peut être effectuée à l’aide des fonctions du module nltk.tokenize. La fonction wordpunct_tokenize() permet de transformer un texte (l’instance de str passée en argument) en liste de mots et de caractères de ponctuation. Mot tokenize

Bien que ce problème puisse sembler trivial au premier abord, il se révèle en réalité plus compliqué qu’il n’y paraît. Il est possible de télécharger l’ensemble « punkt » qui contient un algorithme non supervisé pour effectuer cette opération (et un modèle pré-entraîné pour l’anglais).

Exemples d’utilisation de wordpunct_tokenize()

>>> from nltk.tokenize import wordpunct_tokenize 
>>> txt1 = "Une phrase d'exemple." 
>>> wordpunct_tokenize(txt1) 
['Une', 'phrase', 'd', "'", 'exemple', '.'] 
>>> txt2 = """Une phrase...
Pour consulter la suite, découvrez le livre suivant :
couv_RIPYTFO.png
60-signet.svg
En version papier
20-ecran_lettre.svg
En version numérique
41-logo_abonnement.svg
En illimité avec l'abonnement ENI
130-boutique.svg
Sur la boutique officielle ENI
Précédent
Le traitement automatique des langues naturelles
Suivant
Exemples d'application