Exemples d’application

1. Depuis l’historique d’un navigateur web Historique Navigateur:web

a. Réutilisation de l’analyse de l’historique

De la même manière que le module ui.utils du chapitre Partitionnement automatique de données a été réutilisé, le package navhisto du chapitre Analyser un historique de navigation web le sera aussi.

Il faut rappeler que ce package contient un ensemble de classes permettant d’accéder au contenu des historiques des navigateurs web. Et d’un système de mise en cache du contenu récupéré en ligne. Ces fonctionnalités seront utilisées ici comme source de documents texte.

Dans la suite de ce chapitre, il sera considéré que le package navhisto a été inclus au package courant, que ce soit par une copie ou par un lien symbolique.

b. Adaptation de l’interface d’extraction

Le module corpus va devoir implémenter un ensemble de fonctions dédiées à la transformation d’une liste d’URL en liste de vecteurs TF-IDF. La première étape est donc d’écrire une fonction de conversion d’URL vers une liste de mots.

Il faut se rappeler que l’opération de récupération en ligne est coûteuse en temps, de même que le traitement d’un document HTML. Cette méthode sera donc appelée par les workers d’un Pool du module multiprocessing. L’utilisation...

Pour consulter la suite, découvrez le livre suivant :
couv_RIPYTFO.png
60-signet.svg
En version papier
20-ecran_lettre.svg
En version numérique
41-logo_abonnement.svg
En illimité avec l'abonnement ENI
130-boutique.svg
Sur la boutique officielle ENI
Précédent
Modélisation de sujet avec LDA et LSI
Suivant
Introduction