WordCount est surnommé le "Hello World!" de Hadoop. Ce programme compte le nombre d’occurrences de chaque mot dans un corpus représentant l’ensemble des œuvres de Shakespeare.
Le développement et la mise en œuvre d’un programme Hadoop comprennent en général les phases suivantes :
Préparation des données.
Importation des données dans HDFS.
Ecriture du programme Hadoop et validation en environnement de test.
Exécution du programme Hadoop en environnement de production.
Récupération et analyse des résultats.
La totalité de l’œuvre de Shakespeare est stockée dans un seul fichier au format Plain Text UTF-8 provenant du projet Gutenberg (http://www.gutenberg.org/). Ce fichier peut être téléchargé à l’adresse http://www.gutenberg.org/ebooks/100. Si cette adresse ne fonctionne pas, lancer une recherche Google sur l’expression download shakespeare works.
Le fichier téléchargé est enregistré sur le bureau sous le nom pg100.txt.
Le fichier se présente sous la forme d’un ensemble de lignes, chaque ligne se terminant par un signe de nouvelle ligne (\n). Chaque ligne est composée de mots séparés par un espace ou est vide.
Le fichier pg100.txt après préparation des données
Dans un projet Hadoop, une phase de préparation des données ...
Abonnement
tous les livres et vidéos ENI en illimité sans engagement
du livre imprimé ou du livre numérique