Sommaire

WordCountWordCount

WordCount est surnommé le "Hello World!" de Hadoop. Ce programme compte le nombre d’occurrences de chaque mot dans un corpus représentant l’ensemble des œuvres de Shakespeare.

Le développement et la mise en œuvre d’un programme Hadoop comprennent en général les phases suivantes :

  • Préparation des données.

  • Importation des données dans HDFS.

  • Ecriture du programme Hadoop et validation en environnement de test.

  • Exécution du programme Hadoop en environnement de production.

  • Récupération et analyse des résultats.

1. Préparation des données

La totalité de l’œuvre de Shakespeare est stockée dans un seul fichier au format Plain Text UTF-8 provenant du projet Gutenberg (http://www.gutenberg.org/). Ce fichier peut être téléchargé à l’adresse http://www.gutenberg.org/ebooks/100. Si cette adresse ne fonctionne pas, lancer une recherche Google sur l’expression download shakespeare works.

Le fichier téléchargé est enregistré sur le bureau sous le nom pg100.txt.

Le fichier se présente sous la forme d’un ensemble de lignes, chaque ligne se terminant par un signe de nouvelle ligne (\n). Chaque ligne est composée de mots séparés par un espace ou est vide.

images/09EP01.png

Le fichier pg100.txt après préparation des données

Dans un projet Hadoop, une phase de préparation des données ...