Sommaire

MapReduce du point de vue de l’administrateur Hadoop

Pour un administrateur Hadoop, il existe des différences significatives entre le fonctionnement de MapReduce dans la version 1 de Hadoop et son fonctionnement dans la version 2 de Hadoop. Le fonctionnement de la version 1 est abordé ci-après. Le fonctionnement de la version 2 est abordé au chapitre Les apports de la version 2 de Hadoop.

Dans la version 1 de Hadoop, le fonctionnement de MapReduce est assuré par deux types de deamons :

  • Le JobTracker (JT), qui est un nœud maître (master node) et dispose d’une machine dédiée.

  • Le TaskTracker (TT), qui est un nœud esclave (slave node) et est implanté sur chaque machine du cluster qui n’est pas un nœud maître.

Autrement dit, dans un cluster de 100 machines il y aura :

  • Trois nœuds maîtres : le NN, le SNN et le JT.

  • 100 - 3 = 97 nœuds esclaves, chacun avec une copie de DN et de TT.

Le JT est chargé de la bonne exécution des jobs dans un cluster Hadoop. Un job, au sens Hadoop du terme, est l’exécution d’un programme Hadoop (tâches map et tâches reduce) sur un ensemble de données.

Un TT est chargé de la bonne exécution des tâches qui lui sont assignées par le JT. Une tâche, au sens Hadoop du terme, est une tâche map ou une tâche reduce. Chaque tâche traite une partie seulement de l’ensemble des données du job. ...