Sommaire

Introduction

Le cœur de Hadoop comprend deux composants :

  • Le système de gestion de fichiers distribué, HDFS.

  • Le framework logiciel MapReduce.

Outre ces deux composants, l’écosystème de Hadoop comprend de nombreux autres outils tels que Pig, Hive, HBase, Flume, Oozie, Sqoop, etc. (cf. chapitre L’écosystème de Hadoop).

images/03EP03.png

L’écosystème de Hadoop (source : Apache Software Foundation)

Un ensemble de machines fonctionnant avec HDFS et MapReduce (avec HDFS et YARN dans la version 2 de Hadoop) s’appelle un Clustercluster Hadoop. Chaque machine s’appelle un nœud. Un cluster peut avoir de un à plusieurs milliers de nœuds. Plus il y a de nœuds, plus les performances du cluster sont bonnes.

Hadoop a été conçu pour satisfaire aux objectifs suivants :

  • Un cluster Hadoop doit pouvoir stocker et traiter des volumes de données très importants, dans des délais et à un coût acceptables.

  • Si un nœud d’un cluster Hadoop tombe en panne :

  • Cela ne doit jamais entraîner de perte de données.

  • Sa charge de travail doit être répartie automatiquement entre les nœuds restants.

  • S’il est en train d’exécuter une tâche pour un job, la panne ne doit pas affecter le bon déroulement du job.

  • Après qu’un nœud défaillant a été réparé, il doit pouvoir réintégrer le cluster sans qu’il ...