Sommaire

Objectif du chapitre Version 2

L’objectif de ce chapitre est de présenter les principaux apports de la version 2 de Hadoop. Ils sont au nombre de quatre :

  • High Availability, un nouveau dispositif de HDFS qui permet de faire en sorte que le NameNode (NN) ne soit plus un Single Point Of Failure (SPOF).

  • Federation, un nouveau dispositif de HDFS qui permet de gérer de manière plus efficace les clusters de grande taille.

  • YARN, un gestionnaire de ressources générique de seconde génération sur lequel s’appuie MapReduce, et qui peut être aussi mis en œuvre par d’autres modèles de traitement de données.

  • La possibilité d’installer Hadoop directement sous Microsoft Windows.

Pour une liste à jour des dernières versions de Hadoop et de leurs fonctionnalités, se reporter aux adresses suivantes :

La fondation Apache garantit la compatibilité binaire des applications MapReduce compilées pour la version 1 de Hadoop.

La distribution CDH4 de Cloudera est basée sur la version 1 de Hadoop, mais comprend déjà certains éléments de la version 2.

La distribution CDH5 de Cloudera, disponible en version Beta au moment de la rédaction de cet ouvrage, reposera entièrement sur la version 2 de Hadoop, tout en continuant à supporter, dans une certaine limite, ...