Sommaire

Les différents modes de fonctionnement de Hadoop

Hadoop peut fonctionner :

  • en mode local (local mode) ;

  • en mode pseudo-distribué (pseudo-distributed mode) ;

  • en mode totalement distribué (fully-distributed mode).

1. Le Mode localmode local

En mode local, Hadoop fonctionne sur une seule station de travail et les cinq daemons de Hadoop (NameNode, SecondaryNameNode, DataNode, JobTracker et TaskTracker) s’exécutent tous dans la même JVM (Java Virtual Machine). De ce fait, la portée des variables est très différente de ce qu’elle est dans le mode pseudo-distribué ou dans le mode totalement distribué. De plus, en mode local le système de gestion de fichiers utilisé est celui de Linux (ext3, ext4 ou xfs le plus souvent) et non HDFS.

Si l’on ne prête pas attention à ces points, un programme fonctionnant parfaitement en mode local pourra ne pas fonctionner du tout en mode pseudo-distribué ou totalement distribué.

Le fonctionnement en mode local est donc très éloigné du fonctionnement d’un vrai cluster Hadoop et donc rarement utilisé, sauf pour une première approche de Hadoop, des tests très simples, ou pour déboguer un programme.

Le mode local n’est pas utilisé dans cet ouvrage.

2. Le Mode pseudo-distribuémode pseudo-distribué

En mode pseudo-distribué, Hadoop fonctionne toujours sur une seule station de travail, mais :

  • Chacun des cinq daemons ...