Sommaire

Les Matériel:aspects réseauaspects réseau

Durant la phase de mapping, Hadoop consomme relativement peu de bande passante du fait de la mise en œuvre du concept de proximité des données et de l’architecture "share nothing" (cf. chapitre Une vue globale de Hadoop).

Par contre, durant la phase de "shuffle & sort" (cf. chapitre MapReduce) tous les mappers sont susceptibles d’envoyer des données à tous les reducers. Cette phase est donc très consommatrice en bande passante. Il est donc important d’optimiser un cluster Hadoop à ce niveau.

images/07EP01.png

Architecture typique d’un cluster Hadoop version 1

Une configuration de cluster Hadoop classique comprend :

  • Des serveurs pour héberger les différents nœuds :

  1. Pour les nœuds maîtres (NN, Secondary NN et JT dans la version 1 de Hadoop ; Active NN, Standby NN et RM dans la version 2) :

1 serveur = 1 nœud maître

  • Pour les nœuds esclaves (DN et TT dans la version 1 et DN et NM dans la version 2) :

1 serveur = 1 DN + 1 TT ou 1 serveur = 1 DN + 1 NM (+ 1 AM pour certains nœuds)

  • Des racks pour héberger les serveurs (couramment 30 à 40 serveurs par rack).

  • Un ou deux commutateurs Ethernet en mode top of rack pour connecter les serveurs au rack (1 GbE au minimum).

  • Des commutateurs ou des routeurs pour connecter les racks entre eux.

Hadoop connaît la configuration précise des racks constituant le cluster : c’est ce que l’on ...