Sommaire

Pour aller plus loin

Voici quelques règles empiriques qui peuvent être utilisées pour dimensionner un cluster Hadoop.

1. Règles concernant les nœuds esclaves

  • Le niveau de performance des CPU est généralement moins critique que le niveau de performance des disques durs et du réseau.

  • Il vaut mieux favoriser le nombre de disques que leur capacité unitaire, dans la limite de 24 To environ par nœud. Des disques durs SATA de 3,5 pouces tournant à 7 200 tours par minutes font très bien l’affaire.

  • Il vaut mieux favoriser le nombre de CPU que leur capacité unitaire. Des CPU à quatre ou six cœurs font très bien l’affaire.

  • Chaque tâche map ou reduce a besoin de 1 à 2 Go de RAM pour s’exécuter dans de bonnes conditions.

  • Lorsque l’on calcule les besoins en RAM, ne pas oublier de rajouter un overhead d’environ 30% pour que les daemons puissent s’exécuter dans de bonnes conditions.

  • Pour configurer un nœud esclave, toute configuration multiple de 1 disque dur de 1 ou 2 To +  2 ou 3 cœurs + 6 à 8 Go de RAM fonctionne de manière satisfaisante pour différents types de jobs Hadoop, en particulier ceux qui sont critiques en termes d’entrées-sorties.

2. Règles concernant les nœuds maîtres

Il ne faut pas lésiner sur la qualité des nœuds maîtres, qui ont un rôle clef dans le bon fonctionnement de Hadoop. ...