Sommaire

Déterminer la taille d’un cluster Hadoop et prévoir son évolution Cluster Hadoop:taille

Trois paramètres principaux sont à prendre en compte pour dimensionner un cluster Hadoop :

  • Deux paramètres concernent plus particulièrement HDFS : l’espace disque  et la bande passante au niveau des entrées-sorties.

  • Un paramètre concerne plus particulièrement MapReduce : la puissance de calcul.

L’importance relative de ces trois paramètres dépend du type des jobs Hadoop exécutés dans le cluster :

  • Jobs exigeants au niveau des entrées-sorties : les jobs qui mettent en œuvre des tris, comme WordCount, sont assez exigeants au niveau des entrées-sorties, mais ont des besoins en puissance de calcul relativement limités. Si ce type de job domine dans un cluster, il convient d’opter pour des nœuds esclaves disposant d’un nombre élevé de disques par nœud.

  • Jobs exigeants en termes de puissance de calcul : les jobs qui mettent en œuvres du traitement de langage, du traitement d’image, des calculs dans des graphes (plus court chemin par exemple), etc. sont assez exigeants en termes de puissance de calcul. Si ce type de job domine dans un cluster, il convient d’opter pour des nœuds esclaves disposant de CPU puissantes et de beaucoup de mémoire vive.

  • Autres cas :

    • Si les jobs exécutés dans un cluster sont de types variés, on pourra opter pour ...