Sommaire

Garantir la redondance des données

Comme un matériel de milieu de gamme a couramment une durée de vie de trois à cinq ans, la défaillance d’un nœud au sein d’un cluster Hadoop en comportant plusieurs centaines n’est pas un événement rare. Hadoop, ou plus précisément HDFS, intègre une fonction de réplication automatique des données pour limiter les conséquences d’un tel événement.

Lors de leur chargement dans un cluster Hadoop, les données sont stockées en trois exemplaires par défaut (ce paramètre, le facteur de réplication, peut être modifié), sur des nœuds différents. Cette réplication des données répond en fait à deux objectifs :

  • En cas de panne d’un nœud, quelle qu’en soit la raison, matérielle ou logicielle, deux copies des données, stockées sur d’autres nœuds, restent disponibles.

  • Lors de l’exécution d’un job Hadoop, chaque tâche peut être exécutée sur n’importe quel nœud, surtout s’il stocke une copie des données nécessaires à la tâche. En conséquence, plus il y a de copies des données et plus il y a de nœuds susceptibles d’exécuter la tâche (c’est-à-dire d’être disponibles) dans des conditions optimales à un moment donné.

images/03EP01.png

La réplication ...