Sommaire

Stocker et traiter des volumes de données très importants

Un cluster Hadoop est constitué de plusieurs dizaines, centaines ou milliers de nœuds (cf. chapitre Introduction). C’est l’addition des capacités de stockage et de traitement de chacun de ces nœuds qui permet d’offrir un espace de stockage et une puissance de calcul pouvant traiter des volumes de données de plusieurs To ou Po.

Pour améliorer les performances d’un cluster en lecture/écriture, le système de gestion de fichiers de Hadoop, HDFS, écrit et lit les fichiers par Blocsblocs de 64 Mo par défaut (ce paramètre peut être modifié : la valeur recommandée en 2013 est de 128 Mo au moins). Le fait de travailler sur des blocs aussi importants permet de maximiser les taux de transfert des données, en limitant le temps de recherche au niveau des disques durs (seek time).

images/03EP04.png

Les blocs dans HDFS (Copyright 2013 Cloudera, Inc.)

Le plus souvent, le dernier bloc d’un fichier a une taille inférieure à la taille définie (64 Mo dans le schéma ci-dessus) : comme Hadoop s’appuie sur le système de gestion de fichiers natif, par exemple ext3, l’espace perdu sera approximativement de la taille d’un bloc dans le système natif, 4 ou 8 Ko dans le cas de ext3.

Pour limiter les coûts, Hadoop a été conçu pour pouvoir fonctionner avec du matériel de milieu ...