Sommaire

Présentation de HDFS

HDFS (Hadoop Distributed File System) est le composant de Hadoop en charge du stockage des données dans un cluster Hadoop. Stockage des données:dans un cluster Hadoop

Outre la lecture et l’écriture de données, qui sont le lot commun de tout système de gestion de fichiers, HDFS présente quelques caractéristiques originales :

  • HDFS est optimisé pour manipuler des blocs de taille importante, couramment 64 ou 128 Mo, ce qui permet de réduire le seek time. À titre de comparaison, le système de gestion de fichiers Linux ext3 a une taille de blocs de 4 ou 8 Ko. De ce fait :

  • Les performances de HDFS sont meilleures lorsqu’il travaille sur des fichiers de taille importante (100 Mo ou plus).

  • Les performances de HDFS sont meilleures lorsqu’il travaille sur un nombre "réduit" de fichiers (des millions de fichiers plutôt que des milliards de fichiers).

  • En contrepartie, HDFS a été, et demeure encore largement, un système de gestion de fichiers du type "write once" : il n’est pas possible de gérer des écritures aléatoires dans un fichier HDFS.

  • Chaque bloc est sauvegardé en trois exemplaires (cf. chapitre Une vue globale de Hadoop), et sur des nœuds distincts dans le cluster, ce qui contribue à en garantir la fiabilité et la disponibilité. Ce mécanisme est appelé "réplication" des blocs.

  • HDFS ...