Sommaire

YARNYARN

La principale différence entre Hadoop version 1 et Hadoop version 2 est la séparation claire dans la version 2 entre la gestion des ressources du cluster et le modèle de traitement des données.

Dans la version 1, MapReduce assure à la fois la gestion des ressources (par le biais du JT et des TT) et le traitement des données.

Dans la version 2 :

  • La gestion des ressources du cluster est assurée par YARN.

  • Les modèles de traitement des données, MapReduce pour ce qui nous concerne, s’appuient sur YARN.

images/06EP02.png

Comparaison Hadoop version 1 et Hadoop version 2

Les deux aspects "gestion des ressources du cluster" et "modèle de traitement des données" sont nettement distincts dans la version 2 de Hadoop, ce qui permet d’utiliser YARN avec des modèles de traitement différents de MapReduce tout en bénéficiant des fonctionnalités de HDFS. La version 2 de Hadoop permet, par exemple, de faire cohabiter dans un même cluster des jobs MapReduce et des jobs de traitement de graphes.

YARN va aussi permettre de mieux utiliser les ressources du cluster, en optimisant l’allocation de nœuds map et de nœuds reduce, et donc la taille du cluster : dans la version 1 de Hadoop, la répartition des nœuds du cluster entre nœuds map et nœuds reduce est figée, et si un job est à court de nœuds reduce et qu’il y a des nœuds map inutilisés, il est impossible ...