Sommaire

Présentation de MapReduce

MapReduce est un modèle de programmation conçu spécifiquement pour lire, traiter et écrire des volumes de données très importants. Un programme Hadoop met généralement en œuvre à la fois des tâches de type map et des tâches de type reduce.

MapReduce implémente les fonctionnalités suivantes.

  • Parallélisation des programmes HadoopParallélisation automatique des programmes Hadoop. Hadoop:parallélisation des programmes

  • Gestion transparente du Mode distribuémode distribué.

  • Tolérance aux pannesTolérance aux pannes.

Plus généralement, MapReduce simplifie grandement la vie du développeur Hadoop, en lui masquant une bonne partie du fonctionnement interne de Hadoop. 

Ainsi, lorsqu’il écrit le code du mapper (cf. section suivante), le développeur Hadoop travaille comme s’il ne devait traiter qu’un seul enregistrement. Le passage d’un enregistrement à un autre, ainsi que la détection de la fin du fichier sont pris en charge par Hadoop.