Sommaire

HadoopHadoop et Big Data

1. Introduction

Hadoop part du principe :

  • Que les approches informatiques classiques, qui consistent à développer des systèmes centralisés toujours plus puissants, disposant de plus de mémoire (ce que les anglophones nomment scaling up), comportent des limites à la fois techniques et financières.

  • Que le développement de systèmes répartis, composés de machines, ou nœuds, relativement abordables financièrement (commodity hardware) et pouvant évoluer par ajout de nouveaux nœuds (ce que les anglophones nomment scaling out), peut constituer une alternative intéressante, à la fois d’un point de vue technique et financier.

  • Qu’un système distribué comportant des dizaines, centaines ou milliers de nœuds sera régulièrement confronté à des pannes matérielles et/ou logicielles.

Yahoo! gère actuellement le plus grand cluster connu au monde : il comprendrait plus de 40000 nœuds.

2. Google File SystemGoogle File System et MapReduceMapReduce

C’est après avoir constaté que les approches informatiques classiques peinaient à répondre de manière satisfaisante à ses besoins que Google a développé :

  • Le Google File System (GFS), ancêtre du Hadoop Distributed File System (HDFS).

  • L’approche MapReduce.

Lesquels constituent le cœur de Hadoop.

GFS est un système de gestion de fichiers ...