Sommaire

Objectifs du chapitre Programmes Hadoop

Il existe plusieurs langages et outils pour produire de l’information à partir de données stockées dans un cluster Hadoop.

JavaJava est, historiquement, le langage de programmation de Hadoop. En effet, Hadoop a été écrit en Java et, à partir de Java, un programmeur a accès à l’ensemble des fonctionnalités de Hadoop.

Des alternatives à Java ont cependant été développées, avec différents objectifs :

  • Améliorer la performance de Hadoop Hadoop:programmes

    Certains outils de l’écosystème de Hadoop sont écrits en C++C++. C’est par exemple le cas d’Impala, le moteur de requêtes SQL développé par Cloudera. Un cas extrême est celui de la société MapR, qui propose un système de gestion de fichiers (cf. HDFS) entièrement réécrit en C++, avec des résultats cependant contrastés en termes de performance (cf. par exemple http://allthingshadoop.com/2012/07/10/hadoop-distribution-bake-off-my-experience-with-cloudera-and-mapr/ pour une comparaison entre les performances de MapR et celles de CDH4).

  • Réduire le temps de développement des programmes Hadoop

    Des langages comme HiveQLHiveQL ou Pig LatinPig Latin permettent d’écrire des programmes Hadoop plus rapidement qu’avec Java. Par exemple, il faut de l’ordre de 70 lignes de code Java pour réaliser ...