Sommaire

Problèmes "hadoopéables"

Hadoop est particulièrement efficace pour traiter des problèmes présentant une ou plusieurs des caractéristiques suivantes :

  • Volume des données à stocker ou à traiter très important.

  • Besoin d’effectuer des traitements sur l’ensemble des données (traitements par lots plutôt que transactionnels, donc).

  • Données hétérogènes en termes d’origine, de structure et de format (XML, JSON, CSV, texte, binaire…).

  • Exécution des tâches d’un job Hadoop en parallèle, sans ordre préétabli.

Cette dernière caractéristique exclut du champ des problèmes "hadoopéables" ceux pour lesquels l’ordre de traitement des données est important.

Ainsi, à partir des enregistrements quotidiens provenant des quelque 41 000 stations météorologiques réparties de par le monde, Hadoop peut très facilement déterminer la température la plus élevée pour chaque mois, de 1950 à 2000 par exemple. Par contre, il est moins aisé de calculer la moyenne mensuelle des températures avec Hadoop. Cet aspect de Hadoop sera approfondi au chapitre MapReduce.

Quelques usages classiques de Hadoop sont :

  • La modélisation des risques.

  • L’analyse des désabonnements.

  • La mise en œuvre d’un moteur de recommandation.

  • L’analyse des transactions ...