Sommaire

Outils orientés bases de données

1. FlumeFlume

images/08EP03.png

Flume, initialement développé par Cloudera, est aujourd’hui un projet de la fondation logicielle Apache.

Flume est un produit qui permet d’injecter de gros volumes de données dans Hadoop en temps réel. De par sa conception, proche de celle d’un cluster HDFS, Flume est :

  • Fiable : en cas de défaillance de l’un de ses composants, Flume peut continuer à alimenter HDFS.

  • Évolutif : les performances de Flume peuvent être accrues en ajoutant des nœuds (scaling out).

  • Extensible : par défaut Flume est capable d’ingérer des données en provenance de sources variées (fichiers locaux, fichiers HDFS, logs systèmes, stdout…) et, au besoin, des connecteurs supplémentaires peuvent être développés.

Flume est composé d’agents. Chaque agent a une source (source), une destination (sink) et un canal (channel) :

  • Une source peut être une source de données (pare-feu, serveur de mails, serveur web…) ou un autre agent.

  • Une destination peut être un autre agent ou un fichier HDFS.

  • Un canal est le chemin suivi par des données entre une source et une destination : un canal peut écrire ses données en mémoire vive ou sur disque, selon les besoins de l’utilisateur en termes de performance et de fiabilité. 

Flume offre différents niveaux de fiabilité : ...