Le Big Data occupe aujourd’hui une place centrale dans les architectures décisionnelles modernes. Hadoop en est l’un des piliers historiques et demeure une technologie incontournable pour comprendre les fondements du stockage massif et du traitement distribué de données à grande échelle.
Pensé aussi bien pour les débutants que pour les professionnels souhaitant structurer leurs connaissances, cet ouvrage propose un parcours progressif, clair et structuré, qui accompagne le lecteur depuis les bases du Big Data jusqu’à la réalisation de projets concrets avec Hadoop. Après une introduction aux enjeux du Big Data et à la genèse d’Hadoop, le livre détaille l’architecture du framework, son fonctionnement interne et ses briques fondamentales : HDFS, YARN et MapReduce.
Le lecteur est guidé pas à pas dans l’installation d’un cluster Hadoop en local, puis dans la manipulation du système de fichiers distribué HDFS à travers des commandes, des exemples pratiques et des scénarios proches des environnements professionnels. Les premiers traitements MapReduce en Python permettent ensuite de comprendre en profondeur la logique du calcul distribué.
L’ouvrage ouvre également sur l’écosystème Hadoop moderne avec Hive, Pig, Spark, HBase, Sqoop, Oozie, ainsi que les outils d’ingestion, d’orchestration et de gouvernance. Enfin, plusieurs chapitres sont consacrés à des projets Big Data complets, offrant une approche méthodologique, des bonnes pratiques et des cas d’usage concrets.
Caractéristiques
- Livre (broché) - 17 x 21 cm
- ISBN : 978-2-409-05430-3
- EAN : 9782409054303
- Ref. ENI : EIHADOOP
Caractéristiques
- HTML
- ISBN : 978-2-409-05431-0
- EAN : 9782409054310
- Ref. ENI : LNEIHADOOP