Hadoop Devenez opérationnel dans le monde du Big Data
Présentation
Ce livre a pour objectif d'aider le lecteur à saisir les principes qui sont à la base d'Hadoop et de ses composants, de l'aider à monter en compétences sur Hadoop et également d'attirer son attention sur toutes les opportunités offertes par le Numérique. Il s'adresse à toute personne (consultants, data scientists, chargés d'études, étudiants, responsables techniques…) impliquée dans l'utilisation des données. Des compétences de base dans le domaine des bases de données, de la programmation et du SQL sont un prérequis nécessaire pour la bonne lecture du livre.
Les premiers chapitres présentent l'architecture de l'infrastructure d'Hadoop, son fonctionnement et le MapReduce. Ensuite, l'auteur présente les principes du stockage des données et montre la relation entre ces principes, le HDFS et Hadoop. Les chapitres qui suivent traitent des évolutions d'Hadoop avec un accent particulier sur le YARN. Dans un chapitre dédié, l'auteur traite également l'intégration du SQL dans Hadoop. Par la suite, il expose les problématiques du streaming, présente les principes du traitement en streaming et en temps réel, et montre comment Storm implémente ces principes. Enfin, le livre se termine par un chapitre sur les différentes distributions Hadoop et un chapitre sur la transition Numérique.
Pour faciliter la compréhension des principes exposés, chaque chapitre s'achève par un rappel des points clés. Un questionnaire permet également au lecteur de vérifier et consolider ses acquis.
Les chapitres du livre :
Introduction – Contexte de création d'Hadoop – Architecture infrastructurelle d'Hadoop – MapReduce – Hadoop – HDFS – Futur d'Hadoop : limites d'Hadoop et YARN – SQL dans Hadoop – Streaming 101 – Apache Storm – Adoption d'Hadoop – Transition numérique – Conclusion – Liens et références utiles – Réponses des guides d'étude
Table des matières
Introduction
- 1. Introduction
- 2. Buts et objectifs de l’ouvrage
- 3. À qui s’adresse cet ouvrage ?
- 4. Comment lire cet ouvrage ?
- 5. Ce que ce livre n’est pas
- 6. Précisions de l’auteur
- 7. Remerciements
- 8. Dédicace
Contexte de création d’Hadoop
- 1. Introduction
- 2. Contexte d’Hadoop
- 3. Approche conceptuelle d’Hadoop
- 4. Qui utilise Hadoop ?
- 4.1 Effervescence des projets impliquant l’utilisation d’Hadoop en Europe
- 4.2 Cas d’utilisation d’Hadoop
- 5. Conclusion
Architecture infrastructurelle d’Hadoop
- 1. Introduction
- 2. Types d’architectures distribuées
- 2.1 Architectures délocalisées ou client/serveur
- 2.1.1 Architecture client/serveur à deux niveaux (two-tiers)
- 2.1.2 Architecture client/serveur à trois niveaux (three-tiers)
- 2.1 Architectures délocalisées ou client/serveur
- 2.2 Architectures distribuées
- 2.2.1 Cluster computing ou grappe de calcul
- 2.2.2 Grid computing ou grille de calcul
- 2.3 Caractéristiques du cluster computing
- 2.3.1 Scalabilité horizontale : le facteur clé d’adoption du cluster
- 2.3.2 Tolérance aux pannes
- 2.3.3 Haute disponibilité
- 2.3.4 Mesure de la disponibilité d’un système
- 3.1 Shared-nothing
- 3.2 Shared-memory
- 3.3 Shared-disk
- 4.1 Modèle maître/esclave
- 4.2 Modèle peer-to-peer
- 5.1 Traitement sur disque ou batch processing
- 5.2 Traitement en mémoire ou in-memory processing
- 6.1 Parallélisme asynchrone simultané
- 6.2 Parallélisme pipeline
- 6.3 Parallélisme indépendant
- 9.1 Présentation des guides d’étude
- 9.2 Comment utiliser le guide d’étude ?
MapReduce
- 1. Introduction
- 2. Mapreduce : un nouveau paradigme
- 3. Détails conceptuels des phases du MapReduce
- 3.1 Phase Map
- 3.2 Phase Shuffle
- 3.3 Phase Reduce
- 4. Détails techniques de l’exécution du MapReduce dans un cluster
- 5. Exemples d’application du MapReduce
- 5.1 Calcul d’un index inversé
- 5.2 Jointure de deux tables relationnelles
- 5.3 Exemple de patron de conception du Map/Reduce en Python
- 6. Modèles alternatifs au MapReduce
- 6.1 Tez : le moteur d’optimisation du MapReduce
- 6.2 Spark : le moteur in-memory distribué
- 6.3 Architectures ? : la couche Streaming du MapReduce
- 7. Conclusion
- 8. Guide d’étude du chapitre
- 9. À retenir
Hadoop
- 1. Introduction
- 2. Spécificités d’un cluster Hadoop
- 2.1 « Conscience des casiers » des nœuds du cluster (rack awareness)
- 2.2 Localisation des données dans le cluster (data locality)
- 3. Détails d’exécution du MapReduce dans un cluster Hadoop
- 4. Gestion des défaillances dans un cluster Hadoop
- 4.1 Gestion de la défaillance du nœud de référence
- 4.2 Gestion de la défaillance des nœuds de données
- 4.3 Gestion des « retardataires » (stragglers)
- 5. Hadoop Streaming
- 6. Conclusion
- 7. Guide d’étude du chapitre
- 8. À retenir
HDFS
- 1. Introduction
- 2. Pourquoi a-t-on besoin d’un système de fichiers ?
- 2.1 Principes de stockage des données sur le disque dur
- 2.2 Principes de stockage des données dans un cluster
- 2.2.1 Principes de stockage des données dans un cluster shared-disk
- 2.2.2 Principes de stockage des données dans un cluster shared-nothing
- 3.1 Définition et rôle du HDFS dans le cluster
- 3.2 Processus de maintien de la haute disponibilité du cluster
- 3.3 Interactivité avec le HDFS
Futur d’Hadoop : limites d’Hadoop et YARN
- 1. Introduction
- 2. Limites d’Hadoop
- 2.1 Modèle de calcul d’Hadoop
- 2.2 HDFS
- 2.3 Haute disponibilité du cluster
- 2.4 Sécurité du cluster
- 3. YARN et développements en cours sur Hadoop
- 3.1 Définition du YARN
- 3.2 Fonctionnement du YARN
- 3.3 Fédération HDFS
- 4. Conclusion
- 5. Guide d’étude du chapitre
- 6. À retenir
SQL dans Hadoop
- 1. Introduction
- 2. Étude de l’écosystème Hadoop
- 3. Langages d’abstraction
- 3.1 Hive
- 3.1.1 Infrastructure technique de Hive
- 3.1.2 Écriture des requêtes HiveQL
- 3.1 Hive
- 3.2 Pig
- 4.1 Fonctionnement des bases de données parallèles (MPP DB)
- 4.1.1 Architecture des bases de données parallèles
- 4.1.2 Exécution des requêtes SQL dans les bases de données parallèles
Streaming
- 1. Introduction
- 2. Domaine temporel
- 3. Approches de traitement streaming
- 3.1 Approche batch du traitement streaming
- 3.1.1 Batch par fenêtrage
- 3.1.2 Batch par sessions
- 3.1 Approche batch du traitement streaming
- 3.2 Approche continue du traitement streaming
- 3.2.1 Fenêtres
- 3.2.2 Techniques de traitement événement par événement
- 3.2.3 Techniques de traitement agnostiques au temps (time-agnostic)
- 3.2.4 Techniques d’approximation
- 3.2.5 Techniques de fenêtrage par temps de traitement
- 3.2.6 Techniques de fenêtrage par temps d’événement
- 4.1 Nature du traitement
- 4.1.1 Traitements de nature déterministe
- 4.1.2 Traitements de nature aléatoire
- 4.2.1 Définition de la notion d’état
- 4.2.2 Utilisation ou non de l’état
- 4.2.3 Mécanisme de sauvegarde de l’état
Apache Storm
- 1. Introduction
- 2. Définition de Storm
- 3. Fonctionnement de Storm
- 4. Topologies
- 4.1 Philosophie et fonctionnement des topologies
- 4.2 Topologies DRPC
- 5. Utilisation de Storm
- 6. Storm et Hadoop
- 6.1 Storm-YARN
- 6.2 Storm et architecture ?
- 7. Conclusion
- 8. Guide d’étude du chapitre
- 9. À retenir
Adoption d’Hadoop
- 1. Introduction
- 2. Distributions Hadoop
- 3. Distribution Cloudera d’Hadoop
- 4. Distribution Hortonworks d’Hadoop
- 5. Distribution MapR d’Hadoop
- 6. Tableau récapitulatif des outils proposés
- 7. Guide de sélection d’une distribution Hadoop
- 8. Conclusion
- 9. Guide d’étude du chapitre
- 10. À retenir
Transition numérique
- 1. Introduction
- 2. Changement
- 2.1 Principes qui régissent le changement
- 2.1.1 Principe 1 : le changement est un processus, pas un événement
- 2.1.2 Principe 2 : le changement annonce son arrivée par des signes
- 2.1.3 Principe 3 : le changement contient une opportunité qui lui est inhérente
- 2.1.4 Principe 4 : le changement est un processus inéluctable
- 2.1 Principes qui régissent le changement
- 2.2 Clés qui donnent accès aux opportunités du changement
- 2.2.1 Clé 1 : évitez le comportement de la grenouille - le changement est processus
- 2.2.2 Clé 2 : évitez le comportement du crabe - le changement est inéluctable
- 2.2.3 Clé 3 : évitez la présomption - tout change
- 2.2.4 Clé 4 : changez votre perception - le changement est normal
- 2.2.5 Clé 5 : soyez intentionnel - le changement contient une opportunité
- 3.1 Caractéristiques de l’ère numérique
- 3.1.1 Âge de l’information
- 3.1.2 Âge de la communication
- 3.1.3 Âge de la globalisation
- 3.2.1 Raison 1 : apprendre Hadoop vous positionne en pionnier
- 3.2.2 Raison 2 : apprendre Hadoop hausse votre valeur professionnelle
- 3.2.3 Raison 3 : apprendre Hadoop vous permet de couvrir la majorité des problématiques de traitement de données
- 3.3.1 Profils métier Hadoop
- 3.3.2 Certifications éditeurs
- 3.3.3 Masters spécialisés
- 3.3.4 Kaggle et meetup Hadoop
Liens et références utiles
- 1. Liens utiles
- 2. Bibliographie
Réponses des guides d’étude
- 1. Guide d’étude du chapitre Architecture infrastructurelle d’Hadoop
- 2. Guide d’étude du chapitre MapReduce
- 3. Guide d’étude du chapitre Hadoop
- 4. Guide d’étude du chapitre HDFS
- 5. Guide d’étude du chapitre Futur d’Hadoop : limites d’Hadoop et Yarn
- 6. Guide d’étude du chapitre SQL dans Hadoop
- 7. Guide d’étude du chapitre Streaming 101
- 8. Guide d’étude du chapitre Apache Storm
- 9. Guide d’étude du chapitre Adoption d’Hadoop
- 10. Guide d’étude du chapitre Transition numérique
- Index
Auteur
Juvénal CHOKOGOUEEn savoir plus
Actuellement Consultant Insights & Data chez CAPGEMINI, le leader mondial des activités de services et de technologie, Juvénal CHOKOGOUE est Consultant spécialisé dans l'aide à la décision. Ses missions consistent à valoriser les données des organisations et à fournir la visibilité nécessaire aux décideurs pour une prise de décision efficace. Titulaire de six certifications sur le Big Data, Hadoop et le traitement massif des données, il partage toute son expertise technique et toute sa passion pour le monde du Big Data à travers les pages de son livre. L'auteur propose aux lecteurs et utilisateurs d'Hadoop de poursuivre les échanges sur les réseaux sociaux ou sur le site web dédié http://www.data-transitionnumerique.com.
Revue de presse
Comprendre Hadoop - Bertrand LEMAIRE - CIO28/06/2017
Les Editions ENI publient un ouvrage expliquant en détail comment mettre en œuvre Hadoop et dédié aux spécialistes des SGBD classiques.
Si tout le monde en parle, tout le monde ne sait pas encore comment mettre en œuvre concrètement Hadoop. L'approche de cet outil de traitement de données « Big Data » est pourtant radicalement différente de celle des SGBD-R classiques. L'ouvrage signé Juvénal Chokogoue et qui vient de sortir aux éditions ENI, « Hadoop - Devenez opérationnel dans le monde du Big Data », est donc le bienvenu.
L'ouvrage est technique et se destine avant tout aux spécialistes des bases de données traditionnelles. Prenant acte que ceux-ci n'ont pas été formés sérieusement, en général, aux concepts à la base d'Hadoop, « Hadoop - Devenez opérationnel dans le monde du Big Data » débute par une description précise de ces concepts. L'ambition du livre est de permettre aux lecteurs non seulement de maîtriser la version actuelle d'Hadoop mais également ses évolutions et différentes distributions. Malgré tout, il ne vise pas à rentrer dans les détails de chaque métier (de l'installateur/administrateur au data scientist). Chaque métier concerné par la donnée pourra trouver les bases dans cet ouvrage, les concepts, qui lui permettra ensuite de monter en compétence dans son domaine précis. Un chapitre est dédié aux évolutions en cours de la plate-forme Hadoop, notamment YARN qui permet d'implémenter d'autres modèles de calcul distribué que le MapReduce.
Bien structuré mais avec un texte parfois un peu lourd à digérer (bien que très clair), « Hadoop - Devenez opérationnel dans le monde du Big Data » est une excellente introduction à Hadoop. Quelques schémas éclaircissent heureusement le propos en cas de besoin. Chaque chapitre se termine par un questionnaire pour vérifier la bonne compréhension de ce qui précède (corrections en fin d'ouvrage) et par un rapide résumé sous forme de listes d'idées à retenir. Si tous les métiers en rapport avec la donnée sont directement concernés, et visés par l'auteur, les architectes et DSI peuvent aussi y trouver un intérêt pour comprendre les mécanismes à l'œuvre dans le Big Data.
Lire l'article (http://www.cio-online.com/actualites/lire-comprendre-hadoop-9491.html)
Caractéristiques
- Niveau Confirmé à Expert
- Nombre de pages 373 pages
- Parution avril 2017
- Livre (broché) - 17 x 21 cm
- ISBN : 978-2-409-00761-3
- EAN : 9782409007613
- Ref. ENI : EIHAD
- Niveau Expert à Confirmé
- Parution avril 2017
- HTML
- ISBN : 978-2-409-00816-0
- EAN : 9782409008160
- Ref. ENI : LNEIHAD