Souvent qualifiée de Big Data, l'explosion des données qui a accompagné la révolution d'Internet ces dernières années a provoqué un changement profond dans la société, marquant l'entrée dans un nouveau monde « Numérique » dont l'un des piliers technologiques est Hadoop.

Ce livre a pour objectif d'aider le lecteur à saisir les principes qui sont à la base d'Hadoop et de ses composants, de l'aider à monter en compétences sur Hadoop et également d'attirer son attention sur toutes les opportunités offertes par le Numérique. Il s'adresse à toute personne (consultants, data scientists, chargés d'études, étudiants, responsables techniques…) impliquée dans l'utilisation des données. Des compétences de base dans le domaine des bases de données, de la programmation et du SQL sont un prérequis nécessaire pour la bonne lecture du livre.

Les premiers chapitres présentent l'architecture de l'infrastructure d'Hadoop, son fonctionnement et le MapReduce. Ensuite, l'auteur présente les principes du stockage des données et montre la relation entre ces principes, le HDFS et Hadoop. Les chapitres qui suivent traitent des évolutions d'Hadoop avec un accent particulier sur le YARN. Dans un chapitre dédié, l'auteur traite également l'intégration du SQL dans Hadoop. Par la suite, il expose les problématiques du streaming, présente les principes du traitement en streaming et en temps réel, et montre comment Storm implémente ces principes. Enfin, le livre se termine par un chapitre sur les différentes distributions Hadoop et un chapitre sur la transition Numérique.

Pour faciliter la compréhension des principes exposés, chaque chapitre s'achève par un rappel des points clés. Un questionnaire permet également au lecteur de vérifier et consolider ses acquis.

Les chapitres du livre :
Introduction – Contexte de création d'Hadoop – Architecture infrastructurelle d'Hadoop – MapReduce – Hadoop – HDFS – Futur d'Hadoop : limites d'Hadoop et YARN – SQL dans Hadoop – Streaming 101 – Apache Storm – Adoption d'Hadoop – Transition numérique – Conclusion – Liens et références utiles – Réponses des guides d'étude

Introduction

Introduction
Buts et objectifs de l’ouvrage
À qui s’adresse cet ouvrage ?
Comment lire cet ouvrage ?
Ce que ce livre n’est pas
Précisions de l’auteur
Remerciements
Dédicace

Contexte de création d’Hadoop

Introduction
Contexte d’Hadoop
Approche conceptuelle d’Hadoop
Qui utilise Hadoop ?
1. 1. Effervescence des projets impliquant l’utilisation d’Hadoop en Europe
2. 2. Cas d’utilisation d’Hadoop
Conclusion

Architecture infrastructurelle d’Hadoop

Introduction
Types d’architectures distribuées
1. 1. Architectures délocalisées ou client/serveur
  1. a. Architecture client/serveur à deuxniveaux (two-tiers)
  2. b. Architecture client/serveur à troisniveaux (three-tiers)
2. 2. Architectures distribuées
  1. a. Cluster computing ou grappe de calcul
  2. b. Grid computing ou grille de calcul
3. 3. Caractéristiques du cluster computing
  1. a. Scalabilité horizontale : le facteurclé d’adoption du cluster
  2. b. Tolérance aux pannes
  3. c. Haute disponibilité
  4. d. Mesure de la disponibilité d’unsystème
Modes de partage des ressources dans le cluster
1. 1. Shared-nothing
2. 2. Shared-memory
3. 3. Shared-disk
Modes de communication des nœuds dans le cluster
1. 1. Modèle maître/esclave
2. 2. Modèle peer-to-peer
Modes de traitement de données dans le cluster
1. 1. Traitement sur disque ou batch processing
2. 2. Traitement en mémoire ou in-memory processing
Types de parallélismes des calculs dans un cluster
1. 1. Parallélisme asynchrone simultané
2. 2. Parallélisme pipeline
3. 3. Parallélisme indépendant
Choix architecturaux d’un cluster Hadoop
Conclusion
Guide d’étude du chapitre
1. 1. Présentation des guides d’étude
2. 2. Comment utiliser le guide d’étude ?
À retenir

MapReduce

Introduction
MapReduce : un nouveau paradigme
Détails conceptuels des phases du MapReduce
1. 1. Phase Map
2. 2. Phase Shuffle
3. 3. Phase Reduce
Détails techniques de l’exécution du MapReduce dans un cluster
Exemples d’application du MapReduce
1. 1. Calcul d’un index inversé
2. 2. Jointure de deux tables relationnelles
3. 3. Exemple de patron de conception du Map/Reduceen Python
Modèles alternatifs au MapReduce
1. 1. Tez : le moteur d’optimisation du MapReduce
2. 2. Spark : le moteur in-memory distribué
3. 3. Architectures ? : la couche Streaming duMapReduce
Conclusion
Guide d’étude du chapitre
À retenir

Hadoop

Introduction
Spécificités d’un cluster Hadoop
1. 1. « Conscience des casiers » des nœuds du cluster (rack awareness)
2. 2. Localisation des données dans le cluster(data locality)
Détails d’exécution du MapReduce dans un cluster Hadoop
Gestion des défaillances dans un cluster Hadoop
1. 1. Gestion de la défaillance du nœudde référence
2. 2. Gestion de la défaillance des nœudsde données
3. 3. Gestion des « retardataires » (stragglers)
Hadoop Streaming
Conclusion
Guide d’étude du chapitre
À retenir

HDFS

Introduction
Pourquoi a-t-on besoin d’un système de fichiers ?
1. 1. Principes de stockage des données sur ledisque dur
2. 2. Principes de stockage des données dans uncluster
  1. a. Principes de stockage des données dans uncluster shared-disk
  2. b. Principes de stockage des données dans uncluster shared-nothing
Définition du HDFS dans le cluster Hadoop
1. 1. Définition et rôle du HDFS dansle cluster
2. 2. Processus de maintien de la haute disponibilité ducluster
3. 3. Interactivité avec le HDFS
Conclusion
Guide d’étude du chapitre
À retenir

Futur d’Hadoop : limites d’Hadoop et YARN

Introduction
Limites d’Hadoop
1. 1. Modèle de calcul d’Hadoop
2. 2. HDFS
3. 3. Haute disponibilité du cluster
4. 4. Sécurité du cluster
YARN et développements en cours sur Hadoop
1. 1. Définition du YARN
2. 2. Fonctionnement du YARN
3. 3. Fédération HDFS
Conclusion
Guide d’étude du chapitre
À retenir

SQL dans Hadoop

Introduction
Étude de l’écosystème Hadoop
Langages d’abstraction
1. 1. Hive
  1. a. Infrastructure technique de Hive
  2. b. Écriture des requêtes HiveQL
2. 2. Pig
Moteurs natifs SQL sur Hadoop
1. 1. Fonctionnement des bases de données parallèles(MPP DB)
  1. a. Architecture des bases de données parallèles
  2. b. Exécution des requêtes SQL dansles bases de données parallèles
2. 2. Fonctionnement des moteurs natifs SQL sur Hadoop
3. 3. Impala : le moteur SQL sur Hadoop de Cloudera
Conclusion
Guide d’étude du chapitre
À retenir

Streaming 101

Introduction
Domaine temporel
Approches de traitement streaming
1. 1. Approche batch du traitement streaming
  1. a. Batch par fenêtrage
  2. b. Batch par sessions
2. 2. Approche continue du traitement streaming
  1. a. Fenêtres
  2. b. Techniques de traitement événementpar événement
  3. c. Techniques de traitement agnostiques au temps (time-agnostic)
  4. d. Techniques d’approximation
  5. e. Techniques de fenêtrage par temps de traitement
  6. f. Techniques de fenêtrage par temps d’événement
Idempotence
1. 1. Nature du traitement
  1. a. Traitements de nature déterministe
  2. b. Traitements de nature aléatoire
2. 2. État
  1. a. Définition de la notion d’état
  2. b. Utilisation ou non de l’état
  3. c. Mécanisme de sauvegarde de l’état
Disponibilité d’un système streaming
Conclusion
Guide d’étude du chapitre
À retenir

Apache Storm

Introduction
Définition de Storm
Fonctionnement de Storm
Topologies
1. 1. Philosophie et fonctionnement des topologies
2. 2. Topologies DRPC
Utilisation de Storm
Storm et Hadoop
1. 1. Storm-YARN
2. 2. Storm et architecture ?
Conclusion
Guide d’étude du chapitre
À retenir

Adoption d’Hadoop

Introduction
Distributions Hadoop
Distribution Cloudera d’Hadoop
Distribution Hortonworks d’Hadoop
Distribution MapR d’Hadoop
Tableau récapitulatif des outils proposés
Guide de sélection d’une distribution Hadoop
Conclusion
Guide d’étude du chapitre
À retenir

Transition numérique

Introduction
Changement
1. 1. Principes qui régissent le changement
  1. a. Principe 1 : le changement est un processus,pas un événement
  2. b. Principe 2 : le changement annonce son arrivéepar des signes
  3. c. Principe 3 : le changement contient une opportunité qui lui est inhérente
  4. d. Principe 4 : le changement est un processusinéluctable
2. 2. Clés qui donnent accès aux opportunitésdu changement
  1. a. Clé 1 : évitez le comportementde la grenouille - le changement est processus
  2. b. Clé 2 : évitez le comportementdu crabe - le changement est inéluctable
  3. c. Clé 3 : évitez la présomption- tout change
  4. d. Clé 4 : changez votre perception- le changement est normal
  5. e. Clé 5 : soyez intentionnel - lechangement contient une opportunité
Transition vers le Numérique et Hadoop
1. 1. Caractéristiques de l’èrenumérique
  1. a. Âge de l’information
  2. b. Âge de la communication
  3. c. Âge de la globalisation
2. 2. Pourquoi apprendre Hadoop ?
  1. a. Raison 1 : apprendre Hadoop vous positionneen pionnier
  2. b. Raison 2 : apprendre Hadoop hausse votrevaleur professionnelle
  3. c. Raison 3 : apprendre Hadoop vous permet decouvrir la majorité des problématiques de traitementde données
3. 3. Quelques conseils
  1. a. Profils métier Hadoop
  2. b. Certifications éditeurs
  3. c. Masters spécialisés
  4. d. Kaggle et meetup Hadoop
Conclusion
Guide d’étude du chapitre
À retenir

Conclusion

Conclusion

Liens et références utiles

Liens utiles
Bibliographie

Réponses des guides d’étude

Guide d’étude du chapitre Architecture infrastructurelle d’Hadoop
Guide d’étude du chapitre MapReduce
Guide d’étude du chapitre Hadoop
Guide d’étude du chapitre HDFS
Guide d’étude du chapitre Futur d’Hadoop : limites d’Hadoop et YARN
Guide d’étude du chapitre SQL dans Hadoop
Guide d’étude du chapitre Streaming 101
Guide d’étude du chapitre Apache Storm
Guide d’étude du chapitre Adoption d’Hadoop
Guide d’étude du chapitre Transition numérique

22/11/2020

Bon livre

Anonyme

Juvénal CHOKOGOUE

Actuellement Consultant Insights & Data chez CAPGEMINI, le leader mondial des activités de services et de technologie, Juvénal CHOKOGOUE est Consultant spécialisé dans l'aide à la décision. Ses missions consistent à valoriser les données des organisations et à fournir la visibilité nécessaire aux décideurs pour une prise de décision efficace. Titulaire de six certifications sur le Big Data, Hadoop et le traitement massif des données, il partage toute son expertise technique et toute sa passion pour le monde du Big Data à travers les pages de son livre. L'auteur propose aux lecteurs et utilisateurs d'Hadoop de poursuivre les échanges sur les réseaux sociaux ou sur le site web dédié http://www.data-transitionnumerique.com.