1. Espace Professionnels
  2. Hadoop - Maîtriser l’écosystème Big Data : HDFS, MapReduce, Hive, Spark…

Hadoop Maîtriser l’écosystème Big Data : HDFS, MapReduce, Hive, Spark…

Bientôt disponible !
Suivez-nous pour être informé dès la sortie

Le Big Data occupe aujourd’hui une place centrale dans les architectures décisionnelles modernes. Hadoop en est l’un des piliers historiques et demeure une technologie incontournable pour comprendre les fondements du stockage massif et du traitement distribué de données à grande échelle. Pensé aussi bien pour les débutants que pour les professionnels souhaitant structurer leurs connaissances, cet ouvrage propose un parcours progressif, clair et structuré, qui accompagne le lecteur depuis les...
Aperçu de la version papier
  • Niveau Confirmé à Expert
  • Parution mai 2026

Le Big Data occupe aujourd’hui une place centrale dans les architectures décisionnelles modernes. Hadoop en est l’un des piliers historiques et demeure une technologie incontournable pour comprendre les fondements du stockage massif et du traitement distribué de données à grande échelle.

Pensé aussi bien pour les débutants que pour les professionnels souhaitant structurer leurs connaissances, cet ouvrage propose un parcours progressif, clair et structuré, qui accompagne le lecteur depuis les bases du Big Data jusqu’à la réalisation de projets concrets avec Hadoop. Après une introduction aux enjeux du Big Data et à la genèse d’Hadoop, le livre détaille l’architecture du framework, son fonctionnement interne et ses briques fondamentales : HDFS, YARN et MapReduce.

Le lecteur est guidé pas à pas dans l’installation d’un cluster Hadoop en local, puis dans la manipulation du système de fichiers distribué HDFS à travers des commandes, des exemples pratiques et des scénarios proches des environnements professionnels. Les premiers traitements MapReduce en Python permettent ensuite de comprendre en profondeur la logique du calcul distribué.

L’ouvrage ouvre également sur l’écosystème Hadoop moderne avec Hive, Pig, Spark, HBase, Sqoop, Oozie, ainsi que les outils d’ingestion, d’orchestration et de gouvernance. Enfin, plusieurs chapitres sont consacrés à des projets Big Data complets, offrant une approche méthodologique, des bonnes pratiques et des cas d’usage concrets.

Caractéristiques

  • Reliure spirale - 17 x 21 cm (Médian)
  • ISBN : 978-2-409-05432-7
  • EAN : 9782409054327
  • Ref. ENI : EIMHADOOP

Caractéristiques

  • HTML
  • ISBN : 978-2-409-05433-4
  • EAN : 9782409054334
  • Ref. ENI : LNEIMHADOOP
Avant-propos
  1. 1. Introduction
  2. 2. Objectifs de l’ouvrage
  3. 3. Public concerné et prérequis
  4. 4. Démarche pédagogique et fil conducteur
  5. 5. Organisation de l’ouvrage
  6. 6. Conclusion
Introduction au Big Data et à Hadoop
  1. 1. Introduction
  2. 2. Contexte historique de la donnée
    1. 2.1 Les débuts de la donnée numérique
    2. 2.2 De la donnée structurée à la donnée non structurée : l’ère du Web et de l’IoT
    3. 2.3 Évolution des volumes et des supports de stockage
    4. 2.4 Frise chronologique : SGBD ? Data Warehouse ? Big Data
  3. 3. L’explosion du volume des données
    1. 3.1 Croissance exponentielle et chiffres clés
    2. 3.2 Les sources de la donnée : entreprises, objets, utilisateurs
    3. 3.3 Les défis du stockage et du traitement
  4. 4. Les 5 V du Big Data
    1. 4.1 Volume
    2. 4.2 Vélocité
    3. 4.3 Variété
    4. 4.4 Véracité
    5. 4.5 Valeur
    6. 4.6 Schéma : le pentagone des 5 V du Big Data
  5. 5. Pourquoi le Big Data bouleverse les systèmes classiques ?
    1. 5.1 Les limites du modèle relationnel
    2. 5.2 Le passage du scale-up au scale-out
    3. 5.3 Le besoin de résilience et de distribution
    4. 5.4 Synthèse
  6. 6. Genèse d’Hadoop
    1. 6.1 Les travaux fondateurs de Google (GFS, MapReduce)
    2. 6.2 Doug Cutting, Nutch et la naissance de Hadoop
    3. 6.3 La fondation Apache et la diffusion du projet
    4. 6.4 Frise chronologique : genèse d’Hadoop
    5. 6.5 Conclusion
  7. 7. L’écosystème Hadoop aujourd’hui
    1. 7.1 HDFS : le socle du stockage distribué
    2. 7.2 YARN : la gestion intelligente des ressources
    3. 7.3 MapReduce et Spark : deux générations de traitement
    4. 7.4 Les outils d’accès et d’analyse
  8. 8. Cas d’usage industriels
    1. 8.1 E-commerce : transformation du commerce numérique par la donnée
    2. 8.2 Finance : l’analyse prédictive au service de la performance et de la sécurité
    3. 8.3 Santé : la donnée au cœur de la médecine prédictive et personnalisée
    4. 8.4 Télécommunications : l’exploitation des données massives pour un réseau intelligent et centré sur l’utilisateur
    5. 8.5 Petite synthèse comparative : convergences et spécificités sectorielles de l’usage d’Hadoop
  9. 9. Objectifs du livre et parcours pédagogique
    1. 9.1 Structure du livre
    2. 9.2 Prérequis
    3. 9.3 Compétences acquises
    4. 9.4 Transition vers le chapitre Architecture de Hadoop
Architecture de Hadoop
  1. 1. Vue d’ensemble de l’architecture
    1. 1.1 Un écosystème riche et modulaire
      1. 1.1.1 Stockage distribué
      2. 1.1.2 Traitement des données
      3. 1.1.3 Gestion des ressources
      4. 1.1.4 Analyse et requêtage
      5. 1.1.5 Bases distribuées
      6. 1.1.6 Traitement en flux
    2. 1.2 Schéma global de l’architecture (master/slave, cluster, communication réseau)
  2. 2. Le système de fichiers HDFS
    1. 2.1 Introduction à HDFS
    2. 2.2 Fonctionnement du NameNode
      1. 2.2.1 Qu’est-ce que le NameNode ?
      2. 2.2.2 Son rôle dans le fonctionnement d’HDFS
      3. 2.2.3 Que sont les métadonnées dans HDFS ?
      4. 2.2.4 Qu’appelle-t-on le namespace HDFS ?
      5. 2.2.5 Pourquoi le NameNode est critique et comment il tient ses promesses ?
    3. 2.3 Fonctionnement du DataNode
      1. 2.3.1 Qu'est-ce qu'un DataNode ?
      2. 2.3.2 Le découpage en blocs
      3. 2.3.3 Le stockage dans les DataNodes
    4. 2.4 Gestion de la tolérance aux pannes dans HDFS
      1. 2.4.1 La réplication des blocs
      2. 2.4.2 Les règles de placement (racks awareness)
      3. 2.4.3 Les heartbeats et les block reports : le système nerveux de HDFS
      4. 2.4.4 Détection et récupération automatique lors de la défaillance d’un DataNode
      5. 2.4.5 Exemple pratique : gestion d’une panne de DataNode dans HDFS
    5. 2.5 Comparaison avec un système centralisé (SAN ou stockage local)
    6. 2.6 Haute disponibilité (High Availability) et Federation dans HDFS
      1. 2.6.1 Le problème du SPOF (Single Point of Failure)
      2. 2.6.2 La haute disponibilité (HA) du NameNode
      3. 2.6.3 La Federation dans HDFS
  3. 3. Répartition de la charge (Load balancing) dans HDFS
    1. 3.1 Introduction : rôle et importance du load balancing
      1. 3.1.1 Définition du load balancing dans HDFS
      2. 3.1.2 Les risques d’une répartition déséquilibrée
      3. 3.1.3 Objectifs principaux du load balancing
      4. 3.1.4 Le rôle du NameNode comme chef d’orchestre
    2. 3.2 Placement initial des blocs : une stratégie proactive
      1. 3.2.1 Le principe du placement intelligent
      2. 3.2.2 La règle des trois réplicas et la topologie réseau
      3. 3.2.3 La prévention des points chauds dès l’écriture
      4. 3.2.4 La prise en compte des politiques de stockage
      5. 3.2.5 Les limites du placement initial et la nécessité d’un rééquilibrage
    3. 3.3 Mécanismes de rebalancing : l’adaptation continue
      1. 3.3.1 Principe général du rebalancing
      2. 3.3.2 Le rôle du NameNode dans la coordination
      3. 3.3.3 Les trois outils complémentaires : Balancer, Mover et Disk Balancer
      4. 3.3.4 Scénarios typiques de rééquilibrage
      5. 3.3.5 Illustration du processus de rebalancing
  4. 4. Le modèle de traitement MapReduce
    1. 4.1 Introduction générale
    2. 4.2 Architecture MapReduce
      1. 4.2.1 Les composants principaux
      2. 4.2.2 Les deux phases fondamentales : Map et Reduce
      3. 4.2.3 La phase Shuffle et le tri global
    3. 4.3 Déroulement d’un job MapReduce étape par étape
      1. 4.3.1 Soumission du job
      2. 4.3.2 Phase Map
      3. 4.3.3 Shuffle et tri global
      4. 4.3.4 Phase Reduce
      5. 4.3.5 Tolérance aux pannes
      6. 4.3.6 Résumé du déroulement
      7. 4.3.7 Illustration du déroulement d’un job MapReduce
      8. 4.3.8 Exemples pratiques
  5. 5. YARN : Yet Another Resource Negotiator
    1. 5.1 Pourquoi YARN ?
      1. 5.1.1 Les limites d’Hadoop 1.x et du JobTracker
      2. 5.1.2 La dépendance exclusive à MapReduce et ses contraintes
    2. 5.2 L’arrivée de YARN : une nouvelle vision
    3. 5.3 Comment fonctionne YARN ?
    4. 5.4 Bénéfices et impact de YARN
  6. 6. Gestion des ressources dans Hadoop/YARN
    1. 6.1 Architecture de la gestion des ressources dans YARN
      1. 6.1.1 Le rôle du ResourceManager
      2. 6.1.2 Le rôle des NodeManagers
      3. 6.1.3 Les conteneurs YARN
      4. 6.1.4 Exemple de gestion des ressources avec plusieurs jobs
    2. 6.2 Ordonnancement des tâches
      1. 6.2.1 L’ordonnancement FIFO
      2. 6.2.2 Le Capacity Scheduler
      3. 6.2.3 Le Fair Scheduler
      4. 6.2.4 Exemple d’ordonnancement multi-utilisateurs
    3. 6.3 Priorisation et multi-tenancy
  7. 7. Synthèse
Installer Hadoop en local
  1. 1. Introduction
  2. 2. Prérequis techniques
    1. 2.1 Configuration matérielle minimale et recommandée
    2. 2.2 Système d’exploitation et compatibilité
    3. 2.3 Préparation logicielle
      1. 2.3.1 Java, pilier incontournable
      2. 2.3.2 SSH, un prérequis pour la communication interne
      3. 2.3.3 Outils utilitaires indispensables
      4. 2.3.4 Python et autres langages de script
    4. 2.4 Réseau et configuration de base
    5. 2.5 Organisation des répertoires
    6. 2.6 Vérifications initiales
    7. 2.7 Bonnes pratiques avant l’installation
  3. 3. Installation en mode fully-distribué (cluster local)
    1. 3.1 Introduction
      1. 3.1.1 Différence entre pseudo-distribué et fully-distribué
      2. 3.1.2 Intérêt pédagogique et pratique du cluster local
    2. 3.2 Installation en mode fully-distribué (cluster local)
      1. 3.2.1 Concepts clés d’un cluster fully-distribué
      2. 3.2.2 Téléchargement et préparation des binaires Hadoop
      3. 3.2.3 Configuration des fichiers XML
      4. 3.2.4 Conclusion sur la configuration des fichiers
      5. 3.2.5 Formatage du NameNode
      6. 3.2.6 Démarrage des services HDFS et YARN
      7. 3.2.7 Encadré pratique : premier job MapReduce local
      8. 3.2.8 Automatisation du déploiement
  4. 4. Utilisation de Docker pour simuler un cluster Hadoop
    1. 4.1 Pourquoi utiliser Docker ?
    2. 4.2 Images Docker Hadoop existantes
    3. 4.3 Démarrage d’un cluster à trois nœuds avec docker-compose
    4. 4.4 Comparaison : Docker versus installation manuelle
    5. 4.5 Évolutivité et ouverture
      1. 4.5.1 De l’environnement local au cluster multi-nœuds
      2. 4.5.2 Différences de configuration entre local et multi-nœuds
      3. 4.5.3 Vers plus de flexibilité : Docker et Kubernetes
      4. 4.5.4 Perspectives pédagogiques et professionnelles
  5. 5. Résolution des erreurs courantes
    1. 5.1 Erreurs liées à JAVA_HOME
    2. 5.2 Conflits de ports
    3. 5.3 Erreurs liées à SSH
    4. 5.4 Erreurs liées à la configuration réseau
    5. 5.5 Problèmes de permissions HDFS
    6. 5.6 Problèmes d’espace disque dans HDFS
    7. 5.7 Débogage d’une panne de DataNode
    8. 5.8 Synthèse des erreurs courantes
  6. 6. Sécurité de base dans Hadoop
    1. 6.1 Authentification vs autorisation : une distinction fondamentale
    2. 6.2 Kerberos : principe et rôle dans Hadoop
    3. 6.3 LDAP, annuaires et intégration d’identité
    4. 6.4 Autres mécanismes : TLS, tokens et Frameworks d’autorisation
    5. 6.5 Permissions et ACL dans HDFS : fonctionnement et commandes
    6. 6.6 Scénario pédagogique : "Permission denied" et correction pas à pas
    7. 6.7 Bonnes pratiques de sécurité à appliquer en production
  7. 7. Vérifications post-installation (logs, services, ports, etc.)
    1. 7.1 Analyse des logs Hadoop ($HADOOP_HOME/logs/)
      1. 7.1.1 Rôle des logs dans l’administration Hadoop
      2. 7.1.2 Types de fichiers de logs générés par Hadoop
    2. 7.2 Vérification avec les commandes hdfs dfsadmin -report et yarn node -list
      1. 7.2.1 Vérification du stockage HDFS avec hdfs dfsadmin -report
      2. 7.2.2 Vérification des ressources YARN avec yarn node -list
      3. 7.2.3 Complémentarité des deux commandes
  8. 8. Synthèse
Manipuler HDFS
  1. 1. Introduction
  2. 2. Commandes de base HDFS
    1. 2.1 Explorer et naviguer dans HDFS
    2. 2.2 Gestion des répertoires
    3. 2.3 Gestion des fichiers
      1. 2.3.1 Importer des fichiers dans HDFS
      2. 2.3.2 Télécharger un fichier depuis HDFS
      3. 2.3.3 Déplacer ou copier un fichier à l’intérieur de HDFS
      4. 2.3.4 Complexité masquée
    4. 2.4 Lecture et affichage
      1. 2.4.1 Afficher un fichier complet
      2. 2.4.2 Lire les premières lignes
      3. 2.4.3 Lire les dernières lignes
      4. 2.4.4 Lire des fichiers compressés
      5. 2.4.5 Avantages de la lecture directe dans HDFS
    5. 2.5 Commandes d’administration de base
      1. 2.5.1 Obtenir un rapport complet du cluster
      2. 2.5.2 Modifier le facteur de réplication
      3. 2.5.3 Importance de ces commandes
    6. 2.6 Commandes avancées et outils de diagnostic HDFS
      1. 2.6.1 Ajout de contenu à un fichier existant
      2. 2.6.2 Suppression immédiate d’un fichier
      3. 2.6.3 Consultation et diagnostic
      4. 2.6.4 Recyclage et quotas
  3. 3. Cas pratique : gestion d’un dossier d’exemples
    1. 3.1 Création d’un espace de travail
    2. 3.2 Import de fichiers d’exemples
    3. 3.3 Consultation des fichiers
    4. 3.4 Organisation et déplacement des fichiers
    5. 3.5 Suppression et nettoyage
  4. 4. Types de fichiers et formats supportés dans HDFS
    1. 4.1 Introduction
    2. 4.2 Les formats textuels traditionnels
    3. 4.3 Les formats binaires optimisés
      1. 4.3.1 ORC (Optimized Row Columnar)
      2. 4.3.2 Parquet
      3. 4.3.3 Avro
    4. 4.4 Comparaison entre formats de fichiers normaux et formats compressés dans Hadoop
    5. 4.5 Architecture interne d’un bloc HDFS
      1. 4.5.1 Introduction au concept de bloc dans HDFS
      2. 4.5.2 Organisation interne d’un bloc HDFS
    6. 4.6 Cas pratique : comparaison de formats dans HDFS
  5. 5. Stockage physique sur les DataNodes
    1. 5.1 Répartition des blocs sur plusieurs disques
      1. 5.1.1 Principe général de la répartition
      2. 5.1.2 Répartition équilibrée des blocs entre disques
      3. 5.1.3 Localisation physique des blocs sur disque
      4. 5.1.4 Exemple concret : répartition équilibrée des blocs
      5. 5.1.5 Avantages de cette architecture
    2. 5.2 Interaction avec le système de fichiers local
    3. 5.3 Gestion des fichiers de métadonnées associés aux blocs
      1. 5.3.1 Rôle et contenu des fichiers .meta
      2. 5.3.2 Vérification d’intégrité et détection automatique des corruptions
      3. 5.3.3 Processus complet : écriture, lecture et récupération
      4. 5.3.4 Illustration : vérification et récupération d’un bloc corrompu
    4. 5.4 Gestion des réplicas au niveau des blocs
      1. 5.4.1 Rôle du NameNode dans la distribution des réplicas
      2. 5.4.2 Surveillance et maintien du niveau de réplication
      3. 5.4.3 Lecture optimisée et sélection du réplica le plus proche
      4. 5.4.4 Exemple concret de réplication et de récupération après panne
      5. 5.4.5 Bilan et importance du mécanisme de réplication
    5. 5.5 Tolérance aux pannes et mode Safe Mode du NameNode
      1. 5.5.1 Le mode Safe Mode du NameNode
      2. 5.5.2 Exemple de transition du Safe Mode vers l’état actif
    6. 5.6 Équilibrage et rebalancing des données entre DataNodes
      1. 5.6.1 Principe de fonctionnement
      2. 5.6.2 Lancement du processus d’équilibrage
      3. 5.6.3 Exemple concret d’équilibrage
  6. 6. Compression et gestion de l’espace dans HDFS
    1. 6.1 Principes généraux de la compression dans HDFS
      1. 6.1.1 Les enjeux du stockage à grande échelle
      2. 6.1.2 Les principes de la compression et ses approches
      3. 6.1.3 L’impact de la compression sur les performances
      4. 6.1.4 Exemple concret d’optimisation du stockage
      5. 6.1.5 Une mise en œuvre totalement transparente
    2. 6.2 Formats de compression pris en charge
    3. 6.3 Compression et exécution des jobs MapReduce
    4. 6.4 Gestion de l’espace disque dans HDFS
      1. 6.4.1 Suivi de l’utilisation des disques par le NameNode
      2. 6.4.2 Équilibrage de la charge via le HDFS Balancer
      3. 6.4.3 Gestion des blocs compressés et non compressés
      4. 6.4.4 Exemple concret de répartition automatique des blocs
      5. 6.4.5 Limites et défis de l’équilibrage
    5. 6.5 Stratégies d’optimisation de l’espace
      1. 6.5.1 Combiner compression et réplication
      2. 6.5.2 Formats optimisés pour le Big Data
      3. 6.5.3 Exemple : stockage d’un dataset CSV en Parquet compressé
      4. 6.5.4 Bonnes pratiques pour le choix du format
    6. 6.6 Synthèse
  7. 7. Visualisation de l’organisation interne via l’interface web
    1. 7.1 Introduction à la supervision web dans Hadoop
    2. 7.2 Accès à l’interface web du NameNode (port 9870)
    3. 7.3 Accès à l’interface web de YARN (port 8088)
    4. 7.4 Accès à l’interface web du DataNode (port 9864)
    5. 7.5 Interface web du Secondary NameNode (port 9868)
    6. 7.6 Exemple guidé de navigation et captures d’écran
    7. 7.7 Bonnes pratiques et sécurité des interfaces Web
  8. 8. Synthèse
Premiers traitements avec MapReduce en Python
  1. 1. Introduction
  2. 2. Comprendre le paradigme MapReduce
    1. 2.1 Modèle clé/valeur appliqué aux données réelles
    2. 2.2 Exemple illustratif non technique : comprendre MapReduce avec un scénario simple
    3. 2.3 Schéma pipeline Map ? Shuffle ? Reduce appliqué à un dataset simple
    4. 2.4 Comparaison entre traitement séquentiel et traitement distribué avec MapReduce
  3. 3. Écriture d’une première application MapReduce en Python
    1. 3.1 Hadoop Streaming : concepts, scripts et exécution
      1. 3.1.1 Présentation de Hadoop Streaming
      2. 3.1.2 Principe d’utilisation de stdin et stdout pour mapper/reducer
      3. 3.1.3 Squelette de script Python (mapper.py, reducer.py)
      4. 3.1.4 Explication détaillée ligne par ligne
      5. 3.1.5 Schéma de communication entre HDFS ? Mapper ? Reducer ? HDFS
      6. 3.1.6 Exemple minimal de code et exécution locale
      7. 3.1.7 Exécution sur Hadoop Streaming
    2. 3.2 Exemple de jobs Map Reduce
      1. 3.2.1 Exemple 1 : WordCount en Python
      2. 3.2.2 Exemple 2 : analyse de logs web en Python
    3. 3.3 Optimisation et bonnes pratiques avec Hadoop Streaming
  4. 4. Exécution sur plusieurs fichiers
    1. 4.1 Introduction : pourquoi traiter plusieurs fichiers en parallèle ?
    2. 4.2 Principe des splits HDFS et du traitement parallèle
    3. 4.3 Étude de cas appliquée : analyse de trois fichiers de logs
    4. 4.4 Gestion des fichiers hétérogènes
    5. 4.5 Analyse multi-journée ou agrégation par période
    6. 4.6 Optimisation et bonnes pratiques pour plusieurs fichiers
    7. 4.7 Intégration avec les jobs existants et pipelines Big Data
  5. 5. Optimisations possibles
    1. 5.1 Utilisation d’un combiner
    2. 5.2 Optimisation des partitions et des reducers
    3. 5.3 Compression des données intermédiaires
    4. 5.4 Ajustement du nombre de tâches
    5. 5.5 Optimisation du format et de la compression des sorties finales
      1. 5.5.1 Formats de sortie classiques
      2. 5.5.2 Compression des sorties finales
      3. 5.5.3 Exemple pratique
    6. 5.6 Stratégies d’ordonnancement et tuning du cluster
  6. 6. Limites de MapReduce et évolutions
    1. 6.1 Introduction
    2. 6.2 Lourdeur des écritures et lectures intermédiaires
    3. 6.3 Lenteur sur les jobs itératifs
    4. 6.4 Comparaison avec Spark et Flink
    5. 6.5 Conclusion
  7. 7. Synthèse
Concepts avancés autour de Hadoop
  1. 1. Introduction
  2. 2. Écosystème Hadoop : Hive, Pig, HBase, Spark et autres outils
    1. 2.1 Vue d’ensemble de l’écosystème Hadoop
    2. 2.2 Hive : SQL sur HDFS
      1. 2.2.1 Architecture de Hive
      2. 2.2.2 Cas d’usage typiques de Hive
      3. 2.2.3 Exemple d’utilisation simple
    3. 2.3 Pig : langage de scripts déclaratifs
      1. 2.3.1 Pourquoi Pig dans l’écosystème Hadoop ?
      2. 2.3.2 Exemple d’utilisation simple de Pig
      3. 2.3.3 Atouts principaux de Pig
      4. 2.3.4 Rôle de Pig dans un projet Big Data
    4. 2.4 HBase : base de données NoSQL distribuée
      1. 2.4.1 Modèle de données orienté colonnes
      2. 2.4.2 Architecture d’HBase
      3. 2.4.3 Lecture et écriture en temps réel
      4. 2.4.4 Exemple d’opérations CRUD avec HBase Shell
      5. 2.4.5 Synthèse
    5. 2.5 Spark : traitement distribué en mémoire
      1. 2.5.1 Comparaison Spark vs MapReduce
      2. 2.5.2 Composants clés de Spark
      3. 2.5.3 Exemple : analyse de logs web avec PySpark
      4. 2.5.4 Intégration de Spark avec HDFS, Hive et YARN
    6. 2.6 Autres outils de l’écosystème
      1. 2.6.1 Flume et Sqoop : ingestion de données
      2. 2.6.2 Oozie et Airflow : orchestration de workflows
      3. 2.6.3 Zookeeper : coordination de services distribués
      4. 2.6.4 Synthèse
  3. 3. Sécurité et gestion des permissions dans Hadoop
    1. 3.1 Introduction à la sécurité Hadoop
      1. 3.1.1 Importance de la sécurité dans les clusters Big Data
      2. 3.1.2 Risques liés à un environnement distribué
    2. 3.2 Authentification et autorisation
      1. 3.2.1 Qu’est-ce que Kerberos ?
      2. 3.2.2 Architecture de Kerberos
      3. 3.2.3 Flux d’authentification Kerberos avec Hadoop
    3. 3.3 Contrôle d’accès basé sur les permissions HDFS
    4. 3.4 Rôles et utilisateurs dans YARN et MapReduce
    5. 3.5 Chiffrement et confidentialité
      1. 3.5.1 Chiffrement des données au repos (Data at Rest)
      2. 3.5.2 Chiffrement des données en transit (Data in Transit)
      3. 3.5.3 Gestion des clés et intégration avec KMS
      4. 3.5.4 Extension avec Apache Ranger KMS
    6. 3.6 Audits et suivi des accès
    7. 3.7 Bonnes pratiques pour un cluster sécurisé
      1. 3.7.1 Séparation des environnements
      2. 3.7.2 Surveillance proactive et mises à jour régulières
      3. 3.7.3 Principes généraux de sécurité
  4. 4. Défis modernes et alternatives à Hadoop classique
    1. 4.1 Limites structurelles de MapReduce et HDFS
      1. 4.1.1 Lourdeur des écritures et lectures intermédiaires
      2. 4.1.2 Latence pour les traitements itératifs
    2. 4.2 Montée en puissance du Cloud et architectures serverless
      1. 4.2.1 Stockage objet vs HDFS
      2. 4.2.2 Services managés
      3. 4.2.3 Évolutivité et coût
      4. 4.2.4 Illustration pédagogique
    3. 4.3 Nouvelles tendances : calcul en mémoire et traitement de flux
      1. 4.3.1 Calcul en mémoire : l’approche de Spark
      2. 4.3.2 Traitement de flux en temps réel : Flink et Storm
      3. 4.3.3 Cas d’usage concrets : Kafka et Spark Structured Streaming
      4. 4.3.4 Approches hybrides : Delta Lake, Iceberg et Lakehouses
      5. 4.3.5 Illustration
    4. 4.4 Hadoop aujourd’hui : rôle pédagogique et niche industrielle
      1. 4.4.1 Hadoop pour l’archivage et les jobs batch massifs
      2. 4.4.2 Comparaison avec les solutions modernes
      3. 4.4.3 Réflexion sur l’avenir d’Hadoop
  5. 5. Synthèse
Premiers projets Big Data avec Hadoop
  1. 1. Introduction
  2. 2. Introduction générale aux projets Big Data
  3. 3. Étude de cas : analyse de logs web
    1. 3.1 Contexte et objectifs du projet
    2. 3.2 Préparation et ingestion des données
    3. 3.3 Nettoyage et structuration des données
    4. 3.4 Traitement analytique avec MapReduce
    5. 3.5 Analyse SQL avec Hive
    6. 3.6 Visualisation et interprétation des résultats
    7. 3.7 Développement et exécution des scripts Hadoop
    8. 3.8 Synthèse du projet d’analyse de logs web
  4. 4. Projet : agrégation de données IoT
    1. 4.1 Contexte et objectifs du projet
      1. 4.1.1 Une vision systémique de la donnée
      2. 4.1.2 Des objectifs analytiques multiples
      3. 4.1.3 Une démarche orientée bonnes pratiques
    2. 4.2 Préparation et ingestion des données
      1. 4.2.1 Organisation des données dans HDFS
      2. 4.2.2 Nettoyage et conversion des fichiers dans HDFS
    3. 4.3 Traitement des données avec Hadoop
      1. 4.3.1 Organisation du traitement MapReduce
      2. 4.3.2 Exécution du job Hadoop
      3. 4.3.3 Mini-visualisation et interprétation
      4. 4.3.4 Extension aux autres types de données
      5. 4.3.5 Conclusion
    4. 4.4 Détection des zones critiques de pollution et préparation des scénarios Hive
      1. 4.4.1 Tables Hive pour l’organisation et l’exploitation des données IoT
      2. 4.4.2 Agrégation et filtrage par scénario
      3. 4.4.3 Avantages de cette approche multi-tables
    5. 4.5 Analyse énergétique prédictive des bâtiments
      1. 4.5.1 Traitement MapReduce
      2. 4.5.2 Analyses Hive
      3. 4.5.3 Visualisation et interprétation des résultats
    6. 4.6 Corrélation bruit et conditions météo
      1. 4.6.1 Traitement MapReduce
      2. 4.6.2 Analyse Hive
      3. 4.6.3 Visualisation et interprétation
    7. 4.7 Détection d’anomalies multi-capteurs
      1. 4.7.1 Traitement MapReduce
      2. 4.7.2 Analyse Hive
      3. 4.7.3 Visualisation
    8. 4.8 Suivi des flux de mobilité
      1. 4.8.1 Traitement MapReduce
      2. 4.8.2 Analyse Hive
      3. 4.8.3 Visualisation
    9. 4.9 Orchestration des scénarios avec Oozie
      1. 4.9.1 Principe général d’orchestration
      2. 4.9.2 Exemple de workflow Oozie
      3. 4.9.3 Déploiement et exécution du workflow
      4. 4.9.4 Visualisation du graphe d’orchestration
    10. 4.10 Visualisation et interprétation
    11. 4.11 Complexité et bonnes pratiques
    12. 4.12 Synthèse
  5. 5. Mini-projet 3 : analyse de données open data
    1. 5.1 Présentation du mini-projet
    2. 5.2 Préparation et ingestion des données open data
    3. 5.3 Nettoyage et structuration des données
    4. 5.4 Traitement et analyse Hadoop
    5. 5.5 Visualisation et interprétation
    6. 5.6 Encadrés pédagogiques
      1. 5.6.1 Jeux de données open data à explorer
      2. 5.6.2 Structurer un mini-projet Hadoop autonome
      3. 5.6.3 Erreurs fréquentes lors du traitement de jeux open data
      4. 5.6.4 Conclusion
  6. 6. Synthèse
  7.  
  8.  
  9.  
  10. Index

Oussama LAFI

Oussama LAFI est Data Engineer spécialisé en Big Data, disposant de plusieurs années d’expérience au sein de groupes internationaux tels qu’Orange, Sofrecom et Keyrus. Il intervient sur la conception, le déploiement et l’industrialisation d’architectures de données massives et de pipelines distribués. Expert des environnements Hadoop et Spark, il maîtrise également les plateformes cloud et les outils modernes de traitement et d’orchestration des données. À travers cet ouvrage, il partage une vision à la fois opérationnelle et pédagogique du Big Data, issue de projets concrets menés en entreprise, afin d’accompagner étudiants et professionnels dans la compréhension et la maîtrise des fondements d’Hadoop.

Nos nouveautés

voir plus