1. Livres & vidéos
  2. Hadoop - Maîtriser l’écosystème Big Data : HDFS, MapReduce, Hive, Spark…

Hadoop Maîtriser l’écosystème Big Data : HDFS, MapReduce, Hive, Spark…

Informations

Livraison possible dès le 20 mai 2026
  • Livraison à partir de 0,01 €
  • Version en ligne offerte pendant 1 an
  • Livres rédigés par des auteurs francophones et imprimés à Nantes

Informations

  • Consultable en ligne immédiatement après validation du paiement et pour une durée de 10 ans.
  • Version HTML
  • Livres rédigés par des auteurs francophones et imprimés à Nantes
Le Big Data occupe aujourd’hui une place centrale dans les architectures décisionnelles modernes. Hadoop en est l’un des piliers historiques et demeure une technologie incontournable pour comprendre les fondements du stockage massif et du traitement distribué de données à grande échelle.  Pensé aussi bien pour les débutants que pour les professionnels souhaitant structurer leurs connaissances, cet ouvrage propose un parcours progressif, clair et structuré, qui accompagne le lecteur depuis les...
Consulter des extraits du livre en ligne Aperçu de la version papier
  • Niveau Confirmé à Expert
  • Nombre de pages 583 pages
  • Parution mai 2026
  • Niveau Confirmé à Expert
  • Parution mai 2026

Le Big Data occupe aujourd’hui une place centrale dans les architectures décisionnelles modernes. Hadoop en est l’un des piliers historiques et demeure une technologie incontournable pour comprendre les fondements du stockage massif et du traitement distribué de données à grande échelle.

 Pensé aussi bien pour les débutants que pour les professionnels souhaitant structurer leurs connaissances, cet ouvrage propose un parcours progressif, clair et structuré, qui accompagne le lecteur depuis les bases du Big Data jusqu’à la réalisation de projets concrets avec Hadoop. Après une introduction aux enjeux du Big Data et à la genèse d’Hadoop, le livre détaille l’architecture du framework, son fonctionnement interne et ses briques fondamentales : HDFS, YARN et MapReduce.

 Le lecteur est guidé pas à pas dans l’installation d’un cluster Hadoop en local, puis dans la manipulation du système de fichiers distribué HDFS à travers des commandes, des exemples pratiques et des scénarios proches des environnements professionnels. Les premiers traitements MapReduce en Python permettent ensuite de comprendre en profondeur la logique du calcul distribué.

 L’ouvrage ouvre également sur l’écosystème Hadoop moderne avec Hive, Pig, Spark, HBase, Sqoop, Oozie, ainsi que les outils d’ingestion, d’orchestration et de gouvernance. Enfin, plusieurs chapitres sont consacrés à des projets Big Data complets, offrant une approche méthodologique, des bonnes pratiques et des cas d’usage concrets.

 

Caractéristiques

  • Livre (broché) - 17 x 21 cm
  • ISBN : 978-2-409-05430-3
  • EAN : 9782409054303
  • Ref. ENI : EIHADOOP

Caractéristiques

  • HTML
  • ISBN : 978-2-409-05431-0
  • EAN : 9782409054310
  • Ref. ENI : LNEIHADOOP
Avant-propos
  1. Introduction
  2. Objectifs de l’ouvrage
  3. Public concerné et prérequis
  4. Démarche pédagogique et fil conducteur
  5. Organisation de l’ouvrage
  6. Conclusion
Introduction au Big Data et à Hadoop
  1. Introduction
  2. Contexte historique de la donnée
    1. 1. Les débuts de la donnée numérique
    2. 2. De la donnée structurée à ladonnée non structurée : l’ère duWeb et de l’IoT
    3. 3. Évolution des volumes et des supports destockage
    4. 4. Frise chronologique : SGBD <span class="arial">?</span> Data Warehouse <span class="arial">?</span> BigData
  3. L’explosion du volume des données
    1. 1. Croissance exponentielle et chiffres clés
    2. 2. Les sources de la donnée : entreprises,objets, utilisateurs
    3. 3. Les défis du stockage et du traitement
  4. Les 5 V du Big Data
    1. 1. Volume
    2. 2. Vélocité
    3. 3. Variété
    4. 4. Véracité
    5. 5. Valeur
    6. 6. Schéma : le pentagone des 5 Vdu Big Data
  5. Pourquoi le Big Data bouleverse les systèmes classiques ?
    1. 1. Les limites du modèle relationnel
    2. 2. Le passage du scale-up au scale-out
    3. 3. Le besoin de résilience et de distribution
    4. 4. Synthèse
  6. Genèse d’Hadoop
    1. 1. Les travaux fondateurs de Google (GFS, MapReduce)
    2. 2. Doug Cutting, Nutch et la naissance de Hadoop
    3. 3. La fondation Apache et la diffusion du projet
    4. 4. Frise chronologique : genèse d’Hadoop
    5. 5. Conclusion
  7. L’écosystème Hadoop aujourd’hui
    1. 1. HDFS : le socle du stockage distribué
    2. 2. YARN : la gestion intelligente des ressources
    3. 3. MapReduce et Spark : deux générationsde traitement
    4. 4. Les outils d’accès et d’analyse
  8. Cas d’usage industriels
    1. 1. E-commerce : transformation du commerce numérique parla donnée
    2. 2. Finance : l’analyse prédictiveau service de la performance et de la sécurité
    3. 3. Santé : la donnée au cœurde la médecine prédictive et personnalisée
    4. 4. Télécommunications : l’exploitationdes données massives pour un réseau intelligentet centré sur l’utilisateur
    5. 5. Petite synthèse comparative : convergenceset spécificités sectorielles de l’usaged’Hadoop
  9. Objectifs du livre et parcours pédagogique
    1. 1. Structure du livre
    2. 2. Prérequis
    3. 3. Compétences acquises
    4. 4. Transition vers le chapitre Architecture de Hadoop
Architecture de Hadoop
  1. Vue d’ensemble de l’architecture
    1. 1. Un écosystème riche et modulaire
      1. a. Stockage distribué
      2. b. Traitement des données
      3. c. Gestion des ressources
      4. d. Analyse et requêtage
      5. e. Bases distribuées
      6. f. Traitement en flux
    2. 2. Schéma global de l’architecture(master/slave, cluster, communication réseau)
  2. Le système de fichiers HDFS
    1. 1. Introduction à HDFS
    2. 2. Fonctionnement du NameNode
      1. a. Qu’est-ce que le NameNode ?
      2. b. Son rôle dans le fonctionnement d’HDFS
      3. c. Que sont les métadonnées dans HDFS ?
      4. d. Qu’appelle-t-on le namespace HDFS ?
      5. e. Pourquoi le NameNode est critique et comment il tientses promesses ?
    3. 3. Fonctionnement du DataNode
      1. a. Qu’est-ce qu’un DataNode ?
      2. b. Le découpage en blocs
      3. c. Le stockage dans les DataNodes
    4. 4. Gestion de la tolérance aux pannes dans HDFS
      1. a. La réplication des blocs
      2. b. Les règles de placement (racks awareness)
      3. c. Les heartbeats et les block reports : lesystème nerveux de HDFS
      4. d. Détection et récupérationautomatique lors de la défaillance d’un DataNode
      5. e. Exemple pratique : gestion d’unepanne de DataNode dans HDFS
    5. 5. Comparaison avec un système centralisé (SANou stockage local)
    6. 6. Haute disponibilité (High Availability) etFederation dans HDFS
      1. a. Le problème du SPOF (Single Point of Failure)
      2. b. La haute disponibilité (HA) du NameNode
      3. c. La Federation dans HDFS
  3. Répartition de la charge (Load balancing) dans HDFS
    1. 1. Introduction : rôle et importancedu load balancing
      1. a. Définition du load balancing dans HDFS
      2. b. Les risques d’une répartition déséquilibrée
      3. c. Objectifs principaux du load balancing
      4. d. Le rôle du NameNode comme chef d’orchestre
    2. 2. Placement initial des blocs : une stratégieproactive
      1. a. Le principe du placement intelligent
      2. b. La règle des trois réplicas et latopologie réseau
      3. c. La prévention des points chauds dèsl’écriture
      4. d. La prise en compte des politiques de stockage
      5. e. Les limites du placement initial et la nécessité d’unrééquilibrage
    3. 3. Mécanismes de rebalancing : l’adaptationcontinue
      1. a. Principe général du rebalancing
      2. b. Le rôle du NameNode dans la coordination
      3. c. Les trois outils complémentaires :Balancer, Mover et Disk Balancer
      4. d. Scénarios typiques de rééquilibrage
      5. e. Illustration du processus de rebalancing
  4. Le modèle de traitement MapReduce
    1. 1. Introduction générale
    2. 2. Architecture MapReduce
      1. a. Les composants principaux
      2. b. Les deux phases fondamentales : Map et Reduce
      3. c. La phase Shuffle et le tri global
    3. 3. Déroulement d’un job MapReduce étapepar étape
      1. a. Soumission du job
      2. b. Phase Map
      3. c. Shuffle et tri global
      4. d. Phase Reduce
      5. e. Tolérance aux pannes
      6. f. Résumé du déroulement
      7. g. Illustration du déroulement d’unjob MapReduce
      8. h. Exemples pratiques
  5. YARN : Yet Another Resource Negotiator
    1. 1. Pourquoi YARN ?
      1. a. Les limites d’Hadoop 1.x et du JobTracker
      2. b. La dépendance exclusive à MapReduceet ses contraintes
    2. 2. L’arrivée de YARN : unenouvelle vision
    3. 3. Comment fonctionne YARN ?
    4. 4. Bénéfices et impact de YARN
  6. Gestion des ressources dans Hadoop/YARN
    1. 1. Architecture de la gestion des ressources dans YARN
      1. a. Le rôle du ResourceManager
      2. b. Le rôle des NodeManagers
      3. c. Les conteneurs YARN
      4. d. Exemple de gestion des ressources avec plusieurs jobs
    2. 2. Ordonnancement des tâches
      1. a. L’ordonnancement FIFO
      2. b. Le Capacity Scheduler
      3. c. Le Fair Scheduler
      4. d. Exemple d’ordonnancement multi-utilisateurs
    3. 3. Priorisation et multi-tenancy
  7. Synthèse
Installer Hadoop en local
  1. Introduction
  2. Prérequis techniques
    1. 1. Configuration matérielle minimale et recommandée
    2. 2. Système d’exploitation et compatibilité
    3. 3. Préparation logicielle
      1. a. Java, pilier incontournable
      2. b. SSH, un prérequis pour la communication interne
      3. c. Outils utilitaires indispensables
      4. d. Python et autres langages de script
    4. 4. Réseau et configuration de base
    5. 5. Organisation des répertoires
    6. 6. Vérifications initiales
    7. 7. Bonnes pratiques avant l’installation
  3. Installation en mode fully-distribué (cluster local)
    1. 1. Introduction
      1. a. Différence entre pseudo-distribué etfully-distribué
      2. b. Intérêt pédagogique etpratique du cluster local
    2. 2. Installation en mode fully-distribué (clusterlocal)
      1. a. Concepts clés d’un cluster fully-distribué
      2. b. Téléchargement et préparationdes binaires Hadoop
      3. c. Configuration des fichiers XML
      4. d. Conclusion sur la configuration des fichiers
      5. e. Formatage du NameNode
      6. f. Démarrage des services HDFS et YARN
      7. g. Encadré pratique : premier job MapReducelocal
      8. h. Automatisation du déploiement
  4. Utilisation de Docker pour simuler un cluster Hadoop
    1. 1. Pourquoi utiliser Docker ?
    2. 2. Images Docker Hadoop existantes
    3. 3. Démarrage d’un cluster à troisnœuds avec docker-compose
    4. 4. Comparaison : Docker versus installation manuelle
    5. 5. Évolutivité et ouverture
      1. a. De l’environnement local au cluster multi-nœuds
      2. b. Différences de configuration entre localet multi-nœuds
      3. c. Vers plus de flexibilité : Docker et Kubernetes
      4. d. Perspectives pédagogiques et professionnelles
  5. Résolution des erreurs courantes
    1. 1. Erreurs liées à JAVA_HOME
    2. 2. Conflits de ports
    3. 3. Erreurs liées à SSH
    4. 4. Erreurs liées à la configurationréseau
    5. 5. Problèmes de permissions HDFS
    6. 6. Problèmes d’espace disque dans HDFS
    7. 7. Débogage d’une panne de DataNode
    8. 8. Synthèse des erreurs courantes
  6. Sécurité de base dans Hadoop
    1. 1. Authentification vs autorisation : une distinctionfondamentale
    2. 2. Kerberos : principe et rôle dans Hadoop
    3. 3. LDAP, annuaires et intégration d’identité
    4. 4. Autres mécanismes : TLS, tokens et Frameworksd’autorisation
    5. 5. Permissions et ACL dans HDFS : fonctionnement et commandes
    6. 6. Scénario pédagogique : "Permissiondenied" et correction pas à pas
    7. 7. Bonnes pratiques de sécurité à appliqueren production
  7. Vérifications post-installation (logs, services, ports, etc.)
    1. 1. Analyse des logs Hadoop ($HADOOP_HOME/logs/)
      1. a. Rôle des logs dans l’administrationHadoop
      2. b. Types de fichiers de logs généréspar Hadoop
    2. 2. Vérification avec les commandes hdfs dfsadmin-report et yarn node -list
      1. a. Vérification du stockage HDFS avec hdfs dfsadmin-report
      2. b. Vérification des ressources YARN avec yarnnode -list
      3. c. Complémentarité des deux commandes
  8. Synthèse
Manipuler HDFS
  1. Introduction
  2. Commandes de base HDFS
    1. 1. Explorer et naviguer dans HDFS
    2. 2. Gestion des répertoires
    3. 3. Gestion des fichiers
      1. a. Importer des fichiers dans HDFS
      2. b. Télécharger un fichier depuis HDFS
      3. c. Déplacer ou copier un fichier à l’intérieurde HDFS
      4. d. Complexité masquée
    4. 4. Lecture et affichage
      1. a. Afficher un fichier complet
      2. b. Lire les premières lignes
      3. c. Lire les dernières lignes
      4. d. Lire des fichiers compressés
      5. e. Avantages de la lecture directe dans HDFS
    5. 5. Commandes d’administration de base
      1. a. Obtenir un rapport complet du cluster
      2. b. Modifier le facteur de réplication
      3. c. Importance de ces commandes
    6. 6. Commandes avancées et outils de diagnosticHDFS
      1. a. Ajout de contenu à un fichier existant
      2. b. Suppression immédiate d’un fichier
      3. c. Consultation et diagnostic
      4. d. Recyclage et quotas
  3. Cas pratique : gestion d’un dossier d’exemples
    1. 1. Création d’un espace de travail
    2. 2. Import de fichiers d’exemples
    3. 3. Consultation des fichiers
    4. 4. Organisation et déplacement des fichiers
    5. 5. Suppression et nettoyage
  4. Types de fichiers et formats supportés dans HDFS
    1. 1. Introduction
    2. 2. Les formats textuels traditionnels
    3. 3. Les formats binaires optimisés
      1. a. ORC (Optimized Row Columnar)
      2. b. Parquet
      3. c. Avro
    4. 4. Comparaison entre formats de fichiers normaux et formats compressésdans Hadoop
    5. 5. Architecture interne d’un bloc HDFS
      1. a. Introduction au concept de bloc dans HDFS
      2. b. Organisation interne d’un bloc HDFS
    6. 6. Cas pratique : comparaison de formats dans HDFS
  5. Stockage physique sur les DataNodes
    1. 1. Répartition des blocs sur plusieurs disques
      1. a. Principe général de la répartition
      2. b. Répartition équilibréedes blocs entre disques
      3. c. Localisation physique des blocs sur disque
      4. d. Exemple concret : répartition équilibréedes blocs
      5. e. Avantages de cette architecture
    2. 2. Interaction avec le système de fichiers local
    3. 3. Gestion des fichiers de métadonnéesassociés aux blocs
      1. a. Rôle et contenu des fichiers .meta
      2. b. Vérification d’intégrité etdétection automatique des corruptions
      3. c. Processus complet : écriture, lecture etrécupération
      4. d. Illustration : vérification et récupérationd’un bloc corrompu
    4. 4. Gestion des réplicas au niveau des blocs
      1. a. Rôle du NameNode dans la distribution desréplicas
      2. b. Surveillance et maintien du niveau de réplication
      3. c. Lecture optimisée et sélection duréplica le plus proche
      4. d. Exemple concret de réplication et de récupérationaprès panne
      5. e. Bilan et importance du mécanisme de réplication
    5. 5. Tolérance aux pannes et mode Safe Mode duNameNode
      1. a. Le mode Safe Mode du NameNode
      2. b. Exemple de transition du Safe Mode vers l’étatactif
    6. 6. Équilibrage et rebalancing des donnéesentre DataNodes
      1. a. Principe de fonctionnement
      2. b. Lancement du processus d’équilibrage
      3. c. Exemple concret d’équilibrage
  6. Compression et gestion de l’espace dans HDFS
    1. 1. Principes généraux de la compressiondans HDFS
      1. a. Les enjeux du stockage à grande échelle
      2. b. Les principes de la compression et ses approches
      3. c. L’impact de la compression sur les performances
      4. d. Exemple concret d’optimisation du stockage
      5. e. Une mise en œuvre totalement transparente
    2. 2. Formats de compression pris en charge
    3. 3. Compression et exécution des jobs MapReduce
    4. 4. Gestion de l’espace disque dans HDFS
      1. a. Suivi de l’utilisation des disques par leNameNode
      2. b. Équilibrage de la charge via le HDFS Balancer
      3. c. Gestion des blocs compressés et non compressés
      4. d. Exemple concret de répartition automatiquedes blocs
      5. e. Limites et défis de l’équilibrage
    5. 5. Stratégies d’optimisation de l’espace
      1. a. Combiner compression et réplication
      2. b. Formats optimisés pour le Big Data
      3. c. Exemple : stockage d’un dataset CSV en Parquetcompressé
      4. d. Bonnes pratiques pour le choix du format
    6. 6. Synthèse
  7. Visualisation de l’organisation interne via l’interface web
    1. 1. Introduction à la supervision web dans Hadoop
    2. 2. Accès à l’interface webdu NameNode (port 9870)
    3. 3. Accès à l’interface webde YARN (port 8088)
    4. 4. Accès à l’interface webdu DataNode (port 9864)
    5. 5. Interface web du Secondary NameNode (port 9868)
    6. 6. Exemple guidé de navigation et captures d’écran
    7. 7. Bonnes pratiques et sécurité desinterfaces Web
  8. Synthèse
Premiers traitements avec MapReduce en Python
  1. Introduction
  2. Comprendre le paradigme MapReduce
    1. 1. Modèle clé/valeur appliqué auxdonnées réelles
    2. 2. Exemple illustratif non technique : comprendre MapReduceavec un scénario simple
    3. 3. Schéma pipeline Map <span class="arial">?</span> Shuffle <span class="arial">?</span> Reduce appliqué à un datasetsimple
    4. 4. Comparaison entre traitement séquentiel ettraitement distribué avec MapReduce
  3. Écriture d’une première application MapReduce en Python
    1. 1. Hadoop Streaming : concepts, scripts et exécution
      1. a. Présentation de Hadoop Streaming
      2. b. Principe d’utilisation de stdin et stdoutpour mapper/reducer
      3. c. Squelette de script Python (mapper.py, reducer.py)
      4. d. Explication détaillée ligne parligne
      5. e. Schéma de communication entre HDFS <span class="arial">?</span> Mapper <span class="arial">?</span> Reducer <span class="arial">?</span> HDFS
      6. f. Exemple minimal de code et exécution locale
      7. g. Exécution sur Hadoop Streaming
    2. 2. Exemple de jobs Map Reduce
      1. a. Exemple 1 : WordCount en Python
      2. b. Exemple 2 : analyse de logs web en Python
    3. 3. Optimisation et bonnes pratiques avec Hadoop Streaming
  4. Exécution sur plusieurs fichiers
    1. 1. Introduction : pourquoi traiter plusieurs fichiersen parallèle ?
    2. 2. Principe des splits HDFS et du traitement parallèle
    3. 3. Étude de cas appliquée : analysede trois fichiers de logs
    4. 4. Gestion des fichiers hétérogènes
    5. 5. Analyse multi-journée ou agrégationpar période
    6. 6. Optimisation et bonnes pratiques pour plusieurs fichiers
    7. 7. Intégration avec les jobs existants et pipelinesBig Data
  5. Optimisations possibles
    1. 1. Utilisation d’un combiner
    2. 2. Optimisation des partitions et des reducers
    3. 3. Compression des données intermédiaires
    4. 4. Ajustement du nombre de tâches
    5. 5. Optimisation du format et de la compression des sortiesfinales
      1. a. Formats de sortie classiques
      2. b. Compression des sorties finales
      3. c. Exemple pratique
    6. 6. Stratégies d’ordonnancement et tuningdu cluster
  6. Limites de MapReduce et évolutions
    1. 1. Introduction
    2. 2. Lourdeur des écritures et lectures intermédiaires
    3. 3. Lenteur sur les jobs itératifs
    4. 4. Comparaison avec Spark et Flink
    5. 5. Conclusion
  7. Synthèse
Concepts avancés autour de Hadoop
  1. Introduction
  2. Écosystème Hadoop : Hive, Pig, HBase, Spark et autres outils
    1. 1. Vue d’ensemble de l’écosystèmeHadoop
    2. 2. Hive : SQL sur HDFS
      1. a. Architecture de Hive
      2. b. Cas d’usage typiques de Hive
      3. c. Exemple d’utilisation simple
    3. 3. Pig : langage de scripts déclaratifs
      1. a. Pourquoi Pig dans l’écosystèmeHadoop ?
      2. b. Exemple d’utilisation simple de Pig
      3. c. Atouts principaux de Pig
      4. d. Rôle de Pig dans un projet Big Data
    4. 4. HBase : base de données NoSQL distribuée
      1. a. Modèle de données orienté colonnes
      2. b. Architecture d’HBase
      3. c. Lecture et écriture en temps réel
      4. d. Exemple d’opérations CRUD avec HBaseShell
      5. e. Synthèse
    5. 5. Spark : traitement distribué en mémoire
      1. a. Comparaison Spark vs MapReduce
      2. b. Composants clés de Spark
      3. c. Exemple : analyse de logs web avec PySpark
      4. d. Intégration de Spark avec HDFS, Hive et YARN
    6. 6. Autres outils de l’écosystème
      1. a. Flume et Sqoop : ingestion de données
      2. b. Oozie et Airflow : orchestration de workflows
      3. c. Zookeeper : coordination de services distribués
      4. d. Synthèse
  3. Sécurité et gestion des permissions dans Hadoop
    1. 1. Introduction à la sécurité Hadoop
      1. a. Importance de la sécurité dans lesclusters Big Data
      2. b. Risques liés à un environnementdistribué
    2. 2. Authentification et autorisation
      1. a. Qu’est-ce que Kerberos ?
      2. b. Architecture de Kerberos
      3. c. Flux d’authentification Kerberos avec Hadoop
    3. 3. Contrôle d’accès basé surles permissions HDFS
    4. 4. Rôles et utilisateurs dans YARN et MapReduce
    5. 5. Chiffrement et confidentialité
      1. a. Chiffrement des données au repos (Data atRest)
      2. b. Chiffrement des données en transit (Datain Transit)
      3. c. Gestion des clés et intégrationavec KMS
      4. d. Extension avec Apache Ranger KMS
    6. 6. Audits et suivi des accès
    7. 7. Bonnes pratiques pour un cluster sécurisé
      1. a. Séparation des environnements
      2. b. Surveillance proactive et mises à jour régulières
      3. c. Principes généraux de sécurité
  4. Défis modernes et alternatives à Hadoop classique
    1. 1. Limites structurelles de MapReduce et HDFS
      1. a. Lourdeur des écritures et lectures intermédiaires
      2. b. Latence pour les traitements itératifs
    2. 2. Montée en puissance du Cloud et architecturesserverless
      1. a. Stockage objet vs HDFS
      2. b. Services managés
      3. c. Évolutivité et coût
      4. d. Illustration pédagogique
    3. 3. Nouvelles tendances : calcul en mémoire ettraitement de flux
      1. a. Calcul en mémoire : l’approche deSpark
      2. b. Traitement de flux en temps réel : Flinket Storm
      3. c. Cas d’usage concrets : Kafka et Spark StructuredStreaming
      4. d. Approches hybrides : Delta Lake, Iceberg et Lakehouses
      5. e. Illustration
    4. 4. Hadoop aujourd’hui : rôle pédagogiqueet niche industrielle
      1. a. Hadoop pour l’archivage et les jobs batchmassifs
      2. b. Comparaison avec les solutions modernes
      3. c. Réflexion sur l’avenir d’Hadoop
  5. Synthèse
Premiers projets Big Data avec Hadoop
  1. Introduction
  2. Introduction générale aux projets Big Data
  3. Étude de cas : analyse de logs web
    1. 1. Contexte et objectifs du projet
    2. 2. Préparation et ingestion des données
    3. 3. Nettoyage et structuration des données
    4. 4. Traitement analytique avec MapReduce
    5. 5. Analyse SQL avec Hive
    6. 6. Visualisation et interprétation des résultats
    7. 7. Développement et exécution des scriptsHadoop
    8. 8. Synthèse du projet d’analyse delogs web
  4. Projet : agrégation de données IoT
    1. 1. Contexte et objectifs du projet
      1. a. Une vision systémique de la donnée
      2. b. Des objectifs analytiques multiples
      3. c. Une démarche orientée bonnes pratiques
    2. 2. Préparation et ingestion des données
      1. a. Organisation des données dans HDFS
      2. b. Nettoyage et conversion des fichiers dans HDFS
    3. 3. Traitement des données avec Hadoop
      1. a. Organisation du traitement MapReduce
      2. b. Exécution du job Hadoop
      3. c. Mini-visualisation et interprétation
      4. d. Extension aux autres types de données
      5. e. Conclusion
    4. 4. Détection des zones critiques de pollutionet préparation des scénarios Hive
      1. a. Tables Hive pour l’organisation et l’exploitationdes données IoT
      2. b. Agrégation et filtrage par scénario
      3. c. Avantages de cette approche multi-tables
    5. 5. Analyse énergétique prédictivedes bâtiments
      1. a. Traitement MapReduce
      2. b. Analyses Hive
      3. c. Visualisation et interprétation des résultats
    6. 6. Corrélation bruit et conditions météo
      1. a. Traitement MapReduce
      2. b. Analyse Hive
      3. c. Visualisation et interprétation
    7. 7. Détection d’anomalies multi-capteurs
      1. a. Traitement MapReduce
      2. b. Analyse Hive
      3. c. Visualisation
    8. 8. Suivi des flux de mobilité
      1. a. Traitement MapReduce
      2. b. Analyse Hive
      3. c. Visualisation
    9. 9. Orchestration des scénarios avec Oozie
      1. a. Principe général d’orchestration
      2. b. Exemple de workflow Oozie
      3. c. Déploiement et exécution du workflow
      4. d. Visualisation du graphe d’orchestration
    10. 10. Visualisation et interprétation
    11. 11. Complexité et bonnes pratiques
    12. 12. Synthèse
  5. Mini-projet 3 : analyse de données open data
    1. 1. Présentation du mini-projet
    2. 2. Préparation et ingestion des donnéesopen data
    3. 3. Nettoyage et structuration des données
    4. 4. Traitement et analyse Hadoop
    5. 5. Visualisation et interprétation
    6. 6. Encadrés pédagogiques
      1. a. Jeux de données open data à explorer
      2. b. Structurer un mini-projet Hadoop autonome
      3. c. Erreurs fréquentes lors du traitement dejeux open data
      4. d. Conclusion
  6. Synthèse

Oussama LAFI

Oussama LAFI est Data Engineer spécialisé en Big Data, disposant de plusieurs années d’expérience au sein de groupes internationaux tels qu’Orange, Sofrecom et Keyrus. Il intervient sur la conception, le déploiement et l’industrialisation d’architectures de données massives et de pipelines distribués. Expert des environnements Hadoop et Spark, il maîtrise également les plateformes cloud et les outils modernes de traitement et d’orchestration des données. À travers cet ouvrage, il partage une vision à la fois opérationnelle et pédagogique du Big Data, issue de projets concrets menés en entreprise, afin d’accompagner étudiants et professionnels dans la compréhension et la maîtrise des fondements d’Hadoop.

Nos nouveautés

voir plus