Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Hadoop - Devenez opérationnel dans le monde du Big Data

Hadoop Devenez opérationnel dans le monde du Big Data

1 avis

Informations

Livraison possible dès le 26 avril 2024
  • Livraison à partir de 0,01 €
  • Version en ligne offerte pendant 1 an
Livres rédigés par des auteurs francophones et imprimés à Nantes

Caractéristiques

  • Livre (broché) - 17 x 21 cm
  • ISBN : 978-2-409-00761-3
  • EAN : 9782409007613
  • Ref. ENI : EIHAD

Informations

  • Consultable en ligne immédiatement après validation du paiement et pour une durée de 10 ans.
  • Version HTML
Livres rédigés par des auteurs francophones et imprimés à Nantes

Caractéristiques

  • HTML
  • ISBN : 978-2-409-00816-0
  • EAN : 9782409008160
  • Ref. ENI : LNEIHAD
Souvent qualifiée de Big Data, l'explosion des données qui a accompagné la révolution d'Internet ces dernières années a provoqué un changement profond dans la société, marquant l'entrée dans un nouveau monde « Numérique » dont l'un des piliers technologiques est Hadoop. Ce livre a pour objectif d'aider le lecteur à saisir les principes qui sont à la base d'Hadoop et de ses composants, de...
Consulter des extraits du livre en ligne Aperçu du livre papier
  • Niveau Confirmé à Expert
  • Nombre de pages 373 pages
  • Parution avril 2017
  • Niveau Confirmé à Expert
  • Parution avril 2017
Souvent qualifiée de Big Data, l'explosion des données qui a accompagné la révolution d'Internet ces dernières années a provoqué un changement profond dans la société, marquant l'entrée dans un nouveau monde « Numérique » dont l'un des piliers technologiques est Hadoop.

Ce livre a pour objectif d'aider le lecteur à saisir les principes qui sont à la base d'Hadoop et de ses composants, de l'aider à monter en compétences sur Hadoop et également d'attirer son attention sur toutes les opportunités offertes par le Numérique. Il s'adresse à toute personne (consultants, data scientists, chargés d'études, étudiants, responsables techniques…) impliquée dans l'utilisation des données. Des compétences de base dans le domaine des bases de données, de la programmation et du SQL sont un prérequis nécessaire pour la bonne lecture du livre.

Les premiers chapitres présentent l'architecture de l'infrastructure d'Hadoop, son fonctionnement et le MapReduce. Ensuite, l'auteur présente les principes du stockage des données et montre la relation entre ces principes, le HDFS et Hadoop. Les chapitres qui suivent traitent des évolutions d'Hadoop avec un accent particulier sur le YARN. Dans un chapitre dédié, l'auteur traite également l'intégration du SQL dans Hadoop. Par la suite, il expose les problématiques du streaming, présente les principes du traitement en streaming et en temps réel, et montre comment Storm implémente ces principes. Enfin, le livre se termine par un chapitre sur les différentes distributions Hadoop et un chapitre sur la transition Numérique.

Pour faciliter la compréhension des principes exposés, chaque chapitre s'achève par un rappel des points clés. Un questionnaire permet également au lecteur de vérifier et consolider ses acquis.


Les chapitres du livre :
Introduction – Contexte de création d'Hadoop – Architecture infrastructurelle d'Hadoop – MapReduce – Hadoop – HDFS – Futur d'Hadoop : limites d'Hadoop et YARN – SQL dans Hadoop – Streaming 101 – Apache Storm – Adoption d'Hadoop – Transition numérique – Conclusion – Liens et références utiles – Réponses des guides d'étude
Introduction
  1. Introduction
  2. Buts et objectifs de l’ouvrage
  3. À qui s’adresse cet ouvrage ?
  4. Comment lire cet ouvrage ?
  5. Ce que ce livre n’est pas
  6. Précisions de l’auteur
  7. Remerciements
  8. Dédicace
Contexte de création d’Hadoop
  1. Introduction
  2. Contexte d’Hadoop
  3. Approche conceptuelle d’Hadoop
  4. Qui utilise Hadoop ?
    1. 1. Effervescence des projets impliquant l’utilisation d’Hadoop en Europe
    2. 2. Cas d’utilisation d’Hadoop
  5. Conclusion
Architecture infrastructurelle d’Hadoop
  1. Introduction
  2. Types d’architectures distribuées
    1. 1. Architectures délocalisées ou client/serveur
      1. a. Architecture client/serveur à deuxniveaux (two-tiers)
      2. b. Architecture client/serveur à troisniveaux (three-tiers)
    2. 2. Architectures distribuées
      1. a. Cluster computing ou grappe de calcul
      2. b. Grid computing ou grille de calcul
    3. 3. Caractéristiques du cluster computing
      1. a. Scalabilité horizontale : le facteurclé d’adoption du cluster
      2. b. Tolérance aux pannes
      3. c. Haute disponibilité
      4. d. Mesure de la disponibilité d’unsystème
  3. Modes de partage des ressources dans le cluster
    1. 1. Shared-nothing
    2. 2. Shared-memory
    3. 3. Shared-disk
  4. Modes de communication des nœuds dans le cluster
    1. 1. Modèle maître/esclave
    2. 2. Modèle peer-to-peer
  5. Modes de traitement de données dans le cluster
    1. 1. Traitement sur disque ou batch processing
    2. 2. Traitement en mémoire ou in-memory processing
  6. Types de parallélismes des calculs dans un cluster
    1. 1. Parallélisme asynchrone simultané
    2. 2. Parallélisme pipeline
    3. 3. Parallélisme indépendant
  7. Choix architecturaux d’un cluster Hadoop
  8. Conclusion
  9. Guide d’étude du chapitre
    1. 1. Présentation des guides d’étude
    2. 2. Comment utiliser le guide d’étude ?
  10. À retenir
MapReduce
  1. Introduction
  2. MapReduce : un nouveau paradigme
  3. Détails conceptuels des phases du MapReduce
    1. 1. Phase Map
    2. 2. Phase Shuffle
    3. 3. Phase Reduce
  4. Détails techniques de l’exécution du MapReduce dans un cluster
  5. Exemples d’application du MapReduce
    1. 1. Calcul d’un index inversé
    2. 2. Jointure de deux tables relationnelles
    3. 3. Exemple de patron de conception du Map/Reduceen Python
  6. Modèles alternatifs au MapReduce
    1. 1. Tez : le moteur d’optimisation du MapReduce
    2. 2. Spark : le moteur in-memory distribué
    3. 3. Architectures ? : la couche Streaming duMapReduce
  7. Conclusion
  8. Guide d’étude du chapitre
  9. À retenir
Hadoop
  1. Introduction
  2. Spécificités d’un cluster Hadoop
    1. 1. « Conscience des casiers » des nœuds du cluster (rack awareness)
    2. 2. Localisation des données dans le cluster(data locality)
  3. Détails d’exécution du MapReduce dans un cluster Hadoop
  4. Gestion des défaillances dans un cluster Hadoop
    1. 1. Gestion de la défaillance du nœudde référence
    2. 2. Gestion de la défaillance des nœudsde données
    3. 3. Gestion des « retardataires » (stragglers)
  5. Hadoop Streaming
  6. Conclusion
  7. Guide d’étude du chapitre
  8. À retenir
HDFS
  1. Introduction
  2. Pourquoi a-t-on besoin d’un système de fichiers ?
    1. 1. Principes de stockage des données sur ledisque dur
    2. 2. Principes de stockage des données dans uncluster
      1. a. Principes de stockage des données dans uncluster shared-disk
      2. b. Principes de stockage des données dans uncluster shared-nothing
  3. Définition du HDFS dans le cluster Hadoop
    1. 1. Définition et rôle du HDFS dansle cluster
    2. 2. Processus de maintien de la haute disponibilité ducluster
    3. 3. Interactivité avec le HDFS
  4. Conclusion
  5. Guide d’étude du chapitre
  6. À retenir
Futur d’Hadoop : limites d’Hadoop et YARN
  1. Introduction
  2. Limites d’Hadoop
    1. 1. Modèle de calcul d’Hadoop
    2. 2. HDFS
    3. 3. Haute disponibilité du cluster
    4. 4. Sécurité du cluster
  3. YARN et développements en cours sur Hadoop
    1. 1. Définition du YARN
    2. 2. Fonctionnement du YARN
    3. 3. Fédération HDFS
  4. Conclusion
  5. Guide d’étude du chapitre
  6. À retenir
SQL dans Hadoop
  1. Introduction
  2. Étude de l’écosystème Hadoop
  3. Langages d’abstraction
    1. 1. Hive
      1. a. Infrastructure technique de Hive
      2. b. Écriture des requêtes HiveQL
    2. 2. Pig
  4. Moteurs natifs SQL sur Hadoop
    1. 1. Fonctionnement des bases de données parallèles(MPP DB)
      1. a. Architecture des bases de données parallèles
      2. b. Exécution des requêtes SQL dansles bases de données parallèles
    2. 2. Fonctionnement des moteurs natifs SQL sur Hadoop
    3. 3. Impala : le moteur SQL sur Hadoop de Cloudera
  5. Conclusion
  6. Guide d’étude du chapitre
  7. À retenir
Streaming 101
  1. Introduction
  2. Domaine temporel
  3. Approches de traitement streaming
    1. 1. Approche batch du traitement streaming
      1. a. Batch par fenêtrage
      2. b. Batch par sessions
    2. 2. Approche continue du traitement streaming
      1. a. Fenêtres
      2. b. Techniques de traitement événementpar événement
      3. c. Techniques de traitement agnostiques au temps (time-agnostic)
      4. d. Techniques d’approximation
      5. e. Techniques de fenêtrage par temps de traitement
      6. f. Techniques de fenêtrage par temps d’événement
  4. Idempotence
    1. 1. Nature du traitement
      1. a. Traitements de nature déterministe
      2. b. Traitements de nature aléatoire
    2. 2. État
      1. a. Définition de la notion d’état
      2. b. Utilisation ou non de l’état
      3. c. Mécanisme de sauvegarde de l’état
  5. Disponibilité d’un système streaming
  6. Conclusion
  7. Guide d’étude du chapitre
  8. À retenir
Apache Storm
  1. Introduction
  2. Définition de Storm
  3. Fonctionnement de Storm
  4. Topologies
    1. 1. Philosophie et fonctionnement des topologies
    2. 2. Topologies DRPC
  5. Utilisation de Storm
  6. Storm et Hadoop
    1. 1. Storm-YARN
    2. 2. Storm et architecture ?
  7. Conclusion
  8. Guide d’étude du chapitre
  9. À retenir
Adoption d’Hadoop
  1. Introduction
  2. Distributions Hadoop
  3. Distribution Cloudera d’Hadoop
  4. Distribution Hortonworks d’Hadoop
  5. Distribution MapR d’Hadoop
  6. Tableau récapitulatif des outils proposés
  7. Guide de sélection d’une distribution Hadoop
  8. Conclusion
  9. Guide d’étude du chapitre
  10. À retenir
Transition numérique
  1. Introduction
  2. Changement
    1. 1. Principes qui régissent le changement
      1. a. Principe 1 : le changement est un processus,pas un événement
      2. b. Principe 2 : le changement annonce son arrivéepar des signes
      3. c. Principe 3 : le changement contient une opportunité qui lui est inhérente
      4. d. Principe 4 : le changement est un processusinéluctable
    2. 2. Clés qui donnent accès aux opportunitésdu changement
      1. a. Clé 1 : évitez le comportementde la grenouille - le changement est processus
      2. b. Clé 2 : évitez le comportementdu crabe - le changement est inéluctable
      3. c. Clé 3 : évitez la présomption- tout change
      4. d. Clé 4 : changez votre perception- le changement est normal
      5. e. Clé 5 : soyez intentionnel - lechangement contient une opportunité
  3. Transition vers le Numérique et Hadoop
    1. 1. Caractéristiques de l’èrenumérique
      1. a. Âge de l’information
      2. b. Âge de la communication
      3. c. Âge de la globalisation
    2. 2. Pourquoi apprendre Hadoop ?
      1. a. Raison 1 : apprendre Hadoop vous positionneen pionnier
      2. b. Raison 2 : apprendre Hadoop hausse votrevaleur professionnelle
      3. c. Raison 3 : apprendre Hadoop vous permet decouvrir la majorité des problématiques de traitementde données
    3. 3. Quelques conseils
      1. a. Profils métier Hadoop
      2. b. Certifications éditeurs
      3. c. Masters spécialisés
      4. d. Kaggle et meetup Hadoop
  4. Conclusion
  5. Guide d’étude du chapitre
  6. À retenir
Conclusion
  1. Conclusion
Liens et références utiles
  1. Liens utiles
  2. Bibliographie
Réponses des guides d’étude
  1. Guide d’étude du chapitre Architecture infrastructurelle d’Hadoop
  2. Guide d’étude du chapitre MapReduce
  3. Guide d’étude du chapitre Hadoop
  4. Guide d’étude du chapitre HDFS
  5. Guide d’étude du chapitre Futur d’Hadoop : limites d’Hadoop et YARN
  6. Guide d’étude du chapitre SQL dans Hadoop
  7. Guide d’étude du chapitre Streaming 101
  8. Guide d’étude du chapitre Apache Storm
  9. Guide d’étude du chapitre Adoption d’Hadoop
  10. Guide d’étude du chapitre Transition numérique
4/5 1 avis

Bon livre

Anonyme
Auteur : Juvénal CHOKOGOUE

Juvénal CHOKOGOUE

Actuellement Consultant Insights & Data chez CAPGEMINI, le leader mondial des activités de services et de technologie, Juvénal CHOKOGOUE est Consultant spécialisé dans l'aide à la décision. Ses missions consistent à valoriser les données des organisations et à fournir la visibilité nécessaire aux décideurs pour une prise de décision efficace. Titulaire de six certifications sur le Big Data, Hadoop et le traitement massif des données, il partage toute son expertise technique et toute sa passion pour le monde du Big Data à travers les pages de son livre. L'auteur propose aux lecteurs et utilisateurs d'Hadoop de poursuivre les échanges sur les réseaux sociaux ou sur le site web dédié http://www.data-transitionnumerique.com.
En savoir plus

Nos nouveautés

voir plus