1. Livres et vidéos
  2. Big Data - Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop

  • Accès illimité 24h/24, 7J/7
  • Tous les livres en ligne, les vidéos et les cours enregistrés ENI
  • Plus de 10 nouveautés livres et vidéos chaque mois
  • Les nouveautés disponibles le jour de leur sortie
  • Accès 100% en ligne
  • En stock
  • Expédié en 24h00
  • Livraison à partir de 0,01 €
  • Version en ligne offerte
  • 1 h d'accès gratuit à tous nos livres et vidéos pour chaque commande
  • Accessible immédiatement
  • Version HTML
  • Accès illimité 24h/24, 7J/7

Présentation

Ce livre sur Hadoop (versions 1 et 2), vise deux types de publics :

Il s'adresse d’une part aux décideurs, qu’ils soient techniciens (responsable informatique, spécialiste de Business Intelligence...) ou pas (responsable de la stratégie, directeur général...), et vise à démystifier le Big Data et Hadoop. Dans les chapitres concernés, les termes techniques sont limités au strict minimum et l'accent est mis, à chaque fois que cela est pertinent, sur l'utilisation et l'impact potentiel du Big Data et de Hadoop : Vue globale de Hadoop, Principaux apports de la version 2, Mettre en œuvre un cluster Hadoop, Hadoop : quand l'utiliser ?...

Il s'adresse également aux informaticiens, étudiants ou en activité, qui recherchent une première introduction en français, simple (sans être simpliste) et relativement exhaustive, au Big Data et à Hadoop. Les lecteurs concernés seront particulièrement intéressés par les chapitres suivants : Installer Hadoop sur une station de travail, HDFS, MapReduce, Les apports de la version 2, Aspects matériels, L'éco-système de Hadoop, Développer des programmes Hadoop, Mettre en oeuvre un cluster Hadoop...

Des éléments complémentaires sont en téléchargement sur le site www.editions-eni.fr.


Les chapitres du livre :
Avant-propos – Introduction – Installer Hadoop sur une station de travail – Une vue globale de Hadoop – HDFS – MapReduce – Les apports de la version 2 de Hadoop – Aspects matériels – L'écosystème de Hadoop – Développer des programmes Hadoop – Mettre en œuvre un cluster Hadoop – Quand utiliser Hadoop ? - Conclusion

Table des matières

  • Introduction
    • 1. Objectif du chapitre
    • 2. Le Big Data
      • 2.1 Introduction
      • 2.2 Informatique connectée, objets "intelligents" et données collectées
      • 2.3 Les unités de mesure dans le monde Big Data
      • 2.4 Big Data : au-delà des volumes, une rupture conceptuelle
    • 3. Big Data : l'échec des approches classiques
    • 4. Hadoop et Big Data
      • 4.1 Introduction
      • 4.2 Google File System et MapReduce
      • 4.3 Hadoop
    • 5. Problèmes "hadoopéables"
    • 6. Pour aller plus loin
      • 6.1 Niveau de performance des disques durs actuels
      • 6.2 Fonctions de type "map" et fonctions de type "reduce"
      • 6.3 Les distributions de Hadoop
  • Installer Hadoop sur une station de travail
    • 1. Objectif du chapitre
    • 2. Les différents modes de fonctionnement de Hadoop
      • 2.1 Le mode local
      • 2.2 Le mode pseudo-distribué
      • 2.3 Le mode totalement distribué
      • 2.4 Les clusters Hadoop virtualisés
    • 3. Installer Hadoop en mode pseudo-distribué
      • 3.1 Pré-requis matériels
      • 3.2 Pré-requis logiciels
        • 3.2.1 Système d'exploitation
        • 3.2.2 Machine virtuelle
    • 4. Installer Hadoop pas-à-pas sur une station de travail
      • 4.1 Installation de VirtualBox
      • 4.2 Installation de Hadoop (distribution CDH4)
  • Une vue globale de Hadoop
    • 1. Objectif du chapitre
    • 2. Introduction
    • 3. Stocker et traiter des volumes de données très importants
    • 4. Garantir la redondance des données
    • 5. Faire face à la panne d’un nœud
      • 5.1 Réaffecter les tâches
      • 5.2 Garantir la bonne fin des jobs en cours
      • 5.3 Le retour à la normale
    • 6. Garantir une évolution proportionnelle des performances
  • HDFS
    • 1. Objectif du chapitre
    • 2. Présentation de HDFS
    • 3. Principe de fonctionnement
      • 3.1 Le NameNode
      • 3.2 Le SecondaryNameNode
      • 3.3 Le NN comme SPOF
      • 3.4 Lecture d'un fichier HDFS par un programme Hadoop
      • 3.5 Création d'un fichier HDFS par un programme Hadoop
  • MapReduce
    • 1. Objectif du chapitre
    • 2. Présentation de MapReduce
    • 3. Principes de fonctionnement de MapReduce
    • 4. MapReduce du point de vue du développeur Java
      • 4.1 Les entrées-sorties
      • 4.2 La phase map (exemple 1)
      • 4.3 Entre la phase map et la phase reduce (exemple 1)
      • 4.4 La phase reduce (exemple 1)
      • 4.5 La phase map (exemple 2)
      • 4.6 Entre la phase map et la phase reduce (exemple 2)
      • 4.7 La phase reduce (exemple 2)
      • 4.8 Quelques remarques générales concernant les mappers et les reducers
    • 5. MapReduce du point de vue de l'administrateur Hadoop
      • 5.1 Le JobTracker
      • 5.2 Le TaskTracker
  • Les apports de la version 2 de Hadoop
    • 1. Objectif du chapitre
    • 2. High Availability
    • 3. Federation
    • 4. YARN
    • 5. Support de Microsoft Windows
    • 6. Autres apports de la version 2 de Hadoop
    • 7. Conclusion
  • Aspects matériels
    • 1. Objectif du chapitre
    • 2. Les nœuds maîtres
    • 3. Les nœuds esclaves
    • 4. Les aspects réseau
    • 5. Déterminer la taille d'un cluster Hadoop et prévoir son évolution
    • 6. Un exemple de cluster Hadoop
    • 7. Pour aller plus loin
      • 7.1 Règles concernant les nœuds esclaves
      • 7.2 Règles concernant les nœuds maîtres
      • 7.3 Règles concernant le réseau
      • 7.4 Règles concernant le cluster
  • L'écosystème de Hadoop
    • 1. Objectif du chapitre
    • 2. Pig, Hive et l'API de streaming
      • 2.1 Introduction
      • 2.2 Hive
      • 2.3 Pig
      • 2.4 L'API de streaming
    • 3. Outils orientés bases de données
      • 3.1 Flume
      • 3.2 Squoop
      • 3.3 HBase
      • 3.4 Impala
    • 4. Outils d'exploitation
      • 4.1 ZooKeeper
      • 4.2 Cloudera Manager
      • 4.3 Oozie
    • 5. Autres outils
      • 5.1 Hue
      • 5.2 Mahout
    • 6. Comment intégrer Hadoop dans un système d'information ?
  • Développer des programmes Hadoop
    • 1. Objectifs du chapitre
    • 2. WordCount
      • 2.1 Préparation des données
      • 2.2 Importation des données dans HDFS
      • 2.3 WordCount en Java
        • 2.3.1 Le driver
        • 2.3.2 Le mapper
        • 2.3.3 Le reducer
        • 2.3.4 Compilation et exécution du job
      • 2.4 WordCount en Python
        • 2.4.1 Le mapper
        • 2.4.2 Le reducer
        • 2.4.3 Exécution du job
      • 2.5 Conclusion
    • 3. JoinTables
      • 3.1 Introduction
      • 3.2 JoinTables en Java
      • 3.3 JoinTables en Pig Latin
      • 3.4 JoinTables en HiveQL
      • 3.5 Conclusion
    • 4. Conclusion
  • Mettre en œuvre un cluster Hadoop
    • 1. Objectif du chapitre
    • 2. Cluster dédié ou cluster dans le Cloud ?
    • 3. Les coûts
      • 3.1 Cluster dédié installé dans les locaux de l'organisme
        • 3.1.1 Les coûts de formation
        • 3.1.2 Les coûts matériels
        • 3.1.3 Les coûts logiciels
        • 3.1.4 Le coût du support technique
        • 3.1.5 Les coûts en énergie
        • 3.1.6 Les coûts en personnel
      • 3.2 Cluster dédié installé chez un hébergeur
        • 3.2.1 Les coûts de formation
        • 3.2.2 Les coûts matériels
        • 3.2.3 Les coûts logiciels
        • 3.2.4 Le coût du support technique
        • 3.2.5 Les coûts en personnel
        • 3.2.6 Les coûts en énergie
      • 3.3 Cluster partagé dans le Cloud
        • 3.3.1 Les coûts de formation
        • 3.3.2 Les coûts matériels
        • 3.3.3 Les coûts logiciels
        • 3.3.4 Le coût du support technique
        • 3.3.5 Les coûts en énergie
        • 3.3.6 Les coûts en personnel
        • 3.3.7 Les coûts en services
  • Quand utiliser Hadoop ?
    • 1. Objectif du chapitre
    • 2. Exemples de problèmes "hadoopéables"
    • 3. Exemples réels d'utilisation de Hadoop
      • 3.1 Dans le domaine de la gestion de clientèle
      • 3.2 Dans le domaine de la publicité
      • 3.3 Dans le domaine de la santé
      • 3.4 Dans le domaine de la lutte contre la fraude
      • 3.5 Dans le domaine des villes "intelligentes"
      • 3.6 Dans le domaine des moteurs de recherche ou de recommandations
      • 3.7 Dans le domaine de la maintenance préventive
      • 3.8 Autres usages
        • 3.8.1 Identification de patterns dans des photographies
      • 3.9 Principales sources d'information utilisées dans ce chapitre
  • Conclusion
    • 1. Le futur de Hadoop
      • 1.1 Les évolutions matérielles
      • 1.2 Les évolutions logicielles
      • 1.3 Les évolutions dans l'usage
    • 2. Quand Google et Hadoop se fourvoient
      • Index

Auteur

Laurent JOLIA-FERRIEREn savoir plus

Laurent Jolia-Ferrier est consultant indépendant depuis de nombreuses années. Il intervient auprès de clients dans le secteur public comme dans le secteur privé, en France et  à l'étranger. Il accompagne ses clients dans leur réflexion sur l'impact du Big Data sur leur stratégie et forme des développeurs Hadoop. Il est certifié Cloudera Hadoop Developer.

Revue de presse

DEVELOPPEZ.COM06/06/2014

Cet ouvrage constitue une courte introduction à la mise en place d'une architecture Hadoop. Vous y découvrirez un petit état de l'art de ce qui existe autour de Hadoop, en partant de la description des concepts, en passant par son installation, jusqu'à l'écriture d'un premier petit programme exemple. On appréciera le retour d'expérience de l'auteur sur les besoins en matériels ainsi que les quelques exemples d'utilisations d'Hadoop par des entreprises connues.

Caractéristiques

  • Niveau Débutant à Initié
  • Nombre de pages 207 pages
  • Parution février 2014
    • Livre (broché) - 17 x 21 cm
    • ISBN : 978-2-7460-0868-3
    • EAN : 9782746086883
    • Ref. ENI : EPBIGHA
  • Niveau Expert
  • Parution février 2014
    • HTML
    • ISBN : 978-2-7460-0883-8
    • EAN : 9782746088368
    • Ref. ENI : LNEPBIGHA

Téléchargements

En complétant ce formulaire, vous acceptez d'être contacté afin de recevoir des informations sur nos produits et services ainsi que nos communications marketing. Vous aurez la possibilité de vous désabonner de nos communications à tout moment. Pour plus d'informations sur notre politique de protection des données, cliquez ici.
  • Des fichiers complémentaires (2,78 Ko)