Réponses des guides d’étude

Name: Hadoop Devenez opérationnel dans le monde du Big Data
Rating: 4 (1 reviews)

Guide d’étude du chapitre Architecture infrastructurelle d’Hadoop

Question 1 : Expliquez la notion de tolérance aux pannes.

La tolérance aux pannes est la capacité d’un système à fonctionner malgré les pannes et les défaillances qu’il rencontre.

Question 2 : Qu’est-ce que la haute disponibilité ?

La haute disponibilité est la durée opérationnelle globale d’un système sur une période de temps.

Question 3 : En quoi consiste la haute disponibilité d’un cluster ?

Elle consiste en l’élimination des points de défaillance uniques dans le système et en la détection automatique des défaillances.

Question 4 : Qu’est-ce qu’un contrat SLA et quel est son rôle dans la mise en œuvre d’un cluster ?

Le contrat SLA, ou contrat de niveau de service, est un contrat négocié entre une entreprise et un prestataire, qui formalise le niveau de disponibilité attendue du système. Il permet de définir le niveau de disponibilité du cluster Hadoop dans le temps.

Question 5 : Qu’est-ce qu’une panne ?

Une panne est un comportement non conforme aux spécifications de fonctionnement d’une machine.

Question 6 : Citez quatre types de pannes qui peuvent arriver dans un cluster.

1. Les pannes de nœuds

2. Les pannes de connectivité réseau

3. Les pannes de l’infrastructure réseau

4. Les pannes partielles et les pannes totales

Question 7 : Qu’est-ce qu’un système tolérant...

Guide d’étude du chapitre MapReduce

Question 1 : Pourquoi dit-on que le MapReduce est un paradigme ?

On dit que le MapReduce est un paradigme parce que programmer en MapReduce, c’est penser la programmation des tâches parallèles autrement. C’est penser au découpage d’un problème en tâches indépendantes.

Question 2 : Expliquez l’expression suivante : « Le calcul des index inversés est un problème "embarrasingly parallel". »

Le calcul des index inversés est un problème facile à paralléliser. « Embarrasingly » ne signifie pas « embarrassant » ou « difficile » comme on pourrait le penser en français.

Question 3 : En quoi consiste le MapReduce ?

À découper un problème en tâches indépendantes qui s’exécutent en trois phases : une phase Map, une phase Shuffle et une phase Reduce.

Question 4 : Qu’est-ce qu’un traitement parallèle ?

C’est un traitement dont l’exécution se fait en plusieurs tâches indépendantes.

Question 5 : Quelle est la différence entre un traitement parallèle et un traitement asynchrone ?

Dans un traitement parallèle, les tâches sont complètement indépendantes...

Guide d’étude du chapitre Hadoop

Question 1 : Quelle définition donneriez-vous à Hadoop ?

Ensemble de classes Java qui permettent de faire du calcul massivement parallèle sur un cluster de façon complètement tolérante aux pannes.

Question 2 : Quelle différence faites-vous entre le MapReduce et Hadoop ?

Le MapReduce est un paradigme et Hadoop est une implémentation logicielle de ce paradigme.

Question 3 : Citez les deux propriétés qui garantissent la performance d’un cluster Hadoop.

1. La conscience des casiers

2. La localisation des données

Question 4 : Qu’est-ce qu’un système in situ ?

C’est un système capable de traiter les données localement, c’est-à-dire sans les déplacer de l’endroit où elles étaient. Il déplace les requêtes vers les données.

Question 5 : Les architectures délocalisées sont des systèmes ex situ, c’est-à-dire qu’elles déplacent les données vers les requêtes. Une telle approche est-elle envisageable avec un cluster Hadoop ? Justifiez votre réponse.

Non, parce que le déplacement des données dans le cluster engendrerait de multiples allers-retours dans le réseau, ce qui entraînerait rapidement un goulot d’étranglement...

Guide d’étude du chapitre HDFS

Question 1 : Qu’est-ce qu’une mémoire de masse ?

C’est une mémoire capable de conserver son contenu même après sa mise hors tension.

Question 2 : Qu’est-ce qu’un système de fichiers ?

Une abstraction d’organisation du stockage des données sur un disque dur.

Question 3 : Quel est le rôle d’un système de fichiers ?

Permettre l’accès au contenu des fichiers persistés sur le disque dur à partir de leur chemin d’accès de façon totalement transparente à l’utilisateur.

Question 4 : Qu’est-ce qu’un espace de noms ?

C’est l’ensemble des chemins d’accès de tous les fichiers stockés sur le disque dur.

Question 5 : Quel est le rôle de l’opération READBLOCK (bloc_id) ?

Permet de lire un bloc de fichier stocké sur le disque dur.

Question 6 : Quel est le rôle de l’opération WRITEBLOCK (bloc_id) ?

Permet d’écrire des données dans un bloc du disque dur.

Question 7 : Dans le cadre d’un cluster, pourquoi a-t-on besoin d’un système de fichiers ?

Pour gérer efficacement le partage des données. Les machines doivent avoir accès aux mêmes données.

Question 8 : Citez les deux...

Guide d’étude du chapitre Futur d’Hadoop : limites d’Hadoop et YARN

Question 1 : Citez trois facteurs de limitation d’Hadoop 1 et expliquez en quoi ces facteurs constituent des limites.

1. Hadoop est une implémentation du MapReduce, un modèle de calcul. Or ce modèle de calcul est un modèle résolument batch, inadapté pour les calculs itératifs, interactifs, et le streaming. Hadoop ne peut pas exécuter d’autres modèles de calcul que le MapReduce, ce qui est rédhibitoire dans le cadre de ces problèmes.

2. Le HDFS est accessible de façon séquentielle, ce qui le rend inapproprié pour les problématiques nécessitant un haut niveau d’accès aux données. De plus, le nœud de référence sur lequel il s’appuie n’est pas tolérant aux pannes et constitue un point de défaillance unique de tout le cluster.

3. Par défaut, Hadoop n’est pas sécurisé. En dehors de l’authentification Kerberos, la politique de sécurité d’Hadoop devrait s’étendre pour prendre en compte les niveaux de permissions, et les autres aspects confidentiels de la sécurité des données.

Question 2 : Quelle est la différence entre le YARN et le jobtracker ?

Le jobtracker est responsable à la fois...

Guide d’étude du chapitre SQL dans Hadoop

Question 1 : Pourquoi a-t-on besoin d’un écosystème Hadoop ?

Parce que sans ces outils, il reviendrait à chaque entreprise en fonction de son besoin, de développer elle-même des outils compatibles avec Hadoop afin de déployer ses solutions sur le cluster, ce qui serait un "daunting task".

Question 2 : On peut utiliser Hadoop sans passer par un écosystème d’outils.

Vrai

Faux

Question 3 : Citez trois outils de votre choix de l’écosystème Hadoop et donnez leur rôle.

1. ZooKeeper : service de coordination distribué. Il fournit des fonctions de registre, de consensus, entre autres, pour permettre le partage des données et la synchronisation des nœuds d’un cluster ;

2. Mesos : application générique de gestion de ressources, qui permet d’exécuter plusieurs modèles de calcul sur un cluster Hadoop ;

3. Pig : environnement de programmation des jobs MapReduce sous forme de flux interactifs.

Question 4 : Qu’est-ce qu’un langage d’abstraction ?

Un langage d’abstraction est un langage à syntaxe relativement proche du langage humain qui permet d’exprimer des problèmes métier sous forme de requêtes simples. L’abstraction vient du fait que lorsque l’utilisateur exprime son besoin sous forme d’une requête, cette requête est transformée en instructions machine.

Question 5 : Hive est un langage SQL d’écriture des requêtes sous Hadoop.

Vrai

Faux

Question 6 : Hive peut exécuter du code Python.

Vrai

Faux

Question 7 : Quelle différence faites-vous entre HiveQL et SQL ?

HiveQL est un langage d’abstraction basé sur la spécification ANSI 92 du SQL, il transforme les scripts en jobs MapReduce. SQL est nativement le langage de définition et d’interrogation des bases de données relationnelles.

Question 8 : Qu’est-ce qu’une UDF (User Defined Function) ?

C’est une fonction développée dans un langage de script pour étendre les fonctionnalités d’un langage d’abstraction.

Question 9 : Quel est le rôle d’une UDF dans la programmation HiveQL ?

Elle permet de développer des fonctions personnalisées...

Guide d’étude du chapitre Streaming 101

Question 1 : Qu’est-ce qu’un traitement streaming ?

Un traitement streaming est un traitement qui n’a pas besoin d’une image statique des données pour s’exécuter.

Question 2 : Quelle est la différence entre un traitement streaming et un traitement en temps réel ?

Là où le streaming s’occupe de la vélocité des données, le temps réel s’occupe de la latence des traitements.

Question 3 : Où se situe la similarité entre le traitement streaming et le traitement en temps réel ?

La similarité entre les deux se situe là où la vélocité des données et la latence des données sont inférieures ou égales à la seconde.

Question 4 : En quoi consiste le fenêtrage de données ?

Le fenêtrage est une approche qui consiste à prendre une source de données (statique ou continue), à la découper selon un axe temporel en lots finis et à appliquer un traitement à chacun de ces lots de données.

Question 5 : Qu’est-ce qu’une fenêtre de données ?

C’est l’abstraction d’un lot de données issu de l’opération de fenêtrage.

Question 6 : Qu’est-ce qu’une fenêtre fixe ?

C’est une approche de fenêtrage dans laquelle les lots sont constitués selon un intervalle de temps fixe et les calculs sont fixes sur tous les lots. Dans ce cas, la période glissante est égale à la longueur de la fenêtre.

Question 7 : Qu’est-ce qu’une fenêtre glissante ?

C’est une approche de fenêtrage dans laquelle les lots sont constitués selon un intervalle de temps fixe, mais dont les calculs peuvent varier avec le lot. Dans ce cas, la période glissante est inférieure à la longueur de la fenêtre.

Question 8 : Comment interprétez-vous l’opération de fenêtrage suivante ?

Moyenne (source_donnees, x= 40, y = 10), où x est la longueur de la fenêtre et y la période glissante.

C’est le calcul de la moyenne des données collectées les 40 dernières secondes, toutes les 10 secondes.

Question 9...

Guide d’étude du chapitre Apache Storm

Question 1 : L’unité de travail Hadoop est le job MapReduce. Quelle est l’unité de travail de Storm ?

Les topologies.

Question 2 : Citez les deux composants de l’unité de travail de Storm et donnez leur fonction.

1. Les spouts : ce sont les sources de données streaming à partir desquelles Storm traite les données. Chaque source de données est exposée sur un spout différent ;

2. Les bolts : ce sont les unités de calcul des traitements Storm.

Question 3 : Quel est l’élément qui est la clé de la scalabilité de Storm ?

Les bolts sont distribués sur les nœuds du cluster pour une exécution parallèle. Storm peut augmenter la performance du cluster en accroissant le niveau de parallélisme des bolts. C’est cela qui est la clé de la scalabilité de Storm.

Question 4 : Qu’est-ce qu’une topologie ?

Les topologies sont pour Storm ce qu’est le MapReduce pour Hadoop. Une topologie est un graphe acyclique direct dans lequel les vertices ,ou nœuds, sont soit des spouts soit des bolts.

Question 5 : Donnez et expliquez, deux différences entre une topologie et le MapReduce.

1. Là où le graphe acyclique direct du MapReduce est limité à trois étapes, une topologie...

Guide d’étude du chapitre Adoption d’Hadoop

Question 1 : Expliquez la stratégie de distribution.

C’est une stratégie dans laquelle une entreprise (un éditeur logiciel) sélectionne une version open source d’Hadoop, concentre ses efforts de développement sur cette version de sorte à l’améliorer, développe des outils autour de cette version, la commercialise et en offre le support.

Question 2 : Qu’est-ce qu’une distribution Hadoop ?

Une distribution Hadoop est une version commerciale d’Hadoop.

Question 3 : Quel est le lien entre la fondation Apache et Hadoop ?

La fondation Apache est l’organisation open source qui fédère les communautés de personnes qui travaillent sur Hadoop et son écosystème.

Question 4 : Quel est le but d’un benchmark de solutions d’éditeurs ?

Le but d’un benchmark n’est pas de comparer les éditeurs sur la base de leurs produits, mais de les comparer sur la base d’un besoin, précisément du besoin du client.

Question 5 : Sur quelle base comparerez-vous des solutions d’éditeurs ?

Sur la base du besoin du client.

Question 6 : Citez et expliquez quatre critères sur lesquels vous vous appuierez pour recommander une distribution Hadoop à un client.

1. La disponibilité des briques...

Guide d’étude du chapitre Transition numérique

Question 1 : Qu’est-ce que la perception ?

La perception est la façon dont vous voyez le monde et les gens qui vous entourent, la façon dont vous interprétez tout ce qui arrive autour de vous, toutes les situations.

Question 2 : Comment se forme la perception d’un individu ?

À partir de ce qu’il entend, voit et pratique. Elle est le résultat des idées que l’individu entretient.

Question 3 : Quels sont les trois facteurs principaux qui déterminent la perception d’un individu ?

1. Les croyances religieuses, théologiques et philosophiques

2. Les médias

3. L’éducation

Question 4 : Pourquoi un changement de perception est-il nécessaire lors du passage d’une ère à une autre ?

Parce que les méthodes, les techniques et les exigences de la nouvelle ère invalident celles de l’ère précédente.

Question 5 : Citez et expliquez brièvement les quatre principes majeurs qui régissent le changement.

1. Le changement est un processus

2. Le changement annonce son arrivée par des signes

3. Le changement contient une opportunité qui lui est inhérente

4. Le changement est un processus inéluctable

Question 6 : Qu’est-ce que le comportement de la grenouille ?

Le comportement de la grenouille...

Réponses des guides d’étude

Guide d’étude du chapitre Architecture infrastructurelle d’Hadoop

Guide d’étude du chapitre MapReduce

Guide d’étude du chapitre Hadoop

Guide d’étude du chapitre HDFS

Guide d’étude du chapitre Futur d’Hadoop : limites d’Hadoop et YARN

Guide d’étude du chapitre SQL dans Hadoop

Guide d’étude du chapitre Streaming 101

Guide d’étude du chapitre Apache Storm

Guide d’étude du chapitre Adoption d’Hadoop

Guide d’étude du chapitre Transition numérique

Pour aller plus loin