Contexte de création d’Hadoop

Name: Hadoop Devenez opérationnel dans le monde du Big Data
Rating: 4 (1 reviews)

Introduction

« La clé de la compréhension d’une technologie ce n’est pas la technologie, elle-même, mais c’est le contexte dans lequel elle a été créée. »

Le Numérique, soutenu par l’ubiquité d’Internet, a entraîné une explosion du volume de données. Désormais, les données sont générées très rapidement (vélocité), en plusieurs formats (variété) et sont disponibles en très grande quantité (volume). On observe que les approches technologiques classiques ont de plus en plus de mal à s’adapter à ces nouvelles contraintes. Heureusement, une nouvelle catégorie d’approches technologiques a émergé pour répondre à ces challenges et transformer les problèmes du Numérique en opportunités : il s’agit d’Hadoop. Hadoop permet aux entreprises de maîtriser leurs données sur le plan technique, sur le plan de la gouvernance, sur le plan sécuritaire, et sur le plan de la valorisation des données. Cependant, Hadoop n’est pas juste une technologie, Hadoop est l’implémentation d’une approche conceptuelle différente de celle que connaissent les technologies classiques. Beaucoup des entreprises qui ont adopté Hadoop...

Contexte d’Hadoop

Pensez à toutes les données que nous avons aujourd’hui : déjà, en 2012, IDC postulait que de 2005 à 2020, le volume de données croîtrait d’un facteur de 300, de 130 exaoctets à 40 000 exaoctets, soit 40 trillions de gigaoctets, ce qui représente plus de 5 200 gigaoctets créés pour chaque homme, femme et enfant en 2020. Actuellement, le volume des données en circulation connaît une démultiplication permanente : 5 exaoctets de données sont désormais produits tous les deux jours, soit le même volume que l’ensemble des données produites de l’aube de la civilisation à 2003. En 2014, 90 % de toutes les données jamais générées par l’homme l’ont été au cours des deux dernières années ; Cisco renchérit ce constat lorsqu’il prévoit que le trafic IP global annuel est estimé à 1,3 zettaoctet en 2016. Cet accroissement dans le trafic réseau est attribué à l’accroissement du nombre des smartphones, tablettes et autres appareils connectés à Internet, à la croissance des communautés d’utilisateurs Internet, à la croissance de la bande passante, à la rapidité offerte par les opérateurs de télécommunication...

Approche conceptuelle d’Hadoop

Pour répondre à ces challenges, l’idée de Google est de développer une approche conceptuelle qui consiste à distribuer le stockage des données d’une part et à paralléliser le traitement de ces données sur plusieurs nœuds d’une grappe de calcul (un cluster d’ordinateurs) d’autre part. L’emploi d’une grappe de calcul n’est pas anodin. En effet, tout en étant l’infrastructure qui sert de support au traitement massivement parallèle, son utilisation permet de profiter des rendements d’échelle engendrées par la baisse des coûts des ordinateurs. Ainsi, la croissance des données est gérée en augmentant simplement les nœuds dans le cluster. Nous présenterons plus loin les caractéristiques intrinsèques du cluster d’ordinateurs. Cette approche conceptuelle a été adoptée par le marché et est à la base de toutes les technologies Big Data actuellement.

Au niveau du traitement : Google décide de découper le problème d’indexation des pages web en sous-tâches ou sous-problèmes qui seront distribués dans le cluster pour exécution. Pour ce faire, Google décide de construire un index inversé par mot-clé contenu dans chaque page web. Pour faire simple, un index inversé correspond à la page d’index d’un...

Qui utilise Hadoop ?

« La richesse consiste bien plus dans l’usage qu’on en fait que dans la possession.» Cette affirmation d’Aristote montre que le plus important n’est pas juste d’être au courant de l’existence et de la puissance d’Hadoop, mais de bénéficier des avantages qu’il a à offrir en l’utilisant. En dehors des pionniers d’Hadoop et des entreprises de réseaux sociaux, Hadoop est utilisé dans plusieurs autres entreprises, des petites aux grandes. Dans cette partie, nous allons expliquer la façon dont Hadoop est utilisé dans des entreprises françaises pour améliorer leur productivité et leur rentabilité.

1. Effervescence des projets impliquant l’utilisation d’Hadoop en Europe

8,9 milliards de dollars, c’est le chiffre d’affaires que devrait générer le marché communément qualifié de Big Data en 2014, selon une étude du cabinet Transparency Market Research. Avec une croissance de près de 40 % par an, le marché représenterait déjà plus de 246 milliards en 2016. Gardez à l’esprit qu’à chaque fois que vous verrez l’expression Big Data, Hadoop est impliqué d’une manière ou d’une autre. Selon une étude menée par Dell EMC en 2013, 74 %...

Conclusion

La nouvelle ère que nous traversons actuellement est caractérisée par les données. Elles sont pour le Numérique ce que l’électricité a été dans l’ère industrielle. Les approches classiques de traitement de données ne sont plus suffisantes : il faut changer de paradigme. Google a été l’un des premiers à avoir rencontré ce problème. Étant au cœur du Numérique, Google a dû trouver un paradigme qui lui permet d’être plus efficace. Ce paradigme est un raisonnement en trois étapes (Map, Shuffle, Reduce) baptisé MapReduce. Hadoop est une implémentation du MapReduce et présage la transformation de la façon dont on a toujours traité les données jusqu’à présent. Dans les chapitres suivants, nous allons examiner les aspects techniques du fonctionnement d’Hadoop, y compris son infrastructure informatique.