RDD, l’API bas niveau RDD

1. Présentation générale

a. L’histoire

L’API RDD est une API dite bas niveau. Elle correspond aussi au composant nommé Spark Core. Spark Core

images/02EP05.png

L’API RDD dans les composants Spark

Elle est la première à avoir été développée dans l’outil Spark. C’est une des raisons pour lesquelles vous en entendrez beaucoup parler. Vous trouverez encore des exemples de code sur la Toile dans cette API, mais de moins en moins cela dit, car elle tend à être moins utilisée. Il n’y a que peu d’intérêt à commencer par développer dans cette API dans un nouveau projet. Cependant, il faut savoir que derrière les API haut niveau (DataFrame, Dataset, SQL) se cache toujours l’API RDD. Toutes les transformations et actions que nous développons dans les API haut niveau sont transpilées dans l’API RDD. C’est souvent par là que vous serez amené à déboguer votre code. C’est pourquoi avoir une compréhension minimale de cette API est important.

b. Caractérisation des RDD

Commençons par caractériser les objets RDD. Comme un DataFrame ou un Dataset, il s’agit d’un composant visant à contenir un ensemble de données. C’est à travers lui que vous réalisez des transformations et des actions. Vous avez donc les mêmes concepts à l’œuvre. Ici aussi, les transformations...

couv_EISPARK.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
Les jointures de données
Suivant
L’API Spark streaming