Les jointures de données

1. Introduction

Nous avons vu la manière dont Spark prend des données en entrée, en tire parti, puis les transfère dans un autre système. Cet enrichissement de données ne saurait être complet sans les jointures, autrement dit sans la capacité à joindre plusieurs objets DataFrame ou Dataset. Vous y aurez souvent recours. Le principe repose sur l’idée que nous avons différentes sources de données et qu’en les joignant à l’aide d’une ou de plusieurs clés communes, nous en tirons davantage d’informations.

Prenons un exemple. Dans le monde de la mode vestimentaire, il y a des couleurs considérées comme tendance. Nous pouvons attribuer un score à chaque coloris. Plus la note est haute, plus la couleur est à la mode. En parallèle, nous avons des ventes de diamants qui ont tous un pigment. La question qui se pose est la suivante : la mode vestimentaire influence-t-elle les achats de nos bijoux ? Pour tenter d’y répondre, nous joignons les deux sources de données et comptons le nombre de pierres vendues par couleur. Construisons dans un premier temps nos deux DataFrame.

Pour la suite des exemples, l’API DataFrame sera utilisée, même si nous verrons aussi quelques morceaux de code écrits à partir des API SQL et Dataset.

Nous commençons par les diamants :

from typing import List 
from pyspark.sql import DataFrame ...
couv_EISPARK.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
L’API Dataset
Suivant
RDD, l’API bas niveau