Les types d’exécution de Spark

1. Exécuter Spark

Il y a différents modes d’exécution dans Spark. Avant de les aborder, voyons comment exécuter du code Spark de manière générale. Avec la plateforme Databricks, vous n’êtes pas obligé de démarrer un objet SparkSession. Mais si vous exécutez Spark autrement, il y a des chances pour que vous y soyez contraint.

Importons l’objet et paramétrons-le :

from pyspark.sql import SparkSession 
 
spark: SparkSession = SparkSession \ 
    .builder \ 
    .appName("Une application Spark") \ 
    .getOrCreate() 

Après avoir importé l’objet SparkSession, nous lui appliquons builder. Puis nous donnons un nom à l’application Spark que nous sommes en train de créer. En ce sens, nous appelons la fonction appName. et nous lui passons le nom en argument. À la fin, nous appelons la méthode getOrCreate, ce qui signifie que SparkSession est construit comme un singleton. Il n’y a qu’un objet SparkSession. Ces lignes de code permettent de le créer quand il n’existe pas et de le modifier dans le cas contraire.

Il est possible d’ajouter des configurations grâce à la méthode config qui prend comme premier argument, la clé de configuration, et comme deuxième argument, la valeur. Si vous voulez changer la mémoire du pilote...

couv_EISPARK.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
Un framework distribué
Suivant
Le mode de fonctionnement interne