Les types d’exécution de Spark
1. Exécuter Spark
Il y a différents modes d’exécution dans Spark. Avant de les aborder, voyons comment exécuter du code Spark de manière générale. Avec la plateforme Databricks, vous n’êtes pas obligé de démarrer un objet SparkSession. Mais si vous exécutez Spark autrement, il y a des chances pour que vous y soyez contraint.
Importons l’objet et paramétrons-le :
from pyspark.sql import SparkSession
spark: SparkSession = SparkSession \
.builder \
.appName("Une application Spark") \
.getOrCreate()
Après avoir importé l’objet SparkSession, nous lui appliquons builder. Puis nous donnons un nom à l’application Spark que nous sommes en train de créer. En ce sens, nous appelons la fonction appName. et nous lui passons le nom en argument. À la fin, nous appelons la méthode getOrCreate, ce qui signifie que SparkSession est construit comme un singleton. Il n’y a qu’un objet SparkSession. Ces lignes de code permettent de le créer quand il n’existe pas et de le modifier dans le cas contraire.
Il est possible d’ajouter des configurations grâce à la méthode config qui prend comme premier argument, la clé de configuration, et comme deuxième argument, la valeur. Si vous voulez changer la mémoire du pilote...