L’API DataFrame
1. Introduction
L’API DataFrame, bien que l’une des plus utilisées aujourd’hui, n’est arrivée que lors de la sortie de la version 1.3 du framework. Avant cela, pour réaliser des traitements de données dans Spark, l’API était RDD. L’API DataFrame est considérée comme haut niveau en comparaison de RDD. Elle permet d’écrire un code plus expressif. Grâce à elle, nous pouvons davantage nous concentrer sur le code métier. Elle est aussi plus performante, car elle contient un moteur d’optimisation.
Avec l’objet DataFrame, vous pouvez réaliser des actions distribuées sur des données. Un DataFrame est associé à de l’information organisée sous forme de colonnes et de lignes. Il comprend différentes fonctions pour créer des transformations sur celles-ci. Action:distribuée
Pour rappel, il y a plusieurs manières de créer les objets DataFrame. Nous en avons vu deux. Nous pouvons en créer un de toutes pièces, comme ceci :
from typing import List
from pyspark.sql import DataFrame
from pyspark.sql.types import StructType, StructField,
StringType
data: List = [("Diamant_1A", "TopDiamant", "300"),
("Diamant_2B", "Diamants pour toujours", "45"),
("Diamant_3C", "Mes diamants préférés"...