L’API DataFrame

1. Introduction

L’API DataFrame, bien que l’une des plus utilisées aujourd’hui, n’est arrivée que lors de la sortie de la version 1.3 du framework. Avant cela, pour réaliser des traitements de données dans Spark, l’API était RDD. L’API DataFrame est considérée comme haut niveau en comparaison de RDD. Elle permet d’écrire un code plus expressif. Grâce à elle, nous pouvons davantage nous concentrer sur le code métier. Elle est aussi plus performante, car elle contient un moteur d’optimisation.

Avec l’objet DataFrame, vous pouvez réaliser des actions distribuées sur des données. Un DataFrame est associé à de l’information organisée sous forme de colonnes et de lignes. Il comprend différentes fonctions pour créer des transformations sur celles-ci. Action:distribuée

Pour rappel, il y a plusieurs manières de créer les objets DataFrame. Nous en avons vu deux. Nous pouvons en créer un de toutes pièces, comme ceci :

from typing import List 
from pyspark.sql import DataFrame 
from pyspark.sql.types import StructType, StructField,  
StringType 
 
data: List = [("Diamant_1A", "TopDiamant", "300"), 
    ("Diamant_2B", "Diamants pour toujours", "45"), 
    ("Diamant_3C", "Mes diamants préférés"...
couv_EISPARK.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
Types de données et schéma
Suivant
L’API SQL