Lire et écrire des données

1. Principes de lecture, d’écriture et de transformation de données

Quand nous faisons du traitement de données - qu’il s’agisse d’analyse ou d’apprentissage automatique - par définition, il y a des données. On distingue les données qui constituent nos entrées, celles qui constituent nos sorties finales et enfin celles qui sont intermédiaires.

Les informations d’entrée sont généralement lues depuis différents chemins. Après des transformations, elles sont déposées là où c’est le plus judicieux pour le système en général. Elles pourront ainsi être utilisées par d’autres logiciels. Il est possible de créer des données intermédiaires.

images/01EP29.png

Processus de transformation classique

Les données d’entrée et de sortie peuvent être de différents formats. Par exemple, CSV (Comma Separated Value), JSON (JavaScript Object Notation), ou encore des formats plus spécifiques comme Parquet ou Avro. Nous pouvons aussi traiter avec différents systèmes, comme Kafka, Cassandra ou MySQL.

Ainsi, pour pouvoir lire et écrire des données, il nous faut des connecteurs d’entrée et de sortie. Certains sont internes au framework. C’est le cas du connecteur JSON. D’autres sont développés par la communauté. Pour les ajouter, il faut...

couv_EISPARK.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
Le mode de fonctionnement interne
Suivant
Types de données et schéma