Lire et écrire des données
1. Principes de lecture, d’écriture et de transformation de données
Quand nous faisons du traitement de données - qu’il s’agisse d’analyse ou d’apprentissage automatique - par définition, il y a des données. On distingue les données qui constituent nos entrées, celles qui constituent nos sorties finales et enfin celles qui sont intermédiaires.
Les informations d’entrée sont généralement lues depuis différents chemins. Après des transformations, elles sont déposées là où c’est le plus judicieux pour le système en général. Elles pourront ainsi être utilisées par d’autres logiciels. Il est possible de créer des données intermédiaires.
Processus de transformation classique
Les données d’entrée et de sortie peuvent être de différents formats. Par exemple, CSV (Comma Separated Value), JSON (JavaScript Object Notation), ou encore des formats plus spécifiques comme Parquet ou Avro. Nous pouvons aussi traiter avec différents systèmes, comme Kafka, Cassandra ou MySQL.
Ainsi, pour pouvoir lire et écrire des données, il nous faut des connecteurs d’entrée et de sortie. Certains sont internes au framework. C’est le cas du connecteur JSON. D’autres sont développés par la communauté. Pour les ajouter, il faut...