L’API SQL
1. Principes de l’API SQL
a. Intérêts de l’API SQL
L’API SQL permet de reproduire les mêmes actions que l’API DataFrame, mais sous une forme syntaxique différente. Le principe est d’utiliser la structure SQL pour transformer les données. C’est une API qui comporte son lot d’avantages et d’inconvénients. Le premier atout est que la plupart des développeuses et développeurs connaissent SQL. Si vous êtes dans ce cas, il vous est peut-être plus facile de passer par cette API que de passer par d’autres API Spark moins familières. Autre avantage fort appréciable : l’API SQL peut permettre à des gens qui ne connaîtraient que SQL de faire une analyse de données avec un appel SQL. Nous avons travaillé sur un projet qui permettait aux utilisateurs et utilisatrices du service de faire cela. Une plateforme web aidait à construire des requêtes. Elles étaient exécutées sur le lac de données. Si le résultat était celui escompté, après vérification des performances, les demandes étaient automatiquement intégrées dans un projet Spark.
L’API SQL a aussi des inconvénients. SQL est un langage déclaratif, contrairement à Python qui est un langage de programmation impérative. Cela signifie que votre code SQL reflète le résultat attendu. L’abstraction déclarative...