L’API Dataset Dataset
1. Principes et intérêts
L’API Dataset est un peu à part. Elle permet d’opérer des actions réalisables via les API DataFrame et SQL. Cependant, elle n’est pas capable de le faire avec les mêmes performances. Elle reste cependant plus performante que l’API RDD que nous verrons à la section RDD, l’API bas niveau.
La particularité de l’API Dataset, c’est qu’elle est typée. Cela signifie qu’au lieu de recevoir vos erreurs lorsque le programme est lancé, vous les recevez quand il est compilé. Nous venons d’évoquer là la raison pour laquelle cette API n’est pas disponible avec les langages Python ou R. Elle aurait moins d’intérêt puisque ces deux derniers sont interprétés. Pas de compilation, pas d’API Dataset. C’est pourquoi pour ce chapitre, nous basculons en Scala, originellement le premier langage de Spark.
Avec l’API Dataset, vous pouvez faire de nombreuses choses, mais vous n’avez pas autant d’aide qu’avec les API DataFrame ou SQL. Il vous faudra coder beaucoup de fonctionnalités vous-même. C’est l’un des inconvénients de l’API en plus de ses performances moindres. Les avantages, c’est que nous avons un programme plus sécurisé. Les erreurs sont remontées plus tôt. Nous basculons aussi dans un mode de programmation plus impératif. L’API DataFrame...