Améliorer les performances de temps

1. Dimensionner adéquatement le cluster

Vous avez vu la manière dont la distribution est rendue possible dans le framework ainsi que les méthodes qui vous permettent de faire de l’enrichissement de données et de l’apprentissage automatique. À présent, nous allons voir les techniques pour partir sereinement en production avec Spark. Nous commencerons par rappeler des principes que nous avons vus dans les chapitres précédents.

Spark est un framework distribué capable de traiter de forts volumes de données. Cela ne signifie pas pour autant que vous ne rencontrerez jamais de problèmes de performances. Les spécifications de votre cluster ont en premier lieu un impact sur celles-ci. S’il est sous-dimensionné, en termes de mémoire par exemple, par rapport à la quantité d’informations que vous voulez traiter, vous risquez d’avoir des problèmes.

2. Choisir la bonne API

Une fois que vous avez paramétré votre cluster de manière adéquate, vous pouvez suivre quelques principes qui vous éviteront des désagréments.

Nous avons longuement parlé des API DataFrame, Dataset et RDD. Les deux premières sont à privilégier. Elles contiennent un moteur d’optimisation qui fait toute la différence. Les objets RDD ne doivent être utilisés qu’en tout dernier recours. Si vous avez l’habitude de développer...

couv_EISPARK.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
Opérations statistiques
Suivant
Tester avec Spark