Démarrer avec Spark
1. Installation sur une machine versus installation sur un cluster
Spark est un framework pensé pour faire du calcul distribué. Ainsi, dans un environnement de production ou d’intégration, le framework peut être disponible sur un ensemble de machines capables de travailler ensemble. Nous parlons de cluster. Il est aussi possible d’avoir l’outil uniquement sur un ordinateur personnel. Calcul distribué
Dans la section Un framework distribué, nous nous pencherons davantage sur le fait de faire communiquer des machines ensemble et les conséquences que cela entraîne du point de vue du développement. Pour l’heure, nous allons nous concentrer sur une installation/accès à Spark sur une seule machine. Si le terme « accès » est employé, c’est parce qu’il y a aujourd’hui des solutions en ligne où vous n’installez pas le framework, mais configurez un environnement pour y avoir accès.
Il y a plusieurs manières d’installer ou d’accéder à Spark. Après un rapide examen des solutions possibles nous expliquerons comment construire un environnement avec la plateforme Databricks. Cela vous permettra de suivre les différents exemples donnés tout au long du livre.
2. Solutions on-premise (sur site)
La première solution possible consiste à installer soi-même Spark sur une machine en local...