Concepts et composants
1. Définition
Apache Spark est un projet open source (code source ouvert) appartenant à la fondation Apache. Il s’agit d’un framework permettant de réaliser de l’analyse de données ainsi que de l’apprentissage automatique. Sa particularité réside dans sa capacité à accomplir des traitements distribués. Ainsi, Spark peut effectuer des calculs sur de forts volumes de données.
Spark est écrit en Scala et présente des API dans plusieurs langages qui permettent d’interagir avec : Scala, Python, R et Java. D’autres initiatives ont vu le jour pour par exemple développer des applications Spark avec .NET. Nous ne les évoquerons pas. Nous nous concentrerons uniquement sur l’implémentation Python. Nous présenterons aussi quelques éléments que vous pouvez trouver spécialement dans Scala ou Java puisque ces deux API ont des différences notables.
Apache Spark est fortement soutenu par l’entreprise Databricks. Cette entreprise, fondée par les développeurs du framework, organise des cours, des certifications et des conférences autour du sujet. Le forum nommé Data + AI Summit contient notamment des présentations relatives à l’outil.
Ainsi, si vous souhaitez opérer des analyses de données sur de forts volumes, Apache Spark est un choix adéquat. Qu’il s’agisse d’apprentissage automatique...