L’API Spark streaming Streaming
1. Introduction
a. Streaming versus batch
Dans le monde des données, il y a deux manières d’accomplir des traitements. La première consiste à travailler avec un lot d’informations. À partir de celles-ci, nous réalisons des analyses ou des transformations de manière ponctuelle. En informatique, on a l’habitude de parler de batch. En batch, d’importants lots de données sont consommés et renvoyés. Supposons que vous voulez prédire les prix des diamants qui sont mis en vente sur la Toile. Les tarifs sont généralement modifiés une fois par jour. Dans un tel cas, vous pouvez envisager d’effectuer les prédictions durant la nuit. De cette manière, elles seront prêtes le lendemain. Vous opérez cela sur l’ensemble de vos données. Vous travaillez sur la totalité des sites marchands de diamants. Il s’agit donc d’un lot de produits conséquent. Les transformations et prédictions sont effectuées en une fois. Cette manière de faire, appelée batch, est celle que nous avons étudiée jusqu’ici.
À présent, intéressons-nous à une autre manière de traiter les données : le mode streaming, aussi appelé flux ou diffusion en continu. Ce principe désigne la lecture, le traitement et l’écriture de données en continu. Dans ce mode, vous...