Opérations statistiques
1. Mesurer la corrélation de plusieurs variables Corrélation
L’apprentissage automatique a sa place dans le monde des statistiques. C’est la raison pour laquelle au sein de son composant MLlib, Spark propose aussi des outils pour des opérations statistiques plus classiques. Elles servent à comprendre les données que vous traitez et à choisir la meilleure forme d’apprentissage pour celles-ci.
Commençons par le calcul de corrélation entre deux séries de données. C’est important pour évaluer si deux caractéristiques sont en fait redondantes. Nous allons faire un test où nous prédisons le succès d’un diamant selon deux attributs : son prix et sa taille. Nous choisissons exactement les mêmes valeurs pour l’un et pour l’autre. Cela signifie alors qu’il y a parfaite corrélation entre les deux.
from typing import List
from pyspark.sql import DataFrame
from pyspark.sql.types import StructType, StructField,
IntegerTy ...