Opérations statistiques

1. Mesurer la corrélation de plusieurs variables Corrélation

L’apprentissage automatique a sa place dans le monde des statistiques. C’est la raison pour laquelle au sein de son composant MLlib, Spark propose aussi des outils pour des opérations statistiques plus classiques. Elles servent à comprendre les données que vous traitez et à choisir la meilleure forme d’apprentissage pour celles-ci.

Commençons par le calcul de corrélation entre deux séries de données. C’est important pour évaluer si deux caractéristiques sont en fait redondantes. Nous allons faire un test où nous prédisons le succès d’un diamant selon deux attributs : son prix et sa taille. Nous choisissons exactement les mêmes valeurs pour l’un et pour l’autre. Cela signifie alors qu’il y a parfaite corrélation entre les deux.

from typing import List 
from pyspark.sql import DataFrame 
from pyspark.sql.types import StructType, StructField,  
IntegerTy ...
couv_EISPARK.png

Découvrez 

le livre :

Aussi inclus dans nos :

Précédent
Apprentissage profond
Suivant
Améliorer les performances de temps