Régression Régression
1. Définition
La classification est une technique qui permet de prédire des valeurs discrètes. Or, dans le monde de l’apprentissage automatique, nous avons aussi besoin de prédire des Ciblecibles qui sont dites continues. Cela signifie que les valeurs sont infinies. Supposons que nous voulons inférer les prix des diamants. Il n’est plus question de classification. Face à une infinité de prix possibles, cet algorithme est inadapté, à moins de reformuler le problème en tranches de tarifs. Cette fois-ci, nous allons user de la régression. Il s’agit de prédire une valeur quantitative. Il y a différents algorithmes qui permettent de faire cela. Plusieurs sont disponibles dans Spark. Les arbres de décision et les forêts aléatoires que nous avons vus sont utilisables pour faire de la régression. Les classes ont été adaptées. Au lieu de recourir à DecisionTreeClassifier, vous usez de DecisionTreeRegressor par exemple. Il y a aussi des objets Spark dédiés à la régression, en particulier à la régression linéaire (un modèle de régression bien connu dans le domaine).
2. Différents algorithmes
a. L’arbre de décision Arbre de décision
Commençons par un exemple d’arbre de décision que nous connaissons un peu. Partons sur des données légèrement...