La régression linéaire et polynomiale
Objectif du chapitre
Le mot régression trouve son origine dans une étude publiée par Sir Francis Galton en 1885. Dans cette étude très célèbre, Galton a remarqué que les pères dont la taille est supérieure à la moyenne ont des fils plus petits qu’eux. A contrario, les pères dont la taille est inférieure à la moyenne ont des fils plus grands qu’eux. D’où vient à Galton l’idée de la régression vers la moyenne.
Les algorithmes de régression permettent de faire des prévisions sur des problèmes de natures différentes. L’objectif de ce chapitre est d’en étudier les principes fondamentaux pour comprendre comment fonctionnent ces algorithmes.
À la fin de ce chapitre, le lecteur aura abordé :
-
Les principes de la régression linéaire simple, la régression linéaire multiple et la régression polynomiale.
-
La méthode des moindres carrés.
-
Une introduction à l’algorithme de la descente de gradient.
-
La construction d’un modèle prédictif dans l’environnement Azure ML sur un problème de régression multiple.
-
La publication à partir de l’environnement Azure ML d’un modèle prédictif sous forme de service web.
-
Une introduction à la régression polynomiale...
La régression linéaire simple
1. La régression linéaire simple...
La régression linéaire multiple
1. La méthode des moindres carrés pour la régression multiple
Avec :
-
l’estimateur du vecteur
-
la matrice de toutes les observations qui est de la forme :
-
la matrice transposée de la matrice
-
le vecteur des résultats de toutes les observations de la forme...
Exemple de régression linéaire multiple
Dans cet exemple, nous allons construire un modèle linéaire multiple pour prédire la pollution de l’air à partir d’un jeu de données. Ce jeu de données est constitué de 12 variables explicatives et d’une variable à expliquer. Ces variables sont définies comme suit :
-
Maxo3 est la variable à prédire.
-
Les variables T9, T12 et T15 correspondent respectivement à des prélèvements de température à 9 h, 12 h et 15 h.
-
Les variables Ne9, Ne12 et Ne15 correspondent respectivement à des prélèvements de nébulosité à 9 h, 12 h et 15 h.
-
Les variables Vx9, Vx12 et Vx15 correspondent respectivement à des prélèvements de vent à 9 h, 12 h et 15 h.
-
Deux variables qualitatives Vent et Pluie. Ces deux variables ne seront pas utilisées lors de l’estimation des paramètres de notre modèle puisqu’elles ne sont pas de type quantitatif. Néanmoins, nous les utilisons pour montrer l’usage du module Select Colums qui permet de sélectionner les variables que nous souhaitons utiliser.
-
La variable Date qui correspond aux dates des prélèvements. Comme pour les deux variables Vent et Pluie, cette variable ne sera pas utilisée lors du calcul du modèle.
-
Enfin, la variable Maxo3v correspond à la mesure maximum de la concentration d’ozone de la veille.
1. Construire le modèle de régression dans Azure ML
Pour réaliser ce modèle prédictif sur Azure ML suivez les étapes ci-après :
Connectez-vous sur votre portail Azure et lancez votre environnement Azure ML.
Une fois sur Azure ML, cliquez sur le bouton +NEW situé en bas de la page.
Vérifiez que l’option EXPERIMENT est bien sélectionnée à gauche de l’écran et choisissez un type d’expérience Blank Experiment. Une nouvelle expérience Machine Learning vide sera créée.
Cliquez sur le texte en haut de la page et changez le nom de cette expérience par le nom de votre choix. Dans l’exemple, le nom est Régression multiple - Pollution de l’air.
Sur le panneau à gauche, développez...
La régression polynomiale
Les modèles polynomiaux permettent de décrire des relations entre les variables qui ne sont pas linéaires. C’est là où réside leur avantage majeur vis-à-vis des modèles linéaires. Cependant, ces modèles nécessitent des temps de calcul plus importants.
Conclusion
Ce chapitre a permis d’introduire la régression linéaire et la régression polynomiale. Dans un premier temps, la régression linéaire a été abordée du point de vue géométrique pour donner l’intuition des algorithmes de régression et dans un second temps, la méthode des moindres carrés a été expliquée en détail. Puis, un exemple complet de régression multiple a été traité dans l’environnement Azure ML en commençant par l’entrainement du modèle linéaire multiple jusqu’à sa publication sous forme d’un service web.