Blog ENI : Toute la veille numérique !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Data Science avec Microsoft Azure
  3. La régression linéaire et polynomiale
Extrait - Data Science avec Microsoft Azure Maîtrisez le Machine Learning sur Cortana Intelligence Suite
Extraits du livre
Data Science avec Microsoft Azure Maîtrisez le Machine Learning sur Cortana Intelligence Suite Revenir à la page d'achat du livre

La régression linéaire et polynomiale

Objectif du chapitre

Le mot régression trouve son origine dans une étude publiée par Sir Francis Galton en 1885. Dans cette étude très célèbre, Galton a remarqué que les pères dont la taille est supérieure à la moyenne ont des fils plus petits qu’eux. A contrario, les pères dont la taille est inférieure à la moyenne ont des fils plus grands qu’eux. D’où vient à Galton l’idée de la régression vers la moyenne.

Les algorithmes de régression permettent de faire des prévisions sur des problèmes de natures différentes. L’objectif de ce chapitre est d’en étudier les principes fondamentaux pour comprendre comment fonctionnent ces algorithmes.

À la fin de ce chapitre, le lecteur aura abordé :

  • Les principes de la régression linéaire simple, la régression linéaire multiple et la régression polynomiale.

  • La méthode des moindres carrés.

  • Une introduction à l’algorithme de la descente de gradient.

  • La construction d’un modèle prédictif dans l’environnement Azure ML sur un problème de régression multiple.

  • La publication à partir de l’environnement Azure ML d’un modèle prédictif sous forme de service web.

  • Une introduction à la régression polynomiale...

La régression linéaire simple

La régression linéaire simple concerne l’étude de la variation d’une variable à expliquer en fonction d’une et une seule variable explicative. Dans le chapitre La Data Science - L’objectif recherché en Machine Learning, nous avons vu que le principe général des algorithmes du Machine Learning supervisés est basé sur l’estimation, à partir d’un échantillon, d’une fonction images/eq76.PNG qui serait à l’origine des résultats observés. Dans le cas de la régression linéaire simple, ce principe s’applique avec l’hypothèse que la fonction images/eq76.PNG est linéaire et ne dépend que d’une seule variable.
En d’autres termes, si nous disposons de images/eq16.PNG observations sous la forme de couples images/eq78.PNG, avec images/eq79.PNG le résultat correspondant à l’observation images/eq77.PNG, alors chacun de ces résultats images/eq79.PNG peut être obtenu, du moins approché, par une fonction images/eq80.PNG linéaire. Concrètement, en régression linéaire simple, la fonction images/eq76.PNG est supposée égale à :
images/eq81.PNG avec images/eq82.PNG
Cette définition de images/eq83.PNG propose qu’entre images/eq84.PNG et images/eq85.PNG existe une relation affine qui peut être représentée par une droite images/eq86a.PNG appelée la droite de régression. Tout le but du jeu est de trouver des bons estimateurs pour les deux paramètres images/eq86.PNG et images/eq87.PNG.

1. La régression linéaire simple...

La régression linéaire multiple

La régression linéaire multiple est une généralisation immédiate de la régression linéaire simple. En régression linéaire multiple, la fonction images/eq83.PNG que l’on souhaite estimer ne dépend plus d’une seule variable, mais de plusieurs.
Si nous disposons de images/eq16.PNG couples de la forme images/eq110.PNG, avec images/eq79.PNG le résultat obtenu pour l’observation images/eq19.PNG, alors la fonction que l’on souhaite estimer sera de la forme générale ci-dessous :
images/eq111.PNG
L’objectif est d’estimer le vecteur images/eq112.PNG tel que la fonction images/eq83.PNG soit la plus proche des images/eq79.PNG.

1. La méthode des moindres carrés pour la régression multiple

Tout comme pour la régression linéaire simple, la méthode des moindres carrés peut être utilisée pour la recherche du vecteur images/eq115.PNG et la fonction à minimiser sera définie comme suit :
images/eq113.PNG
Les mêmes étapes peuvent être suivies à la différence qu’ici nous allons avoir images/eq18.PNG dérivées partielles au lieu de deux. Après un certain calcul, en annulant et en simplifiant ces images/eq18.PNG dérivées partielles, nous obtenons la solution suivante :
images/eq114.PNG

Avec :

  • images/eq117.PNG l’estimateur du vecteur images/eq116.PNG
  • images/eq41.PNG la matrice de toutes les observations qui est de la forme :
images/eq118.PNG
  • images/eq119.PNG la matrice transposée de la matrice images/eq41.PNG
  • images/eq39.PNG le vecteur des résultats de toutes les observations de la forme...

Exemple de régression linéaire multiple

Dans cet exemple, nous allons construire un modèle linéaire multiple pour prédire la pollution de l’air à partir d’un jeu de données. Ce jeu de données est constitué de 12 variables explicatives et d’une variable à expliquer. Ces variables sont définies comme suit :

  • Maxo3 est la variable à prédire.

  • Les variables T9, T12 et T15 correspondent respectivement à des prélèvements de température à 9 h, 12 h et 15 h.

  • Les variables Ne9, Ne12 et Ne15 correspondent respectivement à des prélèvements de nébulosité à 9 h, 12 h et 15 h.

  • Les variables Vx9, Vx12 et Vx15 correspondent respectivement à des prélèvements de vent à 9 h, 12 h et 15 h.

  • Deux variables qualitatives Vent et Pluie. Ces deux variables ne seront pas utilisées lors de l’estimation des paramètres de notre modèle puisqu’elles ne sont pas de type quantitatif. Néanmoins, nous les utilisons pour montrer l’usage du module Select Colums qui permet de sélectionner les variables que nous souhaitons utiliser.

  • La variable Date qui correspond aux dates des prélèvements. Comme pour les deux variables Vent et Pluie, cette variable ne sera pas utilisée lors du calcul du modèle.

  • Enfin, la variable Maxo3v correspond à la mesure maximum de la concentration d’ozone de la veille.

1. Construire le modèle de régression dans Azure ML

Pour réaliser ce modèle prédictif sur Azure ML suivez les étapes ci-après :

 Connectez-vous sur votre portail Azure et lancez votre environnement Azure ML.

 Une fois sur Azure ML, cliquez sur le bouton +NEW situé en bas de la page.

 Vérifiez que l’option EXPERIMENT est bien sélectionnée à gauche de l’écran et choisissez un type d’expérience Blank Experiment. Une nouvelle expérience Machine Learning vide sera créée.

 Cliquez sur le texte en haut de la page et changez le nom de cette expérience par le nom de votre choix. Dans l’exemple, le nom est Régression multiple - Pollution de l’air.

 Sur le panneau à gauche, développez...

La régression polynomiale

La section précédente a montré que la régression linéaire multiple est une généralisation de la régression linéaire simple. Dans le même ordre d’idée, la régression polynomiale est elle-même une généralisation de la régression linéaire multiple. En effet, un modèle de régression polynomiale est un polynôme à plusieurs variables. Par exemple, pour un modèle polynomial d’ordre 2, la fonction images/eq83.PNG sera définie comme suit :
images/eq129.PNG

Les modèles polynomiaux permettent de décrire des relations entre les variables qui ne sont pas linéaires. C’est là où réside leur avantage majeur vis-à-vis des modèles linéaires. Cependant, ces modèles nécessitent des temps de calcul plus importants.

Conclusion

Ce chapitre a permis d’introduire la régression linéaire et la régression polynomiale. Dans un premier temps, la régression linéaire a été abordée du point de vue géométrique pour donner l’intuition des algorithmes de régression et dans un second temps, la méthode des moindres carrés a été expliquée en détail. Puis, un exemple complet de régression multiple a été traité dans l’environnement Azure ML en commençant par l’entrainement du modèle linéaire multiple jusqu’à sa publication sous forme d’un service web.