Blog ENI : Toute la veille numérique !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Data Science avec Microsoft Azure
  3. La régression logistique
Extrait - Data Science avec Microsoft Azure Maîtrisez le Machine Learning sur Cortana Intelligence Suite
Extraits du livre
Data Science avec Microsoft Azure Maîtrisez le Machine Learning sur Cortana Intelligence Suite Revenir à la page d'achat du livre

La régression logistique

Objectif du chapitre

Le modèle de la régression logistique est un cas particulier de modèle linéaire généralisé et c’est l’un des modèles de classification les plus répondus. Il est utilisé dans les domaines médical, social, bancaire, etc. Par exemple, pour la détection de la présence d’une tumeur chez un patient, expliquer un risque suicidaire après une dépression nerveuse, ou encore prédire si un client pourra ou non rembourser son crédit. De façon plus générale, avec la régression logistique, on cherche à détecter les prémisses de la survenue d’un phénomène.

L’objectif de ce chapitre est d’expliquer les notions de base de la régression logistique, et surtout de montrer comment paramétrer et utiliser cet algorithme dans l’environnement Azure ML.

À la fin de ce chapitre, le lecteur aura abordé :

  • Une justification et l’intuition des algorithmes de régression logistique.

  • Quelques notions théoriques de la régression logistique.

  • L’utilisation du module de régression logistique dans Azure ML et la configuration de tous les paramètres associés à ce module.

  • L’application de la régression logistique pour prédire les survivants du naufrage du Titanic....

La régression logistique

Le chapitre précédent a abordé les concepts de la régression. Nous avons vu que si nous disposons de images/eq16.PNG couples de la forme images/eq130.PNG, avec images/eq79.PNG le résultat obtenu pour l’observation images/eq131.PNG, alors on pouvait construire un modèle prédictif linéaire de la forme :
images/eq132.PNG
Ce modèle va nous permettre de prédire les images/eq79.PNG futurs pour les nouvelles observations images/eq133.PNG. Le problème est que si images/eq134.PNG est une variable binaire ou une variable qualitative, alors il ne s’agit plus de prédire un nombre réel, mais plutôt la classe associée à une observation. Dans ce dernier cas, le but recherché est un classifieur et les modèles de régression linéaire ne seront plus adaptés puisque les fonctions linéaires sont définies dans images/eq135.PNG.

Comme nous allons le voir dans la suite de ce chapitre, l’idée de la régression logistique est de transformer le problème de l’explication d’une variable continue en un problème d’explication d’une probabilité.

Supposons que nous disposons de images/eq16.PNG observations de deux variables. La première variable indique l’âge d’une personne et la deuxième indique son état de santé, malade = 1 ou non malade = 0. Et supposons que ces deux variables sont réparties comme dans la figure suivante :
images/04EPS01.png

Figure 4-1 : exemple...

Prédire les survivants du Titanic

Dans cet exemple, un jeu de données très connu dans la communauté des Data Scientists sera utilisé. Il s’agit d’un sous-ensemble des passagers du fameux Titanic. L’objectif de cet exemple est de construire un modèle qui sait prédire pour un passager particulier s’il a survécu ou pas à ce drame. Ce jeu de données indique pour chaque passager les informations suivantes :

  • Survived : variable binaire indiquant si le passager a survécu au drame ou pas.

  • Pclass : indique la classe de la cabine. Cette variable prend ses valeurs parmi les valeurs 1, 2 et 3 qui correspondent respectivement à la première classe, seconde classe et la troisième classe.

  • Sex : indique le sexe du passager, Male ou Female.

  • Age : indique l’âge du passager.

  • SibSp : indique si le passager a des frères, des sœurs, un époux ou une épouse à bord du bateau.

  • Parch : indique si le passager a des parents ou des enfants à bord du bateau.

  • Fare : le prix du ticket.

En résumé, l’objectif est de prédire la variable Survived à partir des valeurs des variables Pclass, Sex, Age, SibSp, Parch et Fare.

1. Régression logistique dans Azure ML

Pour appliquer l’algorithme de la régression logistique, Azure ML propose les modules Two-Class Logistic Regression et Multiclass Logistic Regression. Comme son nom l’indique, le premier est mieux adapté pour les modèles de régression logistique binaires et donc le mieux adapté à notre exemple.

Pour construire le modèle prédictif pour les survivants du Titanic, suivez les étapes ci-dessous :

 Connectez-vous à votre espace Azure ML. Créez une nouvelle expérience et donnez-lui le nom survivants du Titanic par exemple.

 Chargez dans un Dataset le jeu de données titanic_train.csv qui se trouve dans le dossier Data du dossier de ce chapitre.

 Recherchez et ajoutez le module...

L’algorithme One-vs-All

Ce chapitre s’est focalisé sur la régression logistique binomiale, qui traite des modèles dont la variable à prédire est binaire. Cependant, la régression logistique peut être généralisée à des variables prédictives multiclasses qui peuvent donc prendre un nombre de modalités supérieur à 2. Dans ce dernier cas, l’algorithme One-vs-All est sans doute l’algorithme le plus utilisé.

Supposons que la variable images/eq39.PNG à prédire peut prendre ses valeurs dans l’ensemble images/eq141.PNG. Pour calculer la probabilité que images/eq140.PNG, cet algorithme va construire deux groupes. Le premier groupe images/eq142.PNG et le deuxième groupe images/eq143.PNG. Maintenant, le problème est transformé en un problème binaire où il faudrait prédire si images/eq144.PNG ou images/eq145.PNG. On refait le même raisonnement pour calculer la probabilité que images/eq146.PNG avec images/eq147.PNG et images/eq148.PNG. Enfin, pour calculer la probabilité que images/eq149.PNG avec images/eq150.PNG et images/eq151.PNG. Une fois que ces trois probabilités sont calculées, il suffit de choisir la probabilité la plus élevée.

Conclusion

La régression logistique est un modèle très répandu dans le monde du Machine Learning. Il trouve son application dans des domaines divers et variés. Ce chapitre a permis de donner l’intuition de ce modèle ainsi que d’aborder quelques concepts justifiant sa complexité vis-à-vis des modèles linéaires. Ce chapitre a également permis de créer un modèle dans Azure ML pour prédire les survivants du naufrage du Titanic. Cet exemple nous a permis de voir les détails des paramètres de l’algorithme de la régression logistique.