La régression logistique
Objectif du chapitre
Le modèle de la régression logistique est un cas particulier de modèle linéaire généralisé et c’est l’un des modèles de classification les plus répondus. Il est utilisé dans les domaines médical, social, bancaire, etc. Par exemple, pour la détection de la présence d’une tumeur chez un patient, expliquer un risque suicidaire après une dépression nerveuse, ou encore prédire si un client pourra ou non rembourser son crédit. De façon plus générale, avec la régression logistique, on cherche à détecter les prémisses de la survenue d’un phénomène.
L’objectif de ce chapitre est d’expliquer les notions de base de la régression logistique, et surtout de montrer comment paramétrer et utiliser cet algorithme dans l’environnement Azure ML.
À la fin de ce chapitre, le lecteur aura abordé :
-
Une justification et l’intuition des algorithmes de régression logistique.
-
Quelques notions théoriques de la régression logistique.
-
L’utilisation du module de régression logistique dans Azure ML et la configuration de tous les paramètres associés à ce module.
-
L’application de la régression logistique pour prédire les survivants du naufrage du Titanic....
La régression logistique
Comme nous allons le voir dans la suite de ce chapitre, l’idée de la régression logistique est de transformer le problème de l’explication d’une variable continue en un problème d’explication d’une probabilité.

Figure 4-1 : exemple...
Prédire les survivants du Titanic
Dans cet exemple, un jeu de données très connu dans la communauté des Data Scientists sera utilisé. Il s’agit d’un sous-ensemble des passagers du fameux Titanic. L’objectif de cet exemple est de construire un modèle qui sait prédire pour un passager particulier s’il a survécu ou pas à ce drame. Ce jeu de données indique pour chaque passager les informations suivantes :
-
Survived : variable binaire indiquant si le passager a survécu au drame ou pas.
-
Pclass : indique la classe de la cabine. Cette variable prend ses valeurs parmi les valeurs 1, 2 et 3 qui correspondent respectivement à la première classe, seconde classe et la troisième classe.
-
Sex : indique le sexe du passager, Male ou Female.
-
Age : indique l’âge du passager.
-
SibSp : indique si le passager a des frères, des sœurs, un époux ou une épouse à bord du bateau.
-
Parch : indique si le passager a des parents ou des enfants à bord du bateau.
-
Fare : le prix du ticket.
En résumé, l’objectif est de prédire la variable Survived à partir des valeurs des variables Pclass, Sex, Age, SibSp, Parch et Fare.
1. Régression logistique dans Azure ML
Pour appliquer l’algorithme de la régression logistique, Azure ML propose les modules Two-Class Logistic Regression et Multiclass Logistic Regression. Comme son nom l’indique, le premier est mieux adapté pour les modèles de régression logistique binaires et donc le mieux adapté à notre exemple.
Pour construire le modèle prédictif pour les survivants du Titanic, suivez les étapes ci-dessous :
Connectez-vous à votre espace Azure ML. Créez une nouvelle expérience et donnez-lui le nom survivants du Titanic par exemple.
Chargez dans un Dataset le jeu de données titanic_train.csv qui se trouve dans le dossier Data du dossier de ce chapitre.
Recherchez et ajoutez le module...
L’algorithme One-vs-All
Ce chapitre s’est focalisé sur la régression logistique binomiale, qui traite des modèles dont la variable à prédire est binaire. Cependant, la régression logistique peut être généralisée à des variables prédictives multiclasses qui peuvent donc prendre un nombre de modalités supérieur à 2. Dans ce dernier cas, l’algorithme One-vs-All est sans doute l’algorithme le plus utilisé.
Conclusion
La régression logistique est un modèle très répandu dans le monde du Machine Learning. Il trouve son application dans des domaines divers et variés. Ce chapitre a permis de donner l’intuition de ce modèle ainsi que d’aborder quelques concepts justifiant sa complexité vis-à-vis des modèles linéaires. Ce chapitre a également permis de créer un modèle dans Azure ML pour prédire les survivants du naufrage du Titanic. Cet exemple nous a permis de voir les détails des paramètres de l’algorithme de la régression logistique.