Approche multimodèle

Name: Gradient Boosting Exploitez les arbres de décision pour le Machine Learning (XGBoost, CatBoost, LightGBM)
Rating: 5 (1 reviews)

Modèle global

Ce livre se conclut par la présentation de deux méthodes originales de construction de modèle. Dans la première, le modèle organique généré n’est plus constitué d’un seul modèle, mais de la combinaison de plusieurs.

Jusqu’à présent, tous les modèles présentés et construits dans ce livre étaient globaux.

Dans la seconde approche, le modèle entraîné reste global, mais est optimisé pour des périmètres, des résolutions particulières.

1. Principe

Le principe de ce type de modèle est simple : un seul et unique modèle traite la globalité des données.

Peu importe que les données sous-jacentes puissent être regroupées selon tel ou tel critère, charge au modèle d’identifier à l’aide des features ces spécificités de groupes.

Les arbres de décision sont de bons candidats pour ce type de modèle, car l’essence de leur fonctionnement est justement de partitionner les données en sous-ensembles, et d’appliquer des correctifs différents pour ces sous-ensembles.

2. Motivations

L’intérêt majeur de cette approche est sa simplicité. Les données sont agrégées dans un seul dataset, qui permettra d’entraîner...

Modèle local

1. Principe

Le principe de ce mode de modélisation repose sur le découpage des données d’entraînement en autant de datasets qu’il y a de résolutions possibles.

Pour donner un exemple simple, il peut s’agir, dans le cas de prédictions de prix de ventes de biens immobiliers, de découper les données par ville, et d’entraîner un modèle par ville.

Dans le même esprit, la classification de pièces en catégories défectueuses ou non peut se faire type de pièce par type de pièce.

2. Motivations

L’intérêt d’une telle approche, de type local, en opposition à une modélisation avec un seul modèle, qui est globale, est de focaliser le modèle sur des données particulières, partageant des caractéristiques communes et distinctes des autres groupes.

Cela évite de bruiter un type de comportement avec les données d’un autre type de comportement. En effet, dans le cadre de l’approche globale, la construction de la prédiction se fait en partant d’une prédiction de base, le base_score, en l’amendant successivement par l’application des différents estimateurs.

Quand des types de données différents constituent la même base d’apprentissage pour un unique modèle, alors...

Modèle optimisé global

Il existe une troisième voie, qui peut parfois combiner les avantages des deux approches précédentes.

1. Principe

L’essence de cette méthode est de n’entraîner qu’un seul modèle, mais de l’adapter ensuite lors de la prédiction à chaque résolution considérée.

Pour cela, la phase d’entraînement est instrumentalisée afin de monitorer le niveau de performance résolution par résolution, et ce en fonction de l’ajout des nouveaux arbres.

Le nombre optimal d’arbres pour chaque résolution est ensuite utilisé lors de la prédiction.

2. Motivations

L’intérêt de cette approche réside bien sûr dans la combinaison des avantages des deux méthodes précédentes : unicité et donc simplicité du modèle avec en bonus la finesse apportée par une approche multimodèle.

3. Fonctionnement

L’idée pour cette approche est d’historiser durant la phase d’entraînement, à chaque ajout d’un nouvel estimateur, les performances pour chacune des résolutions considérées.

C’est une opération coûteuse en temps de calcul, mais qui permet une analyse fine du comportement du modèle selon les résolutions choisies.

Dans cette optique, il faut pouvoir utiliser une fonction d’évaluation customisée dans la phase d’entraînement. XGBoost, entre autres, le permet.

Il faut aussi pouvoir indiquer lors de la prédiction combien d’arbres peuvent être combinés. XGBoost permet cela aussi.

Le listing de code...