Name: Gradient Boosting Exploitez les arbres de décision pour le Machine Learning (XGBoost, CatBoost, LightGBM)
Rating: 5 (1 reviews)

Un large aperçu

Le sujet de l’application des méthodes de Gradient Boosting pour la construction d’arbres de décision a été abordé sous divers angles et en profondeur dans cet ouvrage.

Sans être complètement exhaustif sur ce vaste sujet, nombre de points ont été traités, de la théorie à l’application dans des situations variées, en passant par une implémentation from scratch, sans oublier les aspects explicabilité, optimisation des hyperparamètres et fonctions objectifs.

Pour approfondir encore ces connaissances, l’auteur de cet ouvrage ne peut que recommander la lecture des papiers originaux qui accompagnent généralement les codes sources des principales librairies décrites ici : XGBoost, CatBoost et LightGBM.

La lecture de ces articles permettra d’accroître encore la maîtrise de cette technique d’entraînement des arbres de décision, et de pouvoir la plier à des besoins de plus en plus spécifiques. De cette manière, il sera possible d’affiner toujours plus les modèles générés et d’obtenir des performances toujours accrues.

Que retenir ?

L’objectif de ce livre est de faire comprendre au lecteur le cadre théorique dans lequel s’inscrivent les méthodes de Gradient Boosting.

En substance, il faut retenir les points ci-dessous :

Les fonctions objectifs pilotent la construction des arbres. Jouer avec ces dernières est un levier puissant pour construire des modèles performants.
L’affinage des hyperparamètres est une étape cruciale, qui nécessite une compréhension fine de leur rôle et la construction méthodique de datasets d’entraînement et de test pour la cross-validation.
L’enrichissement des données est essentiel. Sans données, il est impossible de construire un modèle. La méthode de Gradient Boosting ne fait qu’en révéler le potentiel.
Être capable d’expliquer un modèle est la clé non seulement de son adoption auprès du destinataire, mais aussi un moyen indispensable pour l’améliorer.
Les séries temporelles nécessitent un traitement particulier, en raison de leur caractère propre.
Les arbres de décision stockant des constantes dans leurs feuilles ne peuvent pas extrapoler.

Enfin, il est crucial de réaliser que ce cadre du Gradient Boosting s’applique aux arbres de décision mais qu’il est possible de l’étendre à d’autres...

Un domaine en constante évolution

Le monde du Machine Learningest en constante ébullition depuis maintenant une bonne décennie. Les progrès sont quotidiens tant du point de vue de la théorie que de la pratique.

De nouvelles idées mathématiques émergent régulièrement pour améliorer tel ou tel point de la méthode, soit pour étendre son domaine d’application, soit pour réduire les temps de calcul.

Les innovations sont nombreuses aussi sur les plans technique et technologique. Ces dernières rendent par exemple possible l’application de la méthode sur de plus grands volumes de données.

Il est primordial de se tenir informé de ces deux types d’évolutions, afin de rester toujours à la page et de faire preuve de réactivité pour tirer parti de ces progrès.

Pour cela, le plus efficace est de suivre non seulement les sites dédiés aux principales implémentations mais aussi quelques médias ou blogueurs qui réalisent de la veille sur ces sujets.

Perspectives

Avant de clore cet ouvrage, cette dernière section va présenter quelques-unes des pistes de R&D qui devraient permettre d’accroître encore les possibilités des méthodes de Gradient Boosting.

1. Couplage avec des réseaux de neurones

Les méthodes de Gradient Boosting sont souvent mises en concurrence avec les méthodes neuronales de type Deep Learning.

L’avantage va aux méthodes de Gradient Boosting dès lors que les données à traiter sont structurées.

L’avantage de la facilité de configuration profite aussi à ces dernières.

En revanche, l’approche neuronale, et notamment profonde, offre un cadre théorique extrêmement séduisant sur le plan intellectuel. En effet, ce même et unique cadre permet de construire aussi bien la partie finale d’une application de Machine Learning, c’est-à-dire le régresseur ou le classifieur, que la partie en amont, c’est-à-dire la construction des features.

Coupler les deux approches est une piste prometteuse.

2. Programmation différentiable

Les fonctions objectifs sont le cœur de la méthode du Gradient Boosting. À travers leur gradient et leur hessienne, l’architecture et les prédictions des arbres générés sont contrôlées.

Le fait qu’il soit déjà...