Accès illimité 24h/24 à tous nos livres & vidéos ! Découvrez la Bibliothèque Numérique ENI. Cliquez ici.
  1. Livres et vidéos
  2. Gradient Boosting - Exploitez les arbres de décision pour le Machine Learning (XGBoost, CatBoost, LightGBM)

Gradient Boosting Exploitez les arbres de décision pour le Machine Learning (XGBoost, CatBoost, LightGBM)

  • En stock
  • Expédié en 24h00
  • Livraison à partir de 0,01 €
  • Version en ligne offerte pendant 1 an
  • 1 h d'accès gratuit à tous nos livres et vidéos pour chaque commande
  • Accessible immédiatement et pour une durée de 10 ans
  • Version HTML
  • Accès illimité 24h/24, 7J/7
  • Accès illimité 24h/24, 7J/7
  • Tous les livres en ligne, les vidéos et les cours enregistrés ENI
  • Plus de 10 nouveautés livres et vidéos chaque mois
  • Les nouveautés disponibles le jour de leur sortie
  • Accès 100% en ligne

Présentation

Ce livre sur les méthodes de Gradient Boosting est destiné aux étudiants, universitaires, ingénieurs, data scientist qui souhaitent découvrir en profondeur le fonctionnement de cette technique de Machine Learning utilisée pour construire des ensembles d’arbres de décision.

Tous les concepts sont illustrés par des exemples de code applicatif. Ils permettent au lecteur de reconstruire from scratch sa propre librairie d’entraînement des méthodes de Gradient Boosting. En parallèle, le livre présente les bonnes pratiques de la Data Science et apporte au lecteur un solide bagage technique pour construire des modèles de Machine Learning.

Après une présentation des principes du Gradient Boosting citant les cas d’application, les avantages et les limites, le lecteur s’imprègne des détails de la théorie mathématique. Une implémentation simple est donnée afin d’en illustrer le fonctionnement.

Le lecteur est ensuite armé pour aborder la mise en application et la configuration de ces méthodes. Préparation des données, entraînement, explication d’un modèle, gestion de l’Hyper Parameter Tuning et utilisation des fonctions objectifs sont couverts en détail !

Les derniers chapitres du livre élargissent le sujet vers l’application du Gradient Boosting pour les séries temporelles, la présentation des bibliothèques emblématiques XGBoost, CatBoost et LightGBM ainsi que sur le concept de modèle multi-résolution.

Des éléments complémentaires sont en téléchargement sur le site www.editions-eni.fr.


Quizinclus dans
la version en ligne !
  • Testez vos connaissances à l'issue de chaque chapitre
  • Validez vos acquis

Table des matières

  • Avant-propos
    • 1. Constructionnisme
    • 2. Objectifs
    • 3. Structure de l’ouvrage
    • 4. Matériel
  • Gradient Boosted Tree : contexte et théorie
    • 1. Contexte
      • 1.1 Océan de données
      • 1.2 Quels bénéfices en tirer ?
      • 1.3 Souci de l’efficacité
    • 2. Cas d’application des méthodes de Gradient Boosting
      • 2.1 Palmarès reconnu
      • 2.2 Large spectre d’application
      • 2.3 Focus sur les données structurées
    • 3. Avantages indéniables
      • 3.1 Simplicité de configuration
      • 3.2 Polyvalence au service de l’efficacité
      • 3.3 Interprétabilité essentielle pour l’adoption
      • 3.4 Capacité d’ingestion des données importantes
      • 3.5 Grande robustesse
      • 3.6 Personnalisation au cas métier
      • 3.7 Très bon niveau de précision
    • 4. Limitations
      • 4.1 Absence de support de l’extrapolation
      • 4.2 Aucun travail sur les features
  • Gradient Boosted Tree : fonctionnement
    • 1. Méthodes ensemblistes
      • 1.1 Principes et motivations
    • 2. Arbres de décision
      • 2.1 Principes et motivations
      • 2.2 Exemple minimal
      • 2.3 Ensemble d’arbres de décision
    • 3. Gradient Boosting
      • 3.1 Principe du boosting
      • 3.2 Fondements mathématiques
        • 3.2.1 Paramètres
        • 3.2.2 Fonction objectif
        • 3.2.3 Optimisation
        • 3.2.4 Interprétation
      • 3.3 Implémentation minimale
        • 3.3.1 Classe DecisionEnsemble
        • 3.3.2 Exemple
      • 3.4 Régularisation
  • Entraîner efficacement un modèle
    • 1. Entraîner efficacement
    • 2. Préparation des données
      • 2.1 Enrichissement des données
      • 2.2 Volume de données
      • 2.3 Nettoyage des données
      • 2.4 Complétude des données
      • 2.5 Intégration des données catégorielles
      • 2.6 Dataset d'entraînement
      • 2.7 Dataset d’évaluation
        • 2.7.1 Rôle du dataset d’évaluation
        • 2.7.2 Importance d’un bon découpage
    • 3. Entraînement
      • 3.1 Choix des hyperparamètres
      • 3.2 Choix de l’objectif
    • 4. Métriques à considérer
      • 4.1 Rôle des métriques
      • 4.2 Périmètre de calcul des métriques
      • 4.3 Métriques pour la régression
        • 4.3.1 Mean Absolute Error
        • 4.3.2 Mean Absolute Percentage Error
        • 4.3.3 Mean Squared Error
        • 4.3.4 RMSE
        • 4.3.5 Coefficient de détermination : R²
        • 4.3.6 Modèle simple de référence
      • 4.4 Métriques pour la classification
        • 4.4.1 Accuracy
        • 4.4.2 Faux positifs
        • 4.4.3 Faux négatifs
        • 4.4.4 Matrice de confusion
        • 4.4.5 Précision
        • 4.4.6 Rappel
        • 4.4.7 F1-score
      • 4.5 Cross-validation
        • 4.5.1 Motivation de la cross-validation
        • 4.5.2 Principe de la cross-validation
        • 4.5.3 Découpages possibles
    • 5. Le piège du sur-apprentissage
      • 5.1 Description
      • 5.2 Détection
        • 5.2.1 Contraintes sur les hyperparamètres
        • 5.2.2 Régularisation
        • 5.2.3 Sous-échantillonnage
        • 5.2.4 Early stopping
    • 6. Application (digits dataset)
      • 6.1 Configuration par défaut
      • 6.2 Simplification du modèle
  • Comprendre et expliquer un modèle
    • 1. Explicabilité
      • 1.1 Motivation
      • 1.2 Vue globale
      • 1.3 Vue locale
      • 1.4 Particularité des arbres de décision
    • 2. Feature importances
      • 2.1 Présentation
      • 2.2 Calcul basé sur le niveau d’utilisation
      • 2.3 Calcul basé sur les gains
      • 2.4 Calcul basé sur la couverture
      • 2.5 Implémentation
      • 2.6 Interprétation des trois modes de calculs
    • 3. SHAP : SHapley Additive exPlanation
      • 3.1 Objectif : construire un modèle explicatif
      • 3.2 Valeurs de Shapley
      • 3.3 Implémentation
        • 3.3.1 Modèle linéaire
        • 3.3.2 Modèle générique
      • 3.4 Valeur de Shapley pour les arbres de décision
        • 3.4.1 Informations stockées pour les arbres de décision
        • 3.4.2 Exploitation pour la méthode SHAP
      • 3.5 Interprétation et visualisation des valeurs de Shapley
        • 3.5.1 Explicabilité locale
        • 3.5.2 Explicabilité globale
  • Hyperparameters Tuning
    • 1. Principes
      • 1.1 Motivations
      • 1.2 Fonctionnement
      • 1.3 Méthodes disponibles
        • 1.3.1 Brute force
        • 1.3.2 HalvingGridSearch
        • 1.3.3 Le hasard
        • 1.3.4 Approche de type substitut
    • 2. Hyperparamètres
      • 2.1 Définition
      • 2.2 Paramètres structurels
        • 2.2.1 Nombre d’estimateurs
        • 2.2.2 Profondeur maximale
      • 2.3 Paramètres d’apprentissage
        • 2.3.1 Impact des paramètres d’apprentissage
        • 2.3.2 Taux d’apprentissage
        • 2.3.3 Paramètre de régularisation gamma
        • 2.3.4 Paramètre de régularisation de type L2 : lambda
        • 2.3.5 Paramètre de régularisation de type L1 : alpha
    • 3. Bibliothèques existantes pour l’optimisation des hyperparamètres
      • 3.1 Scikit-learn
      • 3.2 Scikit-optimize
      • 3.3 SMAC
      • 3.4 Ray Tune
    • 4. Optimisation d’XGBoost avec XGBoost
      • 4.1 Objectif
      • 4.2 Principe général
      • 4.3 Espace de configuration et échantillonnage
      • 4.4 Optimiseur
      • 4.5 Application au Boston dataset
    • 5. AutoML et Hyperparameters Tuning
  • Du bon usage des fonctions objectifs
    • 1. Raison d’être des fonctions objectifs
    • 2. Importance des fonctions objectifs
    • 3. Objectifs usuels
      • 3.1 Classification
        • 3.1.1 Fonction logistique
        • 3.1.2 Soft Max
      • 3.2 Régression
        • 3.2.1 Squared error
        • 3.2.2 Pseudo Huber Loss
    • 4. Objectifs régularisés
      • 4.1 Logcosh
      • 4.2 Quantile regression
    • 5. Objectifs personnalisés
      • 5.1 XGBoost et régression par quantile
      • 5.2 Intervalles de confiance
  • Gradient Boosting pour les séries temporelles
    • 1. Séries temporelles
      • 1.1 Définition
      • 1.2 Spécificités
        • 1.2.1 Intrinsèque
        • 1.2.2 Traitement
    • 2. Séries temporelles et arbres de décision
      • 2.1 Extrapolation et arbres de décision
      • 2.2 Démonstration
      • 2.3 Détournement des fonctions objectifs
      • 2.4 Alternatives
    • 3. Capture des caractéristiques temporelles
      • 3.1 Exemple simple de périodicité
      • 3.2 Capture manuelle
        • 3.2.1 Principe
        • 3.2.2 Exemple
        • 3.2.3 Bestiaire des features calculables
      • 3.3 Extraction automatique
        • 3.3.1 Application à un cas simple
        • 3.3.2 Particularités des features de type caractéristiques temporelles
      • 3.4 Approche multimodèle
    • 4. Construction des datasets d’entraînement et de test
      • 4.1 Cloisonnement
      • 4.2 Fuite de données
      • 4.3 Respect de la temporalité
  • XGBoost, LightGBM ou CatBoost ?
    • 1. Pourquoi choisir ?
      • 1.1 Motivations
      • 1.2 De la théorie à la pratique
        • 1.2.1 Sélection de la feature et du critère de décision
        • 1.2.2 Support des features catégorielles
        • 1.2.3 Parallélisation et distribution
        • 1.2.4 Hyperparamètres
        • 1.2.5 Choix et customisation de la fonction objectif
        • 1.2.6 Interfaçage
        • 1.2.7 Simplicité d’usage
        • 1.2.8 Langage d’implémentation
        • 1.2.9 Support des valeurs manquantes
      • 1.3 Convictions
    • 2. XGBoost
      • 2.1 Partis pris
        • 2.1.1 Sélection de la feature et du critère de décision
        • 2.1.2 Support des features catégorielles
        • 2.1.3 Parallélisation et distribution
        • 2.1.4 Hyperparamètres
        • 2.1.5 Choix et customisation de la fonction objectif
        • 2.1.6 Interfaçage
        • 2.1.7 Simplicité d’usage
        • 2.1.8 Langage d’implémentation
        • 2.1.9 Support des valeurs manquantes
      • 2.2 Exemple
    • 3. LightGBM
      • 3.1 Partis pris
        • 3.1.1 Sélection de la feature et du critère de décision
        • 3.1.2 Support des features catégorielles
        • 3.1.3 Parallélisation et distribution
        • 3.1.4 Hyperparamètres
        • 3.1.5 Choix et customisation de la fonction objectif
        • 3.1.6 Interfaçage
        • 3.1.7 Simplicité d’usage
        • 3.1.8 Langage d’implémentation
        • 3.1.9 Support des valeurs manquantes
      • 3.2 Exemple
    • 4. CatBoost
      • 4.1 Partis pris
        • 4.1.1 Sélection de la feature et du critère de décision
        • 4.1.2 Support des features catégorielles
        • 4.1.3 Parallélisation et distribution
        • 4.1.4 Hyperparamètres
        • 4.1.5 Choix et customisation de la fonction objectif
        • 4.1.6 Interfaçage
        • 4.1.7 Simplicité d’usage
        • 4.1.8 Langage d’implémentation
        • 4.1.9 Support des valeurs manquantes
      • 4.2 Exemple
  • Approche multimodèle
    • 1. Modèle global
      • 1.1 Principe
      • 1.2 Motivations
    • 2. Modèle local
      • 2.1 Principe
      • 2.2 Motivations
      • 2.3 Cas d’applications
      • 2.4 Identification des résolutions
      • 2.5 Limitations
    • 3. Modèle optimisé global
      • 3.1 Principe
      • 3.2 Motivations
      • 3.3 Fonctionnement
  • Pour aller plus loin
    • 1. Un large aperçu
    • 2. Que retenir ?
    • 3. Un domaine en constante évolution
    • 4. Perspectives
      • 4.1 Couplage avec des réseaux de neurones
      • 4.2 Programmation différentiable
      • 4.3 Modèles hétérogènes
    • Index

Auteur

Guillaume SAUPINEn savoir plus

Ingénieur et docteur en informatique, passionné de mathématiques et du langage Lisp, Guillaume SAUPIN a travaillé une dizaine d’années comme chercheur au Commissariat à l’Energie Atomique avant de rejoindre le monde de l’Intelligence artificielle et des start up. Il a enseigné le Computer Graphics en master à l'Université Paris 12 et à Epitech. Actuellement CTO chez Verteego, il est également auteur de plus d’une vingtaine d’articles pour le Linux Magazine France et publie régulièrement en anglais sur des sujets de Data Science dans la publication en ligne Toward Data Science.

Caractéristiques

  • Niveau Expert
  • Nombre de pages 258 pages
  • Parution mars 2022
    • Livre (broché) - 17 x 21 cm
    • ISBN : 978-2-409-03402-2
    • EAN : 9782409034022
    • Ref. ENI : EPGRAD
  • Niveau Expert
  • Parution mars 2022
    • HTML
    • ISBN : 978-2-409-03403-9
    • EAN : 9782409034039
    • Ref. ENI : LNEPGRAD

Téléchargements

En complétant ce formulaire, vous acceptez d'être contacté afin de recevoir des informations sur nos produits et services ainsi que nos communications marketing. Vous aurez la possibilité de vous désabonner de nos communications à tout moment. Pour plus d'informations sur notre politique de protection des données, cliquez ici.
  • Des fichiers complémentaires (42 Ko)