Sommaire

La descente de gradient

La descente de gradient a déjà été abordée dans le chapitre Principaux algorithmes du Machine Learning consacré aux statistiques, mais il est sans doute important d’y revenir à présent, car il s’agit d’un concept important dans la compréhension du fonctionnement des réseaux de neurones.

L’objectif de la descente de gradient est de minimiser la fonction d’erreur en ajustant petit à petit les paramètres d’apprentissage représentés par les différents poids.

Reprenons l’image de la descente de la montagne. Vous vous situez au point le plus haut de la montagne et vous souhaitez atteindre la plaine en contrebas. Cependant, il fait nuit noire et vous n’êtes pas en mesure de voir où vous allez. Vous allez donc progresser doucement par petits pas jusqu’à atteindre le bas de la vallée.

La descente de gradient correspond à cette métaphore et se réalise par l’ajustement des différents poids du réseau de neurones jusqu’à obtenir une convergence, c’est-à-dire un minimum d’erreurs. Cet ajustement se fait par petit pas à l’aide d’un hyper paramètre appelé taux d’apprentissage (learning rate).

La différence entre un paramètre et un hyper paramètre est que les premiers sont définis au niveau du modèle d’apprentissage (valeur des poids) ...