Rouler vers le bas pour trouver le minimum — le moteur du machine learning
La descente de gradient trouve le minimum d'une fonction en faisant des pas répétés dans la direction de la pente la plus raide. Le gradient (dérivée) indique quelle direction est "en descente", et le taux d'apprentissage contrôle la taille de chaque pas.
Le graphique montre f(x) = x⁴ − 3x² + 2, qui a deux vallées (minima locaux). En partant d'un point, l'algorithme suit la pente vers le bas, pas à pas, jusqu'à atteindre une vallée. C'est exactement ainsi qu'apprennent les réseaux de neurones — ils "roulent vers le bas" sur un paysage de perte.
Demandez à l'IA « Démarre en x = 2 et descends » ou « Que se passe-t-il avec un grand taux d'apprentissage ? »