Séance de cours

Gradient Descent: Techniques d'optimisation

Description

Cette séance de cours couvre les concepts de descente en gradient, de convexe et de perte non convexe, de descente en gradient stochastique et d'arrêt précoce dans le contexte de la formation de réseaux neuraux. Il explique l'importance des petits poids au début de la descente du gradient, l'impact de l'augmentation de la perte de validation et la norme des paramètres pendant l'entraînement. La séance de cours se penche également sur les différences entre la descente standard et la descente stochastique du gradient, en mettant l'accent sur l'efficacité computationnelle de ce dernier. Diverses techniques et stratégies d'optimisation sont discutées, y compris l'utilisation de l'optimiseur ADAMW et le concept d'arrêt précoce comme forme de régularisation.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.