Cette séance de cours couvre les techniques d'optimisation en apprentissage automatique, en se concentrant sur la descente en gradient stochastique (SGD) et ses applications. Il commence par une introduction à l'optimisation contrainte, expliquant comment SGD peut être adapté aux problèmes contraints par le biais de SGD projeté. L'instructeur discute de la structure des fonctions objectives et de l'efficacité de SGD par rapport à la descente de gradient complet, en soulignant les avantages économiques de l'utilisation de gradients stochastiques. Le concept d'impartialité dans les gradients stochastiques est introduit, ainsi que des théorèmes concernant les taux de convergence sous certaines conditions. La séance de cours explore également le mini-lot SGD, en mettant l'accent sur la réduction de la variance et les avantages du calcul parallèle. La discussion s'étend aux défis d'optimisation non convexes, y compris les minima locaux et les points de selle, et le comportement de descente en pente dans ces scénarios. Enfin, la séance de cours aborde la mécanique hamiltonienne et la transformation des coordonnées, reliant les techniques d'optimisation à des concepts mathématiques plus larges.
Cette vidéo est disponible exclusivement sur Mediaspace pour un public restreint. Veuillez vous connecter à Mediaspace pour y accéder si vous disposez des autorisations nécessaires.
Regarder sur Mediaspace