Cette séance de cours couvre la transition de la descente stochastique en gradient à l'optimisation non-smooth, en se concentrant sur des sujets tels que la sparté, la détection de compression, et les normes atomiques. Il se penche sur la programmation stochastique, les problèmes synthétiques des moindres carrés et la convergence de SGD pour les problèmes fortement convexes. L'instructeur explique l'importance des techniques de sélection par étapes et de moyennes pour améliorer les performances d'optimisation.