Cette séance de cours couvre les variantes de descente par gradient utilisées dans la pratique, en mettant l'accent sur la descente par gradient stochastique (SGD) et ses propriétés. Il explique comment SGD fonctionne en choisissant un minimum d'échantillons à chaque itération, en approximant le dérivé complet. La séance de cours se penche également sur la classification linéaire, en discutant du concept d'un séparateur linéaire et de l'importance d'avoir des propriétés différentielles presque partout.