Cette séance de cours couvre la transition d'une approximation de Monte Carlo de la moyenne à l'élaboration de règles de mise à jour par lots et en ligne pour l'apprentissage dans les réseaux neuronaux, en se concentrant sur les gradients de politique et la fonction logistique en tant que fonction de transfert.