Cette séance de cours couvre la mise en œuvre de l'algorithme REINFORCE avec une ligne de base utilisant un réseau de neurones avec une architecture acteur-critique. Il explique comment mettre à jour les paramètres de politique pour maximiser le rendement, calculer les gradients, soustraire une ligne de base de récompense et apprendre deux réseaux neuronaux pour les actions et les fonctions de valeur.