Cette séance de cours couvre l'évaluation des gradients de politique en utilisant un exemple avec un horizon en 1 étape, en discutant de la règle en ligne de l'acteur binaire trouvée rapidement avec le tour de log-vraisemblance et en explorant diverses interprétations de la règle résultante. Il se penche également sur la règle de mise à jour de lexemple, en la comparant avec le modèle Perceptron et en la reliant à la biologie en analysant la direction du vecteur de poids en réponse à des stimuli. En outre, il explore la généralisation en soustrayant une ligne de base de récompense et en dérivant une règle de gradient en ligne, démontrant son efficacité à maximiser les récompenses.