Cette séance de cours présente les méthodes de gradient de politique en utilisant un exemple simple d'un seul neurone avec sortie binaire, en se concentrant sur les inconvénients de Q-learning, SARSA et TD-learning, et en expliquant l'idée de base des méthodes de gradient de politique pour optimiser directement les récompenses.