Cette séance de cours se concentre sur les méthodes de gradient de politique dans l'apprentissage de renforcement, en mettant l'accent sur l'apprentissage direct des actions plutôt que de compter sur les valeurs Q. L'instructeur commence par passer en revue les méthodes traditionnelles de TD et introduit l'idée de base des gradients de politique, qui optimisent les actions basées sur les récompenses. La séance de cours traite de l'astuce de log-vraisemblance pour obtenir des poids statistiques corrects et explore les avantages des méthodes de gradient de politique sur Q-learning, en particulier dans les espaces d'état continus. L'instructeur met en évidence les défis auxquels sont confrontés les algorithmes TD dans des environnements partiellement observables et la nécessité d'une approximation des fonctions. La séance de cours couvre également la transition de l'apprentissage par lots à l'apprentissage en ligne, illustrant comment maximiser les récompenses attendues grâce à l'ascension stochastique. Des exercices sont inclus pour renforcer la compréhension des concepts, tels que le calcul des gradients et l'application de la règle du gradient de politique. La session se termine par un résumé des points clés et un aperçu des sujets à venir dans l'apprentissage par renforcement profond, en particulier l'intégration des gradients de politiques avec les réseaux acteur-critique.