Cette séance de cours couvre les concepts de gradient de politique et de méthodes acteur-critique dans l'apprentissage de renforcement, en se concentrant sur les traces d'éligibilité. L'instructeur commence par introduire des traces d'admissibilité et leur émergence naturelle dans le cadre du gradient de politique. Une distinction est faite entre les environnements épisodiques et continus, en mettant l'accent sur l'optimisation des rendements de tous les états plutôt que sur un seul état de départ. La séance de cours progresse à travers des formulations mathématiques, démontrant comment optimiser les rendements attendus sur plusieurs étapes temporelles. L'instructeur explique l'importance des traces d'admissibilité dans la mise à jour des paramètres et introduit des variables d'ombre pour un apprentissage efficace. L'application de ces concepts est illustrée par une tâche de navigation labyrinthe, mettant en valeur les avantages des méthodes acteur-critique avec des traces d'éligibilité par rapport aux approches traditionnelles d'apprentissage par renforcement. La séance de cours se termine par une discussion sur lapprentissage de renforcement basé sur le modèle par rapport au modèle sans modèle, soulignant les avantages davoir un modèle de lenvironnement pour ladaptabilité et la planification. Dans l'ensemble, la séance de cours fournit une compréhension complète des techniques d'apprentissage avancées de renforcement et de leurs implications pratiques.