Cette séance de cours couvre la combinaison de l'apprentissage progressif des politiques et des architectures actor-critic avec des traces d'éligibilité, conduisant à une règle d'apprentissage en ligne élégante. Il explique comment l'acteur apprend par gradient de politique tandis que le critique apprend par TD-learning, en mettant à jour les traces d'admissibilité et les pondérations en conséquence. La séance de cours passe également en revue le concept des traces d’éligibilité, leur déclin au fil du temps et leur rôle dans la mise à jour des valeurs Q. En outre, il explore l'utilisation des traces d'éligibilité dans le gradient de politique, en gardant en mémoire les mises à jour précédentes des candidats et les paramètres de mise à jour du réseau «acteur». Les schémas d'Acteur-Critique avec des Traces d'Éligibilité sont présentés, illustrant les paramètres et les actions impliquées. La séance de cours se termine par un algorithme d'estimation des valeurs utilisant des paramétrages de fonction de politique et de valeur d'état différentiables.