Séance de cours

Traces d'éligibilité pour le gradient de politique et la critique d'acteur

Description

Cette séance de cours couvre la combinaison de l'apprentissage progressif des politiques et des architectures actor-critic avec des traces d'éligibilité, conduisant à une règle d'apprentissage en ligne élégante. Il explique comment l'acteur apprend par gradient de politique tandis que le critique apprend par TD-learning, en mettant à jour les traces d'admissibilité et les pondérations en conséquence. La séance de cours passe également en revue le concept des traces d’éligibilité, leur déclin au fil du temps et leur rôle dans la mise à jour des valeurs Q. En outre, il explore l'utilisation des traces d'éligibilité dans le gradient de politique, en gardant en mémoire les mises à jour précédentes des candidats et les paramètres de mise à jour du réseau «acteur». Les schémas d'Acteur-Critique avec des Traces d'Éligibilité sont présentés, illustrant les paramètres et les actions impliquées. La séance de cours se termine par un algorithme d'estimation des valeurs utilisant des paramétrages de fonction de politique et de valeur d'état différentiables.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.