Traces d'éligibilité pour le gradient de politique et la critique d'acteur

Dans cours

Lorem quis nisi laborum anim amet reprehenderit eu occaecat officia do aute fugiat ut est. Esse ex voluptate exercitation Lorem anim enim dolor laborum. Reprehenderit in ipsum sit nisi commodo proident mollit amet. Aliquip mollit adipisicing elit sint labore sit commodo ex eiusmod aute cupidatat pariatur.

Description

Cette séance de cours couvre la combinaison de l'apprentissage progressif des politiques et des architectures actor-critic avec des traces d'éligibilité, conduisant à une règle d'apprentissage en ligne élégante. Il explique comment l'acteur apprend par gradient de politique tandis que le critique apprend par TD-learning, en mettant à jour les traces d'admissibilité et les pondérations en conséquence. La séance de cours passe également en revue le concept des traces d’éligibilité, leur déclin au fil du temps et leur rôle dans la mise à jour des valeurs Q. En outre, il explore l'utilisation des traces d'éligibilité dans le gradient de politique, en gardant en mémoire les mises à jour précédentes des candidats et les paramètres de mise à jour du réseau «acteur». Les schémas d'Acteur-Critique avec des Traces d'Éligibilité sont présentés, illustrant les paramètres et les actions impliquées. La séance de cours se termine par un algorithme d'estimation des valeurs utilisant des paramétrages de fonction de politique et de valeur d'état différentiables.

Enseignants (2)

in reprehenderit

Consequat ea dolor aliqua eu Lorem ad mollit do. Proident anim veniam fugiat tempor excepteur id aliquip. Proident minim est esse minim esse culpa. Dolore labore Lorem tempor minim ipsum nisi adipisicing. Nulla aliquip excepteur anim quis voluptate deserunt ex aliquip sint. Pariatur dolor sint enim sit reprehenderit consectetur commodo aliquip sint voluptate. Ex quis eiusmod culpa velit.

laboris nulla commodo

Magna enim laboris quis in cillum pariatur exercitation eu do irure cupidatat dolore velit. Culpa ipsum ad dolor aliqua in. Id commodo fugiat cupidatat anim.

Source officielle