Séance de cours

Méthodes de dégradé de politique: plusieurs étapes temporelles

Dans cours

This course provides an overview and introduces modern methods for reinforcement learning (RL.) The course starts with the fundamentals of RL, such as Q-learning, and delves into commonly used approac

Description

Cette séance de cours couvre les méthodes de gradient de politique sur plusieurs étapes temporelles, dans le but de mettre à jour les paramètres de politique pour maximiser la récompense totale escomptée. Les diapositives présentent la dérivation de ces méthodes, y compris le calcul des récompenses accumulées en épisodes et le pseudo-code de l'algorithme REINFORCE.

Enseignants (2)

Caglar Gulcehre

Wulfram Gerstner

Wulfram Gerstner is Director of the Laboratory of Computational Neuroscience LCN at the EPFL. His research in computational neuroscience concentrates on models of spiking neurons and spike-timing dependent plasticity, on the problem of neuronal coding in single neurons and populations, as well as on the link between biologically plausible learning rules and behavioral manifestations of learning. He teaches courses for Physicists, Computer Scientists, Mathematicians, and Life Scientists at the EPFL. After studies of Physics in Tübingen and at the Ludwig-Maximilians-University Munich (Master 1989), Wulfram Gerstner spent a year as a visiting researcher in Berkeley. He received his PhD in theoretical physics from the Technical University Munich in 1993 with a thesis on associative memory and dynamics in networks of spiking neurons. After short postdoctoral stays at Brandeis University and the Technical University of Munich, he joined the EPFL in 1996 as assistant professor. Promoted to Associate Professor with tenure in February 2001, he is since August 2006 a full professor with double appointment in the School of Computer and Communication Sciences and the School of Life Sciences. Wulfram Gerstner has been invited speaker at numerous international conferences and workshops. He has served on the editorial board of the Journal of Neuroscience, Network: Computation in Neural Systems', Journal of Computational Neuroscience', and `Science'.

Source officielle

Séances de cours associées (30)

Calcul différentiel : définition et dérivéabilité

Explore la définition et la dérivée des fonctions dans le calcul différentiel, en mettant laccent sur la différentiabilité à des points spécifiques.

Tangente au graphe d'une fonction

Explore la recherche de l'équation de la tangente au graphe d'une fonction à un point.

Dérivés : définition et propriétés

Explore la définition et les propriétés des dérivés, y compris les pentes des lignes tangentes et les conditions de différentiabilité.

Règle de chaîne dérivée

Couvre la dérivée de la composition de deux fonctions et la règle de chaîne théorème.

Dérivabilité et continuité

Explore la dérivation, la continuité et les fonctions composites avec des exemples illustratifs.

Afficher plus