Séance de cours

TD Learning : Apprentissage par différence temporelle

Dans cours

This course provides an overview and introduces modern methods for reinforcement learning (RL.) The course starts with the fundamentals of RL, such as Q-learning, and delves into commonly used approac

Description

Cette séance de cours présente l'apprentissage par différence temporelle (TD learning) et l'algorithme standard TD(0) pour estimer les valeurs dans l'apprentissage par renforcement. Il couvre le concept de valeurs V, les valeurs d'état et l'équation de Bellman pour la cohérence des valeurs des états voisins. La séance de cours explique également comment les méthodes TD explorent le graphique au fil du temps, comparent les valeurs aux pas de temps voisins et mettent à jour les valeurs en fonction de la «différence temporelle».

Enseignants (2)

Caglar Gulcehre

Wulfram Gerstner

Wulfram Gerstner is Director of the Laboratory of Computational Neuroscience LCN at the EPFL. His research in computational neuroscience concentrates on models of spiking neurons and spike-timing dependent plasticity, on the problem of neuronal coding in single neurons and populations, as well as on the link between biologically plausible learning rules and behavioral manifestations of learning. He teaches courses for Physicists, Computer Scientists, Mathematicians, and Life Scientists at the EPFL. After studies of Physics in Tübingen and at the Ludwig-Maximilians-University Munich (Master 1989), Wulfram Gerstner spent a year as a visiting researcher in Berkeley. He received his PhD in theoretical physics from the Technical University Munich in 1993 with a thesis on associative memory and dynamics in networks of spiking neurons. After short postdoctoral stays at Brandeis University and the Technical University of Munich, he joined the EPFL in 1996 as assistant professor. Promoted to Associate Professor with tenure in February 2001, he is since August 2006 a full professor with double appointment in the School of Computer and Communication Sciences and the School of Life Sciences. Wulfram Gerstner has been invited speaker at numerous international conferences and workshops. He has served on the editorial board of the Journal of Neuroscience, Network: Computation in Neural Systems', Journal of Computational Neuroscience', and `Science'.

Source officielle

Séances de cours associées (30)

Renforcement de l'apprentissage : Q-Learning

Couvre l'apprentissage Q en renforçant l'apprentissage, en explorant les valeurs d'action, les politiques et l'impact sociétal des algorithmes.

Apprentissage par renforcement : TD Learning et les variantes de la LEP

Discute de l'apprentissage par renforcement, en se concentrant sur l'apprentissage par différence temporelle et les variations de l'algorithme SARSA.

Prédiction sans modèle dans l'apprentissage par renforcement: méthodes clés

Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.

Introduction à l'apprentissage par renforcement: concepts et applications

Introduit l'apprentissage par renforcement, couvrant ses concepts, ses applications et ses algorithmes clés.

Mini-bateaux dans l'apprentissage de renforcement profond sur-et-hors-politique

Explique l'importance des mini-lots dans l'apprentissage par renforcement profond et les différences entre les méthodes on-policy et off-policy.

Afficher plus