Séance de cours

MuZero: Modèle de planification et d'apprentissage

Dans cours

This course provides an overview and introduces modern methods for reinforcement learning (RL.) The course starts with the fundamentals of RL, such as Q-learning, and delves into commonly used approac

Description

Cette séance de cours présente MuZero, un modèle qui apprend à prédire les récompenses et les actions de manière itérative, en réalisant des performances de pointe dans les jeux de société et les jeux vidéo Atari. MuZero utilise un modèle de représentation et de dynamique latente apprise pour planifier et agir dans l’environnement. Le modèle est formé de bout en bout pour prédire la politique, la fonction de valeur et la récompense. La séance de cours couvre également l'histoire de la réussite de MuZero et son approche de l'apprentissage d'un codage des observations et des fonctions de transition. Il se termine par des idées sur la résolution du problème des échantillons corrélés dans l'apprentissage par renforcement.

Enseignants (2)

Wulfram Gerstner

Wulfram Gerstner is Director of the Laboratory of Computational Neuroscience LCN at the EPFL. His research in computational neuroscience concentrates on models of spiking neurons and spike-timing dependent plasticity, on the problem of neuronal coding in single neurons and populations, as well as on the link between biologically plausible learning rules and behavioral manifestations of learning. He teaches courses for Physicists, Computer Scientists, Mathematicians, and Life Scientists at the EPFL. After studies of Physics in Tübingen and at the Ludwig-Maximilians-University Munich (Master 1989), Wulfram Gerstner spent a year as a visiting researcher in Berkeley. He received his PhD in theoretical physics from the Technical University Munich in 1993 with a thesis on associative memory and dynamics in networks of spiking neurons. After short postdoctoral stays at Brandeis University and the Technical University of Munich, he joined the EPFL in 1996 as assistant professor. Promoted to Associate Professor with tenure in February 2001, he is since August 2006 a full professor with double appointment in the School of Computer and Communication Sciences and the School of Life Sciences. Wulfram Gerstner has been invited speaker at numerous international conferences and workshops. He has served on the editorial board of the Journal of Neuroscience, Network: Computation in Neural Systems', Journal of Computational Neuroscience', and `Science'.

Caglar Gulcehre

Source officielle

Séances de cours associées (30)

Apprentissage par renforcement profond basé sur des modèles: Monte Carlo Tree Search

Explore l'apprentissage par renforcement profond basé sur des modèles, en se concentrant sur Monte Carlo Tree Search et ses applications dans les stratégies de jeu et les processus décisionnels.

Agents d'apprentissage profond : Renforcement de l'apprentissage

Explore les agents d'apprentissage profond dans l'apprentissage du renforcement, en mettant l'accent sur les approximations du réseau neuronal et les défis dans la formation des systèmes multiactifs.

Renforcement de l'apprentissage : bases et applications

Couvre les bases de l'apprentissage de renforcement, y compris l'apprentissage d'essai et d'erreur, l'apprentissage Q, le RL profond, et les applications dans le jeu et la planification.

Monte Carlo Tree Search et Alpha Zero

Explore Monte Carlo Tree Search et Alpha Zero dans l'apprentissage par renforcement profond.

RL profonde basée sur le modèle: planification et VAST

Couvre l'apprentissage par modèle, la planification, la tabulation des états variables et la mise à jour efficace des valeurs Q et V.

Afficher plus