Séance de cours

Variations du SARSA : apprentissage prévu du SARSA et du Q

Dans cours

This course provides an overview and introduces modern methods for reinforcement learning (RL.) The course starts with the fundamentals of RL, such as Q-learning, and delves into commonly used approac

Description

Cette séance de cours présente les variations de l'algorithme SARSA, en mettant l'accent sur l'apprentissage attendu SARSA et Q. Le SARSA prévu met à jour la politique en faisant la moyenne des prochaines actions possibles, tandis que Q learning met à jour la politique en considérant l'action maximale possible. L'instructeur explique les différences entre ces variations et leur impact sur le processus d'apprentissage.

Enseignants (2)

Caglar Gulcehre

Wulfram Gerstner

Wulfram Gerstner is Director of the Laboratory of Computational Neuroscience LCN at the EPFL. His research in computational neuroscience concentrates on models of spiking neurons and spike-timing dependent plasticity, on the problem of neuronal coding in single neurons and populations, as well as on the link between biologically plausible learning rules and behavioral manifestations of learning. He teaches courses for Physicists, Computer Scientists, Mathematicians, and Life Scientists at the EPFL. After studies of Physics in Tübingen and at the Ludwig-Maximilians-University Munich (Master 1989), Wulfram Gerstner spent a year as a visiting researcher in Berkeley. He received his PhD in theoretical physics from the Technical University Munich in 1993 with a thesis on associative memory and dynamics in networks of spiking neurons. After short postdoctoral stays at Brandeis University and the Technical University of Munich, he joined the EPFL in 1996 as assistant professor. Promoted to Associate Professor with tenure in February 2001, he is since August 2006 a full professor with double appointment in the School of Computer and Communication Sciences and the School of Life Sciences. Wulfram Gerstner has been invited speaker at numerous international conferences and workshops. He has served on the editorial board of the Journal of Neuroscience, Network: Computation in Neural Systems', Journal of Computational Neuroscience', and `Science'.

Source officielle

Séances de cours associées (29)

Perception : Approches fondées sur les données

Explore la perception dans l'apprentissage profond pour les véhicules autonomes, couvrant la classification d'image, les méthodes d'optimisation, et le rôle de la représentation dans l'apprentissage automatique.

Agents d'apprentissage profond : Renforcement de l'apprentissage

Explore les agents d'apprentissage profond dans l'apprentissage du renforcement, en mettant l'accent sur les approximations du réseau neuronal et les défis dans la formation des systèmes multiactifs.

Apprentissage par renforcement: gradient de politique et méthodes critiques pour les acteurs

Fournit une vue d'ensemble de l'apprentissage par renforcement, en se concentrant sur le gradient de politique et les méthodes critiques des acteurs pour les réseaux de neurones artificiels profonds.

Le paysage d'optimisation de Convex caché des réseaux neuronaux profonds

Explore le paysage d'optimisation convexe caché des réseaux neuronaux profonds, montrant la transition des modèles non convexes aux modèles convexes.

Physique statistique dans l'apprentissage automatique: Comprendre l'apprentissage profond

Explore l'application de la physique statistique à la compréhension de l'apprentissage profond en mettant l'accent sur les réseaux neuronaux et les défis de l'apprentissage automatique.

Afficher plus