Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre les bases de l'apprentissage par renforcement (RL) en tant que problème de décision séquentiel, en se concentrant sur les états et les actions discrets, les politiques, les fonctions de valeur, les processus décisionnels de Markov (MDP), les équations de Bellman et les méthodes pour trouver des politiques optimales. L'instructeur explique les concepts de programmation dynamique, d'échantillonnage Monte-Carlo et d'apprentissage de la différence temporelle pour estimer les fonctions de valeur. La séance de cours explore également l'équation d'optimisation Bellman, les stratégies de contrôle et le processus itératif d'apprentissage de la politique optimale. Les inconvénients de la RL standard, tels que la malédiction de la dimensionnalité et les défis de la gestion des espaces d'état et d'action continus, sont discutés.