Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours présente MuZero, un modèle qui apprend à prédire les récompenses et les actions de manière itérative, en réalisant des performances de pointe dans les jeux de société et les jeux vidéo Atari. MuZero utilise un modèle de représentation et de dynamique latente apprise pour planifier et agir dans l’environnement. Le modèle est formé de bout en bout pour prédire la politique, la fonction de valeur et la récompense. La séance de cours couvre également l'histoire de la réussite de MuZero et son approche de l'apprentissage d'un codage des observations et des fonctions de transition. Il se termine par des idées sur la résolution du problème des échantillons corrélés dans l'apprentissage par renforcement.