Séance de cours

MuZero: Modèle de planification et d'apprentissage

Description

Cette séance de cours présente MuZero, un modèle qui apprend à prédire les récompenses et les actions de manière itérative, en réalisant des performances de pointe dans les jeux de société et les jeux vidéo Atari. MuZero utilise un modèle de représentation et de dynamique latente apprise pour planifier et agir dans l’environnement. Le modèle est formé de bout en bout pour prédire la politique, la fonction de valeur et la récompense. La séance de cours couvre également l'histoire de la réussite de MuZero et son approche de l'apprentissage d'un codage des observations et des fonctions de transition. Il se termine par des idées sur la résolution du problème des échantillons corrélés dans l'apprentissage par renforcement.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.