Séance de cours

MuZero: Modèle de planification et d'apprentissage

Description

Cette séance de cours présente MuZero, un modèle qui apprend à prédire les récompenses et les actions de manière itérative, en réalisant des performances de pointe dans les jeux de société et les jeux vidéo Atari. MuZero utilise un modèle de représentation et de dynamique latente apprise pour planifier et agir dans l’environnement. Le modèle est formé de bout en bout pour prédire la politique, la fonction de valeur et la récompense. La séance de cours couvre également l'histoire de la réussite de MuZero et son approche de l'apprentissage d'un codage des observations et des fonctions de transition. Il se termine par des idées sur la résolution du problème des échantillons corrélés dans l'apprentissage par renforcement.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.