Séance de cours

RL profonde basée sur le modèle: planification et VAST

Description

Cette séance de cours présente l'apprentissage par renforcement basé sur des modèles, en mettant l'accent sur la planification en arrière-plan. Il couvre l'estimation de la dynamique de transition et de la structure de récompense, l'utilisation de modèles pour la planification, la tabulation des états variables, la planification du temps de décision et les algorithmes AlphaZero et MuZero. L'instructeur met l'accent sur l'efficacité de la mise à jour des valeurs Q et V grâce à l'itération de la valeur dans l'apprentissage par renforcement basé sur un modèle.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.