Séance de cours

RL profonde basée sur le modèle: planification et VAST

Description

Cette séance de cours présente l'apprentissage par renforcement basé sur des modèles, en mettant l'accent sur la planification en arrière-plan. Il couvre l'estimation de la dynamique de transition et de la structure de récompense, l'utilisation de modèles pour la planification, la tabulation des états variables, la planification du temps de décision et les algorithmes AlphaZero et MuZero. L'instructeur met l'accent sur l'efficacité de la mise à jour des valeurs Q et V grâce à l'itération de la valeur dans l'apprentissage par renforcement basé sur un modèle.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.