Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours présente l'apprentissage par renforcement basé sur des modèles, en mettant l'accent sur la planification en arrière-plan. Il couvre l'estimation de la dynamique de transition et de la structure de récompense, l'utilisation de modèles pour la planification, la tabulation des états variables, la planification du temps de décision et les algorithmes AlphaZero et MuZero. L'instructeur met l'accent sur l'efficacité de la mise à jour des valeurs Q et V grâce à l'itération de la valeur dans l'apprentissage par renforcement basé sur un modèle.