Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours présente une esquisse d'une preuve concernant la relation entre la fluctuation des valeurs Q dans la SARSA et l'équation de Bellman. L'instructeur explique les hypothèses, les attentes et les mises à jour de l'algorithme SARSA, en mettant l'accent sur la convergence avec l'équation de Bellman par le biais des attentes des valeurs Q. La preuve implique des modifications de la règle de mise à jour, des attentes de récompenses et des politiques, soulignant l'impact d'un faible taux d'apprentissage sur le rapprochement de la constance des politiques. En considérant la politique comme constante lors de la moyenne statistique, les valeurs dattente de Q-hat SA sont dérivées, montrant une connexion à léquation de Bellman.