Séance de cours

Relation de l'équation de SARSA et de Bellman

Description

Cette séance de cours présente une esquisse d'une preuve concernant la relation entre la fluctuation des valeurs Q dans la SARSA et l'équation de Bellman. L'instructeur explique les hypothèses, les attentes et les mises à jour de l'algorithme SARSA, en mettant l'accent sur la convergence avec l'équation de Bellman par le biais des attentes des valeurs Q. La preuve implique des modifications de la règle de mise à jour, des attentes de récompenses et des politiques, soulignant l'impact d'un faible taux d'apprentissage sur le rapprochement de la constance des politiques. En considérant la politique comme constante lors de la moyenne statistique, les valeurs dattente de Q-hat SA sont dérivées, montrant une connexion à léquation de Bellman.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.