Séance de cours

Méthodes de dégradé de politique: plusieurs étapes temporelles

Description

Cette séance de cours couvre les méthodes de gradient de politique sur plusieurs étapes temporelles, dans le but de mettre à jour les paramètres de politique pour maximiser la récompense totale escomptée. Les diapositives présentent la dérivation de ces méthodes, y compris le calcul des récompenses accumulées en épisodes et le pseudo-code de l'algorithme REINFORCE.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.