Séance de cours

Algorithmes de gradient de politique et valeurs V

Description

Cette séance de cours couvre la relation entre les algorithmes de gradient de politique et les valeurs V, expliquant comment les valeurs V peuvent être utilisées pour accélérer la convergence des algorithmes à travers des réseaux de critiques actifs. Il traite également du calcul des valeurs V dans un réseau séparé et du partage potentiel des neurones avec le réseau réel.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.