Intensifier l'apprentissage avec la rétroaction humaine, discuter de la convergence des estimateurs et introduire une approche pessimiste pour améliorer les performances.
Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Explore l'intégration Monte-Carlo pour approximer les attentes et les variances à l'aide d'échantillonnage aléatoire et discute des composants d'erreur dans les modèles de choix conditionnel.
Explore les méthodes de dégradé de politique sur plusieurs étapes temporelles, en mettant l'accent sur la mise à jour des paramètres de politique pour maximiser les récompenses.
Discute du gradient des politiques et des méthodes acteurs-critiques, en se concentrant sur les traces d'éligibilité et leur application dans les tâches d'apprentissage de renforcement.
Couvre les méthodes de gradient de politique dans l'apprentissage du renforcement, en se concentrant sur les techniques d'optimisation et les applications pratiques comme le problème du poteau.