Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Discute des méthodes d'apprentissage par renforcement profond, en se concentrant sur les mini-batchs et les implications des techniques de formation on-policy et off-policy.
Couvre le concept de descente de gradient dans les cas scalaires, en se concentrant sur la recherche du minimum d'une fonction en se déplaçant itérativement dans la direction du gradient négatif.
Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.
Couvre les bases de l'apprentissage de renforcement, y compris l'apprentissage d'essai et d'erreur, l'apprentissage Q, le RL profond, et les applications dans le jeu et la planification.