Explore les agents d'apprentissage profond dans l'apprentissage du renforcement, en mettant l'accent sur les approximations du réseau neuronal et les défis dans la formation des systèmes multiactifs.
Explore les défis d'apprentissage en renforcement continu de l'état, l'estimation de la fonction de valeur, les gradients des politiques et l'apprentissage des politiques par l'exploration pondérée.
Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.
Couvre les bases de l'apprentissage de renforcement, y compris l'apprentissage d'essai et d'erreur, l'apprentissage Q, le RL profond, et les applications dans le jeu et la planification.
Explore la minimisation des risques à partir de données recueillies adaptativement avec des garanties pour l'apprentissage des politiques et l'importance des stratégies d'exploration.