Cette séance de cours couvre la classification des méthodes d'apprentissage par renforcement profond, en se concentrant sur les mini-batches dans des contextes à la fois politiques et non politiques. Il commence par un aperçu des algorithmes RL profonds, y compris les approches sans modèle et basées sur le modèle, et souligne limportance dutiliser des mini-batches indépendants et distribués de manière identique pour la formation. L'instructeur explique les problèmes causés par les mises à jour de poids corrélées dans le temps, ce qui peut entraîner des instabilités dans l'apprentissage. Les solutions proposées comprennent l'utilisation de tampons de relecture et de multiples acteurs parallèles pour échantillonner efficacement les données. La séance de cours explore également des algorithmes spécifiques tels que Deep Q-Networks (DQN) et Advantage Actor-Critic (A2C), discutant de leurs avantages et inconvénients en termes de complexité de l'échantillon. La discussion s'étend aux méthodes de contrôle continu telles que l'optimisation de politique proximale (PPO) et le gradient de politique déterministe profond (DDPG), ainsi qu'aux approches basées sur des modèles tels que AlphaZero et MuZero. La séance de cours se termine par un quiz pour renforcer les concepts couverts, assurant une compréhension complète des techniques d'apprentissage par renforcement profond.