Explore l'apprentissage par renforcement profond basé sur des modèles, en se concentrant sur Monte Carlo Tree Search et ses applications dans les stratégies de jeu et les processus décisionnels.
Discute des méthodes d'apprentissage par renforcement profond, en se concentrant sur les mini-batchs et les implications des techniques de formation on-policy et off-policy.
Couvre les bases de l'apprentissage du renforcement, y compris les processus décisionnels de Markov et les méthodes de gradient des politiques, et explore les applications du monde réel et les avancées récentes.
Introduit Q-Learning, Deep Q-Learning, l'algorithme REINFORCE et Monte-Carlo Tree Search dans l'apprentissage par renforcement, aboutissant à AlphaGo Zero.
Explore la perspective historique et le développement de l'algorithme AlphaGo, en se concentrant sur l'apprentissage automatique et les stratégies de jeu.