Explore l'apprentissage par renforcement profond basé sur des modèles, en se concentrant sur Monte Carlo Tree Search et ses applications dans les stratégies de jeu et les processus décisionnels.
Introduit Q-Learning, Deep Q-Learning, l'algorithme REINFORCE et Monte-Carlo Tree Search dans l'apprentissage par renforcement, aboutissant à AlphaGo Zero.
Explorer la résolution Connect Four en utilisant la théorie du jeu et l'optimisation des algorithmes, en comparant minimax, taille alpha-bêta, et recherche d'arbre Monte-Carlo.