Introduit Q-Learning, Deep Q-Learning, l'algorithme REINFORCE et Monte-Carlo Tree Search dans l'apprentissage par renforcement, aboutissant à AlphaGo Zero.
Discute du gradient des politiques et des méthodes acteurs-critiques, en se concentrant sur les traces d'éligibilité et leur application dans les tâches d'apprentissage de renforcement.
Fournit une vue d'ensemble de l'apprentissage par renforcement, en se concentrant sur le gradient de politique et les méthodes critiques des acteurs pour les réseaux de neurones artificiels profonds.
Explore les défis d'apprentissage en renforcement continu de l'état, l'estimation de la fonction de valeur, les gradients des politiques et l'apprentissage des politiques par l'exploration pondérée.
Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.
Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.