Couvre MuZero, un modèle qui apprend à prédire les récompenses et les actions de manière itérative, réalisant des performances de pointe dans les jeux de société et les jeux vidéo Atari.
Explore la recherche de bugs, la vérification et l'utilisation d'approches aidées à l'apprentissage dans le raisonnement de programme, montrant des exemples comme le bug Heartbleed et le raisonnement bayésien différentiel.
Explore l'optimisation des politiques proximales pour améliorer la stabilité et l'efficacité du contrôle continu avec un apprentissage par renforcement profond.
Explore les réseaux profonds et convolutifs, couvrant la généralisation, l'optimisation et les applications pratiques dans l'apprentissage automatique.
S'insère dans la dynamique de l'apprentissage collectif avec exploitation de la similitude, couvrant l'apprentissage structuré, les cadres d'adaptation, la modélisation, la simulation et les résultats expérimentaux.
Couvre l'importance de la soustraction de la récompense moyenne dans les méthodes de gradient de politique pour l'apprentissage par renforcement profond, réduisant le bruit dans le gradient stochastique.
Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.