Discute du gradient des politiques et des méthodes acteurs-critiques, en se concentrant sur les traces d'éligibilité et leur application dans les tâches d'apprentissage de renforcement.
Introduit un cours basé sur des projets en communication et en robotique, mettant l'accent sur des projets pratiques et un apprentissage indépendant pour préparer les étudiants à relever des défis du monde réel.
Explore l'application de l'apprentissage de renforcement pour enseigner à Pacman à jouer de façon autonome en utilisant les méthodes de gradient de politique et les processus de décision Markov.
Explore les agents d'apprentissage profond dans l'apprentissage du renforcement, en mettant l'accent sur les approximations du réseau neuronal et les défis dans la formation des systèmes multiactifs.