Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre le concept de Q-Learning, qui consiste à trouver la politique optimale en mettant à jour itérativement une table Q basée sur des récompenses. Il explique comment représenter la table Q, définir la fonction de coût et apprendre les valeurs Q optimales en utilisant la descente de gradient. La séance de cours se penche également sur Deep Q-Learning, où un réseau de neurones se rapproche des valeurs Q, et explore les défis de la gestion de grands espaces d'état dans des jeux comme Atari. En outre, il discute de l'algorithme REINFORCE pour les méthodes de gradient de politique et Monte-Carlo Tree Search pour la prise de décision. La présentation se termine par un aperçu d’AlphaGo Zero, une étape importante dans l’apprentissage du renforcement. Divers concepts tels que l'équation de Bellman, les réseaux de valeur et les réseaux de politiques sont élucidés.