Séance de cours

Renforcement de l'apprentissage : Q-Learning

Description

Cette séance de cours couvre le concept de Q-Learning, qui consiste à trouver la politique optimale en mettant à jour itérativement une table Q basée sur des récompenses. Il explique comment représenter la table Q, définir la fonction de coût et apprendre les valeurs Q optimales en utilisant la descente de gradient. La séance de cours se penche également sur Deep Q-Learning, où un réseau de neurones se rapproche des valeurs Q, et explore les défis de la gestion de grands espaces d'état dans des jeux comme Atari. En outre, il discute de l'algorithme REINFORCE pour les méthodes de gradient de politique et Monte-Carlo Tree Search pour la prise de décision. La présentation se termine par un aperçu d’AlphaGo Zero, une étape importante dans l’apprentissage du renforcement. Divers concepts tels que l'équation de Bellman, les réseaux de valeur et les réseaux de politiques sont élucidés.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.