Séance de cours

Apprentissage automatique avancé : apprentissage par renforcement discret

Description

Cette séance de cours couvre les bases de l'apprentissage par renforcement (RL) en tant que problème de décision séquentiel, en se concentrant sur les états et les actions discrets, les politiques, les fonctions de valeur, les processus décisionnels de Markov (MDP), les équations de Bellman et les méthodes pour trouver des politiques optimales. L'instructeur explique les concepts de programmation dynamique, d'échantillonnage Monte-Carlo et d'apprentissage de la différence temporelle pour estimer les fonctions de valeur. La séance de cours explore également l'équation d'optimisation Bellman, les stratégies de contrôle et le processus itératif d'apprentissage de la politique optimale. Les inconvénients de la RL standard, tels que la malédiction de la dimensionnalité et les défis de la gestion des espaces d'état et d'action continus, sont discutés.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.