Séance de cours

Techniques de programmation linéaire dans l'apprentissage par renforcement

Description

Cette séance de cours présente l'approche de la programmation linéaire (LP) à l'apprentissage par renforcement (RL), en la présentant comme un point de vue convexe alternatif. Il commence par revoir la configuration de l’apprentissage par renforcement, en mettant l’accent sur les défis rencontrés dans les méthodes traditionnelles, tels que la nécessité d’une programmation dynamique approximative et les limites des algorithmes existants. L'instructeur discute de l'équation d'optimalité de Bellman et de son importance dans la définition des politiques optimales. La séance de cours passe ensuite aux formulations primaires et doubles de la programmation linéaire, détaillant comment celles-ci peuvent être appliquées pour résoudre les processus de décision de Markov (MDP). La mesure d'occupation est définie et visualisée, illustrant son rôle dans la détermination de la fonction de valeur. La séance de cours couvre également l'algorithme REPS, qui applique des méthodes de points proximaux au double LP, démontrant son efficacité dans des applications pratiques telles que la robotique. La session se termine par un résumé des avantages et des défis de l'approche LP, ouvrant la voie à de futures discussions sur les méthodes de gradient des politiques.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.