Séance de cours

Apprentissage par renforcement : politiques non-stationnaires et OPPO

Description

Cette séance de cours traite des complexités de l'apprentissage par renforcement d'horizon fini (RL) et introduit le concept de politiques non stationnaires. L'instructeur explique comment la politique optimale peut changer au fil du temps, en utilisant le basket-ball comme analogie pour illustrer comment les stratégies dépendent de l'état du jeu. La séance de cours passe ensuite à la variante optimiste de l’optimisation proximale des politiques (OPPO), qui utilise des estimations optimistes des fonctions de valeur pour améliorer les mises à jour des politiques. L'instructeur détaille la structure de l'algorithme, en soulignant l'importance d'estimer les transitions et les bonus sur la base d'observations empiriques. La discussion comprend l'importance de l'exploration dans RL et comment l'algorithme OPPO peut conduire à de meilleures performances par rapport aux méthodes traditionnelles. La séance de cours se termine par une comparaison d’OPPO avec d’autres algorithmes tels que Trust Region Policy Optimization (TRPO) et Proximal Policy Optimization (PPO), soulignant leurs fondements théoriques et leurs implications pratiques dans l’apprentissage par renforcement.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.