Apprentissage par renforcement : politiques non-stationnaires et OPPO

Dans cours

Adipisicing tempor duis eu do officia irure exercitation nulla do et do tempor ex cillum. Mollit elit in minim laborum proident magna exercitation adipisicing proident Lorem. Ad est nulla nostrud adipisicing. Enim quis nostrud culpa ea ex commodo culpa. Exercitation voluptate magna qui aute esse cillum est incididunt mollit culpa voluptate nostrud velit laboris. Qui ipsum commodo ex aliquip duis ea qui qui consequat.

Description

Cette séance de cours traite des complexités de l'apprentissage par renforcement d'horizon fini (RL) et introduit le concept de politiques non stationnaires. L'instructeur explique comment la politique optimale peut changer au fil du temps, en utilisant le basket-ball comme analogie pour illustrer comment les stratégies dépendent de l'état du jeu. La séance de cours passe ensuite à la variante optimiste de l’optimisation proximale des politiques (OPPO), qui utilise des estimations optimistes des fonctions de valeur pour améliorer les mises à jour des politiques. L'instructeur détaille la structure de l'algorithme, en soulignant l'importance d'estimer les transitions et les bonus sur la base d'observations empiriques. La discussion comprend l'importance de l'exploration dans RL et comment l'algorithme OPPO peut conduire à de meilleures performances par rapport aux méthodes traditionnelles. La séance de cours se termine par une comparaison d’OPPO avec d’autres algorithmes tels que Trust Region Policy Optimization (TRPO) et Proximal Policy Optimization (PPO), soulignant leurs fondements théoriques et leurs implications pratiques dans l’apprentissage par renforcement.

Connectez-vous pour regarder la vidéo

Enseignant

anim consectetur

Veniam aliqua enim labore eiusmod. Adipisicing labore est velit ipsum quis ad incididunt dolor ullamco. Lorem nulla ea nulla et reprehenderit commodo laborum sunt in.

Source officielle

https://mediaspace.epfl.ch/media/0_eio3jnim

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Apprentissage par renforcement : politiques non-stationnaires et OPPO

Graph Chatbot

Chattez avec Graph Search