Méthodes de gradient de politique dans l'apprentissage par renforcement

Dans cours

Laboris Lorem irure esse velit voluptate amet pariatur laboris excepteur. Sint excepteur cupidatat consequat nostrud esse Lorem exercitation commodo duis velit ullamco eiusmod. Dolor reprehenderit sit magna commodo. Lorem officia aliquip labore excepteur quis aute. Amet commodo sunt proident veniam. Mollit irure do in magna qui.

Description

Cette séance de cours se concentre sur les méthodes de gradient de politique dans le contexte de l'apprentissage par renforcement. Il commence par un aperçu des approches d'apprentissage par renforcement, contrastant avec les méthodes fondées sur les valeurs et les politiques. L'instructeur discute de la formulation de l'optimisation pour les méthodes basées sur les politiques, en soulignant l'importance de paramétrer les politiques pour les actions discrètes et continues. Diverses techniques de paramétrage, y compris les réseaux softmax et neuronaux, sont introduites. La séance de cours explore ensuite la méthode du gradient de politique, expliquant comment calculer les gradients à l'aide d'estimations stochastiques et de l'importance des estimateurs de gradient impartiaux. L'instructeur met en évidence les défis de la variance élevée dans les méthodes de gradient de politique et introduit des techniques pour réduire cette variance, telles que l'utilisation des fonctions de base. La séance de cours se termine par des exemples pratiques, y compris l'application de méthodes de gradient de politique au problème du pôle, illustrant comment ces méthodes peuvent efficacement apprendre à équilibrer le pôle. Dans l'ensemble, la séance de cours fournit une compréhension complète des méthodes de gradient de politique et de leurs applications dans l'apprentissage de renforcement.

Connectez-vous pour regarder la vidéo

Enseignant

eiusmod fugiat eu elit

Sit amet proident officia ullamco occaecat laborum magna officia do id adipisicing magna. Cupidatat anim occaecat consequat Lorem. Enim exercitation amet ex dolore excepteur est sunt commodo ut. Nisi proident veniam non enim dolor exercitation enim amet amet esse commodo. Proident velit laboris sint nulla veniam eu commodo qui qui.

Connectez-vous pour voir cette section

Source officielle

https://mediaspace.epfl.ch/media/0_it7q6h0a

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Méthodes de gradient de politique dans l'apprentissage par renforcement

Graph Chatbot

Chattez avec Graph Search