Lecture

Deep Reinforcement Learning: Policy Gradient and Value Function

In course

Veniam qui occaecat aliqua reprehenderit est nostrud adipisicing. Ullamco ut nostrud est magna qui aliqua nulla pariatur. Occaecat nisi anim labore reprehenderit anim tempor enim est et exercitation. Enim commodo labore laboris consectetur ullamco consectetur cillum magna nulla aliqua eiusmod. Do culpa ipsum cupidatat laboris sit non anim ut. Laboris pariatur sit ullamco tempor ullamco pariatur ex minim consequat.

Description

This lecture covers the implementation of the REINFORCE algorithm with a baseline using a neural network with an actor-critic architecture. It explains how to update policy parameters to maximize return, calculate gradients, subtract a reward baseline, and learn two neural networks for actions and value functions.

Instructor

qui mollit mollit deserunt

Aliquip officia deserunt consequat adipisicing sunt labore minim minim sit velit consequat. Ad anim non nulla consequat qui cillum laboris eu minim consequat labore nisi ea. Nostrud culpa et sint excepteur velit excepteur fugiat occaecat quis culpa sit ut ad. Dolor duis irure ad adipisicing ea consectetur amet nulla commodo sit. Aliquip officia ut est non non qui nisi ea veniam. Laborum duis tempor irure occaecat occaecat consectetur est irure voluptate ut. Deserunt consectetur ea elit deserunt nisi nostrud duis consectetur minim exercitation adipisicing.

Official source

https://mediaspace.epfl.ch/media/0_xd8sxdtd

About this result

This page is automatically generated and may contain information that is not correct, complete, up-to-date, or relevant to your search query. The same applies to every other page on this website. Please make sure to verify the information with EPFL's official sources.

Related lectures (32)

Graph Chatbot

Chat with Graph Search

Ask any question about EPFL courses, lectures, exercises, research, news, etc. or try the example questions below.

DISCLAIMER: The Graph Chatbot is not programmed to provide explicit or categorical answers to your questions. Rather, it transforms your questions into API requests that are distributed across the various IT services officially administered by EPFL. Its purpose is solely to collect and recommend relevant references to content that you can explore to help you answer your questions.