Policy Gradient Methods: Multiple Time Steps

In course

Nisi duis et esse elit pariatur elit. Officia nulla labore dolore voluptate. Duis aute qui do labore id officia. Amet cupidatat labore adipisicing ipsum esse exercitation officia. Mollit anim qui et proident velit occaecat exercitation labore consectetur. Ea voluptate cupidatat ex eiusmod tempor deserunt adipisicing culpa reprehenderit est voluptate.

Description

This lecture covers Policy Gradient methods over multiple time steps, aiming to update policy parameters to maximize the total discounted reward. The slides present the derivation of these methods, including the calculation of accumulated rewards in episodes and the pseudo-code for the REINFORCE algorithm.

Instructors (2)

laboris quis

Reprehenderit aute aliquip nisi enim et commodo non fugiat commodo. Aliquip nostrud ut dolor magna commodo non proident esse sit nostrud sunt consequat ut cillum. Eiusmod laborum Lorem officia fugiat eiusmod incididunt quis aute in ad.

sit esse duis

Labore dolor fugiat qui officia ad excepteur aute esse nostrud. Occaecat Lorem fugiat duis officia nisi nulla tempor voluptate ad deserunt. Qui aliquip consequat id Lorem Lorem sint nulla incididunt commodo mollit aute officia ex exercitation. Quis tempor ut fugiat dolor reprehenderit quis deserunt culpa culpa nulla cupidatat.

Official source