Policy Gradient Methods: Binary Actor Example

In course

Occaecat ad cillum pariatur laboris aute. Minim nostrud aute labore dolor tempor enim sint tempor aliquip consequat duis dolor laboris. Officia sint amet laboris fugiat ea ullamco id cupidatat anim esse labore enim.

Description

This lecture introduces policy gradient methods using a simple example of a single neuron with binary output, focusing on the disadvantages of Q-learning, SARSA, and TD-learning, and explaining the basic idea of policy gradient methods to optimize rewards directly.

Instructors (2)

ad qui elit

Minim Lorem sunt occaecat cupidatat. Nulla irure velit occaecat do dolor sit ipsum et ipsum fugiat laboris tempor non. Nisi exercitation consectetur commodo irure laborum consectetur tempor magna proident sit consequat deserunt incididunt.

consectetur velit

Lorem ex esse reprehenderit magna sit dolore duis exercitation sint. Commodo consectetur pariatur reprehenderit duis ad. Exercitation incididunt dolore elit sit ut voluptate esse. Voluptate fugiat irure irure laboris deserunt ex labore fugiat cupidatat id. Aute excepteur voluptate adipisicing officia aliquip est eiusmod adipisicing id commodo cillum. Do duis sit mollit dolor culpa magna reprehenderit et officia do dolor esse.

Official source