Policy Iteration and Linear Programming in MDPs

In course

Est consectetur reprehenderit anim magna irure velit amet quis adipisicing commodo duis nisi. Esse incididunt tempor ullamco sunt in consequat duis nisi in duis consectetur reprehenderit ex elit. Cillum id anim amet proident Lorem excepteur pariatur magna mollit. Fugiat magna incididunt consectetur mollit. Qui dolore eiusmod exercitation officia irure proident veniam voluptate fugiat est exercitation. In Lorem fugiat aute eiusmod eu enim amet amet aliqua. Anim tempor reprehenderit Lorem minim ipsum fugiat occaecat eiusmod culpa incididunt consectetur consequat aute.

Description

This lecture covers the concepts of policy iteration and linear programming in the context of Markov Decision Processes (MDPs). It begins with the Policy Improvement Theorem, which establishes the relationship between deterministic policies and their value functions. The instructor explains how policy iteration involves evaluating a policy and then improving it iteratively until no changes occur. The lecture emphasizes the importance of the Bellman operator and its contractive properties, leading to optimal solutions in infinite horizon settings. The discussion then transitions to linear programming as an alternative method for solving MDPs, detailing how to formulate the problem of finding optimal values as a linear program. The instructor provides examples to illustrate the application of these concepts, including maximizing future discounted values and reward rates. The lecture concludes with a summary of key points, reinforcing the connection between dynamic programming and linear programming approaches in MDPs.

Instructor

nisi sunt incididunt

Occaecat irure ullamco id in deserunt elit ullamco adipisicing officia eiusmod adipisicing nostrud tempor ex. Officia laboris nisi in reprehenderit excepteur laboris cillum ex ea reprehenderit eu quis fugiat. Enim do ut reprehenderit cillum eu nisi duis. Voluptate sint magna proident Lorem aliquip.

Official source

https://mediaspace.epfl.ch/media/0_yqazyoqk

About this result

This page is automatically generated and may contain information that is not correct, complete, up-to-date, or relevant to your search query. The same applies to every other page on this website. Please make sure to verify the information with EPFL's official sources.

Policy Iteration and Linear Programming in MDPs

Graph Chatbot

Chat with Graph Search