Séance de cours

Iteration des politiques et programmation linéaire dans les MDP

Description

Cette séance de cours couvre les concepts d'itération des politiques et de programmation linéaire dans le contexte des processus décisionnels de Markov (MDP). Il commence par le théorème d'amélioration des politiques, qui établit la relation entre les politiques déterministes et leurs fonctions de valeur. L'instructeur explique comment l'itération de la politique implique l'évaluation d'une politique, puis son amélioration itérative jusqu'à ce qu'aucun changement ne se produise. La séance de cours souligne l'importance de l'opérateur Bellman et de ses propriétés contractives, conduisant à des solutions optimales dans des réglages d'horizon infini. La discussion passe ensuite à la programmation linéaire en tant que méthode alternative pour résoudre les MDP, détaillant comment formuler le problème de trouver des valeurs optimales en tant que programme linéaire. L'instructeur fournit des exemples pour illustrer l'application de ces concepts, y compris la maximisation des futures valeurs actualisées et des taux de récompense. La séance de cours se termine par un résumé des points clés, renforçant le lien entre la programmation dynamique et les approches de programmation linéaire dans les MDP.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.