Techniques de programmation linéaire dans l'apprentissage par renforcement

Dans cours

Aute amet veniam labore proident proident aliqua ut do. Elit laborum commodo incididunt do dolor fugiat elit duis eiusmod cillum commodo mollit pariatur. Anim minim cupidatat pariatur elit reprehenderit aliqua. Sint ex duis fugiat laboris mollit do ut velit eiusmod sint dolor ullamco. Anim minim proident magna id ex sint pariatur ut incididunt proident. Officia sint incididunt elit cupidatat mollit amet officia irure. Laboris dolor labore dolore veniam non nisi laborum officia do deserunt dolore sunt non.

Description

Cette séance de cours présente l'approche de la programmation linéaire (LP) à l'apprentissage par renforcement (RL), en la présentant comme un point de vue convexe alternatif. Il commence par revoir la configuration de l’apprentissage par renforcement, en mettant l’accent sur les défis rencontrés dans les méthodes traditionnelles, tels que la nécessité d’une programmation dynamique approximative et les limites des algorithmes existants. L'instructeur discute de l'équation d'optimalité de Bellman et de son importance dans la définition des politiques optimales. La séance de cours passe ensuite aux formulations primaires et doubles de la programmation linéaire, détaillant comment celles-ci peuvent être appliquées pour résoudre les processus de décision de Markov (MDP). La mesure d'occupation est définie et visualisée, illustrant son rôle dans la détermination de la fonction de valeur. La séance de cours couvre également l'algorithme REPS, qui applique des méthodes de points proximaux au double LP, démontrant son efficacité dans des applications pratiques telles que la robotique. La session se termine par un résumé des avantages et des défis de l'approche LP, ouvrant la voie à de futures discussions sur les méthodes de gradient des politiques.

Connectez-vous pour regarder la vidéo

Enseignant

nostrud aliqua elit

Ullamco esse veniam nostrud cillum eiusmod ea ut culpa. Elit sint tempor nulla qui sint anim commodo esse eu culpa non. Mollit do do excepteur sint et. Exercitation cillum sunt cupidatat occaecat consectetur quis. Irure est incididunt adipisicing nisi exercitation culpa magna.

Source officielle

https://mediaspace.epfl.ch/media/0_fc963pu4

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Techniques de programmation linéaire dans l'apprentissage par renforcement

Graph Chatbot

Chattez avec Graph Search