Cette séance de cours présente l'approche de la programmation linéaire (LP) à l'apprentissage par renforcement (RL), en la présentant comme un point de vue convexe alternatif. Il commence par revoir la configuration de l’apprentissage par renforcement, en mettant l’accent sur les défis rencontrés dans les méthodes traditionnelles, tels que la nécessité d’une programmation dynamique approximative et les limites des algorithmes existants. L'instructeur discute de l'équation d'optimalité de Bellman et de son importance dans la définition des politiques optimales. La séance de cours passe ensuite aux formulations primaires et doubles de la programmation linéaire, détaillant comment celles-ci peuvent être appliquées pour résoudre les processus de décision de Markov (MDP). La mesure d'occupation est définie et visualisée, illustrant son rôle dans la détermination de la fonction de valeur. La séance de cours couvre également l'algorithme REPS, qui applique des méthodes de points proximaux au double LP, démontrant son efficacité dans des applications pratiques telles que la robotique. La session se termine par un résumé des avantages et des défis de l'approche LP, ouvrant la voie à de futures discussions sur les méthodes de gradient des politiques.