Cette séance de cours traite des complexités de l'apprentissage par renforcement d'horizon fini (RL) et introduit le concept de politiques non stationnaires. L'instructeur explique comment la politique optimale peut changer au fil du temps, en utilisant le basket-ball comme analogie pour illustrer comment les stratégies dépendent de l'état du jeu. La séance de cours passe ensuite à la variante optimiste de l’optimisation proximale des politiques (OPPO), qui utilise des estimations optimistes des fonctions de valeur pour améliorer les mises à jour des politiques. L'instructeur détaille la structure de l'algorithme, en soulignant l'importance d'estimer les transitions et les bonus sur la base d'observations empiriques. La discussion comprend l'importance de l'exploration dans RL et comment l'algorithme OPPO peut conduire à de meilleures performances par rapport aux méthodes traditionnelles. La séance de cours se termine par une comparaison d’OPPO avec d’autres algorithmes tels que Trust Region Policy Optimization (TRPO) et Proximal Policy Optimization (PPO), soulignant leurs fondements théoriques et leurs implications pratiques dans l’apprentissage par renforcement.