Explore la relation entre la fluctuation des valeurs Q dans le SARSA et l'équation de Bellman par le biais des attentes et de la constance des politiques.
Explore la programmation dynamique pour un contrôle optimal, en se concentrant sur la stabilité, la politique stationnaire et les solutions récursives.