Cette séance de cours présente l'équation de Bellman, qui relie les valeurs Q des paires état-action aux récompenses futures. Il couvre l'importance du facteur d'actualisation, le concept de récompense escomptée totale escomptée, et la cohérence de la valeur des États voisins. L'instructeur explique comment l'équation de Bellman est utilisée pour déterminer les actions optimales et les implications des différentes politiques sur la formulation de l'équation.