Cette séance de cours présente les variations de l'algorithme SARSA, en mettant l'accent sur l'apprentissage attendu SARSA et Q. Le SARSA prévu met à jour la politique en faisant la moyenne des prochaines actions possibles, tandis que Q learning met à jour la politique en considérant l'action maximale possible. L'instructeur explique les différences entre ces variations et leur impact sur le processus d'apprentissage.