Cette séance de cours couvre l'algorithme SARSA, un puissant algorithme on-policy utilisé dans l'apprentissage par renforcement. La séquence'state-action-reward-state-action' est cruciale pour la mise à jour des valeurs Q. La séance de cours explique le processus de mise à jour itérative des valeurs Q dans des environnements à plusieurs étapes, compare le SARSA avec l'équation de Bellman et fournit des exemples pratiques d'application du SARSA dans un environnement unidimensionnel. De plus, il traite de la convergence du SARSA et de l’importance de l’exploration dans l’apprentissage par renforcement.