Cette séance de cours traite du problème de mise à l'échelle des algorithmes de différence temporelle (TD) et introduit les méthodes TD à l'étape n comme solution. Il couvre le concept de l'étape n SARSA et de l'étape n attendue SARSA, expliquant comment ils améliorent la circulation de l'information dans l'apprentissage du renforcement. La séance de cours explore également l'utilisation des méthodes TD en n-étape pour estimer à la fois les valeurs d'action et les valeurs d'état, fournissant un aperçu complet de leur mise en œuvre et de leurs avantages.