Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours présente les variations de l'algorithme SARSA, en mettant l'accent sur l'apprentissage attendu SARSA et Q. Le SARSA prévu met à jour la politique en faisant la moyenne des prochaines actions possibles, tandis que Q learning met à jour la politique en considérant l'action maximale possible. L'instructeur explique les différences entre ces variations et leur impact sur le processus d'apprentissage.