Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours présente les méthodes de Monte-Carlo pour l'apprentissage par renforcement, qui évaluent directement les valeurs en faisant la moyenne des rendements mesurés empiriquement, en les comparant aux méthodes TD qui exploitent l'équation de Bellman. La séance de cours couvre l'estimation de Monte-Carlo, la prédiction MC de première visite, l'estimation de Monte-Carlo des valeurs Q et le SARSA attendu par lots. Il examine également la comparaison entre SARSA, Monte-Carlo et l'apprentissage de Batch-attendu-SARSA, en soulignant l'importance de l'équation empirique de Bellman. La séance de cours se termine par une comparaison des méthodes Monte-Carlo par rapport aux méthodes batch-TD, soulignant l'efficacité des méthodes TD dans la propagation de l'information dans le graphique à travers l'étape 'bootstrap'.