Séance de cours

Méthodes Monte-Carlo pour l'apprentissage par renforcement

Description

Cette séance de cours présente les méthodes de Monte-Carlo pour l'apprentissage par renforcement, qui évaluent directement les valeurs en faisant la moyenne des rendements mesurés empiriquement, en les comparant aux méthodes TD qui exploitent l'équation de Bellman. La séance de cours couvre l'estimation de Monte-Carlo, la prédiction MC de première visite, l'estimation de Monte-Carlo des valeurs Q et le SARSA attendu par lots. Il examine également la comparaison entre SARSA, Monte-Carlo et l'apprentissage de Batch-attendu-SARSA, en soulignant l'importance de l'équation empirique de Bellman. La séance de cours se termine par une comparaison des méthodes Monte-Carlo par rapport aux méthodes batch-TD, soulignant l'efficacité des méthodes TD dans la propagation de l'information dans le graphique à travers l'étape 'bootstrap'.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.