Séance de cours

Prédiction sans modèle dans l'apprentissage par renforcement: méthodes clés

Description

Cette séance de cours présente des méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur l'estimation des fonctions de valeur sans connaissance de la dynamique de transition. Linstructeur commence par contraster les approches basées sur un modèle et sans modèle, en soulignant limportance dapprendre de lexpérience. La discussion couvre deux méthodes principales: Monte Carlo et Différences temporelles (TD). Les méthodes Monte Carlo estiment les fonctions de valeur en faisant la moyenne des rendements des trajectoires échantillonnées, tandis que les méthodes TD mettent à jour les estimations de valeur de manière incrémentielle en fonction des récompenses immédiates et des estimations ultérieures. La séance de cours explore également l'algorithme de descente de gradient stochastique (SGD) comme moyen d'optimiser ces estimations, en soulignant le rôle des estimateurs de gradient impartiaux. L'instructeur explique les défis des problèmes d'horizon infini et comment les méthodes TD peuvent résoudre ces problèmes. La session se termine par un résumé des différences entre les méthodes de Monte Carlo et de la TD, y compris leurs biais et leurs variances, et les implications pour l'évaluation des politiques et l'amélioration de l'apprentissage par renforcement.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.