Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal. vignette|151x151px|Diagramme backup. Les algorithmes TD choisissent une action (le point), puis utilisent l'estimation de la valeur de l'état successeur (le cercle du bas) pour mettre à jour la valeur de l'état courant (le cercle du haut). Alors que les méthodes de Monte Carlo ajustent leur estimations seulement lorsque l'issue finale est connue, les méthodes TD ajustent leurs estimations en se basant sur leurs prédictions. C'est une forme de bootstrap qui peut être illustrée par l'exemple suivant provenant d'un article de Richard Sutton : Donnons la formulation mathématique de la méthode tabulaire TD(0), l'une des méthodes TD les plus simples, qui estime la fonction de valeur d'un processus de décision markovien (PDM) selon une politique . Le PDM n'est pas utilisé par l'algorithme, notamment l'algorithme n'a pas accès aux probabilités ; c'est pourquoi on parle d'apprentissage par renforcement sans modèle. Soit la fonction de valeur du PDM selon la politique . En tout état s, est l'espérance des sommes récompenses obtenues avec un amortissement , lorsque l'agent suit la politique depuis l'état s. Formellement, en notant l'espérance lorsque l'agent suit la politique , la suite des états , la suite des récompenses et l'amortissement , on a La fonction de valeur satisfait l'équation de Hamilton-Jacobi-Bellman : donc est une estimation non-biaisée de . Cette observation motive l'algorithme TD(0) pour estimer . L'algorithme commence par initialiser un tableau arbitrairement, c'est-à-dire est une valeur arbitraire pour chaque état du PDM.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (8)
CS-456: Deep reinforcement learning
This course provides an overview and introduces modern methods for reinforcement learning (RL.) The course starts with the fundamentals of RL, such as Q-learning, and delves into commonly used approac
CS-430: Intelligent agents
Software agents are widely used to control physical, economic and financial processes. The course presents practical methods for implementing software agents and multi-agent systems, supported by prog
Afficher plus
Séances de cours associées (40)
Agents d'apprentissage profond : Renforcement de l'apprentissage
Explore les agents d'apprentissage profond dans l'apprentissage du renforcement, en mettant l'accent sur les approximations du réseau neuronal et les défis dans la formation des systèmes multiactifs.
TD Learning : Apprentissage par différence temporelle
Couvre l'apprentissage par différence temporelle, les valeurs V, les valeurs d'état et les méthodes TD dans l'apprentissage par renforcement.
Modélisation de l'espace d'entrée
Explore la modélisation d'espaces d'entrée continus dans l'apprentissage par renforcement à l'aide de réseaux de neurones et de fonctions de base radiales.
Afficher plus
Publications associées (51)

Unveiling the complexity of learning and decision-making

Wei-Hsiang Lin

Reinforcement learning (RL) is crucial for learning to adapt to new environments. In RL, the prediction error is an important component that compares the expected and actual rewards. Dopamine plays a critical role in encoding these prediction errors. In my ...
EPFL2024

Computationally Efficient Reinforcement Learning: Targeted Exploration leveraging Simple Rules

Colin Neil Jones, Bratislav Svetozarevic, Loris Di Natale

Model-free Reinforcement Learning (RL) generally suffers from poor sample complexity, mostly due to the need to exhaustively explore the state-action space to find well-performing policies. On the other hand, we postulate that expert knowledge of the syste ...
2023

Beyond Spectral Gap: The Role of the Topology in Decentralized Learning

Martin Jaggi, Thijs Vogels, Hadrien Hendrikx

In data-parallel optimization of machine learning models, workers collaborate to improve their estimates of the model: more accurate gradients allow them to use larger learning rates and optimize faster. In the decentralized setting, in which workers commu ...
Brookline2023
Afficher plus
Concepts associés (1)
Apprentissage par renforcement
En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
MOOCs associés (3)
Neuro Robotics
At the same time, several different tutorials on available data and data tools, such as those from the Allen Institute for Brain Science, provide you with in-depth knowledge on brain atlases, gene exp
Neurorobotics
The MOOC on Neuro-robotics focuses on teaching advanced learners to design and construct a virtual robot and test its performance in a simulation using the HBP robotics platform. Learners will learn t
Neurorobotics
The MOOC on Neuro-robotics focuses on teaching advanced learners to design and construct a virtual robot and test its performance in a simulation using the HBP robotics platform. Learners will learn t

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.