Séance de cours

Accélération de l'itération de valeur : fractionnement de l'opérateur et de l'IDP

Description

Cette séance de cours explore l'accélération de l'algorithme d'Itération de Valeur (VI) pour résoudre les problèmes de prise de décision séquentielle avec de longs horizons de planification. L'instructeur présente deux idées innovantes : PID VI, qui modifie VI à l'aide d'outils théoriques de contrôle, et Operator Splitting Value Itération, qui tire parti d'un modèle inexact mais bon marché pour atteindre une convergence plus rapide. La séance de cours s'inscrit dans la dynamique de VI, les défis de la lente convergence, et les solutions proposées. Il traite également du comportement de convergence de PID VI et des avantages de l'utilisation des techniques de fractionnement de matrice. La présentation se termine par des résultats empiriques démontrant l'efficacité des méthodes d'accélération proposées et le potentiel de recherche future pour combiner des modèles exacts et inexacts.

Source officielle

Séances de cours associées (31)

Processus de décision de Markov: fondements de l'apprentissage par renforcement

Couvre les processus décisionnels de Markov, leur structure et leur rôle dans l'apprentissage par renforcement.

Introduction à l'apprentissage par renforcement: concepts et applications clés

Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.

Processus stochastiques contrôlés

Explore les processus stochastiques contrôlés, en se concentrant sur l'analyse, le comportement et l'optimisation, en utilisant la programmation dynamique pour résoudre les problèmes du monde réel.

Problèmes d'horizon infini : formulation et complexité

Couvre les problèmes d'horizon infini dans les processus de probabilité appliquée et stochastiques.

Problème de vente d'actifs

Explore le problème de la vente d'actifs pour maximiser la récompense à long terme sans délai.

Afficher plus