Apprentissage des différences temporelles

Problèmes d'horizon infini : formulation et complexité

Couvre les problèmes d'horizon infini dans les processus de probabilité appliquée et stochastiques.

Séance de cours interactive : Apprentissage du renforcement

Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.

Processus de décision de Markov: Techniques de programmation dynamique

Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.

Introduction à l'apprentissage par renforcement: concepts et applications

Introduit l'apprentissage par renforcement, couvrant ses concepts, ses applications et ses algorithmes clés.

Apprentissage par renforcement : horizon en une étape (problèmes de bande)

Couvre les problèmes de bandits dans l'apprentissage par renforcement, en se concentrant sur les jeux d'horizon en une étape et les valeurs Q.