Méthodes Monte-Carlo pour l'apprentissage par renforcement

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (29)

Page 2 sur 3

Renforcement des principes de l'apprentissage grâce à la rétroaction humaine

Intensifier l'apprentissage avec la rétroaction humaine, discuter de la convergence des estimateurs et introduire une approche pessimiste pour améliorer les performances.

Monte Carlo: Optimisation et estimation

Explore l'optimisation et l'estimation dans les méthodes Monte Carlo, en mettant l'accent sur les groupes Bayes-optimal et les estimateurs.

Séance de cours interactive : Apprentissage du renforcement

Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.

Introduction à l'apprentissage par renforcement: concepts et applications

Introduit l'apprentissage par renforcement, couvrant ses concepts, ses applications et ses algorithmes clés.

Intégration Monte-Carlo : Rapprochement et variance

Explore l'intégration Monte-Carlo pour approximer les attentes et les variances à l'aide d'échantillonnage aléatoire et discute des composants d'erreur dans les modèles de choix conditionnel.

Estimation bayésienne : apprentissage sans supervision et MCMC

Explore l'estimation bayésienne pour l'apprentissage non supervisé et MCMC, à l'aide d'un exemple de jeu Spin Glass Card.

Méthodes de dégradé de politique: plusieurs étapes temporelles

Explore les méthodes de dégradé de politique sur plusieurs étapes temporelles, en mettant l'accent sur la mise à jour des paramètres de politique pour maximiser les récompenses.

Dégradation des politiques et méthodes critiques pour les acteurs : les traces de l’admissibilité expliquées

Discute du gradient des politiques et des méthodes acteurs-critiques, en se concentrant sur les traces d'éligibilité et leur application dans les tâches d'apprentissage de renforcement.

Méthodes de gradient de politique dans l'apprentissage par renforcement

Couvre les méthodes de gradient de politique dans l'apprentissage du renforcement, en se concentrant sur les techniques d'optimisation et les applications pratiques comme le problème du poteau.

Max Entropy et Monte Carlo

Explore l'entropie maximale, l'entropie de Shannon, les multiplicateurs de Lagrange et les techniques d'échantillonnage Monte Carlo.