Renforcement de l'apprentissage : bases et applications

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (30)

Apprentissage par renforcement : TD Learning et les variantes de la LEP

Discute de l'apprentissage par renforcement, en se concentrant sur l'apprentissage par différence temporelle et les variations de l'algorithme SARSA.

Apprentissage automatique avancé : apprentissage par renforcement discret

Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.

Agents d'apprentissage: Tradeoff Exploration-Exploitation

Explore le compromis exploration-exploitation dans l'apprentissage des effets inconnus des actions en utilisant des bandits multi-armés et Q-learning.

Renforcement des principes de l'apprentissage grâce à la rétroaction humaine

Intensifier l'apprentissage avec la rétroaction humaine, discuter de la convergence des estimateurs et introduire une approche pessimiste pour améliorer les performances.

Techniques de programmation linéaire dans l'apprentissage par renforcement

Couvre l'approche de programmation linéaire de l'apprentissage par renforcement, en se concentrant sur ses applications et ses avantages dans la résolution des processus décisionnels de Markov.

Fondements de l'apprentissage automatique

Couvre les principes fondamentaux, les opportunités et les défis de l'apprentissage automatique.

Méthodes de gradient de politique: apprentissage par l'action directe dans l'apprentissage par renforcement

Couvre les méthodes de gradient de politique, en mettant l'accent sur l'apprentissage par l'action directe et l'optimisation des récompenses dans l'apprentissage par renforcement.

Introduction générale aux réseaux de neurones artificiels: partie 3

Couvre l'apprentissage par des récompenses dans l'apprentissage par renforcement profond sans détails mathématiques.

MuZero: Modèle de planification et d'apprentissage

Couvre MuZero, un modèle qui apprend à prédire les récompenses et les actions de manière itérative, réalisant des performances de pointe dans les jeux de société et les jeux vidéo Atari.

Optimisation de la politique proximale pour un contrôle continu

Explore l'optimisation des politiques proximales pour améliorer la stabilité et l'efficacité du contrôle continu avec un apprentissage par renforcement profond.

Page 2 sur 2