MuZero: Modèle de planification et d'apprentissage

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (30)

Méthodes de gradient de politique: apprentissage par l'action directe dans l'apprentissage par renforcement

Couvre les méthodes de gradient de politique, en mettant l'accent sur l'apprentissage par l'action directe et l'optimisation des récompenses dans l'apprentissage par renforcement.

Paysage et généralisation dans l'apprentissage profond

Explore les défis et les points de vue de l'apprentissage profond, en mettant l'accent sur le paysage des pertes, la généralisation et l'apprentissage caractéristique.

Apprentissage par projet dans les communications et la robotique

Introduit un cours basé sur des projets en communication et en robotique, mettant l'accent sur des projets pratiques et un apprentissage indépendant pour préparer les étudiants à relever des défis du monde réel.

Optimisation de la politique proximale pour un contrôle continu

Explore l'optimisation des politiques proximales pour améliorer la stabilité et l'efficacité du contrôle continu avec un apprentissage par renforcement profond.

Agents d'apprentissage: Tradeoff Exploration-Exploitation

Explore le compromis exploration-exploitation dans l'apprentissage des effets inconnus des actions en utilisant des bandits multi-armés et Q-learning.

Dégradation des politiques et méthodes critiques pour les acteurs : les traces de l’admissibilité expliquées

Discute du gradient des politiques et des méthodes acteurs-critiques, en se concentrant sur les traces d'éligibilité et leur application dans les tâches d'apprentissage de renforcement.

Fondements de l'apprentissage automatique

Introduit des concepts fondamentaux d'apprentissage automatique, couvrant la régression, la classification, la réduction de dimensionnalité et des modèles générateurs profonds.

Introduction à l'apprentissage par renforcement: concepts et applications

Introduit l'apprentissage par renforcement, couvrant ses concepts, ses applications et ses algorithmes clés.

Apprentissage actif pour le design moléculaire

Couvre les approches d'apprentissage automatique pour la conception du matériel, des exemples pratiques et des outils logiciels pour la recherche.

Bases d'apprentissage de renforcement

Couvre les bases de l'apprentissage par renforcement, y compris l'apprentissage Q et les réseaux neuronaux.

Page 2 sur 2