Séances de cours associées à RL profonde basée sur le modèle: planification et VAST

Apprentissage par renforcement profond basé sur des modèles: Monte Carlo Tree Search

Explore l'apprentissage par renforcement profond basé sur des modèles, en se concentrant sur Monte Carlo Tree Search et ses applications dans les stratégies de jeu et les processus décisionnels.

Monte Carlo Tree Search et Alpha Zero

Explore Monte Carlo Tree Search et Alpha Zero dans l'apprentissage par renforcement profond.

Agents d'apprentissage profond : Renforcement de l'apprentissage

Explore les agents d'apprentissage profond dans l'apprentissage du renforcement, en mettant l'accent sur les approximations du réseau neuronal et les défis dans la formation des systèmes multiactifs.

Renforcement de l'apprentissage : bases et applications

Couvre les bases de l'apprentissage de renforcement, y compris l'apprentissage d'essai et d'erreur, l'apprentissage Q, le RL profond, et les applications dans le jeu et la planification.

Renforcement de l'apprentissage : bases et applications

Couvre les bases de l'apprentissage du renforcement, y compris les processus décisionnels de Markov et les méthodes de gradient des politiques, et explore les applications du monde réel et les avancées récentes.

MuZero: Modèle de planification et d'apprentissage

Couvre MuZero, un modèle qui apprend à prédire les récompenses et les actions de manière itérative, réalisant des performances de pointe dans les jeux de société et les jeux vidéo Atari.

Apprentissage par renforcement profond: mini-bateaux et méthodes politiques

Discute des méthodes d'apprentissage par renforcement profond, en se concentrant sur les mini-batchs et les implications des techniques de formation on-policy et off-policy.

Apprentissage par renforcement: gradient de politique et méthodes critiques pour les acteurs

Fournit une vue d'ensemble de l'apprentissage par renforcement, en se concentrant sur le gradient de politique et les méthodes critiques des acteurs pour les réseaux de neurones artificiels profonds.

Introduction à la science des données

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Raisonnement du programme d'aide à l'apprentissage

Explore la recherche de bugs, la vérification et l'utilisation d'approches aidées à l'apprentissage dans le raisonnement de programme, montrant des exemples comme le bug Heartbleed et le raisonnement bayésien différentiel.

Introduction à l'apprentissage par renforcement: concepts et applications

Introduit l'apprentissage par renforcement, couvrant ses concepts, ses applications et ses algorithmes clés.

Techniques d'apprentissage par renforcement profondes et robustes

Discute des techniques avancées d'apprentissage par renforcement, en se concentrant sur des méthodes profondes et robustes, y compris des cadres d'acteur-critique et des stratégies d'apprentissage contradictoire.

Mini-bateaux dans l'apprentissage de renforcement profond sur-et-hors-politique

Explique l'importance des mini-lots dans l'apprentissage par renforcement profond et les différences entre les méthodes on-policy et off-policy.

Navigation par Quadrotor basée sur la vision

Discute de la navigation par quadritor en utilisant l'apprentissage de renforcement profond et le contrôle de bas niveau, en mettant l'accent sur l'intelligence visuelle et la robustesse du modèle de regard.

Introduction générale aux réseaux de neurones artificiels: partie 3

Couvre l'apprentissage par des récompenses dans l'apprentissage par renforcement profond sans détails mathématiques.

Méthodes de gradient de politique: apprentissage par l'action directe dans l'apprentissage par renforcement

Couvre les méthodes de gradient de politique, en mettant l'accent sur l'apprentissage par l'action directe et l'optimisation des récompenses dans l'apprentissage par renforcement.

Soustraire la récompense moyenne via la fonction valeur

Couvre l'importance de la soustraction de la récompense moyenne dans les méthodes de gradient de politique pour l'apprentissage par renforcement profond, réduisant le bruit dans le gradient stochastique.

Agents d'apprentissage: Tradeoff Exploration-Exploitation

Explore le compromis exploration-exploitation dans l'apprentissage des effets inconnus des actions en utilisant des bandits multi-armés et Q-learning.

Perception : Approches fondées sur les données

Explore la perception dans l'apprentissage profond pour les véhicules autonomes, couvrant la classification d'image, les méthodes d'optimisation, et le rôle de la représentation dans l'apprentissage automatique.

Apprentissage par renforcement : TD Learning et les variantes de la LEP

Discute de l'apprentissage par renforcement, en se concentrant sur l'apprentissage par différence temporelle et les variations de l'algorithme SARSA.