Apprentissage par renforcement profond: mini-bateaux et méthodes politiques

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (30)

MuZero: Modèle de planification et d'apprentissage

Couvre MuZero, un modèle qui apprend à prédire les récompenses et les actions de manière itérative, réalisant des performances de pointe dans les jeux de société et les jeux vidéo Atari.

Raisonnement du programme d'aide à l'apprentissage

Explore la recherche de bugs, la vérification et l'utilisation d'approches aidées à l'apprentissage dans le raisonnement de programme, montrant des exemples comme le bug Heartbleed et le raisonnement bayésien différentiel.

Q-Learning profond: DeepRL1.1

Couvre le Q-learning profond dans les réseaux neuronaux profonds, son application dans les jeux, la rétropropagation, les valeurs Q et les valeurs V.

Agents d'apprentissage: Tradeoff Exploration-Exploitation

Explore le compromis exploration-exploitation dans l'apprentissage des effets inconnus des actions en utilisant des bandits multi-armés et Q-learning.

Introduction générale aux réseaux de neurones artificiels: partie 3

Couvre l'apprentissage par des récompenses dans l'apprentissage par renforcement profond sans détails mathématiques.

Optimisation de la politique proximale pour un contrôle continu

Explore l'optimisation des politiques proximales pour améliorer la stabilité et l'efficacité du contrôle continu avec un apprentissage par renforcement profond.

Réseaux profonds et convolutifs : généralisation et optimisation

Explore les réseaux profonds et convolutifs, couvrant la généralisation, l'optimisation et les applications pratiques dans l'apprentissage automatique.

Dynamique de l'apprentissage collectif : Exploitation de la similitude

S'insère dans la dynamique de l'apprentissage collectif avec exploitation de la similitude, couvrant l'apprentissage structuré, les cadres d'adaptation, la modélisation, la simulation et les résultats expérimentaux.

Soustraire la récompense moyenne via la fonction valeur

Couvre l'importance de la soustraction de la récompense moyenne dans les méthodes de gradient de politique pour l'apprentissage par renforcement profond, réduisant le bruit dans le gradient stochastique.

Introduction à l'apprentissage par renforcement: concepts et applications clés

Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.

Page 2 sur 2