Q-learning

Applied sciences
Information engineering
Apprentissage automatique
Apprentissage par renforcement

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (29)

Connectez-vous pour filtrer par séance de cours

Page 3 sur 3

Fondements de l'apprentissage profond: Aperçu de l'architecture transformatrice

Couvre les concepts fondamentaux de l'apprentissage profond et de l'architecture Transformer, en se concentrant sur les réseaux neuronaux, les mécanismes d'attention et leurs applications dans les tâches de modélisation de séquence.

Renforcement de l'apprentissage : Q-Learning

Introduit Q-Learning, Deep Q-Learning, l'algorithme REINFORCE et Monte-Carlo Tree Search dans l'apprentissage par renforcement, aboutissant à AlphaGo Zero.

Variations du SARSA : apprentissage prévu du SARSA et du Q

Explore l'apprentissage SARSA et Q attendu, deux variantes de l'algorithme SARSA.

Apprentissage continu du renforcement : apprentissage automatique avancé

Explore les défis d'apprentissage en renforcement continu de l'état, l'estimation de la fonction de valeur, les gradients des politiques et l'apprentissage des politiques par l'exploration pondérée.

Q-Learning profond: DeepRL1.1

Couvre le Q-learning profond dans les réseaux neuronaux profonds, son application dans les jeux, la rétropropagation, les valeurs Q et les valeurs V.

Apprentissage des différences temporelles

Couvertures Renforcement Théorie de l'apprentissage, Q-Learning, et horizons multi-étapes.

Démarrage et alignement

Explore l'incitation, l'alignement et les capacités des grands modèles de langage pour les tâches de traitement du langage naturel.

Paysage et généralisation dans l'apprentissage profond

Explore les défis et les points de vue de l'apprentissage profond, en mettant l'accent sur le paysage des pertes, la généralisation et l'apprentissage caractéristique.

Théorie du renforcement de l'apprentissage: exemples de grille

Explique la théorie du renforcement de l'apprentissage au moyen d'exemples de grille et de mises à jour itératives de la valeur Q.