Séances de cours associées à Action selection

Agents réactifs : processus de décision

Explore les agents réactifs et les processus décisionnels, couvrant des sujets tels que les processus décisionnels de Markov et les agents en temps réel.

Exploration vs. Exploitation: Softmax Policy Quiz

Présente un quiz sur le dilemme exploration vs exploitation en utilisant la politique softmax.

Comment changer la politique avec une méthode de gradient

Explique l'optimisation de la récompense totale en modifiant la politique avec les méthodes de gradient.

Apprentissage par renforcement profond basé sur des modèles: Monte Carlo Tree Search

Explore l'apprentissage par renforcement profond basé sur des modèles, en se concentrant sur Monte Carlo Tree Search et ses applications dans les stratégies de jeu et les processus décisionnels.