Séances de cours associées à Estimation de la politique: Le trick de log-probabilité

Séance de cours interactive : Apprentissage du renforcement

Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.

Probabilités et processus stochastiques

Couvre la probabilité appliquée, les processus stochastiques, les chaînes de Markov, l'échantillonnage de rejet et les méthodes d'inférence bayésienne.

Bases d'apprentissage de renforcement

Introduit les bases de l'apprentissage par renforcement, y compris les politiques d'apprentissage Q et epsilon-greedy.