Concept

Système de récompense

Séances de cours associées (21)

Méthodes de gradient de politique: Techniques d'apprentissage par renforcement

Fournit un aperçu des méthodes de gradient de politique dans l'apprentissage par renforcement, en se concentrant sur le tour de log-vraisemblance et la transition de l'apprentissage par lots à l'apprentissage en ligne.