Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre le concept d'optimisation de la récompense totale attendue en associant directement les stimuli aux actions et en adaptant la politique à l'aide de méthodes de gradient. Il explique comment modifier la politique afin de maximiser la récompense totale en fonction des réponses et des exemples neuraux.