Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre la mise en œuvre d'agents réactifs qui apprennent des observations, en se concentrant sur le compromis exploration-exploitation dans l'apprentissage des effets inconnus des actions. Il examine les scénarios où un adversaire peut influencer le monde et les techniques pour développer des stratégies robustes. Les sujets incluent les bandits multi-armes, Q-learning, les bandits contextuels, et des stratégies comme epsilon-greedy, Thompson sampling, et regret matching. La séance de cours explore également les défis de l'apprentissage avec les transitions d'état et l'utilisation de l'apprentissage Q profond et de la rediffusion d'expérience pour les relever.