Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours traite du dilemme exploration-exploitation dans l’apprentissage par renforcement, où le défi consiste à trouver un équilibre entre la nécessité d’explorer de nouvelles possibilités pour trouver des actions optimales et le désir d’exploiter des actions gratifiantes connues. Il couvre les questions de l'estimation correcte des valeurs Q, les inconvénients d'une stratégie gourmande et des approches pratiques telles que les méthodes epsilon-greedy. À travers des exemples et des simulations, l'instructeur illustre comment différentes stratégies ont un impact sur la prise de décision et la performance dans les tâches d'apprentissage par renforcement.