Séance de cours

Exploration versus exploitation

Description

Cette séance de cours traite du dilemme exploration-exploitation dans l’apprentissage par renforcement, où le défi consiste à trouver un équilibre entre la nécessité d’explorer de nouvelles possibilités pour trouver des actions optimales et le désir d’exploiter des actions gratifiantes connues. Il couvre les questions de l'estimation correcte des valeurs Q, les inconvénients d'une stratégie gourmande et des approches pratiques telles que les méthodes epsilon-greedy. À travers des exemples et des simulations, l'instructeur illustre comment différentes stratégies ont un impact sur la prise de décision et la performance dans les tâches d'apprentissage par renforcement.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.