Cette séance de cours introduit le concept de bandits multi-bras, un cadre dans l'apprentissage de renforcement où un agent interagit avec un environnement en choisissant des actions à explorer et à exploiter. L'instructeur explique le compromis exploration-exploitation, la notion de regret et la stratégie d'échantillonnage de différentes armes pour estimer leurs moyens. L’objectif est de minimiser les regrets en équilibrant l’exploration de nouvelles actions et l’exploitation de l’action la plus connue. La séance de cours couvre la phase d'exploration, l'estimation empirique de la moyenne et le défi de déterminer la stratégie optimale dans un environnement dynamique.