Cette séance de cours introduit le concept de problèmes de bandits dans l'apprentissage de renforcement, où l'on doit choisir entre différentes actions et reçoit immédiatement une récompense. Les diapositives couvrent des sujets tels que les jeux d'horizon en une étape, les valeurs Q, la politique optimale, les règles de mise à jour itératives, la moyenne empirique et la convergence des attentes.