Cette séance de cours présente un quiz où l'instructeur discute de diverses revendications liées aux algorithmes d'apprentissage par renforcement, telles que l'utilisation de valeurs Q ou V, la transition de l'apprentissage par lots à l'apprentissage en ligne, l'optimisation de la récompense totale attendue et la signification intuitive de la dérivée de la politique de journalisation.