Cette séance de cours couvre la théorie du renforcement de l'apprentissage en mettant l'accent sur les exemples de grille, en expliquant des concepts tels que les récompenses attendues, les valeurs Q et l'apprentissage Q. L'instructeur démontre comment estimer les valeurs Q par rapport aux essais et les met à jour de façon itérative à l'aide d'un taux d'apprentissage.