Cette séance de cours porte sur la théorie du renforcement de l'apprentissage, en mettant l'accent sur le dilemme de l'exploration et de l'exploration, l'apprentissage des différences temporelles et les traces d'admissibilité dans les espaces d'état et d'action continus. Il examine les défis que pose l'estimation des probabilités de récompense et les stratégies visant à équilibrer l'exploration pour estimer les récompenses et l'exploitation afin de maximiser les récompenses.