Explore la programmation dynamique pour un contrôle optimal, en se concentrant sur la stabilité, la politique stationnaire et les solutions récursives.
Explore les modèles de diffusion, en mettant l'accent sur la production d'échantillons provenant d'une distribution et l'importance de la dénigrement dans le processus.
Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.