Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.
Explore les processus stochastiques contrôlés, en se concentrant sur l'analyse, le comportement et l'optimisation, en utilisant la programmation dynamique pour résoudre les problèmes du monde réel.
Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.