Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.
Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.
Explore les représentations factorisées pour la planification, en se concentrant sur la réduction de la complexité et l'amélioration de l'efficacité grâce à une modélisation distincte des fonctionnalités.