Couvre l'approche de programmation linéaire de l'apprentissage par renforcement, en se concentrant sur ses applications et ses avantages dans la résolution des processus décisionnels de Markov.
Explore les problèmes d'optimisation convexe, les critères d'optimalité, les problèmes équivalents et les applications pratiques dans le transport et la robotique.