Couvre les principes fondamentaux de la théorie du contrôle optimal, en se concentrant sur la définition des OCP, l'existence de solutions, les critères de performance, les contraintes physiques et le principe d'optimalité.
S'insère dans la dynamique de l'apprentissage collectif avec exploitation de la similitude, couvrant l'apprentissage structuré, les cadres d'adaptation, la modélisation, la simulation et les résultats expérimentaux.
Explore le passage à l'apprentissage par renforcement profond à travers les réseaux neuronaux pour l'apprentissage direct des politiques, en contournant les valeurs Q et V.
Explore les approches et les défis modernes en matière d'acquisition de données pour l'apprentissage de contrôleurs optimaux au moyen de démonstrations et de méthodes axées sur les données.
Couvre les bases de l'apprentissage de renforcement, y compris l'apprentissage d'essai et d'erreur, l'apprentissage Q, le RL profond, et les applications dans le jeu et la planification.