Explore la programmation dynamique pour un contrôle optimal, en se concentrant sur la stabilité, la politique stationnaire et les solutions récursives.
Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.
Couvre la convergence des méthodes de points fixes pour les équations non linéaires, y compris les théorèmes de convergence globale et locale et lordre de convergence.
Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.
Couvre les principes fondamentaux de la théorie du contrôle optimal, en se concentrant sur la définition des OCP, l'existence de solutions, les critères de performance, les contraintes physiques et le principe d'optimalité.
Couvre les méthodes itératives pour résoudre des équations linéaires et analyser la convergence, y compris le contrôle des erreurs et les matrices définies positives.