Explore les processus stochastiques contrôlés, en se concentrant sur l'analyse, le comportement et l'optimisation, en utilisant la programmation dynamique pour résoudre les problèmes du monde réel.
Explore la programmation dynamique pour un contrôle optimal, couvrant le remplacement de la machine, les chaînes de Markov, les politiques de contrôle et les problèmes quadratiques linéaires.
Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.