Explore les agents réactifs et les processus décisionnels, couvrant des sujets tels que les processus décisionnels de Markov et les agents en temps réel.
Explore la synthèse de boucliers pour l'exécution dans les systèmes réactifs, assurant un comportement correct avec une déviation minimale, illustré avec des exemples comme les contrôleurs de feux de circulation et Pac-Man.
Explore les distributions invariantes, les états récurrents et la convergence dans les chaînes de Markov, y compris des applications pratiques telles que PageRank dans Google.
Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.