Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Couvre Mod.7 sur les chaînes Markov en continu, en mettant l'accent sur les chaînes réversibles et leurs applications dans les systèmes de communication.