Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.
Couvre les espaces normés, les espaces doubles, les espaces de Banach, les espaces de Hilbert, la convergence faible et forte, les espaces réflexifs et le théorème de Hahn-Banach.
Discute du gradient des politiques et des méthodes acteurs-critiques, en se concentrant sur les traces d'éligibilité et leur application dans les tâches d'apprentissage de renforcement.
Présente les chaînes de Markov, couvrant les bases, les algorithmes de génération et les applications dans les promenades aléatoires et les processus de Poisson.
Couvre les opérateurs délimités entre des espaces vectoriels normalisés, soulignant l'importance de la continuité et explorant des applications comme la transformation de Fourier.