Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.
Couvre les chaînes de Markov et leurs applications dans les algorithmes, en se concentrant sur l'échantillonnage Markov Chain Monte Carlo et l'algorithme Metropolis-Hastings.
Explore l'ergonomie et la distribution stationnaire dans les chaînes Markov, en mettant l'accent sur les propriétés de convergence et les distributions uniques.
Explore les distributions invariantes, les états récurrents et la convergence dans les chaînes de Markov, y compris des applications pratiques telles que PageRank dans Google.
Couvre les concepts clés de l'apprentissage par renforcement, des réseaux neuronaux, du clustering et de l'apprentissage non supervisé, en mettant l'accent sur leurs applications et leurs défis.
Introduit des modèles de Markov cachés, expliquant les problèmes de base et les algorithmes comme Forward-Backward, Viterbi et Baum-Welch, en mettant laccent sur lattente-Maximisation.