Cette séance de cours présente des méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur l'estimation des fonctions de valeur sans connaissance de la dynamique de transition. Linstructeur commence par contraster les approches basées sur un modèle et sans modèle, en soulignant limportance dapprendre de lexpérience. La discussion couvre deux méthodes principales: Monte Carlo et Différences temporelles (TD). Les méthodes Monte Carlo estiment les fonctions de valeur en faisant la moyenne des rendements des trajectoires échantillonnées, tandis que les méthodes TD mettent à jour les estimations de valeur de manière incrémentielle en fonction des récompenses immédiates et des estimations ultérieures. La séance de cours explore également l'algorithme de descente de gradient stochastique (SGD) comme moyen d'optimiser ces estimations, en soulignant le rôle des estimateurs de gradient impartiaux. L'instructeur explique les défis des problèmes d'horizon infini et comment les méthodes TD peuvent résoudre ces problèmes. La session se termine par un résumé des différences entre les méthodes de Monte Carlo et de la TD, y compris leurs biais et leurs variances, et les implications pour l'évaluation des politiques et l'amélioration de l'apprentissage par renforcement.