Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.
Explore la programmation dynamique pour optimiser les processus de prise de décision au fil du temps, en utilisant des exemples concrets tels que l'extraction de pétrole et la négociation d'actions.