Cette séance de cours explore les réseaux acteurs-critiques, en particulier les réseaux de critiques d’acteurs, qui combinent l’apprentissage TD avec un gradient de politique pour optimiser les paramètres afin de maximiser le rendement. La comparaison entre critique d'acteur et renforcement avec les méthodes de base est explorée, mettant en évidence les différences dans l'estimation de la valeur V et les mises à jour des paramètres.