Séance de cours

Variations du SARSA : apprentissage prévu du SARSA et du Q

Description

Cette séance de cours présente les variations de l'algorithme SARSA, en mettant l'accent sur l'apprentissage attendu SARSA et Q. Le SARSA prévu met à jour la politique en faisant la moyenne des prochaines actions possibles, tandis que Q learning met à jour la politique en considérant l'action maximale possible. L'instructeur explique les différences entre ces variations et leur impact sur le processus d'apprentissage.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.