Séance de cours

Renforcement de l'apprentissage : Q-Learning

Description

Cette séance de cours couvre Q-Learning, un algorithme d'apprentissage par renforcement sans modèle. Il explique comment Q-Learning estime les valeurs d'action, s'arrête à la convergence et se compare à Monte Carlo Estimation. L'application à Tic-Tac-Toe est discutée avec des exemples et des quiz.

Cette vidéo est disponible exclusivement sur Mediaspace pour un public restreint. Veuillez vous connecter à Mediaspace pour y accéder si vous disposez des autorisations nécessaires.

Regarder sur Mediaspace
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.