Cette séance de cours couvre Q-Learning, un algorithme d'apprentissage par renforcement sans modèle. Il explique comment Q-Learning estime les valeurs d'action, s'arrête à la convergence et se compare à Monte Carlo Estimation. L'application à Tic-Tac-Toe est discutée avec des exemples et des quiz.
Cette vidéo est disponible exclusivement sur Mediaspace pour un public restreint. Veuillez vous connecter à Mediaspace pour y accéder si vous disposez des autorisations nécessaires.
Regarder sur Mediaspace