Cette séance de cours fournit une introduction à l'apprentissage par renforcement (RL), en se concentrant sur ses concepts fondamentaux et ses applications. L'instructeur commence par définir l'intelligence comme la capacité d'apprendre à travers diverses tâches, en mettant l'accent sur la nécessité de systèmes d'apprentissage à usage général. La séance de cours illustre le processus d'apprentissage par essais et erreurs inhérent à RL, en utilisant des exemples tels qu'un robot humanoïde apprenant à naviguer dans un cours de parkour à travers des tentatives répétées. Les principaux aspects de RL sont discutés, y compris l'importance des fonctions de récompense dans la spécification des objectifs et les défis des dépendances à long terme. L'instructeur met en évidence les succès notables dans RL, tels que AlphaGo et AlphaZero, et décrit la structure des processus décisionnels de Markov (MDP) comme un cadre pour les problèmes de RL. La séance de cours couvre également la distinction entre l'apprentissage basé sur un modèle et l'apprentissage sans modèle, les stratégies d'exploration et divers algorithmes tels que SARSA et Q-learning. Enfin, l'instructeur aborde l'apprentissage par renforcement profond et l'utilisation des réseaux neuronaux pour approximer les fonctions de valeur, se terminant par une discussion sur les méthodes d'optimisation des politiques.