Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.
Explore la recherche de bugs, la vérification et l'utilisation d'approches aidées à l'apprentissage dans le raisonnement de programme, montrant des exemples comme le bug Heartbleed et le raisonnement bayésien différentiel.
Explore l'optimisation des politiques proximales pour améliorer la stabilité et l'efficacité du contrôle continu avec un apprentissage par renforcement profond.
Couvre les méthodes de gradient de politique, en mettant l'accent sur l'apprentissage par l'action directe et l'optimisation des récompenses dans l'apprentissage par renforcement.
Fournit une vue d'ensemble de l'apprentissage par renforcement, en se concentrant sur le gradient de politique et les méthodes critiques des acteurs pour les réseaux de neurones artificiels profonds.
Discute des méthodes d'apprentissage par renforcement profond, en se concentrant sur les mini-batchs et les implications des techniques de formation on-policy et off-policy.
Couvre les bases de l'apprentissage du renforcement, y compris les processus décisionnels de Markov et les méthodes de gradient des politiques, et explore les applications du monde réel et les avancées récentes.