Explore la perspective historique et le développement de l'algorithme AlphaGo, en se concentrant sur l'apprentissage automatique et les stratégies de jeu.
Explore les jeux en plusieurs étapes, en se concentrant sur la forme et les stratégies de rétroaction, y compris les équilibres de Nash et les méthodes d'induction en arrière.
Couvre les bases de l'utilisation de Zotero, un logiciel de gestion de référence gratuit et open-source avec des fonctionnalités telles que l'intégration de navigateur Web et la synchronisation en ligne.
Explore le passage à l'apprentissage par renforcement profond à travers les réseaux neuronaux pour l'apprentissage direct des politiques, en contournant les valeurs Q et V.