AlphaZero est une version généraliste d’AlphaGo Zero, un logiciel de go (jeu de stratégie abstrait chinois) qui a été adapté pour jouer aux échecs et au shogi (échecs japonais). AlphaZero a été créé par Demis Hassabis de DeepMind, une entreprise appartenant au groupe Google. Le , DeepMind poste sur la plateforme de prépublication arXiv un article concernant AlphaZero, un programme utilisant l’approche généralisée d'AlphaGo Zero. Le style de jeu d'AlphaZero s'écarte des programmes de jeu habituels tout en requérant moins de calculs par mouvement en regard de ses concurrents. Selon DeepMind, AlphaZero a atteint en 24 heures un niveau de jeu supérieur aux humains au jeu d'échecs, au shogi et au go en battant les programmes champions du monde Stockfish (échecs), (shogi) et la version d’AlphaGo Zero ayant eu trois jours d'apprentissage. Le même mois, AlphaZero bat la version AlphaGo Zero (ayant 3 jours d’apprentissage) 60 parties à 40. Avec 8 heures de pratique et 21 millions de parties jouées contre lui-même, il surpasse la version d’AlphaGo du match contre Lee Sedol au classement Elo. Stockfish, le logiciel champion du monde d'échecs est battu après 4 heures d'apprentissage et 44 millions de parties jouées. Toutefois, Stockfish n'avait pas le droit d'utiliser ses bibliothèques d'ouvertures et de finales. Le programme de shogi Elmo est terrassé après deux heures de pratique et 24 millions de parties. AlphaZero possède désormais un réseau de neurones mis à jour de manière continue et possède des règles codées pour l’établissement de recherche d’hyperparamètres. Par ailleurs, il n'a pas été programmé pour profiter des symétries propres au jeu de go (possibilités de réflexions et rotations), inexistantes dans le jeu d'échecs, et peut prendre en compte la possibilité d'une partie nulle (inexistant au jeu de go mais présent aux échecs).

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (3)
CS-456: Deep reinforcement learning
This course provides an overview and introduces modern methods for reinforcement learning (RL.) The course starts with the fundamentals of RL, such as Q-learning, and delves into commonly used approac
ME-390: Foundations of artificial intelligence
This course provides the students with 1) a set of theoretical concepts to understand the machine learning approach; and 2) a subset of the tools to use this approach for problems arising in mechanica
CS-430: Intelligent agents
Software agents are widely used to control physical, economic and financial processes. The course presents practical methods for implementing software agents and multi-agent systems, supported by prog
Séances de cours associées (14)
RL profonde basée sur le modèle: planification et VAST
Couvre l'apprentissage par modèle, la planification, la tabulation des états variables et la mise à jour efficace des valeurs Q et V.
Estimation de la pose à la main
Couvre l'estimation de la pose de la main, les techniques de régression et l'évolution des modèles de classification d'images de LeNet à VGG19.
Renforcement de l'apprentissage : Q-Learning
Introduit Q-Learning, Deep Q-Learning, l'algorithme REINFORCE et Monte-Carlo Tree Search dans l'apprentissage par renforcement, aboutissant à AlphaGo Zero.
Afficher plus
Publications associées (1)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.