Résumé
vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement. La lettre 'Q' désigne la fonction qui mesure la qualité d'une action exécutée dans un état donné du système. Google DeepMind a réalisé un programme informatique qui joue à des jeux vidéos Atari 2600. Pour cela, ils ont appliqué le Q-learning avec de l'apprentissage profond. Cette technique s'appelle alors le "deep reinforcement learning" or "deep Q-learning". Cela fait l'objet d'un brevet. vignette|Environnement sous la forme d'une grille. Le robot se déplace de case en case. Sur une case "tête de mort" : le robot meurt et perd 100€. Sur une case "gâteau", le robot gagne 100€. Sur les autres cases, le robot perd 1€. Pour une case s, plus une flèche dans une direction a est noire, plus Q(s, a) est grand. Si les flèches sont pleines et vertes, il s'agit d'une valeur Q(s, a) maximale. Considérons un système quelconque : par exemple, un jeu vidéo, un robot qui doit s'évader d'un labyrinthe, ou encore un robot qui doit apprendre à tenir un œuf. Un agent (programme informatique, robot) doit alors apprendre à réaliser une tâche : gagner une partie de jeu vidéo avec le plus de points, s'évader d'un labyrinthe sans se faire attraper, tenir l’œuf le plus longtemps sans le casser. Le Q-learning permet d'apprendre une stratégie, qui indique quelle action effectuer dans chaque état du système. Par exemple, le robot peut apprendre d'aller à droite quand il se trouve sur la case (2, 3), mais d'aller en haut s'il se trouve sur la case (4, 6), etc. A chaque étape, l'agent reçoit une récompense immédiate qui est un nombre réel.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (37)
CS-456: Artificial neural networks/reinforcement learning
Since 2010 approaches in deep learning have revolutionized fields as diverse as computer vision, machine learning, or artificial intelligence. This course gives a systematic introduction into influent
CIVIL-459: Deep learning for autonomous vehicles
Deep Learning (DL) is the subset of Machine learning reshaping the future of transportation and mobility. In this class, we will show how DL can be used to teach autonomous vehicles to detect objects,
ENG-704: EECS Seminar: Advanced Topics in Machine Learning
Students learn about advanced topics in machine learning, artificial intelligence, optimization, and data science. Students also learn to interact with scientific work, analyze and understand strength
Afficher plus
Séances de cours associées (332)
Modèles génériques: Prévisions de trajectoire
Explore des modèles générateurs pour la prévision de trajectoires dans les véhicules autonomes, y compris des modèles discriminatifs vs générateurs, VAES, GANS, et des études de cas.
Réseaux neuronaux : formation et activation
Explore les réseaux neuronaux, les fonctions d'activation, la rétropropagation et l'implémentation de PyTorch.
Systèmes multiagents distribués : coordination et apprentissage
Explore la coordination et l'apprentissage dans des systèmes multiagents distribués, couvrant les lois sociales, l'échange de tâches, la satisfaction des contraintes et les algorithmes de coordination.
Afficher plus
Publications associées (593)

Predicting the long-term collective behaviour of fish pairs with deep learning

Francesco Mondada, Alexandre Massoud Alahi, Vaios Papaspyros

Modern computing has enhanced our understanding of how social interactions shape collective behaviour in animal societies. Although analytical models dominate in studying collective behaviour, this study introduces a deep learning model to assess social in ...
2024

Seeking the new, learning from the unexpected: Computational models of surprise and novelty in the brain

Alireza Modirshanechi

Human babies have a natural desire to interact with new toys and objects, through which they learn how the world around them works, e.g., that glass shatters when dropped, but a rubber ball does not. When their predictions are proven incorrect, such as whe ...
EPFL2024

Data for Paper "Scalable Semantic 3D Mapping of Coral Reefs with Deep Learning"

Anders Meibom, Devis Tuia, Guilhem Maurice Louis Banc-Prandi, Jonathan Paul Sauder

Example Data for DeepReefMap This dataset contains input videos in MP4 format taken with GoPro Hero 10 Cameras in Reefs in the Red Sea to demonstrate the DeepReefMap tool, which is described in the paper "Scalable Semantic 3D Mapping of Coral Reefs with De ...
EPFL Infoscience2024
Afficher plus
Concepts associés (3)
Apprentissage profond
L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.
Apprentissage par renforcement
En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Théorie des jeux
La théorie des jeux est un domaine des mathématiques qui propose une description formelle d'interactions stratégiques entre agents (appelés « joueurs »). Les fondements mathématiques de la théorie moderne des jeux sont décrits autour des années 1920 par Ernst Zermelo dans l'article , et par Émile Borel dans l'article . Ces idées sont ensuite développées par Oskar Morgenstern et John von Neumann en 1944 dans leur ouvrage qui est considéré comme le fondement de la théorie des jeux moderne.
MOOCs associés (7)
Neuro Robotics
At the same time, several different tutorials on available data and data tools, such as those from the Allen Institute for Brain Science, provide you with in-depth knowledge on brain atlases, gene exp
Neurorobotics
The MOOC on Neuro-robotics focuses on teaching advanced learners to design and construct a virtual robot and test its performance in a simulation using the HBP robotics platform. Learners will learn t
Neurorobotics
The MOOC on Neuro-robotics focuses on teaching advanced learners to design and construct a virtual robot and test its performance in a simulation using the HBP robotics platform. Learners will learn t
Afficher plus