Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Apprentissage par renforcement profondL'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Apprentissage automatiqueL'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.
Système de récompenseLe système de récompense / renforcement aussi appelé système hédonique, est un système fonctionnel fondamental des mammifères, situé dans le cerveau, le long du faisceau médian du télencéphale. Ce système de « récompenses » est indispensable à la survie, car il fournit la motivation nécessaire à la réalisation d'actions ou de comportements adaptés, permettant de préserver l'individu et l'espèce (prise de risque nécessaire à la survie, recherche de nourriture, reproduction, évitement des dangers, etc.).
Cerveau humainLe 'cerveau humain' a la même structure générale que le cerveau des autres mammifères, mais il est celui dont la taille relative par rapport au reste du corps est devenue la plus grande au cours de l'évolution. Si la baleine bleue a le cerveau le plus lourd avec contre environ pour celui de l'homme, le coefficient d'encéphalisation humain est le plus élevé et est sept fois supérieur à celui de la moyenne des mammifères.
Cerveauvignette|Cerveau d'un chimpanzé. Le cerveau est le principal organe du système nerveux des animaux bilatériens. Ce terme tient du langage courant (non scientifique) et chez les chordés, comme les humains, il peut désigner l'encéphale, ou uniquement une partie de l'encéphale, le prosencéphale (télencéphale + diencéphale), voire seulement le télencéphale. Néanmoins, dans cet article, le terme « cerveau » prend son sens le plus large. Le cerveau des chordés est situé dans la tête, protégé par le crâne chez les craniés, et son volume varie grandement d'une espèce à l'autre.
ApprentissageL’apprentissage est un ensemble de mécanismes menant à l'acquisition de savoir-faire, de savoirs ou de connaissances. L'acteur de l'apprentissage est appelé apprenant. On peut opposer l'apprentissage à l'enseignement dont le but est de dispenser des connaissances et savoirs, l'acteur de l'enseignement étant l'enseignant.
Temporal difference learningLe Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal. vignette|151x151px|Diagramme backup.
Meta-learning (computer science)Meta learning is a subfield of machine learning where automatic learning algorithms are applied to metadata about machine learning experiments. As of 2017, the term had not found a standard interpretation, however the main goal is to use such metadata to understand how automatic learning can become flexible in solving learning problems, hence to improve the performance of existing learning algorithms or to learn (induce) the learning algorithm itself, hence the alternative term learning to learn.