Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Striatumthumb|260px|Vue en 3D du striatum (en rouge). En neuroanatomie, le striatum ou néostriatum, appelé également le corps strié est une structure nerveuse subcorticale (sous le cortex) paire. Il est impliqué dans le mouvement involontaire, la motivation alimentaire ou sexuelle, la gestion de la douleur (via le système dopaminergique) et la cicatrisation voire la régénérescence de certains tissus cérébraux. Il est lié aux maladies de Parkinson, de Huntington et de Gilles de la Tourette, ainsi qu'au phénomène d'addiction.
Apprentissage par renforcement profondL'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.
Mémoire de travailLe système cognitif fonctionne en acquérant, filtrant et traitant des informations vitales, utiles, potentiellement utiles à court, moyen et long termes ; il a donc besoin de stocker (mémoriser) ces informations. Le cerveau semble pour cela disposer de systèmes différents, mais complémentaires, de mémoire à long terme et de mémoire à court terme. La notion de mémoire de travail, apparue dans les années 1970 désigne .
Basal ganglia diseaseBasal ganglia disease is a group of physical problems that occur when the group of nuclei in the brain known as the basal ganglia fail to properly suppress unwanted movements or to properly prime upper motor neuron circuits to initiate motor function. Research indicates that increased output of the basal ganglia inhibits thalamocortical projection neurons. Proper activation or deactivation of these neurons is an integral component for proper movement.
Mémoire (psychologie)thumb|350px|Les formes et fonctions de la mémoire en sciences. En psychologie, la mémoire est la faculté de l'esprit d'enregistrer, conserver et rappeler les expériences passées. Son investigation est réalisée par différentes disciplines : psychologie cognitive, neuropsychologie, et psychanalyse. thumb|Pyramide des cinq systèmes de mémoire. Le courant cognitiviste classique regroupe habituellement sous le terme de mémoire les processus dencodage, de stockage et de récupération des représentations mentales.
NeurotransmetteurLes neurotransmetteurs, ou neuromédiateurs, sont des composés chimiques libérés par les neurones (et parfois par les cellules gliales) agissant sur d'autres neurones, appelés neurones postsynaptiques, ou, plus rarement, sur d'autres types de cellules (comme les cellules musculaires et les cellules gliales comme les astrocytes). Les neurotransmetteurs sont stockés au niveau de l'élément présynaptique dans des vésicules. Le contenu de ces vésicules est libéré (de à molécules en moyenne) dans l'espace synaptique au moment de l'arrivée d'un potentiel d'action.
Medium spiny neuronMedium spiny neurons (MSNs), also known as spiny projection neurons (SPNs), are a special type of GABAergic inhibitory cell representing 95% of neurons within the human striatum, a basal ganglia structure. Medium spiny neurons have two primary phenotypes (characteristic types): D1-type MSNs of the direct pathway and D2-type MSNs of the indirect pathway. Most striatal MSNs contain only D1-type or D2-type dopamine receptors, but a subpopulation of MSNs exhibit both phenotypes.
Baddeley's model of working memoryBaddeley's model of working memory is a model of human memory proposed by Alan Baddeley and Graham Hitch in 1974, in an attempt to present a more accurate model of primary memory (often referred to as short-term memory). Working memory splits primary memory into multiple components, rather than considering it to be a single, unified construct. Baddeley & Hitch proposed their three-part working memory model as an alternative to the short-term store in Atkinson & Shiffrin's 'multi-store' memory model (1968).