Apprentissage par renforcement profondL'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.
Single-unit recordingIn neuroscience, single-unit recordings (also, single-neuron recordings) provide a method of measuring the electro-physiological responses of a single neuron using a microelectrode system. When a neuron generates an action potential, the signal propagates down the neuron as a current which flows in and out of the cell through excitable membrane regions in the soma and axon. A microelectrode is inserted into the brain, where it can record the rate of change in voltage with respect to time.
Neural decodingNeural decoding is a neuroscience field concerned with the hypothetical reconstruction of sensory and other stimuli from information that has already been encoded and represented in the brain by networks of neurons. Reconstruction refers to the ability of the researcher to predict what sensory stimuli the subject is receiving based purely on neuron action potentials. Therefore, the main goal of neural decoding is to characterize how the electrical activity of neurons elicit activity and responses in the brain.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Pointes-OndesLes pointes-ondes (spike-and-wave en anglais) sont un motif d'oscillation de l'électroencéphalogramme (EEG) qui apparaît en général pendant certaines manifestations d'épilepsie chez l'homme ou chez l'animal. Les pointes-ondes sont observées en particulier lors de crises généralisées, par exemple lors du petit mal épileptique (crises d'absence). Chez l'homme, les pointes-ondes se produisent généralement autour d'une fréquence de 3 Hz ou moins, et sont caractérisées par une remarquable synchronie bilatérale.
Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.