Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Système de récompenseLe système de récompense / renforcement aussi appelé système hédonique, est un système fonctionnel fondamental des mammifères, situé dans le cerveau, le long du faisceau médian du télencéphale. Ce système de « récompenses » est indispensable à la survie, car il fournit la motivation nécessaire à la réalisation d'actions ou de comportements adaptés, permettant de préserver l'individu et l'espèce (prise de risque nécessaire à la survie, recherche de nourriture, reproduction, évitement des dangers, etc.).
Combinaison linéaireEn mathématiques, une combinaison linéaire est une expression construite à partir d'un ensemble de termes en multipliant chaque terme par une constante et en ajoutant le résultat. Par exemple, une combinaison linéaire de x et y serait une expression de la forme ax + by, où a et b sont des constantes. Le concept de combinaison linéaire est central en algèbre linéaire et dans des domaines connexes des mathématiques. La majeure partie de cet article traite des combinaisons linéaires dans le contexte d'espace vectoriel sur un corps commutatif, et indique quelques généralisations à la fin de l'article.
Apprentissage par renforcement profondL'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.
Sous-espace vectoriel engendréDans un espace vectoriel E, le sous-espace vectoriel engendré par une partie A de E est le plus petit sous-espace vectoriel de E contenant A. C'est aussi l'ensemble des combinaisons linéaires de vecteurs de A. Le sous-espace vectoriel engendré par une famille de vecteurs est le plus petit sous-espace contenant tous les vecteurs de cette famille. Une famille de vecteurs ou une partie est dite génératrice de E si le sous-espace qu'elle engendre est l'espace entier E.
Combinaison barycentriqueEn géométrie vectorielle, une combinaison barycentrique ou combinaison affine de vecteurs est une combinaison linéaire dont la somme des coefficients est égale à 1. L’expression s’emploie par défaut pour une somme finie, mais parfois aussi pour la limite d’une série sous réserve de convergence. Les combinaisons barycentriques correspondent ainsi aux barycentres des vecteurs vus comme des points de l’espace affine associé, et l’ensemble de ces combinaisons barycentriques constitue le sous-espace affine engendré par ces points.
Indépendance linéaireEn algèbre linéaire, étant donné une famille de vecteurs d'un même espace vectoriel, les vecteurs de la famille sont linéairement indépendants, ou forment une famille libre, si la seule combinaison linéaire de ces vecteurs qui soit égale au vecteur nul est celle dont tous les coefficients sont nuls. Cela revient à dire qu'aucun des vecteurs de la famille n'est combinaison linéaire des autres. Dans le cas où des vecteurs ne sont pas linéairement indépendants, on dit qu'ils sont linéairement dépendants, ou qu'ils forment une famille liée.
DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.
Conical combinationGiven a finite number of vectors in a real vector space, a conical combination, conical sum, or weighted sum of these vectors is a vector of the form where are non-negative real numbers. The name derives from the fact that a conical sum of vectors defines a cone (possibly in a lower-dimensional subspace). The set of all conical combinations for a given set S is called the conical hull of S and denoted cone(S) or coni(S). That is, By taking k = 0, it follows the zero vector (origin) belongs to all conical hulls (since the summation becomes an empty sum).
Brain stimulation rewardBrain stimulation reward (BSR) is a pleasurable phenomenon elicited via direct stimulation of specific brain regions, originally discovered by James Olds and Peter Milner. BSR can serve as a robust operant reinforcer. Targeted stimulation activates the reward system circuitry and establishes response habits similar to those established by natural rewards, such as food and sex. Experiments on BSR soon demonstrated that stimulation of the lateral hypothalamus, along with other regions of the brain associated with natural reward, was both rewarding as well as motivation-inducing.