Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Espace vectorielvignette|Dans un espace vectoriel, on peut additionner deux vecteurs. Par exemple, la somme du vecteur v (en bleu) et w (en rouge) est v + w. On peut aussi multiplier un vecteur, comme le vecteur w que l'on peut multiplier par 2, on obtient alors 2w et la somme devient v + 2w. En mathématiques, plus précisément en algèbre linéaire, un espace vectoriel est un ensemble d'objets, appelés vecteurs, que l'on peut additionner entre eux, et que l'on peut multiplier par un scalaire (pour les étirer ou les rétrécir, les tourner, etc.
Nonlinear dimensionality reductionNonlinear dimensionality reduction, also known as manifold learning, refers to various related techniques that aim to project high-dimensional data onto lower-dimensional latent manifolds, with the goal of either visualizing the data in the low-dimensional space, or learning the mapping (either from the high-dimensional space to the low-dimensional embedding or vice versa) itself. The techniques described below can be understood as generalizations of linear decomposition methods used for dimensionality reduction, such as singular value decomposition and principal component analysis.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Algorithme d'apprentissage incrémentalEn informatique, un algorithme d'apprentissage incrémental ou incrémentiel est un algorithme d'apprentissage qui a la particularité d'être online, c'est-à-dire qui apprend à partir de données reçues au fur et à mesure du temps. À chaque incrément il reçoit des données d'entrées et un résultat, l'algorithme calcule alors une amélioration du calcul fait pour prédire le résultat à partir des données d'entrées.
QuadrivecteurEn physique, un quadrivecteur est un vecteur à quatre dimensions utilisé pour représenter un événement dans l'espace-temps. Dans la théorie de la relativité restreinte, un quadrivecteur est un vecteur de l'espace de Minkowski, où un changement de référentiel se fait par des transformations de Lorentz (par covariance des coordonnées). En relativité restreinte, un quadrivecteur (ou 4-vecteur) est un vecteur appartenant à l'espace vectoriel associé à l'espace affine qu'est l'espace-temps.
Stability (learning theory)Stability, also known as algorithmic stability, is a notion in computational learning theory of how a machine learning algorithm output is changed with small perturbations to its inputs. A stable learning algorithm is one for which the prediction does not change much when the training data is modified slightly. For instance, consider a machine learning algorithm that is being trained to recognize handwritten letters of the alphabet, using 1000 examples of handwritten letters and their labels ("A" to "Z") as a training set.
Codage neuronalLe codage neuronal désigne, en neurosciences, la relation hypothétique entre le stimulus et les réponses neuronales individuelles ou globales. C'est une théorie sur l'activité électrique du système nerveux, selon laquelle les informations, par exemple sensorielles, numériques ou analogiques, sont représentées dans le cerveau par des réseaux de neurones. Le codage neuronal est lié aux concepts du souvenir, de l'association et de la mémoire sensorielle.
Système temps réelEn informatique, on parle d'un système temps réel lorsque ce système est capable de contrôler (ou piloter) un procédé physique à une vitesse adaptée à l'évolution du procédé contrôlé. Les systèmes informatiques temps réel se différencient des autres systèmes informatiques par la prise en compte de contraintes temporelles dont le respect est aussi important que l'exactitude du résultat, autrement dit le système ne doit pas simplement délivrer des résultats exacts, il doit les délivrer dans des délais imposés.
Gaz neuronalLe gaz neuronal est un réseau de neurones artificiel, inspiré des cartes autoadaptatives, et introduites en 1991 par Thomas Martinetz et Klaus Schulten. Le gaz neuronal est un algorithme simple pour trouver une représentation optimale de données à partir de vecteurs principaux. La méthode fut appelée "gaz neuronal" parce que l'évolution des vecteurs principaux durant l'étape d'apprentissage fait penser à un gaz qui occupe un espace de façon uniforme.