Multi-agent reinforcement learningMulti-agent reinforcement learning (MARL) is a sub-field of reinforcement learning. It focuses on studying the behavior of multiple learning agents that coexist in a shared environment. Each agent is motivated by its own rewards, and does actions to advance its own interests; in some environments these interests are opposed to the interests of other agents, resulting in complex group dynamics. Multi-agent reinforcement learning is closely related to game theory and especially repeated games, as well as multi-agent systems.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Sous-espace vectorielEn algèbre linéaire, un sous-espace vectoriel d'un espace vectoriel E, est une partie non vide F, de E, stable par combinaisons linéaires. Cette stabilité s'exprime par : la somme de deux vecteurs de F appartient à F ; le produit d'un vecteur de F par un scalaire appartient à F. Muni des lois induites, F est alors un espace vectoriel. L'intersection d'une famille non vide de sous-espaces de E est un sous-espace de E. La réunion d'une famille non vide de sous-espaces n'en est généralement pas un ; le sous-espace engendré par cette réunion est la somme de cette famille.
Réseau neuronal convolutifEn apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel.
Captage du dioxyde de carbone dans l'airLa captage du dioxyde de carbone dans l'air ou captage direct du dioxyde de carbone, en anglais direct air capture (DAC) ou direct air capture and storage (DACCS) est l'extraction du dioxyde de carbone () présent dans l'air ambiant. Cette approche est à distinguer des techniques de captage à la source des émissions industrielles (carbon capture and storage, CCS), où les concentrations de sont bien plus élevées et le besoin en énergie plus faible.
Complemented subspaceIn the branch of mathematics called functional analysis, a complemented subspace of a topological vector space is a vector subspace for which there exists some other vector subspace of called its (topological) complement in , such that is the direct sum in the category of topological vector spaces. Formally, topological direct sums strengthen the algebraic direct sum by requiring certain maps be continuous; the result retains many nice properties from the operation of direct sum in finite-dimensional vector spaces.
Self-playSelf-play is a technique for improving the performance of reinforcement learning agents. Intuitively, agents learn to improve their performance by playing "against themselves". In multi-agent reinforcement learning experiments, researchers try to optimize the performance of a learning agent on a given task, in cooperation or competition with one or more agents. These agents learn by trial-and-error, and researchers may choose to have the learning algorithm play the role of two or more of the different agents.
Problème inversevignette|une somme de plusieurs nombres donne le nombre 27, mais peut-on les deviner à partir de 27 ? En science, un problème inverse est une situation dans laquelle on tente de déterminer les causes d'un phénomène à partir des observations expérimentales de ses effets. Par exemple, en sismologie, la localisation de l'origine d'un tremblement de terre à partir de mesures faites par plusieurs stations sismiques réparties sur la surface du globe terrestre est un problème inverse.