Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
DécentralisationLa décentralisation consiste en un transfert de pouvoirs de l'État vers des personnes morales de droit public distinctes de lui. Elles disposent : d'une autonomie plus ou moins grande, selon le degré de décentralisation ; d'un budget propre. Ces entités juridiques restent sous la surveillance de l'État, autorité de tutelle. La décentralisation est un système d’administration dans lequel le pouvoir de décision est exercé à la fois par l’État et par des personnes morales autonomes soumises au contrôle, au principe de légalité, des autorités étatiques.
Équilibre corréléEn théorie des jeux, la notion d’équilibre corrélé est un concept de solution proposée pour la première fois en 1974 par le mathématicien Robert Aumann. Il généralise le concept d'équilibre de Nash. L'équilibre corrélé suppose l'existence d'un dispositif externe de corrélation, par exemple un "maître du jeu" auquel tous les joueurs font confiance. Celui-ci affecte leurs stratégies aux différents joueurs suivant une certaine loi de probabilité.
Agricultural cooperativeAn agricultural cooperative, also known as a farmers' co-op, is a producer cooperative in which farmers pool their resources in certain areas of activity. A broad typology of agricultural cooperatives distinguishes between agricultural service cooperatives, which provide various services to their individually-farming members, and agricultural production cooperatives in which production resources (land, machinery) are pooled and members farm jointly.
Agent-based modelAn agent-based model (ABM) is a computational model for simulating the actions and interactions of autonomous agents (both individual or collective entities such as organizations or groups) in order to understand the behavior of a system and what governs its outcomes. It combines elements of game theory, complex systems, emergence, computational sociology, multi-agent systems, and evolutionary programming. Monte Carlo methods are used to understand the stochasticity of these models.
Temps de calcul pseudo-polynomialEn informatique théorique, et notamment en théorie de la complexité, un algorithme est appelé pseudo-polynomial si sa complexité en temps est un polynôme en la valeur numérique de l'entrée (mais pas nécessairement en la taille en mémoire de l'entrée). Considérons le problème du test de primalité. On peut vérifier qu'un entier naturel donné n est premier en testant qu'il n'est divisible par aucun des entiers . Cela exige divisions, de sorte que le temps pris par cet algorithme naïf est linéaire en la valeur n .
Réduction polynomialeUne réduction polynomiale est un outil d'informatique théorique, plus particulièrement de théorie de la complexité. C'est une classe particulière de réductions particulièrement importante, notamment pour le problème P = NP. Dans le cadre des langages formels pour les problèmes de décision, on dit qu'un langage est réductible en temps polynomial à un langage (noté ) s'il existe une fonction calculable en temps polynomial telle que pour tout , si et seulement si .
Stratégie évolutivement stableEn théorie des jeux, en psychologie comportementale et en psychologie évolutionniste, une stratégie évolutivement stable ou SES (en anglais, evolutionarily stable strategy ou ESS) est un cas particulier d'équilibre de Nash tel que, dans une grande population de joueurs se rencontrant aléatoirement, plusieurs stratégies peuvent coexister chacune possédant une fréquence d'équilibre propre. Développé originellement en 1973 par John Maynard Smith et George R.
Problème principal-agentLe principe du principal-agent est le cœur de la théorie de l'agence, une des théories de l'économie industrielle. Il désigne un ensemble de problèmes rencontrés lorsque l'action d'un acteur économique, désigné comme étant le « principal », dépend de l'action ou de la nature d'un autre acteur, « l'agent », sur lequel le principal est imparfaitement informé. Il s'agit donc d'étudier les conséquences d'une asymétrie d'information.