Publication

No-Regret Learning in Unknown Games with Correlated Payoffs

Concepts associés (32)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Système de récompense

Le système de récompense / renforcement aussi appelé système hédonique, est un système fonctionnel fondamental des mammifères, situé dans le cerveau, le long du faisceau médian du télencéphale. Ce système de « récompenses » est indispensable à la survie, car il fournit la motivation nécessaire à la réalisation d'actions ou de comportements adaptés, permettant de préserver l'individu et l'espèce (prise de risque nécessaire à la survie, recherche de nourriture, reproduction, évitement des dangers, etc.).

Apprentissage par renforcement

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.

Jeu de coordination

Dans la théorie des jeux, les jeux de coordination sont une classe de jeux comportant de multiples équilibres de stratégie purs dans lesquels les joueurs choisissent les mêmes stratégies ou des stratégies correspondantes. Un cas typique pour un jeu de coordination consiste à choisir les côtés de la route sur lesquels conduire, une norme sociale qui peut sauver des vies si elle est largement respectée. Dans un exemple simplifié, supposons que deux conducteurs se rencontrent sur un chemin de terre étroit.

Brain stimulation reward

Brain stimulation reward (BSR) is a pleasurable phenomenon elicited via direct stimulation of specific brain regions, originally discovered by James Olds and Peter Milner. BSR can serve as a robust operant reinforcer. Targeted stimulation activates the reward system circuitry and establishes response habits similar to those established by natural rewards, such as food and sex. Experiments on BSR soon demonstrated that stimulation of the lateral hypothalamus, along with other regions of the brain associated with natural reward, was both rewarding as well as motivation-inducing.

Théorie des jeux

La théorie des jeux est un domaine des mathématiques qui propose une description formelle d'interactions stratégiques entre agents (appelés « joueurs »). Les fondements mathématiques de la théorie moderne des jeux sont décrits autour des années 1920 par Ernst Zermelo dans l'article , et par Émile Borel dans l'article . Ces idées sont ensuite développées par Oskar Morgenstern et John von Neumann en 1944 dans leur ouvrage qui est considéré comme le fondement de la théorie des jeux moderne.

Équilibre corrélé

En théorie des jeux, la notion d’équilibre corrélé est un concept de solution proposée pour la première fois en 1974 par le mathématicien Robert Aumann. Il généralise le concept d'équilibre de Nash. L'équilibre corrélé suppose l'existence d'un dispositif externe de corrélation, par exemple un "maître du jeu" auquel tous les joueurs font confiance. Celui-ci affecte leurs stratégies aux différents joueurs suivant une certaine loi de probabilité.

Dilemme du prisonnier

Le dilemme du prisonnier, énoncé en 1950 par Albert W. Tucker à Princeton, caractérise en théorie des jeux une situation où deux joueurs auraient intérêt à coopérer, mais où, en l'absence de communication entre les deux joueurs, chacun choisira de trahir l'autre si le jeu n'est joué qu'une fois. La raison est que si l'un coopère et que l'autre trahit, le coopérateur est fortement pénalisé. Pourtant, si les deux joueurs trahissent, le résultat leur est moins favorable que si les deux avaient choisi de coopérer.

Théorie évolutive des jeux

La théorie évolutive des jeux, appelée aussi théorie des jeux évolutionniste, est l'application de la théorie des jeux à l'étude de l'évolution de populations en biologie. Elle définit un cadre de compétitions, de stratégies et d'analyses dans lequel la compétition darwinienne peut être modélisée. Elle a vu le jour en 1973 avec la formalisation par John Maynard Smith et George R. Price des compétitions, analysées en tant que stratégies, et des critères mathématiques qui peuvent être utilisés pour prédire les résultats des stratégies concurrentes.

Fonction objectif

vignette|comparaison de certains substituts de la fonction de perte Le terme fonction objectif ou fonction économique, est utilisé en optimisation mathématique et en recherche opérationnelle pour désigner une fonction qui sert de critère pour déterminer la meilleure solution à un problème d'optimisation. Elle associe une valeur à une instance d'un problème d'optimisation. Le but du problème d'optimisation est alors de minimiser ou de maximiser cette fonction jusqu'à l'optimum, par différents procédés comme l'algorithme du simplexe.

Stratégie du bras de fer

Le jeu du poulet (de l'anglais chicken game) ou le bras de fer (selon la terminologie officielle en France), également connu sous le nom de jeu du faucon et de la colombe ou jeu de la « neige soufflée » , est un modèle de conflit entre deux acteurs, en théorie des jeux. Le principe du jeu est que s'il est avantageux pour l'un des deux joueurs qu'un joueur cède, le choix optimal de l'autre joueur dépend de ce que fait son adversaire : si l'adversaire cède, il ne devrait pas le faire, mais si au contraire l'adversaire ne cède pas, le joueur devrait céder.