Publication

Logical Team Q-learning: An approach towards factored policies in cooperative MARL

Concepts associés (23)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Agent logiciel

En informatique, un agent ou agent logiciel (du latin agere : agir) est un logiciel qui agit de façon autonome. C'est un programme qui accomplit des tâches à la manière d'un automate et en fonction de ce que lui a demandé son auteur. Dans le contexte d'Internet, les agents intelligents sont liés au Web sémantique, dans lequel ils sont utilisés pour faire à la place des humains les recherches et les corrélations entre les résultats de ces recherches. Ceci se fait en fonction de règles prédéfinies.

Comportement

Le terme « comportement » désigne les actions d'un être vivant. Il a été introduit en psychologie française en 1908 par Henri Piéron comme équivalent français de l'anglais-américain behavior. On l'utilise notamment en éthologie (humaine et animale) ou en psychologie expérimentale. Il peut aussi être pris comme équivalent de conduite dans l'approche psychanalytique. Le comportement d'un être vivant est la partie de son activité qui se manifeste à un observateur.

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

Evidence-based policy

Evidence-based policy is a concept in public policy that advocates for policy decisions to be grounded on, or influenced by, rigorously established objective evidence. This concept presents a stark contrast to policymaking predicated on ideology, 'common sense,' anecdotes, or personal intuitions. The approach mirrors the effective altruism movement's philosophy within governmental circles. The methodology employed in evidence-based policy often includes comprehensive research methods such as randomized controlled trials (RCT).

Algorithme du gradient stochastique

L'algorithme du gradient stochastique est une méthode de descente de gradient (itérative) utilisée pour la minimisation d'une fonction objectif qui est écrite comme une somme de fonctions différentiables. À la fois l'estimation statistique et l'apprentissage automatique s'intéressent au problème de la minimisation d'une fonction objectif qui a la forme d'une somme : où le paramètre qui minimise doit être estimé. Chacune des fonctions est généralement associée avec la -ème observation de l'ensemble des données (utilisées pour l'apprentissage).

Cost–utility analysis

Cost–utility analysis (CUA) is a form of economic analysis used to guide procurement decisions. The most common and well-known application of this analysis is in pharmacoeconomics, especially health technology assessment (HTA). In health economics, the purpose of CUA is to estimate the ratio between the cost of a health-related intervention and the benefit it produces in terms of the number of years lived in full health by the beneficiaries. Hence it can be considered a special case of cost-effectiveness analysis, and the two terms are often used interchangeably.

Apprentissage actif

L’apprentissage actif est un modèle d’apprentissage semi-supervisé où un oracle intervient au cours du processus. Plus précisément, contrairement au cadre classique où les données sont connues et imposées, en apprentissage actif, c'est l'algorithme d'apprentissage qui demande des informations pour des données précises. Cette technique repose sur l'hypothèse que l’acquisition de données non étiquetées est beaucoup moins coûteuse que celle de données étiquetées.

Analyse coût-avantage

vignette|Exemple de graphique d'analyse coût-avantage L'analyse coût-avantage aussi connue comme analyse coût-bénéfice (anglicisme) est un terme qui renvoie tout à la fois à : une méthode formelle que l'on utilise pour aider à estimer ou évaluer le dossier monté pour un projet ou une proposition, ce dossier étant lui-même une « estimation de projet » ; une approche informelle pour prendre une décision, quelle qu'elle soit.

Comportement organisationnel

Le comportement organisationnel est une discipline carrefour qui regroupe l'étude et le management du comportement humain au sein des organisations ainsi que l'étude et le management de ces organisations. Il reprend, aux niveaux de l'individu, du groupe et de l'organisation, les concepts de la psychologie individuelle (et plus particulièrement la psychologie du travail devenue la psychologie organisationnelle), la psychologie sociale au niveau du groupe, la sociologie et plus particulièrement la sociologie des organisations et la sociologie du conflit, l'anthropologie et les sciences politiques.

Stochastic optimization

Stochastic optimization (SO) methods are optimization methods that generate and use random variables. For stochastic problems, the random variables appear in the formulation of the optimization problem itself, which involves random objective functions or random constraints. Stochastic optimization methods also include methods with random iterates. Some stochastic optimization methods use random iterates to solve stochastic problems, combining both meanings of stochastic optimization.