Publication

Distributed Value-Function Learning with Linear Convergence Rates

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Commande optimale

La théorie de la commande optimale permet de déterminer la commande d'un système qui minimise (ou maximise) un critère de performance, éventuellement sous des contraintes pouvant porter sur la commande ou sur l'état du système. Cette théorie est une généralisation du calcul des variations. Elle comporte deux volets : le principe du maximum (ou du minimum, suivant la manière dont on définit l'hamiltonien) dû à Lev Pontriaguine et à ses collaborateurs de l'institut de mathématiques Steklov , et l'équation de Hamilton-Jacobi-Bellman, généralisation de l'équation de Hamilton-Jacobi, et conséquence directe de la programmation dynamique initiée aux États-Unis par Richard Bellman.

Q-learning

vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.

Business simulation

Business simulation or corporate simulation is simulation used for business training, education or analysis. It can be scenario-based or numeric-based. Most business simulations are used for business acumen training and development. Learning objectives include: strategic thinking, decision making, problem solving, financial analysis, market analysis, operations, teamwork and leadership. The business gaming community seems lately to have adopted the term business simulation game instead of just gaming or just simulation.

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

Simulation informatique

vignette|upright=1|Une simulation informatique, sur une étendue de , de l'évolution du typhon Mawar produite par le Modèle météorologique Weather Research and Forecasting La simulation informatique ou numérique est l'exécution d'un programme informatique sur un ordinateur ou réseau en vue de simuler un phénomène physique réel et complexe (par exemple : chute d’un corps sur un support mou, résistance d’une plateforme pétrolière à la houle, fatigue d’un matériau sous sollicitation vibratoire, usure d’un roulem

Commande LQ

En automatique, la Commande linéaire quadratique, dite Commande LQ, est une méthode qui permet de calculer la matrice de gains d'une commande par retour d'état. L'initiateur de cette approche est Kalman, auteur de trois articles fondamentaux entre 1960 et 1964. Les résultats de Kalman ont été complétés par de nombreux auteurs. Nous ne traiterons ici que de la commande linéaire quadratique à horizon infini dans le cas d'un système linéaire stationnaire (ou « invariant »), renvoyant à l'article Commande optimale pour le cas d'un horizon fini et d'un système linéaire dont les matrices varient en fonction du temps.

Vitesse de convergence des suites

En analyse numérique — une branche des mathématiques — on peut classer les suites convergentes en fonction de leur vitesse de convergence vers leur point limite. C'est une manière d'apprécier l'efficacité des algorithmes qui les génèrent. Les suites considérées ici sont convergentes sans être stationnaires (tous leurs termes sont même supposés différents du point limite). Si une suite est stationnaire, tous ses éléments sont égaux à partir d'un certain rang et il est alors normal de s'intéresser au nombre d'éléments différents du point limite.

Apprentissage supervisé

L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.

Ciblage d'inflation

Le ciblage d'inflation est une politique économique par laquelle une banque centrale rend public un objectif d'inflation de moyen terme et met en œuvre ses outils pour l'atteindre. Le ciblage d'inflation a succédé au ciblage de la masse monétaire, qui s'était révélé inefficace. Le ciblage d'inflation est utilisé depuis plusieurs décennies, à la suite de la publication d'études mettant en lumière le rôle bénéfique de la stabilité monétaire, qui exige que l'inflation probable soit connue d'avance par les agents économiques.

Nominal income target

A nominal income target is a monetary policy target. Such targets are adopted by central banks to manage national economic activity. Nominal aggregates are not adjusted for inflation. Nominal income aggregates that can serve as targets include nominal gross domestic product (NGDP) and nominal gross domestic income (GDI). Central banks use a variety of techniques to hit their targets, including conventional tools such as interest rate targeting or open market operations, unconventional tools such as quantitative easing or interest rates on excess reserves and expectations management to hit its target.