Commande optimaleLa théorie de la commande optimale permet de déterminer la commande d'un système qui minimise (ou maximise) un critère de performance, éventuellement sous des contraintes pouvant porter sur la commande ou sur l'état du système. Cette théorie est une généralisation du calcul des variations. Elle comporte deux volets : le principe du maximum (ou du minimum, suivant la manière dont on définit l'hamiltonien) dû à Lev Pontriaguine et à ses collaborateurs de l'institut de mathématiques Steklov , et l'équation de Hamilton-Jacobi-Bellman, généralisation de l'équation de Hamilton-Jacobi, et conséquence directe de la programmation dynamique initiée aux États-Unis par Richard Bellman.
Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Commande prédictiveLa commande prédictive (ou compensation ou correction anticipatrice) est une technique de commande avancée de l’automatique. Elle a pour objectif de commander des systèmes industriels complexes. Le principe de cette technique est d'utiliser un modèle dynamique du processus à l'intérieur du contrôleur en temps réel afin d'anticiper le futur comportement du procédé. La commande prédictive fait partie des techniques de contrôle à modèle interne (IMC: Internal Model Controler).
Système linéaireUn système linéaire (le terme système étant pris au sens de l'automatique, à savoir un système dynamique) est un objet du monde matériel qui peut être décrit par des équations linéaires (équations linéaires différentielles ou aux différences), ou encore qui obéit au principe de superposition : toute combinaison linéaire des variables de ce système est encore une variable de ce système. Les systèmes non linéaires sont plus difficiles à étudier que les systèmes linéaires.
Théorie du contrôleEn mathématiques et en sciences de l'ingénieur, la théorie du contrôle a comme objet l'étude du comportement de systèmes dynamiques paramétrés en fonction des trajectoires de leurs paramètres. On se place dans un ensemble, l'espace d'état sur lequel on définit une dynamique, c'est-à-dire une loi mathématiques caractérisant l'évolution de variables (dites variables d'état) au sein de cet ensemble. Le déroulement du temps est modélisé par un entier .
Processus de décision markovienEn théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de Ronald A.
Optimisation (mathématiques)L'optimisation est une branche des mathématiques cherchant à modéliser, à analyser et à résoudre analytiquement ou numériquement les problèmes qui consistent à minimiser ou maximiser une fonction sur un ensemble. L’optimisation joue un rôle important en recherche opérationnelle (domaine à la frontière entre l'informatique, les mathématiques et l'économie), dans les mathématiques appliquées (fondamentales pour l'industrie et l'ingénierie), en analyse et en analyse numérique, en statistique pour l’estimation du maximum de vraisemblance d’une distribution, pour la recherche de stratégies dans le cadre de la théorie des jeux, ou encore en théorie du contrôle et de la commande.
Linear time-invariant systemIn system analysis, among other fields of study, a linear time-invariant (LTI) system is a system that produces an output signal from any input signal subject to the constraints of linearity and time-invariance; these terms are briefly defined below. These properties apply (exactly or approximately) to many important physical systems, in which case the response y(t) of the system to an arbitrary input x(t) can be found directly using convolution: y(t) = (x ∗ h)(t) where h(t) is called the system's impulse response and ∗ represents convolution (not to be confused with multiplication).
Perceptual control theoryPerceptual control theory (PCT) is a model of behavior based on the properties of negative feedback control loops. A control loop maintains a sensed variable at or near a reference value by means of the effects of its outputs upon that variable, as mediated by physical properties of the environment. In engineering control theory, reference values are set by a user outside the system. An example is a thermostat. In a living organism, reference values for controlled perceptual variables are endogenously maintained.
Horizon des événementsL'horizon des événements est, en relativité restreinte et en relativité générale, constitué par la limite éventuelle de la région qui peut être influencée dans le futur par un observateur situé en un endroit donné à une époque donnée. Dans le cas d'un trou noir, en particulier, on peut définir son horizon des événements comme une surface qui l'entoure, d'où aucun objet, ni même un rayon de lumière ne peut jamais échapper au champ gravitationnel du trou noir.