Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Commande optimaleLa théorie de la commande optimale permet de déterminer la commande d'un système qui minimise (ou maximise) un critère de performance, éventuellement sous des contraintes pouvant porter sur la commande ou sur l'état du système. Cette théorie est une généralisation du calcul des variations. Elle comporte deux volets : le principe du maximum (ou du minimum, suivant la manière dont on définit l'hamiltonien) dû à Lev Pontriaguine et à ses collaborateurs de l'institut de mathématiques Steklov , et l'équation de Hamilton-Jacobi-Bellman, généralisation de l'équation de Hamilton-Jacobi, et conséquence directe de la programmation dynamique initiée aux États-Unis par Richard Bellman.
Théorie du contrôleEn mathématiques et en sciences de l'ingénieur, la théorie du contrôle a comme objet l'étude du comportement de systèmes dynamiques paramétrés en fonction des trajectoires de leurs paramètres. On se place dans un ensemble, l'espace d'état sur lequel on définit une dynamique, c'est-à-dire une loi mathématiques caractérisant l'évolution de variables (dites variables d'état) au sein de cet ensemble. Le déroulement du temps est modélisé par un entier .
Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Robotvignette|Atlas (2013), robot androïde de Boston Dynamics vignette|Bras manipulateurs dans un laboratoire (2009) vignette|NAO (2006), robot humanoïde éducatif d'Aldebaran Robotics vignette|DER1 (2005), un actroïde d'accueil vignette|Roomba (2002), un robot ménager Un robot est un dispositif mécatronique (alliant mécanique, électronique et informatique) conçu pour accomplir automatiquement des tâches imitant ou reproduisant, dans un domaine précis, des actions humaines.
Stabilité de LiapounovEn mathématiques et en automatique, la notion de stabilité de Liapounov (ou, plus correctement, de stabilité au sens de Liapounov) apparaît dans l'étude des systèmes dynamiques. De manière générale, la notion de stabilité joue également un rôle en mécanique, dans les modèles économiques, les algorithmes numériques, la mécanique quantique, la physique nucléaire Un exemple typique de système stable au sens de Liapounov est celui constitué d'une bille roulant sans frottement au fond d'une coupelle ayant la forme d'une demi-sphère creuse : après avoir été écartée de sa position d'équilibre (qui est le fond de la coupelle), la bille oscille autour de cette position, sans s'éloigner davantage : la composante tangentielle de la force de gravité ramène constamment la bille vers sa position d'équilibre.
Exosquelette motorisévignette|Mannequin présentant le concept d'exosquelette motorisé tel qu'imaginé par l'armée américaine L'exosquelette motorisé ou combinaison robotique est un dispositif mécatronique à base fixe ou mobile, composé d'une structure mécanique à plusieurs degrés de liberté, d'un système d'actionnement (électrique, hydraulique ou pneumatique) utilisant une source d'énergie embarquée ou déportée, et de cartes électroniques de puissance et de commande, que revêt un individu, à la manière d'un vêtement robotisé ou d
Processus de décision markovienEn théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de Ronald A.
Blocage de cardanLe blocage de cardan est la perte d'un degré de liberté, connue aussi sous le nom anglais de en, qui survient quand les axes de deux des trois cardans nécessaires pour appliquer ou compenser les rotations dans l'espace à trois dimensions sont portés par la même direction. Un cardan est un anneau fixé de façon à pouvoir tourner autour d'un axe. Les cardans sont souvent imbriqués les uns dans les autres de façon à pouvoir tourner autour de plusieurs axes.
Théorie de la stabilitéEn mathématiques, la théorie de la stabilité traite la stabilité des solutions d'équations différentielles et des trajectoires des systèmes dynamiques sous des petites perturbations des conditions initiales. L'équation de la chaleur, par exemple, est une équation aux dérivées partielles stable parce que des petites perturbations des conditions initiales conduisent à des faibles variations de la température à un temps ultérieur en raison du principe du maximum.