Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Bellman equationA Bellman equation, named after Richard E. Bellman, is a necessary condition for optimality associated with the mathematical optimization method known as dynamic programming. It writes the "value" of a decision problem at a certain point in time in terms of the payoff from some initial choices and the "value" of the remaining decision problem that results from those initial choices. This breaks a dynamic optimization problem into a sequence of simpler subproblems, as Bellman's “principle of optimality" prescribes.
Propriété de Markovvignette|Exemple de processus stochastique vérifiant la propriété de Markov: un mouvement Brownien (ici représenté en 3D) d'une particule dont la position à un instant t+1 ne dépend que de la position précédente à l'instant t. En probabilité, un processus stochastique vérifie la propriété de Markov si et seulement si la distribution conditionnelle de probabilité des états futurs, étant donnés les états passés et l'état présent, ne dépend en fait que de l'état présent et non pas des états passés (absence de « mémoire »).
Markov modelIn probability theory, a Markov model is a stochastic model used to model pseudo-randomly changing systems. It is assumed that future states depend only on the current state, not on the events that occurred before it (that is, it assumes the Markov property). Generally, this assumption enables reasoning and computation with the model that would otherwise be intractable. For this reason, in the fields of predictive modelling and probabilistic forecasting, it is desirable for a given model to exhibit the Markov property.
Horizon des particulesEn relativité restreinte et en relativité générale, l'horizon des particules à un instant donné est la limite dans l'Univers entre l'ensemble des particules qui ont été observables à un temps antérieur et celles qui ne l'ont pas été. Cet horizon est la limite de l'univers observable. L'horizon des particules est le pendant de l'horizon des évènements, qui détermine la limite éventuelle de la région qui peut être influencée dans le futur par un observateur situé en un endroit donné à une époque donnée. Univ
CoûtUn coût est la mesure d'une consommation exprimée en valeur monétaire. On peut dire également que c'est la mesure de l'appauvrissement d'un agent économique, associé à un événement ou une action de nature économique. Les comptables définissent plus précisément le coût comme une somme de charges (la charge mesure une consommation), c'est-à-dire un calcul. Il est alors possible de calculer toutes sortes de coûts (coût de revient, coût de production, coût marginal, etc.).
Limite supérieure et limite inférieurevignette|upright=1.8|Exemple de recherche de limites inférieure et supérieure. La suite (x) est représentée en bleu. En mathématiques, plus précisément en analyse réelle, les limites inférieures et supérieures sont des outils d'étude des suites de nombres réels. Une telle suite n'est en général ni monotone, ni convergente. L'introduction des limites supérieure et inférieure permet de retrouver, partiellement, de telles propriétés. Il s'agit d'un cas particulier de valeurs d'adhérence de la suite.
Particule matérielleLe terme « particule matérielle » (material particle en anglais) désigne une petite portion d'un corps, de matière solide ou fluide, constituée d'un nombre suffisamment grand de particules élémentaires. La matière est pleine de vide. Un corps de matière solide ou fluide est un domaine discontinu de particules composites (protons, neutrons), elles-mêmes composées de particules élémentaires. Les dimensions des particules élémentaires sont très petites devant les distances qui les séparent.
Théorème central limitethumb|upright=2|La loi normale, souvent appelée la « courbe en cloche ». Le théorème central limite (aussi appelé théorème limite central, théorème de la limite centrale ou théorème de la limite centrée) établit la convergence en loi de la somme d'une suite de variables aléatoires vers la loi normale. Intuitivement, ce résultat affirme qu'une somme de variables aléatoires indépendantes et identiquement distribuées tend (le plus souvent) vers une variable aléatoire gaussienne.
Killing horizonIn physics, a Killing horizon is a geometrical construct used in general relativity and its generalizations to delineate spacetime boundaries without reference to the dynamic Einstein field equations. Mathematically a Killing horizon is a null hypersurface defined by the vanishing of the norm of a Killing vector field (both are named after Wilhelm Killing). It can also be defined as a null hypersurface generated by a Killing vector, which in turn is null at that surface.