Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Temporal difference learningLe Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal. vignette|151x151px|Diagramme backup.
Masse minimaleEn astronomie, la masse minimale est la valeur inférieure de la masse d'un objet observé comme une planète, une étoile, un système binaire, une nébuleuse, ou un trou noir, obtenue par calcul. La masse minimale est une donnée largement citée pour les exoplanètes. La plupart des planètes extrasolaires étant détectées par la méthode des vitesses radiales, qui révèle des planètes en mesurant des variations dans le mouvement des étoiles le long de l'axe de visée, les vraies inclinaisons orbitales et vraies masses des planètes sont généralement inconnues.