Apprentissage par renforcement profondL'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Intelligence animalethumb|right|300px|Une comparaison du cerveau de différents mammifères. « Intelligence animale » est une expression renvoyant aux capacités cognitives des animaux et à leur étude. Le sujet a donné lieu à de nombreux travaux dont les résultats offrent non seulement une meilleure compréhension du monde animal mais aussi, par extension, des pistes pour l’étude de l'intelligence humaine. Différents groupes d'espèces se démarquent par leurs aptitudes intellectuelles lors des recherches sur l'éthologie cognitive.
ApprentissageL’apprentissage est un ensemble de mécanismes menant à l'acquisition de savoir-faire, de savoirs ou de connaissances. L'acteur de l'apprentissage est appelé apprenant. On peut opposer l'apprentissage à l'enseignement dont le but est de dispenser des connaissances et savoirs, l'acteur de l'enseignement étant l'enseignant.
Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Lignée pureUne lignée pure est une population qui produit, par croisements ou autofécondation, des descendants toujours semblables entre eux, ainsi qu’aux géniteurs, pour une caractéristique donnée. Tous les individus sont ainsi génétiquement identiques et homozygotes pour ces caractères en raison d'une consanguinité prolongée. Tous les individus d'une lignée pure ont un génotype aussi identique.
Mémoire à long termeEn psychologie cognitive, la mémoire à long terme (MLT) est la mémoire qui permet de retenir, de manière illimitée, une information sur des périodes de temps très longues (années). La notion de MLT est un concept utilisé dans les modèles de mémoire qui distinguent plusieurs sous-systèmes en fonction du type d'information mémorisé et de la durée de rétention. La mémoire à long terme s'oppose ainsi au registre sensoriel (ou mémoire sensorielle), à la mémoire à court terme et à la mémoire de travail.
Observational learningObservational learning is learning that occurs through observing the behavior of others. It is a form of social learning which takes various forms, based on various processes. In humans, this form of learning seems to not need reinforcement to occur, but instead, requires a social model such as a parent, sibling, friend, or teacher with surroundings. Particularly in childhood, a model is someone of authority or higher status in an environment.
Mémoire à court termeLa mémoire à court terme (MCT) désigne en psychologie le type de mémoire qui permet de retenir et de réutiliser une quantité limitée d'informations pendant un temps relativement court, environ une demi-minute. Un grand nombre de recherches en psychologie cognitive ont cherché à déterminer les caractéristiques (capacité, durée, fonctionnement) et le rôle de la mémoire à court terme dans la cognition. Le concept de mémoire à court terme est assez ancien en psychologie scientifique.
Learning rateIn machine learning and statistics, the learning rate is a tuning parameter in an optimization algorithm that determines the step size at each iteration while moving toward a minimum of a loss function. Since it influences to what extent newly acquired information overrides old information, it metaphorically represents the speed at which a machine learning model "learns". In the adaptive control literature, the learning rate is commonly referred to as gain. In setting a learning rate, there is a trade-off between the rate of convergence and overshooting.