RenforcementEn psychologie, le renforcement est un procédé qui augmente la probabilité de répétition d'un comportement. Les théories sur l'apprentissage par renforcement sont étudiées par la psychologie béhavioriste et font l'objet de nombreuses applications visant à modifier les comportements animaux et humains. B.F. Skinner fut le premier à en étudier systématiquement les effets sur des rats et des pigeons. Le renforcement est une procédure par laquelle la fréquence d'apparition d'un comportement va augmenter en fonction de sa conséquence.
Neuronethumb|537x537px|Schéma complet d’un neurone. Un neurone, ou une cellule nerveuse, est une cellule excitable constituant l'unité fonctionnelle de la base du système nerveux. Les neurones assurent la transmission d'un signal bioélectrique appelé influx nerveux. Ils ont deux propriétés physiologiques : l'excitabilité, c'est-à-dire la capacité de répondre aux stimulations et de convertir celles-ci en impulsions nerveuses, et la conductivité, c'est-à-dire la capacité de transmettre les impulsions.
Neurosciences comportementalesLes neurosciences comportementales, également connues sous les termes de psychologie biologique, biopsychologie, ou psychobiologie concernent l'application des principes de la biologie, en particulier de la neurobiologie à l'étude des processus mentaux et des comportements des humains et des animaux. Un chercheur de cette branche pourrait par exemple étudier le comportement de l'empreinte inhabituelle chez les oisons et le comparer à l'attachement chez le jeune enfant pour construire une théorie autour de ces phénomènes.
Propriété de Markovvignette|Exemple de processus stochastique vérifiant la propriété de Markov: un mouvement Brownien (ici représenté en 3D) d'une particule dont la position à un instant t+1 ne dépend que de la position précédente à l'instant t. En probabilité, un processus stochastique vérifie la propriété de Markov si et seulement si la distribution conditionnelle de probabilité des états futurs, étant donnés les états passés et l'état présent, ne dépend en fait que de l'état présent et non pas des états passés (absence de « mémoire »).
Prise de décisionvignette|Lorsqu'il s'agit de prendre une décision, il est bon de savoir que des situations différentes nécessitent une approche différente. Il n'y a pas de façon unique de penser/d'agir. la plupart du temps, nous errons dans l'espace du désordre, sans savoir ce qui se passe, sans savoir comment agir. Dans ce cas, nous avons tendance à entrer dans l'espace avec lequel nous nous sentons le plus à l'aise et à commencer à agir. Lorsque vous avez trouvé le Saint Graal, la solution unique pour chaque problème, vous feriez mieux de faire attention.
Plasticité fonction du temps d'occurrence des impulsionsLa (en Spike-timing-dependent plasticity, STDP) est un processus de modification du poids des synapses. Cette modification dépend du moment de déclenchement du potentiel d'action dans les neurones pré- et post-synaptique. Ce processus permettrait d'expliquer partiellement le développement cérébral et la mémorisation, en provoquant potentialisation à long terme (en Long-term potentiation, LTP) et dépression à long terme (en Long-term depression, LTD) des synapses.
Group method of data handlingGroup method of data handling (GMDH) is a family of inductive algorithms for computer-based mathematical modeling of multi-parametric datasets that features fully automatic structural and parametric optimization of models. GMDH is used in such fields as data mining, knowledge discovery, prediction, complex systems modeling, optimization and pattern recognition. GMDH algorithms are characterized by inductive procedure that performs sorting-out of gradually complicated polynomial models and selecting the best solution by means of the external criterion.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Processus de décision markovienEn théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de Ronald A.
Behavioral addictionBehavioral addiction is a form of addiction that involves a compulsion to engage in a rewarding non-substance-related behavior – sometimes called a natural reward – despite any negative consequences to the person's physical, mental, social or financial well-being. Addiction canonically refers to substance abuse; however, the term's connotation has been expanded to include behaviors that may lead to a reward (such as gambling, eating, or shopping) since the 1990s.