Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Types of artificial neural networksThere are many types of artificial neural networks (ANN). Artificial neural networks are computational models inspired by biological neural networks, and are used to approximate functions that are generally unknown. Particularly, they are inspired by the behaviour of neurons and the electrical signals they convey between input (such as from the eyes or nerve endings in the hand), processing, and output from the brain (such as reacting to light, touch, or heat). The way neurons semantically communicate is an area of ongoing research.
Delta ruleIn machine learning, the delta rule is a gradient descent learning rule for updating the weights of the inputs to artificial neurons in a single-layer neural network. It is a special case of the more general backpropagation algorithm. For a neuron with activation function , the delta rule for neuron 's th weight is given by where It holds that and . The delta rule is commonly stated in simplified form for a neuron with a linear activation function as While the delta rule is similar to the perceptron's update rule, the derivation is different.
Hyperbolic discountingIn economics, hyperbolic discounting is a time-inconsistent model of delay discounting. It is one of the cornerstones of behavioral economics and its brain-basis is actively being studied by neuroeconomics researchers. According to the discounted utility approach, intertemporal choices are no different from other choices, except that some consequences are delayed and hence must be anticipated and discounted (i.e., reweighted to take into account the delay). Given two similar rewards, humans show a preference for one that arrives sooner rather than later.
Interference theoryThe interference theory is a theory regarding human memory. Interference occurs in learning. The notion is that memories encoded in long-term memory (LTM) are forgotten and cannot be retrieved into short-term memory (STM) because either memory could interfere with the other. There is an immense number of encoded memories within the storage of LTM. The challenge for memory retrieval is recalling the specific memory and working in the temporary workspace provided in STM.
Gratification différéeLa gratification différée est la capacité de résister à une tentation de récompense immédiate pour obtenir une récompense plus tard. En général, la gratification différée est associée au fait qu'un individu puisse résister à une récompense immédiate dans le but d'obtenir une récompense plus importante par la suite. La gratification différée est liée à de nombreux points positifs dont le succès académique, la santé physique et psychologique, et la compétence sociale.
Procrastinationvignette|Gilbert Stuart remit durant quinze ans l'achèvement de ce portrait d'Abigail Adams. La procrastination (du latin pro « en avant » et crastinus « du lendemain ») est une tendance à remettre systématiquement à plus tard des actions, qu’elles soient limitées à un domaine précis de la vie quotidienne ou non. Le « retardataire chronique », appelé procrastinateur, n’arrive pas à se « mettre au travail », surtout lorsque cela ne lui procure pas de satisfaction immédiate. Être un retardataire chronique ne signifie pas ne rien faire.