Publication

One-shot learning and eligibility traces in sequential decision making

Concepts associés (44)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Observational learning

Observational learning is learning that occurs through observing the behavior of others. It is a form of social learning which takes various forms, based on various processes. In humans, this form of learning seems to not need reinforcement to occur, but instead, requires a social model such as a parent, sibling, friend, or teacher with surroundings. Particularly in childhood, a model is someone of authority or higher status in an environment.

Visual memory

Visual memory describes the relationship between perceptual processing and the encoding, storage and retrieval of the resulting neural representations. Visual memory occurs over a broad time range spanning from eye movements to years in order to visually navigate to a previously visited location. Visual memory is a form of memory which preserves some characteristics of our senses pertaining to visual experience. We are able to place in memory visual information which resembles objects, places, animals or people in a mental image.

Archaic humans

A number of varieties of Homo are grouped into the broad category of archaic humans in the period that precedes and is contemporary to the emergence of the earliest early modern humans (Homo sapiens) around 300 ka. Among the earliest remains of H. sapiens are Omo-Kibish I (Omo I) from southern Ethiopia ( 195 or 233 ka), the remains from Jebel Irhoud in Morocco (about 315 ka) and Florisbad in South Africa (259 ka). The term typically includes H. antecessor, H. bodoensis, Denisovans (H. denisova), H.

Q-learning

vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.

Apprentissage par renforcement

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Temporal difference learning

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal. vignette|151x151px|Diagramme backup.

Comportement

Le terme « comportement » désigne les actions d'un être vivant. Il a été introduit en psychologie française en 1908 par Henri Piéron comme équivalent français de l'anglais-américain behavior. On l'utilise notamment en éthologie (humaine et animale) ou en psychologie expérimentale. Il peut aussi être pris comme équivalent de conduite dans l'approche psychanalytique. Le comportement d'un être vivant est la partie de son activité qui se manifeste à un observateur.

Théorie de l'apprentissage social

Plusieurs théories reçoivent la dénomination de théorie de l’apprentissage social. La plus connue d'entre elles est celle d’Albert Bandura. La théorie de l’apprentissage social (, abrégée SLT) d’Albert Bandura décrit comment l'enfant peut apprendre de nouveaux comportements en observant d'autres personnes : il imite les modèles de comportement qui font l’objet de récompenses et non de punitions (notion d'). Cette théorie a connu de nombreuses applications dans des domaines aussi divers que la psychologie (éducation, etc.

Système multi-agents

En informatique, un système multi-agent (SMA) est un système composé d'un ensemble d'agents (un processus, un robot, un être humain, une fourmi etc.), actifs dans un certain environnement et interagissant selon certaines règles. Un agent est une entité caractérisée par le fait qu'elle est, au moins partiellement, autonome, ce qui exclut un pilotage centralisé du système global.