Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Architecture d'un systèmeL'architecture d'un système est un modèle conceptuel d'un système qui décrit ses propriétés externes et internes et la manière dont elles se projettent dans ses éléments, leurs relations et les principes de conception et d'évolution du système .
Apprentissage par renforcement profondL'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.
Architecture d'entrepriseL'architecture d'entreprise est une école visant à représenter de manière systémique l'entreprise, sous forme de composants. Ainsi le découpage en composants permet à l'entreprise de faciliter les assemblages. Les méthodes d'architecture visent à mettre en place des principes ainsi qu'un cadre d'architecture dit "de référence". C'est une démarche visant à aligner avec la stratégie d'entreprise l'ensemble des couches de l'entreprise,(Métier, fonctionnelle, applicative, technique, ...).
Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.