Go (jeu)Le go, également appelé jeu de go, appelé en japonais , ou dans certaines expressions ; en chinois (), en Hanyu pinyin wéiqí, la prononciation shanghaïenne Wedji; et en coréen baduk (바둑), est un jeu de société originaire de Chine. Il oppose deux adversaires qui placent à tour de rôle des pierres, respectivement noires et blanches, sur les intersections d'un tablier quadrillé appelé goban en japonais ( en chinois). Le but est de contrôler le plan de jeu en y construisant des « territoires ».
Temporal difference learningLe Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal. vignette|151x151px|Diagramme backup.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Evaluation functionAn evaluation function, also known as a heuristic evaluation function or static evaluation function, is a function used by game-playing computer programs to estimate the value or goodness of a position (usually at a leaf or terminal node) in a game tree. Most of the time, the value is either a real number or a quantized integer, often in nths of the value of a playing piece such as a stone in go or a pawn in chess, where n may be tenths, hundredths or other convenient fraction, but sometimes, the value is an array of three values in the unit interval, representing the win, draw, and loss percentages of the position.
Intelligence ambiante[[Image:Evolution computer 1960-2010-fr.jpg|thumb|500px|right|L'évolution des ordinateurs : la course à la miniaturisation et à la diffusion dans le milieu ambiant. Parce que la technologie permet de fabriquer des ordinateurs minuscules et omniprésents (nano-informatique), elle ouvre à presque tous les objets de la vie courante, la capacité à déclencher un échange spontané d'informations, sans interaction avec leur utilisateur.
Embodied agentIn artificial intelligence, an embodied agent, also sometimes referred to as an interface agent, is an intelligent agent that interacts with the environment through a physical body within that environment. Agents that are represented graphically with a body, for example a human or a cartoon animal, are also called embodied agents, although they have only virtual, not physical, embodiment. A branch of artificial intelligence focuses on empowering such agents to interact autonomously with human beings and the environment.
Recherche arborescente Monte-CarloEn informatique, et plus précisément en intelligence artificielle, la recherche arborescente Monte Carlo ou Monte Carlo tree search (MCTS) est un algorithme de recherche heuristique utilisé dans le cadre de la prise de décision. Il est notamment employé dans les jeux. On peut citer son implémentation dans le jeu vidéo Total War: Rome II avec son mode campagne IA haut-niveau et les récents programmes informatiques de Go, suivis par les échecs et shogi, ainsi que les jeux vidéo en temps réel et les jeux à information incomplète tels que le poker.
Apprentissage fédéréEn intelligence artificielle et en apprentissage machine, l'apprentissage fédéré (en federated learning ou collaborative learning) est un paradigme d'apprentissage dans lequel plusieurs machines entrainent collaborativement un modèle d'intelligence artificielle tout en gardant leur données localement. Ainsi, les machines impliquées dans l'apprentissage se contentent d'envoyer les modèles appris sur leurs données locales, et non les données elles-mêmes.
Classement EloLe classement Elo est un système d’évaluation comparatif du niveau de jeu des joueurs d’échecs, de go ou d’autres jeux. Ce système est également utilisé pour le classement des équipes de football (depuis , mais de manière non officielle), ainsi que par de nombreux jeux en ligne. Tout joueur qui participe à ce type de compétition se voit attribuer un classement provisoire, classement qui évoluera en fonction de ses performances, et qui reflète sa probabilité de gagner.
Optimisation robusteL'optimisation robuste est une branche de l'optimisation mathématique qui cherche à résoudre un problème d'optimisation en prenant en compte les différentes sources d'incertitude de celui-ci. Les origines de l'optimisation robuste remontent aux débuts de la théorie de la décision moderne dans les années 1950. Des « analyses des cas les plus défavorables » ont été réalisées pour faire face aux fortes incertitudes.