Robotiquethumb|upright=1.5|Nao, un robot humanoïde. thumb|upright=1.5|Des robots industriels au travail dans une usine. La robotique est l'ensemble des techniques permettant la conception et la réalisation de machines automatiques ou de robots. L'ATILF donne la définition suivante du robot : « il effectue, grâce à un système de commande automatique à base de microprocesseur, une tâche précise pour laquelle il a été conçu dans le domaine industriel, scientifique, militaire ou domestique ».
Google DeepMindGoogle DeepMind est une entreprise spécialisée dans l'intelligence artificielle appartenant à Google. L'entreprise est remarquée notamment pour son programme de jeu de Go AlphaGo, et son logiciel AlphaFold, qui permet de prédire la structure des protéines à partir de leurs séquences en acides aminés. Originellement appelée DeepMind Technologies Limited et fondée en 2010 par Demis Hassabis, Mustafa Suleyman et Shane Legg, elle est rachetée le 26 janvier 2014, par Google pour plus de 628 millions de dollars américains.
AlphaGoAlphaGo est un programme informatique capable de jouer au jeu de go, développé par l'entreprise britannique DeepMind et racheté en 2014 par Google. En , il devient le premier programme à battre un joueur professionnel (le français Fan Hui) sur un goban de taille normale (19×19) sans handicap. Il s'agit d'une étape symboliquement forte puisque le programme joueur de go est alors un défi complexe de l'intelligence artificielle. En , il bat Lee Sedol, un des meilleurs joueurs mondiaux ( professionnel).
Stochastic optimizationStochastic optimization (SO) methods are optimization methods that generate and use random variables. For stochastic problems, the random variables appear in the formulation of the optimization problem itself, which involves random objective functions or random constraints. Stochastic optimization methods also include methods with random iterates. Some stochastic optimization methods use random iterates to solve stochastic problems, combining both meanings of stochastic optimization.
Intelligence distribuéeL'intelligence distribuée, appelée aussi intelligence en essaim, désigne l'apparition de phénomènes cohérents à l'échelle d'une population dont les individus agissent selon des règles simples. L'interaction ou la synergie entre actions individuelles simples peut de façons variées permettre l'émergence de formes, organisations, ou comportements collectifs, complexes ou cohérents, tandis que les individus eux se comportent à leur échelle indépendamment de toute règle globale.
Apprentissage superviséL'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.
Temporal difference learningLe Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal. vignette|151x151px|Diagramme backup.
Action selectionAction selection is a way of characterizing the most basic problem of intelligent systems: what to do next. In artificial intelligence and computational cognitive science, "the action selection problem" is typically associated with intelligent agents and animats—artificial systems that exhibit complex behaviour in an agent environment. The term is also sometimes used in ethology or animal behavior. One problem for understanding action selection is determining the level of abstraction used for specifying an "act".
Système de classeursUn système de classeurs (Learning Classifier System ou LCS en anglais) est un système d'apprentissage automatique utilisant l'apprentissage par renforcement et les algorithmes génétiques. Ils ont été introduits par Holland en 1977 et développé par Goldberg en 1989 Un système de classeurs (aussi appelé classifiers) est composé d'une base de règles, appelée classeur, associés à un poids. Chaque règle est composée d'une partie condition et d'une partie action. Le classeur commence par être initialisé (aléatoirement ou non).
Processus de décision markovienEn théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de Ronald A.