Elon MuskElon Musk (prononcé en anglais : ), né le à Pretoria (Afrique du Sud), est un entrepreneur, chef d'entreprises et milliardaire sud-africain, canadien et américain. Il est cofondateur et président-directeur général de la société astronautique SpaceX et directeur général de la société automobile Tesla. En , selon Bloomberg, Elon Musk devient, à , l'homme le plus riche du monde, avec une fortune estimée à plus de de dollars. En , il devient le propriétaire de Twitter, par un achat à de dollars.
Tensor Processing Unitvignette|Un Tensor Processing Unit 3.0 datant de mai 2016 Un Tensor Processing Unit (TPU, unité de traitement de tenseur) est un circuit intégré spécifique pour une application (ASIC), développé par Google spécifiquement pour accélérer les systèmes d'intelligence artificielle par réseaux de neurones. Les TPU ont été annoncés en 2016 au Google I/O, lorsque la société a déclaré les utiliser dans leurs centres de données depuis plus d'un an.
Glossary of artificial intelligenceThis glossary of artificial intelligence is a list of definitions of terms and concepts relevant to the study of artificial intelligence, its sub-disciplines, and related fields. Related glossaries include Glossary of computer science, Glossary of robotics, and Glossary of machine vision.
Intelligence artificielle dans la santévignette|Rayon X d'une main, avec calcul automatique de l'âge osseux par un logiciel informatique. L'intelligence artificielle (IA) dans la santé est l'utilisation d'algorithmes et de logiciels pour s'approcher de la cognition humaine dans l'analyse de données médicales complexes. Plus précisément, l'IA est la capacité des algorithmes informatiques à tirer des conclusions sans intervention humaine directe. L'objectif principal des applications des IA dans le domaine de la santé est d'analyser les relations entre, d'une part, la prévention ou les traitements et, d'autre part, l'état de santé des patients.
Self-playSelf-play is a technique for improving the performance of reinforcement learning agents. Intuitively, agents learn to improve their performance by playing "against themselves". In multi-agent reinforcement learning experiments, researchers try to optimize the performance of a learning agent on a given task, in cooperation or competition with one or more agents. These agents learn by trial-and-error, and researchers may choose to have the learning algorithm play the role of two or more of the different agents.
Reinforcement learning from human feedbackIn machine learning, reinforcement learning from human feedback (RLHF) or reinforcement learning from human preferences is a technique that trains a "reward model" directly from human feedback and uses the model as a reward function to optimize an agent's policy using reinforcement learning (RL) through an optimization algorithm like Proximal Policy Optimization. The reward model is trained in advance to the policy being optimized to predict if a given output is good (high reward) or bad (low reward).
Long short-term memoryLong short-term memory (LSTM) network is a recurrent neural network (RNN), aimed to deal with the vanishing gradient problem present in traditional RNNs. Its relative insensitivity to gap length is its advantage over other RNNs, hidden Markov models and other sequence learning methods. It aims to provide a short-term memory for RNN that can last thousands of timesteps, thus "long short-term memory".
Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.