Transformeurvignette|Schéma représentant l'architecture générale d'un transformeur. Un transformeur (ou modèle auto-attentif) est un modèle d'apprentissage profond introduit en 2017, utilisé principalement dans le domaine du traitement automatique des langues (TAL). Dès 2020, les transformeurs commencent aussi à trouver une application en matière de vision par ordinateur par la création des vision transformers (ViT).
Neurone formelthumb|Représentation d'un neurone formel (ou logique). Un neurone formel, parfois appelé neurone de McCulloch-Pitts, est une représentation mathématique et informatique d'un neurone biologique. Le neurone formel possède généralement plusieurs entrées et une sortie qui correspondent respectivement aux dendrites et au cône d'émergence du neurone biologique (point de départ de l'axone). Les actions excitatrices et inhibitrices des synapses sont représentées, la plupart du temps, par des coefficients numériques (les poids synaptiques) associés aux entrées.
Vanishing gradient problemIn machine learning, the vanishing gradient problem is encountered when training artificial neural networks with gradient-based learning methods and backpropagation. In such methods, during each iteration of training each of the neural networks weights receives an update proportional to the partial derivative of the error function with respect to the current weight. The problem is that in some cases, the gradient will be vanishingly small, effectively preventing the weight from changing its value.
Apprentissage automatiqueL'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.
TensorFlowTensorFlow est un outil open source d'apprentissage automatique développé par Google. Le code source a été ouvert le par Google et publié sous licence Apache. Il est fondé sur l'infrastructure DistBelief, initiée par Google en 2011, et est doté d'une interface pour Python, Julia et R TensorFlow est l'un des outils les plus utilisés en IA dans le domaine de l'apprentissage machine. À partir de 2011, Google Brain a développé un outil propriétaire d'apprentissage automatique fondé sur l'apprentissage profond.
Fonction softmaxvignette|Fonction softmax utilisée après un CNN (Réseau neuronal convolutif). Ici le vecteur (35.4, 38.1, -5.0) est transformée en (0.06, 0.94, 0.00). Dans ce contexte de classification d'images, le chien est reconnu. En mathématiques, la fonction softmax, aussi appelée fonction softargmax ou fonction exponentielle normalisée, est une généralisation de la fonction logistique. Elle convertit un vecteur de K nombres réels en une distribution de probabilités sur K choix.
Fonction logistique (Verhulst)En mathématiques, les fonctions logistiques sont les fonctions ayant pour expression où et sont des réels positifs et un réel quelconque. Ce sont les solutions en temps continu du modèle de Verhulst. Pour , leur courbe représentative a la forme d'un S ce qui fait qu'elles sont parfois appelées sigmoïdes. Ces fonctions ont été mises en évidence (vers 1840) par Pierre-François Verhulst, qui cherchait un modèle d'évolution non exponentielle de population comportant un frein et une capacité d'accueil .
Algorithme du gradientLalgorithme du gradient, aussi appelé algorithme de descente de gradient, désigne un algorithme d'optimisation différentiable. Il est par conséquent destiné à minimiser une fonction réelle différentiable définie sur un espace euclidien (par exemple, , l'espace des n-uplets de nombres réels, muni d'un produit scalaire) ou, plus généralement, sur un espace hilbertien. L'algorithme est itératif et procède donc par améliorations successives. Au point courant, un déplacement est effectué dans la direction opposée au gradient, de manière à faire décroître la fonction.
Long short-term memoryLong short-term memory (LSTM) network is a recurrent neural network (RNN), aimed to deal with the vanishing gradient problem present in traditional RNNs. Its relative insensitivity to gap length is its advantage over other RNNs, hidden Markov models and other sequence learning methods. It aims to provide a short-term memory for RNN that can last thousands of timesteps, thus "long short-term memory".
Réseau neuronal résidueldroite|vignette| Forme canonique d'un réseau neuronal résiduel. Une couche l − 1 est ignoré sur l'activation de l − 2. Un réseau neuronal résiduel ( ResNet ) est un réseau neuronal artificiel (ANN). Il s'agit d'une variante du HighwayNet , le premier réseau neuronal à action directe très profond avec des centaines de couches, beaucoup plus profond que les réseaux neuronaux précédents. Les sauts de connexion ou "raccourcis" sont utilisés pour passer par-dessus certaines couches ( les HighwayNets peuvent également avoir des poids pour les saut eux-mêmes, grâce à une matrice de poids supplémentaire pour leurs portes).