Publication

Leveraging Continuous Time to Understand Momentum When Training Diagonal Linear Networks

Concepts associés (32)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Algorithme du gradient stochastique

L'algorithme du gradient stochastique est une méthode de descente de gradient (itérative) utilisée pour la minimisation d'une fonction objectif qui est écrite comme une somme de fonctions différentiables. À la fois l'estimation statistique et l'apprentissage automatique s'intéressent au problème de la minimisation d'une fonction objectif qui a la forme d'une somme : où le paramètre qui minimise doit être estimé. Chacune des fonctions est généralement associée avec la -ème observation de l'ensemble des données (utilisées pour l'apprentissage).

Algorithme du gradient

Lalgorithme du gradient, aussi appelé algorithme de descente de gradient, désigne un algorithme d'optimisation différentiable. Il est par conséquent destiné à minimiser une fonction réelle différentiable définie sur un espace euclidien (par exemple, , l'espace des n-uplets de nombres réels, muni d'un produit scalaire) ou, plus généralement, sur un espace hilbertien. L'algorithme est itératif et procède donc par améliorations successives. Au point courant, un déplacement est effectué dans la direction opposée au gradient, de manière à faire décroître la fonction.

Réseau de neurones récurrents

Un réseau de neurones récurrents (RNN pour recurrent neural network en anglais) est un réseau de neurones artificiels présentant des connexions récurrentes. Un réseau de neurones récurrents est constitué d'unités (neurones) interconnectées interagissant non-linéairement et pour lequel il existe au moins un cycle dans la structure. Les unités sont reliées par des arcs (synapses) qui possèdent un poids. La sortie d'un neurone est une combinaison non linéaire de ses entrées.

Rétropropagation du gradient

En intelligence artificielle, plus précisément en apprentissage automatique, la rétropropagation du gradient est une méthode pour entraîner un réseau de neurones. Elle consiste à mettre à jour les poids de chaque neurone de la dernière couche vers la première. Elle vise à corriger les erreurs selon l'importance de la contribution de chaque élément à celles-ci. Dans le cas des réseaux de neurones, les poids synaptiques qui contribuent plus à une erreur seront modifiés de manière plus importante que les poids qui provoquent une erreur marginale.

Moment cinétique

En mécanique classique, le moment cinétique (ou moment angulaire par anglicisme) d'un point matériel M par rapport à un point O est le moment de la quantité de mouvement par rapport au point O, c'est-à-dire le produit vectoriel : Le moment cinétique d'un système matériel est la somme des moments cinétiques (par rapport au même point O) des points matériels constituant le système : Cette grandeur, considérée dans un référentiel galiléen, dépend du choix de l'origine O, par suite, il n'est pas possible de com

Fonction softmax

vignette|Fonction softmax utilisée après un CNN (Réseau neuronal convolutif). Ici le vecteur (35.4, 38.1, -5.0) est transformée en (0.06, 0.94, 0.00). Dans ce contexte de classification d'images, le chien est reconnu. En mathématiques, la fonction softmax, aussi appelée fonction softargmax ou fonction exponentielle normalisée, est une généralisation de la fonction logistique. Elle convertit un vecteur de K nombres réels en une distribution de probabilités sur K choix.

Learning rate

In machine learning and statistics, the learning rate is a tuning parameter in an optimization algorithm that determines the step size at each iteration while moving toward a minimum of a loss function. Since it influences to what extent newly acquired information overrides old information, it metaphorically represents the speed at which a machine learning model "learns". In the adaptive control literature, the learning rate is commonly referred to as gain. In setting a learning rate, there is a trade-off between the rate of convergence and overshooting.

Attention (machine learning)

Machine learning-based attention is a mechanism mimicking cognitive attention. It calculates "soft" weights for each word, more precisely for its embedding, in the context window. It can do it either in parallel (such as in transformers) or sequentially (such as recursive neural networks). "Soft" weights can change during each runtime, in contrast to "hard" weights, which are (pre-)trained and fine-tuned and remain frozen afterwards. Multiple attention heads are used in transformer-based large language models.

Accélération

L'accélération est une grandeur physique vectorielle, appelée de façon plus précise « vecteur accélération », utilisée en cinématique pour représenter la modification affectant la vitesse d'un mouvement en fonction du temps. La norme (l'intensité) de ce vecteur est appelée simplement « accélération » sans autre qualificatif. Dans le langage courant, l'accélération s'oppose à la décélération (mathématiquement, une accélération négative) et indique l'augmentation de la vitesse ou de la fréquence d'évolution d'un processus quelconque, par exemple l'accélération de la fréquence cardiaque ou celle d'une suite de situations.

Quantité de mouvement

En physique, la quantité de mouvement est le produit de la masse par le vecteur vitesse d'un corps matériel supposé ponctuel. Il s'agit donc d'une grandeur vectorielle, définie par , qui dépend du référentiel d'étude. Par additivité, il est possible de définir la quantité de mouvement d'un corps non ponctuel (ou système matériel), dont il est possible de démontrer qu'elle est égale à la quantité de mouvement de son centre d'inertie affecté de la masse totale du système, soit (C étant le centre d'inertie du système).