Résumé
droite|vignette| Forme canonique d'un réseau neuronal résiduel. Une couche l − 1 est ignoré sur l'activation de l − 2. Un réseau neuronal résiduel ( ResNet ) est un réseau neuronal artificiel (ANN). Il s'agit d'une variante du HighwayNet , le premier réseau neuronal à action directe très profond avec des centaines de couches, beaucoup plus profond que les réseaux neuronaux précédents. Les sauts de connexion ou "raccourcis" sont utilisés pour passer par-dessus certaines couches ( les HighwayNets peuvent également avoir des poids pour les saut eux-mêmes, grâce à une matrice de poids supplémentaire pour leurs portes). Les neurones à l'origine d'un saut de connexion sont appelés les neurones "amonts". Les modèles ResNet typiques sont mis en œuvre avec des sauts à double ou triple couche qui contiennent des non-linéarités ( ReLU ) et une normalisation par lots entre les deux. Les modèles avec plusieurs sauts parallèles sont appelés DenseNets. Dans le contexte des réseaux de neurones résiduels, un réseau non résiduel peut être décrit comme un réseau simple. Comme dans le cas des réseaux de neurones récurrents à mémoire longue et à court terme , il existe deux raisons principales d'ajouter des connexions de saut : pour éviter le problème d’évanescence des gradients, conduisant ainsi à une optimisation plus facile des réseaux de neurones, où les mécanismes de déclenchement faciliter le flux d'informations à travers de nombreuses couches ("autoroutes de l'information"), ou pour atténuer le problème de dégradation (saturation de la précision) ; où l'ajout de couches supplémentaires à un modèle suffisamment profond peut augmenter les erreurs liées à l'apprentissage. Dans le cas le plus simple, seuls les poids de la connexion de la couche précédente sont adaptés, sans poids explicites pour la couche amont. Cela fonctionne mieux lorsqu'une seule couche non linéaire est franchie ou lorsque les couches intermédiaires sont toutes linéaires. Si ce n'est pas le cas, une matrice de pondération explicite doit être apprise pour la connexion ignorée (un HighwayNet doit être utilisé).
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Concepts associés (10)
Vanishing gradient problem
In machine learning, the vanishing gradient problem is encountered when training artificial neural networks with gradient-based learning methods and backpropagation. In such methods, during each iteration of training each of the neural networks weights receives an update proportional to the partial derivative of the error function with respect to the current weight. The problem is that in some cases, the gradient will be vanishingly small, effectively preventing the weight from changing its value.
Transformeur
vignette|Schéma représentant l'architecture générale d'un transformeur. Un transformeur (ou modèle auto-attentif) est un modèle d'apprentissage profond introduit en 2017, utilisé principalement dans le domaine du traitement automatique des langues (TAL). Dès 2020, les transformeurs commencent aussi à trouver une application en matière de vision par ordinateur par la création des vision transformers (ViT).
Théorème d'approximation universelle
Dans la théorie mathématique des réseaux de neurones artificiels, le théorème d'approximation universelle indique qu'un réseau à propagation avant d'une seule couche cachée contenant un nombre fini de neurones (c'est-à-dire, un perceptron multicouche) peut approximer des fonctions continues sur des sous-ensembles compacts de Rn. Une des premières versions du cas avec largeur arbitraire a été prouvé par George Cybenko en 1989 pour des fonctions d'activation sigmoïdes.
Afficher plus