Séance de cours

Architecture des transformateurs : mécanismes d'attention subquadratiques

Description

Cette séance de cours explore les subtilités de l'architecture des transformateurs, en se concentrant sur le modèle encodeur-décodeur. Il commence par décrire les composantes fondamentales, y compris le vocabulaire des jetons et les relations entrées-sorties. L'instructeur explique le processus d'encodage des séquences d'entrée avec des vecteurs et l'encodage positionnel, en mettant l'accent sur l'évolution de ces séquences sur plusieurs étapes. La séance de cours développe davantage sur les mécanismes dattention, en particulier lattention subquadratique, détaillant comment ces mécanismes améliorent lefficacité du modèle. La discussion comprend les formulations mathématiques impliquées dans le processus de codage, telles que l'utilisation de matrices et la normalisation des vecteurs de sortie. Linstructeur couvre également le processus dinférence, illustrant comment le modèle génère des jetons de sortie basés sur lentrée codée. Tout au long de la séance de cours, l'importance des paramètres du modèle et des méthodologies de formation est soulignée, fournissant une compréhension complète du fonctionnement des transformateurs dans la pratique. Cette connaissance fondamentale est cruciale pour tous ceux qui cherchent à comprendre des concepts avancés dans le traitement du langage naturel et l'apprentissage automatique.

Source officielle

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Architecture des transformateurs : mécanismes d'attention subquadratiques

Graph Chatbot

Chattez avec Graph Search