Cette séance de cours explore les subtilités de l'architecture des transformateurs, en se concentrant sur le modèle encodeur-décodeur. Il commence par décrire les composantes fondamentales, y compris le vocabulaire des jetons et les relations entrées-sorties. L'instructeur explique le processus d'encodage des séquences d'entrée avec des vecteurs et l'encodage positionnel, en mettant l'accent sur l'évolution de ces séquences sur plusieurs étapes. La séance de cours développe davantage sur les mécanismes dattention, en particulier lattention subquadratique, détaillant comment ces mécanismes améliorent lefficacité du modèle. La discussion comprend les formulations mathématiques impliquées dans le processus de codage, telles que l'utilisation de matrices et la normalisation des vecteurs de sortie. Linstructeur couvre également le processus dinférence, illustrant comment le modèle génère des jetons de sortie basés sur lentrée codée. Tout au long de la séance de cours, l'importance des paramètres du modèle et des méthodologies de formation est soulignée, fournissant une compréhension complète du fonctionnement des transformateurs dans la pratique. Cette connaissance fondamentale est cruciale pour tous ceux qui cherchent à comprendre des concepts avancés dans le traitement du langage naturel et l'apprentissage automatique.