Séance de cours

Modèles d'espace d'état : l'expressivité des transformateurs

Description

Cette séance de cours traite des modèles d'espace d'état et des résultats d'expressivité liés aux transformateurs. Linstructeur commence par expliquer la nécessité dun stockage détat suffisant dans les modèles despace détat pour copier des séquences. La preuve met en évidence que la sortie de ces modèles dépend de l'état, nécessitant des informations préalables pour une copie précise. La séance de cours passe ensuite aux transformateurs, en se concentrant sur un théorème concernant leur expressivité. L'instructeur développe le concept des têtes d'attention, qui sont cruciales pour l'architecture du transformateur. La discussion comprend la façon dont les transformateurs peuvent copier des séquences de manière exponentielle en fonction du nombre de têtes d'attention. L'instructeur introduit un algorithme de copie de n-grammes, expliquant comment il utilise une table de hachage pour mapper les n-grammes à leurs jetons suivants. La séance de cours se termine par une exploration de la relation entre la taille de la table de hachage et la séquence d'entrée, mettant l'accent sur l'efficacité des transformateurs dans l'apprentissage et la mise en œuvre de ce mécanisme de copie. Dans l'ensemble, la séance de cours donne un aperçu des fondements théoriques des transformateurs et de leurs applications pratiques dans les tâches de copie de séquences.

Source officielle

https://mediaspace.epfl.ch/media/0_vq5a25m2

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Modèles d'espace d'état : l'expressivité des transformateurs

Graph Chatbot

Chattez avec Graph Search