Cette séance de cours traite des modèles d'espace d'état et des résultats d'expressivité liés aux transformateurs. Linstructeur commence par expliquer la nécessité dun stockage détat suffisant dans les modèles despace détat pour copier des séquences. La preuve met en évidence que la sortie de ces modèles dépend de l'état, nécessitant des informations préalables pour une copie précise. La séance de cours passe ensuite aux transformateurs, en se concentrant sur un théorème concernant leur expressivité. L'instructeur développe le concept des têtes d'attention, qui sont cruciales pour l'architecture du transformateur. La discussion comprend la façon dont les transformateurs peuvent copier des séquences de manière exponentielle en fonction du nombre de têtes d'attention. L'instructeur introduit un algorithme de copie de n-grammes, expliquant comment il utilise une table de hachage pour mapper les n-grammes à leurs jetons suivants. La séance de cours se termine par une exploration de la relation entre la taille de la table de hachage et la séquence d'entrée, mettant l'accent sur l'efficacité des transformateurs dans l'apprentissage et la mise en œuvre de ce mécanisme de copie. Dans l'ensemble, la séance de cours donne un aperçu des fondements théoriques des transformateurs et de leurs applications pratiques dans les tâches de copie de séquences.