Cette séance de cours couvre les réseaux de transformateurs et les couches d'auto-attention, expliquant comment ils cartographient les ensembles d'entrées et le concept d'attention multi-têtes. Il s'inscrit dans le processus d'apprentissage des poids, de l'importance de l'encodage positionnel et de l'interprétabilité des têtes.