Couvre l'impact des transformateurs dans la vision par ordinateur, en discutant de leur architecture, de leurs applications et de leurs progrès dans diverses tâches.
Présente des modèles de langage classiques, leurs applications et des concepts fondamentaux tels que la modélisation et les mesures d'évaluation basées sur le nombre.
Explore les représentations neuro-symboliques pour comprendre les connaissances et le raisonnement communs, en mettant l'accent sur les défis et les limites de l'apprentissage profond dans le traitement du langage naturel.
Se penche sur la formation et les applications des modèles Vision-Language-Action, en mettant l'accent sur le rôle des grands modèles linguistiques dans le contrôle robotique et le transfert des connaissances web. Les résultats des expériences et les orientations futures de la recherche sont mis en évidence.