Couvre l'architecture du transformateur, en se concentrant sur les modèles codeurs-décodeurs et les mécanismes d'attention subquadratiques pour un traitement efficace des séquences d'entrée.
Couvre les architectures de transformateurs avancées en apprentissage profond, en se concentrant sur les modèles Swin, HUBERT et Flamingo pour les applications multimodales.
Explore les mots, les jetons et les modèles de langage en PNL, couvrant les défis liés à leur définition, à l'utilisation du lexique, aux n-grammes et à l'estimation des probabilités.