Cette séance de cours fournit un aperçu approfondi des représentations contextuelles dans le traitement du langage naturel, en se concentrant sur ELMO et BERT. Il commence par une introduction au GPT, expliquant son architecture et sa méthodologie de formation, y compris l'utilisation de l'auto-attention à plusieurs têtes masquées et l'importance de la formation préalable sur les grands corpus. L'instructeur discute du processus de mise au point de ces modèles pour des tâches spécifiques, en soulignant les améliorations réalisées dans divers points de repère. La séance de cours passe ensuite à ELMO, détaillant son architecture LSTM bidirectionnelle et comment elle génère des intégrations contextuelles. L'instructeur explique les avantages d'ELMO par rapport à l'intégration de mots traditionnels et son application dans différentes tâches. Par la suite, BERT est présenté, présentant son architecture de codeur de transformateur et ses techniques de formation, y compris la modélisation du langage masqué et la prédiction de la phrase suivante. La séance de cours se termine par une discussion sur les progrès réalisés par BERT et ses variantes, en soulignant limportance des intégrations contextualisées dans lamélioration de la performance des modèles de PNL à travers diverses tâches.