Cette séance de cours couvre la manipulation d'objets par des robots utilisant des instructions en langage naturel. Il commence par un résumé des sujets précédents, y compris le transformateur Swin et les modèles HUBERT. L'instructeur introduit le concept de modèles incorporés, en particulier le PALM-E, qui intègre plusieurs tâches et modes de réalisation de robots. La séance de cours souligne l’importance des observations sensorielles et de l’information sémantique pour guider les actions des robots. L'instructeur explique comment les transformateurs de langage visuel peuvent être ajustés pour améliorer les performances du robot. La discussion comprend des exemples de la façon dont les robots peuvent interpréter les instructions et exécuter des tâches basées sur des entrées visuelles. La séance de cours aborde également le mini-projet, en mettant l'accent sur les objectifs, les méthodologies et les critères d'évaluation. L'instructeur encourage les étudiants à réfléchir de manière critique à leurs projets et aux implications sociétales de leur travail en apprentissage profond. La session se termine par un segment de questions-réponses, permettant aux étudiants de clarifier les doutes concernant leurs mini-projets et le matériel de cours.