Cette séance de cours se concentre sur l'intégration de la perception visuelle et des actions robotiques dans le contexte de l'IA incarnée. Il commence par une vue d’ensemble de l’architecture des réseaux de neurones convolutifs (CNN) utilisés en robotique perceptuelle, mettant en évidence les rôles des différents GPU dans le traitement des données visuelles. L'instructeur discute de la relation entre la perception visuelle et les actions d'un agent, en soulignant comment les facteurs écologiques influencent les choix de conception en robotique. Des concepts clés tels que l'IA incarnée, l'apprentissage multimodal et l'importance des antécédents perceptuels sont introduits. La séance de cours couvre également divers agents robotiques et leurs capacités, y compris les tâches de navigation cibles. L'instructeur illustre comment des mécanismes simples peuvent conduire à des comportements complexes dans les robots, en utilisant des exemples comme le BristleBot. La discussion s'étend à l'importance des représentations visuelles pré-formation pour améliorer l'efficacité de l'apprentissage et la généralisation dans les tâches robotiques. Enfin, la séance de cours décrit les tâches standardisées dans la vision incarnée, y compris la navigation visuelle et le réarrangement, ouvrant la voie à des applications pratiques dans le projet de cours.