Séance de cours

Transformateurs dans la vision

Description

Cette séance de cours couvre le concept de Transformateurs dans la vision informatique, en mettant l'accent sur l'architecture 'Attention est tout ce dont vous avez besoin'. Il explique l'encodeur et le décodeur de transformateurs, l'auto-attention multi-têtes, l'encodage positionnel et l'utilisation de transformateurs pour les tâches d'intelligence visuelle. La séance de cours traite également de l'application des transformateurs dans les tâches de vision, comme la reconnaissance de l'image et la prédiction dense. Différents types de transformateurs, y compris les transformateurs de vision (ViT), les transformateurs de prévision de sens (DPT) et le pré-formation BERT des transformateurs d'images (BEIT), sont explorés. En outre, il se décline dans les concepts de codeurs automatiques masqués, de décodage parallèle, et le rôle des transformateurs dans la synthèse d'images haute résolution.

Cette vidéo est disponible exclusivement sur Mediaspace pour un public restreint. Veuillez vous connecter à Mediaspace pour y accéder si vous disposez des autorisations nécessaires.

Regarder sur Mediaspace
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.