Apprentissage de la représentation d'images supervisée par soi-même

Cette séance de cours présente Bootstrap Your Own Latent (BYOL), une nouvelle approche pour l'apprentissage de la représentation d'image auto-supervisée. BYOL utilise deux réseaux neuronaux, en ligne et cible, pour prédire les représentations des vues augmentées des images. Il obtient des résultats à la fine pointe de la technologie sans utiliser de paires négatives, atteignant 74,3% de précision top-1 sur ImageNet. La séance de cours s'inscrit dans l'architecture de BYOL, l'importance du réseau cible, et la dynamique de l'apprentissage sans paires contrastantes.