Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours se penche sur l'optimisation des opérations de jointure dans les systèmes distribués, en se concentrant sur la gestion de l'asymétrie pour minimiser le temps d'achèvement du travail. L'instructeur explique l'impact des données biaisées sur les réducteurs, les limites des approches standard et introduit l'algorithme 1-Bucket-Theta comme solution. Divers défis tels que le partitionnement de la charge, les modèles de coûts centrés sur le réducteur et les objectifs d'optimisation sont abordés. La séance de cours couvre également l'importance de la randomisation dans la cartographie des enregistrements pour réduire la répartition de la charge et réduire l'asymétrie de sortie.