Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre des sujets avancés dans Spark, mettant l'accent sur les stratégies de partitionnement, l'optimisation de la mémoire et les opérations de shuffle. Il s'inscrit dans les internes de l'architecture Spark, le coût des opérations de shuffle, et la gestion de la mémoire. L'instructeur explique comment optimiser les tâches de Spark en harmonisant les partitions, en évitant le brouillage et en minimisant l'utilisation de la mémoire. De plus, la séance de cours explore la parallélisation Spark, les DDR, les DataFrames et les internes de PySpark. Des exercices pratiques et des démonstrations sont inclus pour illustrer les concepts discutés.