Séance de cours

Spark avancé: partitionnement et optimisation

Description

Cette séance de cours couvre des sujets avancés dans Spark, mettant l'accent sur les stratégies de partitionnement, l'optimisation de la mémoire et les opérations de shuffle. Il s'inscrit dans les internes de l'architecture Spark, le coût des opérations de shuffle, et la gestion de la mémoire. L'instructeur explique comment optimiser les tâches de Spark en harmonisant les partitions, en évitant le brouillage et en minimisant l'utilisation de la mémoire. De plus, la séance de cours explore la parallélisation Spark, les DDR, les DataFrames et les internes de PySpark. Des exercices pratiques et des démonstrations sont inclus pour illustrer les concepts discutés.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.