Séance de cours

Introduction à l'architecture d'exécution Spark

Dans cours

COM-490: Large-scale data science for real-world data

This hands-on course teaches the tools & methods used by data scientists, from researching solutions to scaling up prototypes to Spark clusters. It exposes the students to the entire data science pipe

Description

Cette séance de cours présente Apache Spark, un moteur d'analyse unifié pour le traitement des données à grande échelle, mettant en évidence ses principales caractéristiques comme l'exploration interactive des données, le traitement en mémoire des données et la tolérance aux défauts. Il couvre l'histoire de Spark, son utilisation dans diverses applications, et sa flexibilité de déploiement. La séance de cours explique Résilient Distributed Datasets (RDDs), l'interface primaire des applications Spark, et leur importance dans les algorithmes itératifs tolérants et efficaces. Il s'inscrit également dans l'architecture de Spark, y compris les rôles des nœuds Driver et Worker. De plus, il explore les opérations, les transformations, les actions, la mise en cache et le cloisonnement de la DDR, fournissant des informations sur le cadre de calcul distribué de Spark.

Enseignants (3)

Olivier Verscheure

Sofiane Sarni

Pamela Isabel Delgado Borda

I am a PhD student in the School of Computer and Communication Sciences at EPFL. I am part of the Operating Systems Laboratory and my advisor is Prof. Willy Zwaenepoel. I received my Bachelor's degree in Systems Engineering from Universidad Catolica Boliviana, Bolivia in 2008 and Master's degree in Computer Science, specialization Foundations of Software from EPFL in 2012.

Source officielle

Séances de cours associées (32)

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Défis Big Data : Computing distribué avec Spark

Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.

Afficher plus