Séance de cours

Introduction à l'architecture Spark Runtime

Dans cours

COM-490: Large-scale data science for real-world data

This hands-on course teaches the tools & methods used by data scientists, from researching solutions to scaling up prototypes to Spark clusters. It exposes the students to the entire data science pipe

Description

Cette séance de cours présente l'architecture Spark runtime, qui couvre l'histoire de Spark, ses caractéristiques clés, sa flexibilité et ses abstractions de données de base comme Resilient Distributed Datasets (RDDs). Il explique la vue d'ensemble de l'architecture Spark, les rôles du pilote et du travailleur, les opérations RDD, les transformations, les actions, la mise en cache et le cloisonnement. La séance de cours s'inscrit également dans la flexibilité de déploiement de Spark, soutient les langues et les bibliothèques spécialisées. Des aspects pratiques tels que l'initialisation de Spark, la création et la transformation de DDR et la mise en cache pour l'optimisation des performances sont discutés.

Enseignants (3)

Olivier Verscheure

Sofiane Sarni

Pamela Isabel Delgado Borda

I am a PhD student in the School of Computer and Communication Sciences at EPFL. I am part of the Operating Systems Laboratory and my advisor is Prof. Willy Zwaenepoel. I received my Bachelor's degree in Systems Engineering from Universidad Catolica Boliviana, Bolivia in 2008 and Master's degree in Computer Science, specialization Foundations of Software from EPFL in 2012.

Source officielle

Séances de cours associées (32)

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Techniques de gestion des données : HBase et Hive Integration

Couvre les techniques de querelles de données utilisant HBase et Hive, en se concentrant sur l'intégration et les applications pratiques.

Introduction au traitement des flux de données: concepts et applications

Couvre les principes du traitement des flux de données et de ses applications dans l'analyse de données en temps réel.

Introduction à l'architecture Spark Runtime

Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.

Afficher plus